18.2 Пример из области социологии
В своём исследовании "Культурный прорыв. Изменение ценностей в западном мире" (см. дополнительную литературу) Рональд Инглехарт (Ronald Inglehart) приводит тезис, что в более зрелых возрастных группах значимо большее количество человек высказались в пользу материальных ценностей (см. гл. 8.4.2). Среди младших поколений, согласно Инглехарту, растёт доля постматериалистов. Склонность опрошенных к постматериалистическим ценностям зависит от их образования и профессиональной квалификации. Чем выше образование и профессиональная квалификация, тем выше склонность к постматериалистическим ценностям. Значение имеет также и социально-экономический статус отца; согласно мнению Инглехарта, чем он выше, тем значительней доля постматериалистов. При помощи дискриминантного анализа мы проверим эту теорему смены ценностей, сформулированную американским политологом.
-
Откройте в редакторе данных файл postmat.sav.
Переменные, которые вы сможете найти в этом файле, приводятся в нижеследующей таблице.
Имя переменной
|
Значение
|
ingMnd
|
Индекс Инглехарта
|
|
Ценности:
|
|
1 Постматериалисты
|
|
2 Постматериалисты смешанного типа
|
|
3 Материалисты смешанного типа
|
|
4 Материалисты
|
|
5 Не могу дать ответ
|
|
6 Нет данных
|
statpaps
|
Социально-экономический статус отца (индекс)
|
|
Значения:
|
|
1 Низкий
|
|
5 Высокий
|
|
8 Формируется в данный момент (отсутствующее значение)
|
|
9 Безработный, в заключении, умер, пенсионер и т.д. (отсутствующее
|
|
значение)
|
schule
|
Уровень образования опрашиваемых
|
|
Значения:
|
|
1 Без образования
|
|
2 Начальная школа
|
|
3 Незаконченное среднее
|
|
4 Среднее
|
alter
|
Возраст опрашиваемых
|
|
Значения:
|
|
1 18 до 29 лет
|
|
2 30 до 44 лет
|
|
3 45 до 59 лет
|
|
4 60 до 74 лет
|
|
5 75 до 88 лет
|
|
6 89 и старше
|
|
9 Не указан (отсутствующее значение)
|
ausbild
|
Профессиональное образование опрашиваемых Значения: 0 Образование отсутствует (отсутствующее значение) 1 Краткосрочное образование 2 Ученик 3 Мастер/техник 4 Высшее образование
|
Прежде чем преступить к дискриминантному анализу, преобразуем сначала переменную ingl_ind к дихотомическому типу. Значения признаков: 1 ("Постматериалисты") и 2 ("Постматериалисты смешанного типа") должны бить включены в новое значение признака 1 ("Постматериалистические типы") переменной ingMnd, а значения признаков: 3 ("Материалисты смешанного типа") и 4 ("Материалисты") в новое значение признака 2-"Материалистические типы".
-
Для этого в редакторе синтаксиса введите следующие команды:
RECODE ingl_ind (1,2 = 1) (3,4 = 2)
INTO ingl_dic. VARIABLE LABELS
ingl_dic = "Inglehart-Index, dichotom".
VALUE LABELS
ingl_dic 1 "Postmat. Typen"
2 "Materialist.Typen".
EXECUTE.
-
Вы можете также загрузить в редактор синтаксиса и файл ingledic.sps, в котором находятся эти команды.
-
Пометьте команды и запустите программу щелчком на кнопке Run Current (Выполнить текущие команды).
В редакторе данных появится новая переменная ingl_dic. Теперь проведите дискриминантный анализ.
-
Выберите в меню опции Analyze (Анализ)
Classify (Классифицировать) Discriminant... (Дискриминантный анализ)
-
Переменную ingl_dic поместите в поле групповых переменных.
-
Щёлкните на выключателе Define Range... (Определить область) и в качестве минимального значения введите 1, а в качестве максимального значения 2.
-
Переменные statpaps, schule, alter и ausbild поместите в список Independents (Независимые переменные). Оставьте метод ввода переменных Enter independents together (Независимые переменные вводить одновременно), установленный по умолчанию.
Диалоговое окно Discriminant Analysis (Дискриминантный анализ) должно теперь выглядеть так, как показано на рисунке 18.4.
Рис. 18.4: Диалоговое окно Discriminant Analysis (Дискриминантный анализ).
-
Щёлкните по выключателю Statistics... (Статистики)
Откроется диалоговое окно Discriminant Analysis: Statistics (Дискриминантный анализ: Статистики) (см. рис. 18.5).
Рис. 18.5: Диалоговое окно Discriminant Analysis: Statistics (Дискриминантный анализ: Статистики)
-
Активируйте опции: Means (Средние значения), Univariate ANOVAs (Одномерные тесты AN OVA), Unstandardized Func-tion Coefficients (He стандартизированные коэффициенты функции) и Within-groops Correlation Matrice (Корреляционная матрица внутри группы).
-
Подтвердите нажатием Continue (Далее).
-
Щёлкните на выключателе Classify... (Классифицировать). Откроется диалоговое окно Discriminant Analysis: Classification (Дискриминантный анализ: Классификация) (см. рис. 18.6).
Рис. 18.6: Диалоговое окно Discriminant Analysis: Classification (Дискриминантный анализ: Классификация)
-
Сделайте здесь запрос на Summary table (Сводную таблицу).
-
Щёлкните на выключателе Save... (Сохранить). Откроется диалоговое окно Discriminant Analysis: Save (Дискриминантный анализ: Сохранить) (см. рис. 18.7).
Рис. 18.7: Диалоговое окно Discriminant Analysis: Save (Дискриминантный анализ: Сохранить)
Видно, что в 10 версии появилась возможность сохранения информации о модели в так называемом, XML-файле (см. примечания к рис. 16.3).
-
Активируйте вывод Predicted group membership (Прогнозируемой принадлежности к группе), Discriminant scores (Значений дисриминантной функции) и Probabilities of group membership (Вероятностей принадлежности к группе).
-
Подтвердите нажатием Continue (Далее) и затем ОК.
В окне просмотра появится сначала обзор действительных и пропущенных значений:
Analysis Case Processing Summary (Анализ обработанных наблюдений)
Unweighted Cases (He взвешенные случаи)
|
|
N
|
Percent (Процент)
|
Valid (Действительные)
|
|
2200
|
71,9
|
Excluded (Исключенные)
|
Missing or out-of-range group codes (Отсутствующие или находящиеся за пределами допустимой области кодировки принадлежности к группе)
|
19
|
,6
|
At least one missing discriminating variable (По меньшей мере одна отсутствующая дискриминационная переменная)
|
816
|
26,7
|
Both missing or out-of-range group codes and at least one missing discriminating variable (Обе кодировки принадлежности к группе отсутствуют или находятся за пределами допустимой области, или по меньшей мере одна отсутствующая дискриминационная переменная)
|
23
|
,8
|
Total (Общее количество исключённых)
|
858
|
28,1
|
Total (Общее количество случаев)
|
|
3058
|
100,0
|
В общей сложности 858 наблюдений из 3058, находящихся в файле postmat.sav, были исключены из анализа из-за отсутствия значения переменной ingl_dic или отсутствия значений одной из дискриминационных переменных. Таким образом анализ проводился для 2200 наблюдений. Далее приводятся средние значения, стандартные отклонения и количество наблюдений для всех переменных из обеих групп и для каждой группы в отдельности.
По средним значениям уже заметно, что для постматериалистических типов характерны: более высокий социально-экономический статус отца (2,8148 по сравнению с 2,3904), более высокое образование (2,9853 по сравнению с 2,5248) и принадлежность к младшей возрастной группе (2,1842 по сравнению с 2,8151).
Group Statistics
(Статистики для групп) |
INGL_DIC (Индекс Ингпехарта, дихото-мический) |
|
Mean (сред-нее значе-ние) |
Std. Deviation (Станда-ртное отклоне-ние) |
Valid N (listwise) (Действительные значения (по списку)) |
Unwei-ghted (Не взвеше-нные) |
Weigh-ted (Взвеше-нные) |
1,00 (Пост-материа-листический тип) |
SES-lndex des Vaters (социально-экономи-ческий статус отца) |
2,8148 |
1,1718 |
1091 |
1091,000 |
Schulabschluss (Образование) |
2,9853 |
,8194 |
1091 |
1091,000 |
ALTER, BEFRAGTE<R>, KATEGORISIERT (Возраст, опрошен-ного(ой), разбит
на категории) |
2,1842 |
1,0887 |
1091 |
1091,000 |
Berufsaus-bildung (Профес-сиональное образо-вание) |
2,1888 |
1,1562 |
1091 |
1091,000 |
2,00 (Материа-листический тип) |
SES-lndex des Vaters (социально-экономи-ческий статус отца) |
2,3904 |
1,0407 |
1109 |
1109,000 |
Scnulabschluss (Образование) |
2,5248 |
,7627 |
1109 |
1109,000 |
ALTER, BEFRAGTE<R>, KATEGORISIERT (Возраст ,опрошен-ного(ой), разбит
на категории) |
2,8151 |
1,2111 |
1109 |
1109,000 |
Berufsa-usbildung (Профес-сиональное образование) |
1,8792 |
1,0249 |
1109 |
1109,000 |
Total (Сумма) |
SES-lndex des Vaters (социально-экономи-ческий статус отца) |
2,6009 |
1,1275 |
2200 |
2200,000 |
Schulabschluss (Образование) |
2,7532 |
,8240 |
2200 |
2200,000 |
ALTER, BEFRAGTE<R>, KATEGORI-SIERT (Возраст, опрошен-ного(ой), разбит
на категории) |
2,5023 |
1,1942 |
2200 |
2200,000 |
Berufsa-usbildung (Профес-сиональное образование) |
2,0327 |
1,1027 |
2200 |
2200,000 |
Затем проводится тест на значимость различия между переменными, относящимися к обеим группам, то есть выясняется присутствуют ли в них разделяющие (дискриминирующие) особенности, позволяющие судить об отношении к одной из двух групп (постматериалисты — материалисты).
Tests of Equality of Group Means (Тест равенства групповых средних значений)
|
Wilks1 Lambda (Лямбда Уилкса)
|
F
|
df1
|
df2
|
Sig. (Значимость)
|
SES-lndex des Vaters (социально-экономический статус отца)
|
,965
|
80,746
|
1
|
2198
|
,000
|
Schulabschluss (Образование)
|
,922
|
186,281
|
1
|
2198
|
,000
|
ALTER, BEFRAGTE<R>, KATEGORISIERT (Возраст, опрошенного(ых), разбит на категории)
|
,930
|
164,951
|
1
|
2198
|
,000
|
Berufsausbildung (Профессиональное образование)
|
,980
|
44,222
|
1
|
2198
|
,000
|
Как следует из колонки значимости, по всем переменным наблюдается значительное различие между группами (р < 0,001).
Далее приводится корреляционная матрица между всеми переменными, причём коэффициенты были рассчитаны для обеих групп:
Pooled Within-Groups Matrices (Объединённые матрицы внутри групп)
|
SES-lndex des Vaters (социально- экономи-ческий статус отца) |
Schulab-schluss (Образо-вание) |
ALTER, BEFRAG -TE<R>, KATEGO-RISIERT (Возраст, опрошен-ного(ой),
разбит на категории) |
Berufsau-sbildung (Профес- сиона-льное образо-вание) |
Corre-lation (Корре-ляция) |
SES-lndex des Vaters (социально-экономи-ческий статус отца) |
1,000 |
,327 |
-,033 |
,137 |
Schula-bschluss (Образо-вание) |
,327 |
1,000 |
-,275 |
,377 |
ALTER, BEFRA-GTE<R>, KATEGO-RISIERT (Возраст, опрошен-ного(ых),
разбит на категории) |
-,033 |
-,275 |
1,000 |
,018 |
Berufsa-usbildung (Профес-сиональное образо-вание) |
,137 |
,377 |
,018 |
1,000 |
Прежде всего, здесь очень заметна корреляция между переменными schule и statpas и между переменными ausbild и schule. Чем выше социально-экономический статус отца, тем выше школьное образование опрашиваемого; чем выше его школьное образование, тем выше и профессиональное образование.
Далее следует анализ коэффициентов дискриминантной функции. Корреляционный коэффициент между рассчитанными значениями дискриминантной функции и реальной принадлежностью к группе, равный 0,353, является неудовлетворительным:
Eigenvalues (Собственные значения)
Function (Функция)
|
Eigenvalue (Собствен-ное значение)
|
% of Variance (% диспе-рсии)
|
Cumulative % (Сово-купный %)
|
Canonical Correlation (Канони-ческая корре-ляция)
|
1
|
,142а
|
100,0
|
100,0
|
,353
|
a. First 1 canonical discriminant functions were used in the analysis (Первые 1 канонические дискриминантные функции будут применяться в анализе).
Wilks' Lambda (Лямбда Уилкса)
Test of Function(s) Wilks' Lambda (Тест функции (и)) (Лямбда Уилкса)
|
Chi-square (Хи-квадрат)
|
df
|
Sig. (Значимость)
|
1 ,875
|
292,431
|
4
|
,000
|
Тест, проведенный с помощью критерия "Лямбда Уилкса" (k), на предмет, значимо ли различаются между собой средние значения дискриминантной функции в обеих группах, показал очень значимый результат (значение р < 0,001).
Затем приводятся стандартизированные коэффициенты дискриминантной функции и их корреляция с используемыми переменными:
Standardized Canonical Discriminant Function Coefficients
(Стандартизиро-ванные канонические коэффициенты дискриминантной функции)
|
|
Function (Функция)
|
1
|
SES-lndex des Vaters (социально-экономический статус отца)
|
,321
|
Schulabschluss (Образование)
|
,434
|
ALTER, BEFRAGTE<R>, KATEGORISIERT (Возраст, опрошенного(ой), разбит на категории)
|
-,599
|
Berufsausbildung (Профессиональное образование)
|
,179
|
Structure Matrix
(Структурная матрица)
|
|
Function (Функция)
|
1
|
Schulabschluss (Образование)
|
,771
|
ALTER, BEFRAGTE<R>, KATEGORISIERT (Возраст, опрошенного(ой), разбит на категории)
|
-,726
|
SES-lndex des Vaters (социально-экономический статус отца)
|
,508
|
Berufsausbildung (Профессиональное образование)
|
,376
|
Pooled within-groups correlations between discriminating variables and standardized canonical discriminant functions (Объединённые корреляции внутри групп между дискриминантными переменными и стандартизированными каноническими дискриминант-ными функциями)
Variables ordered by absolute size of correlation within function (Переменные расположены соответственно величине их абсолютных корреляционных показателей).
После этого приводятся нестандартизированные коэффициенты дискриминантной функции и средние значения дискриминантной функции в обеих группах:
Canonical Discriminant Function Coefficients
(Канонические коэффициенты дискриминантной функции)
|
|
Function (Функция)
|
1
|
SES-lndex des Vaters (социально-экономический статус отца)
|
,290
|
Schulabschluss (Образование)
|
,549
|
ALTER, BEFRAGTE<R>, KATEGORISIERT (Возраст, опрошенного(ой), разбит на категории)
|
-,520
|
Berufsausbildung (Профессиональное образование)
|
,164
|
(Constant) (Постоянно)
|
-1,297
|
Unstandardized coefficients (нестандартизированные коеффициенты)
Functions at Group Centroids (Функции для групповых центроидов)
INGL DIC
|
Function (Функция)
|
1
|
1 ,00 (Постматериалистический тип)
|
,380
|
2,00 (Материалистический тип)
|
-.374
|
Unstandardized canonical discriminant functions evaluated at group means (Нестандартизированные канонические дискриминантные функции, оценка которых происходит относительно средних значений групп).
В данном случае мы отказались от вывода очень длинной таблицы, в которой для каждого наблюдения построчно, приводится информация о значении дискриминантной функции и принадлежности к одной из двух групп.
В заключении приводится классификационная таблица с указанием точности попадания прогнозов:
Classification Resultsа
(Классификационные результаты) |
|
INGL_DIC (Индекс Инглехарта, дихото-мический) |
Predicted Group Membership (Прогнозируемая принадлежность к группе) |
Total (Сум-ма) |
1,00 (Постматери-алисти-ческий тип) |
2,00 (Материа-листи-ческий тип) |
Original (Перво-начально) |
Count (Коли-чество) |
1 ,00 (Пост-материа-листи-ческий тип) |
710 |
381 |
1091 |
2,00 (Материа-листический тип) |
410 |
699 |
1109 |
Ungrouped cases (He сгруп-пирован-ные наблю-дения) |
7 |
12 |
19 |
% |
1 ,00 (Постматериа-листический тип) |
65,1 |
34,9 |
100,0 |
2,00 (Материа-листи-ческий тип) |
37,0 |
63,0 |
100,0 |
Ungrouped cases (He сгруп-пирован-ные наблю-дения) |
36,8 |
63,2 |
100,0 |
а. 64,0% of original grouped cases correctly classified (64 % наблюдений, первоначально разнесённых по группам, были классифицированы корректно).
Правая колонка таблицы ("Total" (Сумма)) указывает на общее количество наблюдений, которые фактически относятся к соответствующим группам. К группе постматериалистических типов относится 1091 наблюдение, а к группе материалистических типов 1109. Обе колонки, объединенные общим наименованием ("Predicted Group Membership" (Прогнозируемая принадлежность к группе)), указывают на фактическое количество наблюдений, относящихся к каждой из групп. Первая колонка указывает на количество наблюдений, которые были отнесены к первой группе. Из 1091 постматериалистическйх наблюдений корректно определены были 710, это соответствует 65,1 % всех наблюдений. 381 наблюдение было по ошибке отнесено ко 2 группе, что соответствует 34,9 % всех наблюдений. Из 1109 материалистических наблюдений по ошибке к группе 1 были отнесены 410, что соответствует 37,0 %. 699 наблюдений были корректно отнесены к группе 2, что составило 63 %. Строка "Ungrouped cases" (Несгруппированные наблюдения) содержит наблюдения, которые не соответствуют ни одной из групп. Хотя эти наблюдения и не учитываются при расчёте дискриминантной функции, значение функции для них всё равно вычисляется. Из 19 наблюдений, для которых отсутствуют данные о принадлежности к какой-либо группе, 7 были отнесены к постматериалистическим типам, а 12 к материалистическим. В строке под таблицей приводится итоговый результат. 64 % наблюдений были классифицированы корректно. Так как даже при чисто случайном отнесении некоторого наблюдения к одной из двух имеющихся групп, корректность классификации данного наблюдения составила бы 50 %, то 64 %-ную точность прогноза следует рассматривать как довольно умеренный результат. Такой неудовлетворительный результат можно попытаться объяснить тем, что в обе группы входили смешанные типы, которые тяжелее классифицировать, нежели чистые типы. Проверим это предположение путём повторного проведения расчёта, но уже с учётом только чистых типов.
-
Выберите в меню Data (Данные)
Select Cases... (Выбрать наблюдения)
-
Щёлкните на опции If condition is satisfied (Если выполняется условие) и затем на выключателе If... (Если).
-
В редакторе условий введите следующее условие:
ing1_ind = 1 OR ing1_ind = 4
-
Подтвердите нажатием Continue (Далее) и затем ОК.
-
В диалоговом окне Discriminant Analysis (Дискриминантный анализ) переменную ingl_ind (не ingl_dic!) поместите в поле для групповых переменных. В качестве границ области изменения задать значения 1 и 4.
-
В список независимых переменных поместите переменные statpaps, schule, alter и
ausbild.
-
Дополнительные установки под выключателями Statistics... (Статистики), Classify... (Классифицировать) и Save... (Сохранить) произведите так, как было описано ранее.
Вы получите следующую классификационную таблицу:
Classification Results
(Результаты классификации)
|
|
INGLEHART-INDEX (Индекс Инглехарта, дихото-мический)
|
Predicted Group Membership (Прогнозируемая принадлежность к группе
|
Total (Сумма)
|
POSTMATE-RIALISTEN (Постмате-риалисты)
|
MATERI-ALISTEN (Матери-алисты)
|
Original (Перво-начально)
|
Count (Коли-чество)
|
POSTMATE-RIALISTEN (Постмате-риалисты)
|
409
|
109
|
518
|
MATERI-ALISTEN (Матери-алисты)
|
133
|
297
|
430
|
%
|
POSTMATE-RIALISTEN (Постмате-риалисты)
|
79,0
|
21,0
|
100,0
|
MATERI-ALISTEN (Матери-алисты)
|
30,9
|
69,1
|
100,0
|
а. 74,5% of original grouped cases correctly classified (74,5 % наблюдений, первоначально разнесённых по группам, были классифицированы корректно).
К группе постматериалистов относится 518 наблюдений. 409 наблюдений (79 %) были спрогнозированы корректно, а 109 (21,0 %) по ошибке отнесены к группе 4 ("чистые материалисты"). В группе чистых материалистов насчитывается 403 наблюдения. 297 наблюдений (69,1 %) были определены корректно, а 133 (30,9 %) по ошибке были отнесены к группе 1 ("чистые постматериалисты"). Конечным результатом является корректная идентификация наблюдений, равная 74,5 %. Этот показатель значительно выше предыдущего и может быть расценен как приемлемый.