18.2 Пример из области социологии

В своём исследовании "Культурный прорыв. Изменение ценностей в западном мире" (см. дополнительную литературу) Рональд Инглехарт (Ronald Inglehart) приводит тезис, что в более зрелых возрастных группах значимо большее количество человек высказались в пользу материальных ценностей (см. гл. 8.4.2). Среди младших поколений, согласно Инглехарту, растёт доля постматериалистов. Склонность опрошенных к постматериалистическим ценностям зависит от их образования и профессиональной квалификации. Чем выше образование и профессиональная квалификация, тем выше склонность к постматериалистическим ценностям. Значение имеет также и социально-экономический статус отца; согласно мнению Инглехарта, чем он выше, тем значительней доля постматериалистов. При помощи дискриминантного анализа мы проверим эту теорему смены ценностей, сформулированную американским политологом.

Откройте в редакторе данных файл postmat.sav.

Переменные, которые вы сможете найти в этом файле, приводятся в нижеследующей таблице.

Имя переменной	Значение
ingMnd	Индекс Инглехарта
	Ценности:
	1 Постматериалисты
	2 Постматериалисты смешанного типа
	3 Материалисты смешанного типа
	4 Материалисты
	5 Не могу дать ответ
	6 Нет данных
statpaps	Социально-экономический статус отца (индекс)
	Значения:
	1 Низкий
	5 Высокий
	8 Формируется в данный момент (отсутствующее значение)
	9 Безработный, в заключении, умер, пенсионер и т.д. (отсутствующее
	значение)
schule	Уровень образования опрашиваемых
	Значения:
	1 Без образования
	2 Начальная школа
	3 Незаконченное среднее
	4 Среднее
alter	Возраст опрашиваемых
	Значения:
	1 18 до 29 лет
	2 30 до 44 лет
	3 45 до 59 лет
	4 60 до 74 лет
	5 75 до 88 лет
	6 89 и старше
	9 Не указан (отсутствующее значение)
ausbild	Профессиональное образование опрашиваемых Значения: 0 Образование отсутствует (отсутствующее значение) 1 Краткосрочное образование 2 Ученик 3 Мастер/техник 4 Высшее образование

Прежде чем преступить к дискриминантному анализу, преобразуем сначала переменную ingl_ind к дихотомическому типу. Значения признаков: 1 ("Постматериалисты") и 2 ("Постматериалисты смешанного типа") должны бить включены в новое значение признака 1 ("Постматериалистические типы") переменной ingMnd, а значения признаков: 3 ("Материалисты смешанного типа") и 4 ("Материалисты") в новое значение признака 2-"Материалистические типы".

Для этого в редакторе синтаксиса введите следующие команды:

 RECODE ingl_ind (1,2 = 1) (3,4 = 2)

 INTO ingl_dic. VARIABLE LABELS

  ingl_dic = "Inglehart-Index, dichotom".

  VALUE LABELS

 ingl_dic 1 "Postmat. Typen"

 2 "Materialist.Typen".

 EXECUTE.

Вы можете также загрузить в редактор синтаксиса и файл ingledic.sps, в котором находятся эти команды.
Пометьте команды и запустите программу щелчком на кнопке Run Current (Выполнить текущие команды).

В редакторе данных появится новая переменная ingl_dic. Теперь проведите дискриминантный анализ.

Выберите в меню опции Analyze (Анализ) Classify (Классифицировать) Discriminant... (Дискриминантный анализ)
Переменную ingl_dic поместите в поле групповых переменных.
Щёлкните на выключателе Define Range... (Определить область) и в качестве минимального значения введите 1, а в качестве максимального значения 2.
Переменные statpaps, schule, alter и ausbild поместите в список Independents (Независимые переменные). Оставьте метод ввода переменных Enter independents together (Независимые переменные вводить одновременно), установленный по умолчанию.

Диалоговое окно Discriminant Analysis (Дискриминантный анализ) должно теперь выглядеть так, как показано на рисунке 18.4.

18.2 Пример из области социологии

Рис. 18.4: Диалоговое окно Discriminant Analysis (Дискриминантный анализ).

Щёлкните по выключателю Statistics... (Статистики)

Откроется диалоговое окно Discriminant Analysis: Statistics (Дискриминантный анализ: Статистики) (см. рис. 18.5).

18.2 Пример из области социологии

Рис. 18.5: Диалоговое окно Discriminant Analysis: Statistics (Дискриминантный анализ: Статистики)

Активируйте опции: Means (Средние значения), Univariate ANOVAs (Одномерные тесты AN OVA), Unstandardized Func-tion Coefficients (He стандартизированные коэффициенты функции) и Within-groops Correlation Matrice (Корреляционная матрица внутри группы).
Подтвердите нажатием Continue (Далее).
Щёлкните на выключателе Classify... (Классифицировать). Откроется диалоговое окно Discriminant Analysis: Classification (Дискриминантный анализ: Классификация) (см. рис. 18.6).

18.2 Пример из области социологии

Рис. 18.6: Диалоговое окно Discriminant Analysis: Classification (Дискриминантный анализ: Классификация)

Сделайте здесь запрос на Summary table (Сводную таблицу).
Щёлкните на выключателе Save... (Сохранить). Откроется диалоговое окно Discriminant Analysis: Save (Дискриминантный анализ: Сохранить) (см. рис. 18.7).

18.2 Пример из области социологии

Рис. 18.7: Диалоговое окно Discriminant Analysis: Save (Дискриминантный анализ: Сохранить)

Видно, что в 10 версии появилась возможность сохранения информации о модели в так называемом, XML-файле (см. примечания к рис. 16.3).

Активируйте вывод Predicted group membership (Прогнозируемой принадлежности к группе), Discriminant scores (Значений дисриминантной функции) и Probabilities of group membership (Вероятностей принадлежности к группе).
Подтвердите нажатием Continue (Далее) и затем ОК.

В окне просмотра появится сначала обзор действительных и пропущенных значений:

Analysis Case Processing Summary (Анализ обработанных наблюдений)

Unweighted Cases (He взвешенные случаи)		N	Percent (Процент)
Valid (Действительные)		2200	71,9
Excluded (Исключенные)	Missing or out-of-range group codes (Отсутствующие или находящиеся за пределами допустимой области кодировки принадлежности к группе)	19	,6
At least one missing discriminating variable (По меньшей мере одна отсутствующая дискриминационная переменная)	816	26,7
Both missing or out-of-range group codes and at least one missing discriminating variable (Обе кодировки принадлежности к группе отсутствуют или находятся за пределами допустимой области, или по меньшей мере одна отсутствующая дискриминационная переменная)	23	,8
Total (Общее количество исключённых)	858	28,1
Total (Общее количество случаев)		3058	100,0

В общей сложности 858 наблюдений из 3058, находящихся в файле postmat.sav, были исключены из анализа из-за отсутствия значения переменной ingl_dic или отсутствия значений одной из дискриминационных переменных. Таким образом анализ проводился для 2200 наблюдений. Далее приводятся средние значения, стандартные отклонения и количество наблюдений для всех переменных из обеих групп и для каждой группы в отдельности.

По средним значениям уже заметно, что для постматериалистических типов характерны: более высокий социально-экономический статус отца (2,8148 по сравнению с 2,3904), более высокое образование (2,9853 по сравнению с 2,5248) и принадлежность к младшей возрастной группе (2,1842 по сравнению с 2,8151).

Group Statistics

(Статистики для групп)
INGL_DIC (Индекс Ингпехарта, дихото-мический)		Mean (сред-нее значе-ние)	Std. Deviation (Станда-ртное отклоне-ние)	Valid N (listwise) (Действительные значения (по списку))
Unwei-ghted (Не взвеше-нные)	Weigh-ted (Взвеше-нные)
1,00 (Пост-материа-листический тип)	SES-lndex des Vaters (социально-экономи-ческий статус отца)	2,8148	1,1718	1091	1091,000
Schulabschluss (Образование)	2,9853	,8194	1091	1091,000
ALTER, BEFRAGTE<R>, KATEGORISIERT (Возраст, опрошен-ного(ой), разбит на категории)	2,1842	1,0887	1091	1091,000
Berufsaus-bildung (Профес-сиональное образо-вание)	2,1888	1,1562	1091	1091,000
2,00 (Материа-листический тип)	SES-lndex des Vaters (социально-экономи-ческий статус отца)	2,3904	1,0407	1109	1109,000
Scnulabschluss (Образование)	2,5248	,7627	1109	1109,000
ALTER, BEFRAGTE<R>, KATEGORISIERT (Возраст ,опрошен-ного(ой), разбит на категории)	2,8151	1,2111	1109	1109,000
Berufsa-usbildung (Профес-сиональное образование)	1,8792	1,0249	1109	1109,000
Total (Сумма)	SES-lndex des Vaters (социально-экономи-ческий статус отца)	2,6009	1,1275	2200	2200,000
Schulabschluss (Образование)	2,7532	,8240	2200	2200,000
ALTER, BEFRAGTE<R>, KATEGORI-SIERT (Возраст, опрошен-ного(ой), разбит на категории)	2,5023	1,1942	2200	2200,000
Berufsa-usbildung (Профес-сиональное образование)	2,0327	1,1027	2200	2200,000

Затем проводится тест на значимость различия между переменными, относящимися к обеим группам, то есть выясняется присутствуют ли в них разделяющие (дискриминирующие) особенности, позволяющие судить об отношении к одной из двух групп (постматериалисты — материалисты).

Tests of Equality of Group Means (Тест равенства групповых средних значений)

	Wilks1 Lambda (Лямбда Уилкса)	F	df1	df2	Sig. (Значимость)
SES-lndex des Vaters (социально-экономический статус отца)	,965	80,746	1	2198	,000
Schulabschluss (Образование)	,922	186,281	1	2198	,000
ALTER, BEFRAGTE<R>, KATEGORISIERT (Возраст, опрошенного(ых), разбит на категории)	,930	164,951	1	2198	,000
Berufsausbildung (Профессиональное образование)	,980	44,222	1	2198	,000

Как следует из колонки значимости, по всем переменным наблюдается значительное различие между группами (р < 0,001).

Далее приводится корреляционная матрица между всеми переменными, причём коэффициенты были рассчитаны для обеих групп:

Pooled Within-Groups Matrices (Объединённые матрицы внутри групп)

	SES-lndex des Vaters (социально- экономи-ческий статус отца)	Schulab-schluss (Образо-вание)	ALTER, BEFRAG -TE<R>, KATEGO-RISIERT (Возраст, опрошен-ного(ой), разбит на категории)	Berufsau-sbildung (Профес- сиона-льное образо-вание)
Corre-lation (Корре-ляция)	SES-lndex des Vaters (социально-экономи-ческий статус отца)	1,000	,327	-,033	,137
Schula-bschluss (Образо-вание)	,327	1,000	-,275	,377
ALTER, BEFRA-GTE<R>, KATEGO-RISIERT (Возраст, опрошен-ного(ых), разбит на категории)	-,033	-,275	1,000	,018
Berufsa-usbildung (Профес-сиональное образо-вание)	,137	,377	,018	1,000

Прежде всего, здесь очень заметна корреляция между переменными schule и statpas и между переменными ausbild и schule. Чем выше социально-экономический статус отца, тем выше школьное образование опрашиваемого; чем выше его школьное образование, тем выше и профессиональное образование.

Далее следует анализ коэффициентов дискриминантной функции. Корреляционный коэффициент между рассчитанными значениями дискриминантной функции и реальной принадлежностью к группе, равный 0,353, является неудовлетворительным:

Eigenvalues (Собственные значения)

Function (Функция)	Eigenvalue (Собствен-ное значение)	% of Variance (% диспе-рсии)	Cumulative % (Сово-купный %)	Canonical Correlation (Канони-ческая корре-ляция)
1	,142а	100,0	100,0	,353

a. First 1 canonical discriminant functions were used in the analysis (Первые 1 канонические дискриминантные функции будут применяться в анализе).

Wilks' Lambda (Лямбда Уилкса)

Test of Function(s) Wilks' Lambda (Тест функции (и)) (Лямбда Уилкса)	Chi-square (Хи-квадрат)	df	Sig. (Значимость)
1 ,875	292,431	4	,000

Тест, проведенный с помощью критерия "Лямбда Уилкса" (k), на предмет, значимо ли различаются между собой средние значения дискриминантной функции в обеих группах, показал очень значимый результат (значение р < 0,001).

Затем приводятся стандартизированные коэффициенты дискриминантной функции и их корреляция с используемыми переменными:

Standardized Canonical Discriminant Function Coefficients

(Стандартизиро-ванные канонические коэффициенты дискриминантной функции)
	Function (Функция)
1
SES-lndex des Vaters (социально-экономический статус отца)	,321
Schulabschluss (Образование)	,434
ALTER, BEFRAGTE<R>, KATEGORISIERT (Возраст, опрошенного(ой), разбит на категории)	-,599
Berufsausbildung (Профессиональное образование)	,179

Structure Matrix

(Структурная матрица)
	Function (Функция)
1
Schulabschluss (Образование)	,771
ALTER, BEFRAGTE<R>, KATEGORISIERT (Возраст, опрошенного(ой), разбит на категории)	-,726
SES-lndex des Vaters (социально-экономический статус отца)	,508
Berufsausbildung (Профессиональное образование)	,376

Pooled within-groups correlations between discriminating variables and standardized canonical discriminant functions (Объединённые корреляции внутри групп между дискриминантными переменными и стандартизированными каноническими дискриминант-ными функциями)

Variables ordered by absolute size of correlation within function (Переменные расположены соответственно величине их абсолютных корреляционных показателей).

После этого приводятся нестандартизированные коэффициенты дискриминантной функции и средние значения дискриминантной функции в обеих группах:

Canonical Discriminant Function Coefficients

(Канонические коэффициенты дискриминантной функции)
	Function (Функция)
1
SES-lndex des Vaters (социально-экономический статус отца)	,290
Schulabschluss (Образование)	,549
ALTER, BEFRAGTE<R>, KATEGORISIERT (Возраст, опрошенного(ой), разбит на категории)	-,520
Berufsausbildung (Профессиональное образование)	,164
(Constant) (Постоянно)	-1,297

Unstandardized coefficients (нестандартизированные коеффициенты)

Functions at Group Centroids (Функции для групповых центроидов)

INGL DIC	Function (Функция)
1
1 ,00 (Постматериалистический тип)	,380
2,00 (Материалистический тип)	-.374

Unstandardized canonical discriminant functions evaluated at group means (Нестандартизированные канонические дискриминантные функции, оценка которых происходит относительно средних значений групп).

В данном случае мы отказались от вывода очень длинной таблицы, в которой для каждого наблюдения построчно, приводится информация о значении дискриминантной функции и принадлежности к одной из двух групп.

В заключении приводится классификационная таблица с указанием точности попадания прогнозов:

Classification Results^а

(Классификационные результаты)
	INGL_DIC (Индекс Инглехарта, дихото-мический)	Predicted Group Membership (Прогнозируемая принадлежность к группе)	Total (Сум-ма)
1,00 (Постматери-алисти-ческий тип)	2,00 (Материа-листи-ческий тип)
Original (Перво-начально)	Count (Коли-чество)	1 ,00 (Пост-материа-листи-ческий тип)	710	381	1091
2,00 (Материа-листический тип)	410	699	1109
Ungrouped cases (He сгруп-пирован-ные наблю-дения)	7	12	19
%	1 ,00 (Постматериа-листический тип)	65,1	34,9	100,0
2,00 (Материа-листи-ческий тип)	37,0	63,0	100,0
Ungrouped cases (He сгруп-пирован-ные наблю-дения)	36,8	63,2	100,0

а. 64,0% of original grouped cases correctly classified (64 % наблюдений, первоначально разнесённых по группам, были классифицированы корректно).

Правая колонка таблицы ("Total" (Сумма)) указывает на общее количество наблюдений, которые фактически относятся к соответствующим группам. К группе постматериалистических типов относится 1091 наблюдение, а к группе материалистических типов 1109. Обе колонки, объединенные общим наименованием ("Predicted Group Membership" (Прогнозируемая принадлежность к группе)), указывают на фактическое количество наблюдений, относящихся к каждой из групп. Первая колонка указывает на количество наблюдений, которые были отнесены к первой группе. Из 1091 постматериалистическйх наблюдений корректно определены были 710, это соответствует 65,1 % всех наблюдений. 381 наблюдение было по ошибке отнесено ко 2 группе, что соответствует 34,9 % всех наблюдений. Из 1109 материалистических наблюдений по ошибке к группе 1 были отнесены 410, что соответствует 37,0 %. 699 наблюдений были корректно отнесены к группе 2, что составило 63 %. Строка "Ungrouped cases" (Несгруппированные наблюдения) содержит наблюдения, которые не соответствуют ни одной из групп. Хотя эти наблюдения и не учитываются при расчёте дискриминантной функции, значение функции для них всё равно вычисляется. Из 19 наблюдений, для которых отсутствуют данные о принадлежности к какой-либо группе, 7 были отнесены к постматериалистическим типам, а 12 к материалистическим. В строке под таблицей приводится итоговый результат. 64 % наблюдений были классифицированы корректно. Так как даже при чисто случайном отнесении некоторого наблюдения к одной из двух имеющихся групп, корректность классификации данного наблюдения составила бы 50 %, то 64 %-ную точность прогноза следует рассматривать как довольно умеренный результат. Такой неудовлетворительный результат можно попытаться объяснить тем, что в обе группы входили смешанные типы, которые тяжелее классифицировать, нежели чистые типы. Проверим это предположение путём повторного проведения расчёта, но уже с учётом только чистых типов.

Выберите в меню Data (Данные) Select Cases... (Выбрать наблюдения)
Щёлкните на опции If condition is satisfied (Если выполняется условие) и затем на выключателе If... (Если).
В редакторе условий введите следующее условие:

ing1_ind = 1 OR ing1_ind = 4

Подтвердите нажатием Continue (Далее) и затем ОК.
В диалоговом окне Discriminant Analysis (Дискриминантный анализ) переменную ingl_ind (не ingl_dic!) поместите в поле для групповых переменных. В качестве границ области изменения задать значения 1 и 4.
В список независимых переменных поместите переменные statpaps, schule, alter и ausbild.
Дополнительные установки под выключателями Statistics... (Статистики), Classify... (Классифицировать) и Save... (Сохранить) произведите так, как было описано ранее.

Вы получите следующую классификационную таблицу:

Classification Results

(Результаты классификации)
	INGLEHART-INDEX (Индекс Инглехарта, дихото-мический)	Predicted Group Membership (Прогнозируемая принадлежность к группе	Total (Сумма)
POSTMATE-RIALISTEN (Постмате-риалисты)	MATERI-ALISTEN (Матери-алисты)
Original (Перво-начально)	Count (Коли-чество)	POSTMATE-RIALISTEN (Постмате-риалисты)	409	109	518
MATERI-ALISTEN (Матери-алисты)	133	297	430
%	POSTMATE-RIALISTEN (Постмате-риалисты)	79,0	21,0	100,0
MATERI-ALISTEN (Матери-алисты)	30,9	69,1	100,0

а. 74,5% of original grouped cases correctly classified (74,5 % наблюдений, первоначально разнесённых по группам, были классифицированы корректно).

К группе постматериалистов относится 518 наблюдений. 409 наблюдений (79 %) были спрогнозированы корректно, а 109 (21,0 %) по ошибке отнесены к группе 4 ("чистые материалисты"). В группе чистых материалистов насчитывается 403 наблюдения. 297 наблюдений (69,1 %) были определены корректно, а 133 (30,9 %) по ошибке были отнесены к группе 1 ("чистые постматериалисты"). Конечным результатом является корректная идентификация наблюдений, равная 74,5 %. Этот показатель значительно выше предыдущего и может быть расценен как приемлемый.

Содержание раздела