Задачи статистики в пакете SPSS



18.2 Пример из области социологии

В своём исследовании "Культурный прорыв. Изменение ценностей в западном мире" (см. дополнительную литературу) Рональд Инглехарт (Ronald Inglehart) приводит тезис, что в более зрелых возрастных группах значимо большее количество человек высказались в пользу материальных ценностей (см. гл. 8.4.2). Среди младших поколений, согласно Инглехарту, растёт доля постматериалистов. Склонность опрошенных к постматериалистическим ценностям зависит от их образования и профессиональной квалификации. Чем выше образование и профессиональная квалификация, тем выше склонность к постматериалистическим ценностям. Значение имеет также и социально-экономический статус отца; согласно мнению Инглехарта, чем он выше, тем значительней доля постматериалистов. При помощи дискриминантного анализа мы проверим эту теорему смены ценностей, сформулированную американским политологом.

  •  Откройте в редакторе данных файл postmat.sav.
Переменные, которые вы сможете найти в этом файле, приводятся в нижеследующей таблице.

Имя переменной

Значение

ingMnd

Индекс Инглехарта

Ценности:

1 Постматериалисты

2 Постматериалисты смешанного типа

3 Материалисты смешанного типа

4 Материалисты

5 Не могу дать ответ

6 Нет данных

statpaps

Социально-экономический статус отца (индекс)

Значения:

1 Низкий

5 Высокий

8 Формируется в данный момент (отсутствующее значение)

9 Безработный, в заключении, умер, пенсионер и т.д. (отсутствующее

значение)

schule

Уровень образования опрашиваемых

Значения:

1 Без образования

2 Начальная школа

3 Незаконченное среднее

4 Среднее

alter

Возраст опрашиваемых

Значения:

1 18 до 29 лет

2 30 до 44 лет

3 45 до 59 лет

4 60 до 74 лет

5 75 до 88 лет

6 89 и старше

9 Не указан (отсутствующее значение)

ausbild

Профессиональное образование опрашиваемых Значения: 0 Образование отсутствует (отсутствующее значение) 1 Краткосрочное образование 2 Ученик 3 Мастер/техник 4 Высшее образование

Прежде чем преступить к дискриминантному анализу, преобразуем сначала переменную ingl_ind к дихотомическому типу. Значения признаков: 1 ("Постматериалисты") и 2 ("Постматериалисты смешанного типа") должны бить включены в новое значение признака 1 ("Постматериалистические типы") переменной ingMnd, а значения признаков: 3 ("Материалисты смешанного типа") и 4 ("Материалисты") в новое значение признака 2-"Материалистические типы".

  •  Для этого в редакторе синтаксиса введите следующие команды:
 RECODE ingl_ind (1,2 = 1) (3,4 = 2) 
 INTO ingl_dic. VARIABLE LABELS 
  ingl_dic = "Inglehart-Index, dichotom". 
  VALUE LABELS  
 ingl_dic 1 "Postmat. Typen" 
 2 "Materialist.Typen".  
 EXECUTE. 
  •  Вы можете также загрузить в редактор синтаксиса и файл ingledic.sps, в котором находятся эти команды.
  •  Пометьте команды и запустите программу щелчком на кнопке Run Current (Выполнить текущие команды).
В редакторе данных появится новая переменная ingl_dic. Теперь проведите дискриминантный анализ.

  •  Выберите в меню опции Analyze (Анализ) Classify (Классифицировать) Discriminant... (Дискриминантный анализ)
  •  Переменную ingl_dic поместите в поле групповых переменных.
  •  Щёлкните на выключателе Define Range... (Определить область) и в качестве минимального значения введите 1, а в качестве максимального значения 2.
  •  Переменные statpaps, schule, alter и ausbild поместите в список Independents (Независимые переменные). Оставьте метод ввода переменных Enter independents together (Независимые переменные вводить одновременно), установленный по умолчанию.
Диалоговое окно Discriminant Analysis (Дискриминантный анализ) должно теперь выглядеть так, как показано на рисунке 18.4.

Рис. 18.4: Диалоговое окно Discriminant Analysis (Дискриминантный анализ).

  •  Щёлкните по выключателю Statistics... (Статистики)
Откроется диалоговое окно Discriminant Analysis: Statistics (Дискриминантный анализ: Статистики) (см. рис. 18.5).

Рис. 18.5: Диалоговое окно Discriminant Analysis: Statistics (Дискриминантный анализ: Статистики)

  •  Активируйте опции: Means (Средние значения), Univariate ANOVAs (Одномерные тесты AN OVA), Unstandardized Func-tion Coefficients (He стандартизированные коэффициенты функции) и Within-groops Correlation Matrice (Корреляционная матрица внутри группы).
  •  Подтвердите нажатием Continue (Далее).
  •  Щёлкните на выключателе Classify... (Классифицировать). Откроется диалоговое окно Discriminant Analysis: Classification (Дискриминантный анализ: Классификация) (см. рис. 18.6).

Рис. 18.6: Диалоговое окно Discriminant Analysis: Classification (Дискриминантный анализ: Классификация)

  •  Сделайте здесь запрос на Summary table (Сводную таблицу).
  •  Щёлкните на выключателе Save... (Сохранить). Откроется диалоговое окно Discriminant Analysis: Save (Дискриминантный анализ: Сохранить) (см. рис. 18.7).

Рис. 18.7: Диалоговое окно Discriminant Analysis: Save (Дискриминантный анализ: Сохранить)

Видно, что в 10 версии появилась возможность сохранения информации о модели в так называемом, XML-файле (см. примечания к рис. 16.3).

  •  Активируйте вывод Predicted group membership (Прогнозируемой принадлежности к группе), Discriminant scores (Значений дисриминантной функции) и Probabilities of group membership (Вероятностей принадлежности к группе).
  •  Подтвердите нажатием Continue (Далее) и затем ОК.
В окне просмотра появится сначала обзор действительных и пропущенных значений:

Analysis Case Processing Summary (Анализ обработанных наблюдений)

Unweighted Cases (He взвешенные случаи)

N

Percent (Процент)

Valid (Действительные)

2200

71,9

Excluded (Исключенные)

Missing or out-of-range group codes (Отсутствующие или находящиеся за пределами допустимой области кодировки принадлежности к группе)

19

,6

At least one missing discriminating variable (По меньшей мере одна отсутствующая дискриминационная переменная)

816

26,7

Both missing or out-of-range group codes and at least one missing discriminating variable (Обе кодировки принадлежности к группе отсутствуют или находятся за пределами допустимой области, или по меньшей мере одна отсутствующая дискриминационная переменная)

23

,8

Total (Общее количество исключённых)

858

28,1

Total (Общее количество случаев)

3058

100,0

В общей сложности 858 наблюдений из 3058, находящихся в файле postmat.sav, были исключены из анализа из-за отсутствия значения переменной ingl_dic или отсутствия значений одной из дискриминационных переменных. Таким образом анализ проводился для 2200 наблюдений. Далее приводятся средние значения, стандартные отклонения и количество наблюдений для всех переменных из обеих групп и для каждой группы в отдельности.

По средним значениям уже заметно, что для постматериалистических типов характерны: более высокий социально-экономический статус отца (2,8148 по сравнению с 2,3904), более высокое образование (2,9853 по сравнению с 2,5248) и принадлежность к младшей возрастной группе (2,1842 по сравнению с 2,8151).

Group Statistics 

(Статистики для групп)

INGL_DIC (Индекс Ингпехарта, дихото-мический)

Mean (сред-нее значе-ние)

Std. Deviation (Станда-ртное отклоне-ние)

Valid N (listwise) (Действительные значения (по списку))

Unwei-ghted (Не взвеше-нные)

Weigh-ted (Взвеше-нные)

1,00 (Пост-материа-листический тип)

SES-lndex des Vaters (социально-экономи-ческий статус отца)

2,8148

1,1718

1091

1091,000

Schulabschluss (Образование)

2,9853

,8194

1091

1091,000

ALTER, BEFRAGTE<R>, KATEGORISIERT (Возраст, опрошен-ного(ой), разбит на категории)

2,1842

1,0887

1091

1091,000

Berufsaus-bildung (Профес-сиональное образо-вание)

2,1888

1,1562

1091

1091,000

2,00 (Материа-листический тип)

SES-lndex des Vaters (социально-экономи-ческий статус отца)

2,3904

1,0407

1109

1109,000

Scnulabschluss (Образование)

2,5248

,7627

1109

1109,000

ALTER, BEFRAGTE<R>, KATEGORISIERT (Возраст ,опрошен-ного(ой), разбит на категории)

2,8151

1,2111

1109

1109,000

Berufsa-usbildung (Профес-сиональное образование)

1,8792

1,0249

1109

1109,000

Total (Сумма)

SES-lndex des Vaters (социально-экономи-ческий статус отца)

2,6009

1,1275

2200

2200,000

Schulabschluss (Образование)

2,7532

,8240

2200

2200,000

ALTER, BEFRAGTE<R>, KATEGORI-SIERT (Возраст, опрошен-ного(ой), разбит на категории)

2,5023

1,1942

2200

2200,000

Berufsa-usbildung (Профес-сиональное образование)

2,0327

1,1027

2200

2200,000

Затем проводится тест на значимость различия между переменными, относящимися к обеим группам, то есть выясняется присутствуют ли в них разделяющие (дискриминирующие) особенности, позволяющие судить об отношении к одной из двух групп (постматериалисты — материалисты).

Tests of Equality of Group Means (Тест равенства групповых средних значений)

Wilks1 Lambda (Лямбда Уилкса)

F

df1

df2

Sig. (Значимость)

SES-lndex des Vaters (социально-экономический статус отца)

,965

80,746

1

2198

,000

Schulabschluss (Образование)

,922

186,281

1

2198

,000

ALTER, BEFRAGTE<R>, KATEGORISIERT (Возраст, опрошенного(ых), разбит на категории)

,930

164,951

1

2198

,000

Berufsausbildung (Профессиональное образование)

,980

44,222

1

2198

,000

Как следует из колонки значимости, по всем переменным наблюдается значительное различие между группами (р < 0,001).

Далее приводится корреляционная матрица между всеми переменными, причём коэффициенты были рассчитаны для обеих групп:

Pooled Within-Groups Matrices (Объединённые матрицы внутри групп)

  SES-lndex des Vaters (социально- экономи-ческий статус отца)

Schulab-schluss (Образо-вание)

ALTER, BEFRAG -TE<R>, KATEGO-RISIERT (Возраст, опрошен-ного(ой), разбит на категории)

Berufsau-sbildung (Профес- сиона-льное образо-вание)

Corre-lation (Корре-ляция)

SES-lndex des Vaters (социально-экономи-ческий статус отца)

1,000

,327

-,033

,137

Schula-bschluss (Образо-вание)

,327

1,000

-,275

,377

ALTER, BEFRA-GTE<R>, KATEGO-RISIERT (Возраст, опрошен-ного(ых), разбит на категории)

-,033

-,275

1,000

,018

Berufsa-usbildung (Профес-сиональное образо-вание)

,137

,377

,018

1,000

Прежде всего, здесь очень заметна корреляция между переменными schule и statpas и между переменными ausbild и schule. Чем выше социально-экономический статус отца, тем выше школьное образование опрашиваемого; чем выше его школьное образование, тем выше и профессиональное образование.

Далее следует анализ коэффициентов дискриминантной функции. Корреляционный коэффициент между рассчитанными значениями дискриминантной функции и реальной принадлежностью к группе, равный 0,353, является неудовлетворительным:

Eigenvalues (Собственные значения)

Function (Функция)

Eigenvalue (Собствен-ное значение)

% of Variance (% диспе-рсии)

Cumulative % (Сово-купный %)

Canonical Correlation (Канони-ческая корре-ляция)

1

,142а

100,0

100,0

,353

a. First 1 canonical discriminant functions were used in the analysis (Первые 1 канонические дискриминантные функции будут применяться в анализе).

Wilks' Lambda (Лямбда Уилкса)

Test of Function(s) Wilks' Lambda (Тест функции (и)) (Лямбда Уилкса)

Chi-square (Хи-квадрат)

df

Sig. (Значимость)

1 ,875

292,431

4

,000

Тест, проведенный с помощью критерия "Лямбда Уилкса" (k), на предмет, значимо ли различаются между собой средние значения дискриминантной функции в обеих группах, показал очень значимый результат (значение р < 0,001).

Затем приводятся стандартизированные коэффициенты дискриминантной функции и их корреляция с используемыми переменными:

Standardized Canonical Discriminant Function Coefficients 

(Стандартизиро-ванные канонические коэффициенты дискриминантной функции)

Function (Функция)

1

SES-lndex des Vaters (социально-экономический статус отца)

,321

Schulabschluss (Образование)

,434

ALTER, BEFRAGTE<R>, KATEGORISIERT (Возраст, опрошенного(ой), разбит на категории)

-,599

Berufsausbildung (Профессиональное образование)

,179

Structure Matrix

 (Структурная матрица)

Function (Функция)

1

Schulabschluss (Образование)

,771

ALTER, BEFRAGTE<R>, KATEGORISIERT (Возраст, опрошенного(ой), разбит на категории)

-,726

SES-lndex des Vaters (социально-экономический статус отца)

,508

Berufsausbildung (Профессиональное образование)

,376

Pooled within-groups correlations between discriminating variables and standardized canonical discriminant functions (Объединённые корреляции внутри групп между дискриминантными переменными и стандартизированными каноническими дискриминант-ными функциями)

Variables ordered by absolute size of correlation within function (Переменные расположены соответственно величине их абсолютных корреляционных показателей).

После этого приводятся нестандартизированные коэффициенты дискриминантной функции и средние значения дискриминантной функции в обеих группах:

Canonical Discriminant Function Coefficients 

(Канонические коэффициенты дискриминантной функции)

Function (Функция)

1

SES-lndex des Vaters (социально-экономический статус отца)

,290

Schulabschluss (Образование)

,549

ALTER, BEFRAGTE<R>, KATEGORISIERT (Возраст, опрошенного(ой), разбит на категории)

-,520

Berufsausbildung (Профессиональное образование)

,164

(Constant) (Постоянно)

-1,297

Unstandardized coefficients (нестандартизированные коеффициенты)

Functions at Group Centroids (Функции для групповых центроидов)

INGL DIC

Function (Функция)

1
1 ,00 (Постматериалистический тип)

,380

2,00 (Материалистический тип)

-.374

Unstandardized canonical discriminant functions evaluated at group means (Нестандартизированные канонические дискриминантные функции, оценка которых происходит относительно средних значений групп).

В данном случае мы отказались от вывода очень длинной таблицы, в которой для каждого наблюдения построчно, приводится информация о значении дискриминантной функции и принадлежности к одной из двух групп.

В заключении приводится классификационная таблица с указанием точности попадания прогнозов:

Classification Resultsа 

(Классификационные результаты)

  INGL_DIC (Индекс Инглехарта, дихото-мический)

Predicted Group Membership (Прогнозируемая принадлежность к группе)

Total (Сум-ма)

1,00 (Постматери-алисти-ческий тип)

2,00 (Материа-листи-ческий тип)

Original (Перво-начально)

Count (Коли-чество)

1 ,00 (Пост-материа-листи-ческий тип)

710

381

1091

2,00 (Материа-листический тип)

410

699

1109

Ungrouped cases (He сгруп-пирован-ные наблю-дения)

7

12

19

%

1 ,00 (Постматериа-листический тип)

65,1

34,9

100,0

2,00 (Материа-листи-ческий тип)

37,0

63,0

100,0

Ungrouped cases (He сгруп-пирован-ные наблю-дения)

36,8

63,2

100,0

а. 64,0% of original grouped cases correctly classified (64 % наблюдений, первоначально разнесённых по группам, были классифицированы корректно).

Правая колонка таблицы ("Total" (Сумма)) указывает на общее количество наблюдений, которые фактически относятся к соответствующим группам. К группе постматериалистических типов относится 1091 наблюдение, а к группе материалистических типов 1109. Обе колонки, объединенные общим наименованием ("Predicted Group Membership" (Прогнозируемая принадлежность к группе)), указывают на фактическое количество наблюдений, относящихся к каждой из групп. Первая колонка указывает на количество наблюдений, которые были отнесены к первой группе. Из 1091 постматериалистическйх наблюдений корректно определены были 710, это соответствует 65,1 % всех наблюдений. 381 наблюдение было по ошибке отнесено ко 2 группе, что соответствует 34,9 % всех наблюдений. Из 1109 материалистических наблюдений по ошибке к группе 1 были отнесены 410, что соответствует 37,0 %. 699 наблюдений были корректно отнесены к группе 2, что составило 63 %. Строка "Ungrouped cases" (Несгруппированные наблюдения) содержит наблюдения, которые не соответствуют ни одной из групп. Хотя эти наблюдения и не учитываются при расчёте дискриминантной функции, значение функции для них всё равно вычисляется. Из 19 наблюдений, для которых отсутствуют данные о принадлежности к какой-либо группе, 7 были отнесены к постматериалистическим типам, а 12 к материалистическим. В строке под таблицей приводится итоговый результат. 64 % наблюдений были классифицированы корректно. Так как даже при чисто случайном отнесении некоторого наблюдения к одной из двух имеющихся групп, корректность классификации данного наблюдения составила бы 50 %, то 64 %-ную точность прогноза следует рассматривать как довольно умеренный результат. Такой неудовлетворительный результат можно попытаться объяснить тем, что в обе группы входили смешанные типы, которые тяжелее классифицировать, нежели чистые типы. Проверим это предположение путём повторного проведения расчёта, но уже с учётом только чистых типов.

  •  Выберите в меню Data (Данные) Select Cases... (Выбрать наблюдения)
  •  Щёлкните на опции If condition is satisfied (Если выполняется условие) и затем на выключателе If... (Если).
  •  В редакторе условий введите следующее условие: 
ing1_ind = 1 OR ing1_ind = 4

  •  Подтвердите нажатием Continue (Далее) и затем ОК.
  •  В диалоговом окне Discriminant Analysis (Дискриминантный анализ) переменную ingl_ind (не ingl_dic!) поместите в поле для групповых переменных. В качестве границ области изменения задать значения 1 и 4.
  •  В список независимых переменных поместите переменные statpaps, schule, alter и ausbild.
  •  Дополнительные установки под выключателями Statistics... (Статистики), Classify... (Классифицировать) и Save... (Сохранить) произведите так, как было описано ранее.
Вы получите следующую классификационную таблицу:

Classification Results 

(Результаты классификации)

INGLEHART-INDEX (Индекс Инглехарта, дихото-мический)

Predicted Group Membership (Прогнозируемая принадлежность к группе

Total (Сумма)

POSTMATE-RIALISTEN (Постмате-риалисты)

MATERI-ALISTEN (Матери-алисты)

Original (Перво-начально)

Count (Коли-чество)

POSTMATE-RIALISTEN (Постмате-риалисты)

409

109

518

MATERI-ALISTEN (Матери-алисты)

133

297

430

%

POSTMATE-RIALISTEN (Постмате-риалисты)

79,0

21,0

100,0

MATERI-ALISTEN (Матери-алисты)

30,9

69,1

100,0

а. 74,5% of original grouped cases correctly classified (74,5 % наблюдений, первоначально разнесённых по группам, были классифицированы корректно).

К группе постматериалистов относится 518 наблюдений. 409 наблюдений (79 %) были спрогнозированы корректно, а 109 (21,0 %) по ошибке отнесены к группе 4 ("чистые материалисты"). В группе чистых материалистов насчитывается 403 наблюдения. 297 наблюдений (69,1 %) были определены корректно, а 133 (30,9 %) по ошибке были отнесены к группе 1 ("чистые постматериалисты"). Конечным результатом является корректная идентификация наблюдений, равная 74,5 %. Этот показатель значительно выше предыдущего и может быть расценен как приемлемый.

Назад Начало Вперед