Задачи статистики в пакете SPSS

         

16.5 Мультиномиальная логистическая регрессия

Этот метод является вариантом логистической регрессии, при которой зависимая переменная не является дихотомической, как при бинарной логистической регрессии, а имеет больше двух категорий. В то время как, при бинарной логистической регрессии независимая переменная может иметь интервальную шкалу, то мультиномиальная логистическая регрессия пригодна только для категориальных независимых переменных, причём имеет значение, относятся ли они к шкале наименований или к порядковой шкале. Конечно же, не исключается возможность задания в качестве ковариат переменных, имеющих интервальную шкалу.

Начиная с 10 версии SPSS для независимых переменных, относящихся к порядковой шкале предусмотрен метод порядковой регрессии (см. гл. 16.6), который в данном случае является предпочтительным.

Для представления метода мольтиномиальной логистической регрессии был сначала взят простой пример с одной независимой переменной. Данные для этого примера "ыли взяты из ALLBUS (общий социологический опрос населения) 1998 года.

  •  Откройте файл polein.sav, и при помощи выбора меню Analyze (Анализ) Descriptive Statistics (Дескриптивные статистики) Frequencies... (Частоты)
достройте частотные таблицы для четырёх переменных, находящихся в этом файле:

Alter (Возраст)

Frequency (Частота) Percent (Процент) Valid Percent (Действи- тельный процент) Cumulative Percent (Совокупный процент)
Valid (Действи- тельное значение) bis 45 Jahre (До 45 лет) 1306 50,1 50,1 50,1
ueber 45 Jahre (Свыше 45 лет) 1301 49,9 49,9 100,0
Total (Сумма) 2607 100,0 100,0

Politische Links-Rechts-Einschaetzung (Политическая принадлежность к левым или правым)

Frequency (Частота) Percent (Процент) Valid Percent (Действи- тельный процент) Cumulative Percent (Совокупный процент)
Valid (Действи- тельное значение) eher links (Скорее левый) 740 28,4 28,4 28,4
Mitte (Центрист) 1212 46,5 46,5 74,9
eher rechts (Скорее правый) 655 25,1 25,1 100,0
Total (Сумма) 2607 100,0 100,0

Schicht (Прослойка)

  Frequency (Частота) Percent (Процент) Valid Percent (Действи- тельный процент) Cumulative Percent (Совокупный процент)
Valid (Действи- тельное Unterschicht (Нижняя прослойка) 879 33,7 33,7 33,7
значение) Mittelschicht (Средняя прослойка) 1477 56,7 56,7 90,4
Oberschicht (Верхняя прослойка) 251 9,6 9,6 100,0
Total (Сумма) 2607 100,0 100,0

Schulbildung (Школьное образование)

  Frequency (Частота) Percent (Процент) Valid Percent (Действи- тельный процент) Cumulative Percent (Совокупный процент)
Valid (Действи- тельное значение) Hauptschule (Неполное среднее) 1499 57,5 57,5 57,5
Mittlere Reife (Среднее) 610 23,4 23,4 80,9
Abitur (Атестат зрелости) 498 19,1 19,1 100,0
Total (Сумма) 2607 100,0 100,0
Мы хотим рассмотреть переменную polire (Политическая принадлежность к левым или правым) как зависимую переменную, а три остальные — как независимые переменные (факторы). В первом примере в качестве независимой переменной мы возьмем только переменную "Alter" (Возраст). Прежде всего построим таблицу сопряженности для этих двух переменных.

  •  Выберите в меню Analyze (Анализ) Descriptive Statistics (Дескриптивные статистики) Crosstabs... (Таблицы сопряженности)
Переменной alter присвойте статус строчной переменной, a polire — столбцовой переменной, и через выключатель Cells... (Ячейки) активируйте вывод процентных показателей для ячеек.

Alter * Politische Links-Rechts-Einschfltzung Crosstabulation

(Возраст * Политическая принадлежность к левым или правым -  таблица сопряженности)

 

 
Politische Links-Rechts-Einschfltzung (Политическая принадлежность к левым или правым) Total (Сумма)
eher links (Скорее левый) Mitte (Цент- рист) eher rechts (Скорее правый)
Alter (Воз-раст) bis 45 Jahre (До 45 лет) Count (Коли- чество) 446 615 245 1306
% of Total (% от возраста) 34,2% 47,1% 18,8% 100,0%
ueber 45 Jahre (Свыше 45 лет) Count % of Total (Коли- чество) 294 597 410 1301
(% от возраста) 22,6% 45,9% 31,5% 100,0%
Total (Сум- ма) Count (Коли- чество) 740 1212 655 2607
% of Total (% от возраста) 28,4% 46,5% 25,1% 100,0%
Для младшей возрастной категории политическое самоопределение имеет тенденцию склонения симпатий к левым партиям, а для старшей — скорее к правым. Рассмотрим простую мультиномиальную логистическую модель, которая отражает взаимосвязь между политическим самоопределением и возрастом.

Так как политическое самоопределение, как зависимая переменная, включает три категории, то для определения вероятностей отнесения респондентов к этим трем категориям можно сформировать два недублированных логита, причём последняя категория "eher rechts" (скорее правый) будет использоваться как эталонная:

10, b11, b20 и b21 (называемых параметрическими оценками) и является основной задачей мультиномиальной логистической регрессии. Первая цифра индекса указывает на номер логита, а вторая на порядковый номер коэффициента в данном логите, причём цифра 0 на второй позиции индекса означает константу, за которой далее следует ровно столько коэффициентов, сколько независимых переменных (факторов) взято в рассмотрение. Коэффициентам последней (эталонной) категории присваивается значение 0.

Переменная Alter (Возраст), как единственная независимая переменная, имеет две категории, одна из которых рассматривается как эталонная, ее коэффициенты принимаются равными 0.

  •  Выберите в меню Analyze (Анализ) Regression ...(Регрессия) Multinomial Logistic... (Мультиномиальная логистическая)
Откроется диалоговое окно Multinomial Logistic Regression (Мультиномиальная логистическая регрессия).

  •  Переменную polire поместите в поле для зависимых переменных, а переменную alter (возраст) в поле для факторов и нажмите выключатель Statistics (Статистики).
Откроется диалоговое окно Multinomial Logistic Regression: Statistics (Мультиномиальная логистическая регрессия: Статистики)

  •  Оставьте активированным вывод параметрических оценок с доверительным интервалом соответствующим 95 % и покиньте это диалоговое окно нажатием Далее и ОК.

Рис. 16.17: Диалоговое окно Multinomial Logistic Regression (Множественная логистическая регрессия)

Рис. 16.18: Диалоговое окно Multinomial Logistic Regression: Statistics (Множественная логистическая регрессия: Статистики)

Содержание таблицы результатов расчёта, выглядит следующим образом. Для не дублирующих категорий она содержит параметрические оценки, стандартную ошибку, проверку значимости при помощи статистики Вальда, значение экспоненциальной функции от параметрической оценки и его доверительный интервал.

Parameter Estimates (Оценки параметров)

Politische Links-Rechts-Einschaetzung (Политическая принадлежность к левым или правым) В Std. Error (Станда- ртная ошибка) Wald (Вальд) df (Сте-пень сво- боды) Sig. (Значи- мость) Ехр(В) 95% Confidence Interval for Ехр(В) (95 % довери- тельный интервал для Ехр(В))
Lower Bound (Нижний предел) Upper Bound (Верхний предел)  
eher links (Скорее левый) Intercept (Постоян- ное слага- емое) -,333 ,076 18,938 1 ,000
[ALTER= 1,00] ,932 ,110 71,353 1 ,000 2,539 2,045 3,151
[ALTER= 2,00] Оа 0 0 ,
Mitte (Цен-трист) Intercept (Постоян- ное слага-емое) ,376 ,064 34,320 1 ,000
[ALTER= 1,00] ,545 ,099 30,198 1 ,000 1,724 1,420 2,094
rALTER= 2,00] 0" 0 0
a. This parameter is set to zero because it is redundant (Данный параметр обнуляется, т.к. он является дублирующим)

Из таблицы можно взять следующие значения для b-коэффициентов:

b10 =-0,333

b11 (до 45 лет) = 0,932

b20 = 0,376

b21 (до 45 лет) = 0,545 1

Таким образом, для возрастной группы до 45 лет получим

g1 = -0,333 + 0,932 = 0,599

g2 = -0,376 + 0,545 = 0,921

и следовательно

11 и b21, т.к. они приравниваются к нулю.

Следует отметить, что прямое определение вероятности для трёх категорий политической самооценки, интересней, чем соотношение этих вероятностей между собой. Для каждой i-ой категории зависимых переменных эта вероятность может быть вычислена по следующей формуле:

Для возрастной группы до 45 лет для трёх категорий политической самооценки получатся следующие вероятности:

Для возрастной группы свыше 45 лет расчёты будут выглядеть следующим образом:

g1 = - 0,333 + 0 = - 0,333 

g2 = 0,376 + 0 = 0,376

gз=0

ехр (g1) - ехр (-0,333) = 0,717

ехр (g2). ехр (0,376) = 1,456 

ехр (g3) = ехр (0) = 1

Следует отметить, что только в случае наличия лишь одной независимой переменной, как в приведённом примере, проведение расчёта с применением столь громоздкого метода, как многозначная логистическая регрессия, является достаточно бессмысленным — все соотношения могут быть выяснены проще, при помощи таблиц сопряженности. Поэтому мы введем в рассмотрение ещё одну дополнительную переменную — переменную schule (образование).

  •  В диалоговом окне Multinomial Logistic Regression (Мультиномиальная логистическая регрессия) поместите переменную schule вместе с переменной alter в поле факторов.
  •  В диалоговом окне Multinomial Logistic Regression: Statistics (Мультиномиальная логистическая регрессия: Статистики) активируйте дополнительные опции Cell probabilities (Вероятность по ячейкам) и Likelihood ratio test (Тест отношения правдоподобия) и начните расчёт вновь.
Таблица теста коэффициентов правдоподобия содержит изменения функции правдоподобия для случая, когда исключается соответствующий главный действующий фактор; эти изменения выражаются через соответствующие значения теста %2 (хи-квадрат). Выдаваемый уровень значимости р < 0,001 указывает на то, что оба фактора (возраст и школьное образование) оказывают очень значимое влияние на зависимую переменную (политическая самооценка).

Model Fitting Information (Информация о приближении, обеспечиваемой моделью)

Model (Модель)

-2 Log likelihood (-2 логарифми- ческое правдопо- добие)

Chi-square (Хи-квадрат)

df (степень свободы)

Sig. (Значи- мость)

Intercept Only (Только постоянное слагаемое)

252,208

Final (Оконча- тельно)

93,429

158,779

6

,000

Likelihood Ratio Tests (Тест отношения правдоподобия)

(Результат)

-2 Log Likelihood of Reduced Model (-2 логарифми-ческое правдоподобие для сокращённой модели)

Chi-square (Хи-квадрат)

df (Степень свободы)

Sig. (Значи- мость)

Intercept (Постоянное слагаемое)

93,429

,000

0

ALTER (Возраст)

171,496

78,067

2

,000

SCHULE (Образо- вание)

178,489

85,060

4

,000

The chi-square statistic is the difference in -2 tog-likelihoods between the final model :-~d a reduced model. The reduced model is formed by omitting an effect from the final model. The null hypothesis is that all parameters of that effect are 0 (Статистика хи-квадрат отображает различие -2 логарифмического правдоподобия между окончательной моделью и усеченной моделью. Суть расчёта усеченной модели сводится к тому, что из окончательной модели исключается один фактор влияния.

Нулевая гипотеза соответствует обнулению всех параметров параметрических оценок данного фактора влияния).

Таблица (b — коэффициентов) выглядит следующим образом. 

Parameter Estimates (Оценки параметров)

Politische Links-Rechts-Einschaetzung Политическая принадлежность к левым пли правым) В Std. Error (Стан- дартная ошибка) Wald (Вальд) df (Сте-пень сво-боды) Sig. (Значи- мость) Exp (В) 95% Confidence Interval for Exp(B) (95 % довери- тельный интервал для Ехр(В))
Lower Bound (Ниж-ний пре-дел) Upper Bound (Верх-ний пре-дел)
eher links (Ско- рее левый) (Посто-янное слага-емое) -,129 ,137 ,8feO 1 ,345
[ALTER= 1,00] ,952 ,117 66,600 1 ,000 2,591 2,061 3,256
ALTER= 2,00] Oa 0 0 , ,
SCHULE= 1,00] -,179 ,142 ,592 1 ,207 ,836 ,632 1,104
SHULE= 2,00] -,480 ,158 9,249 1 ,002 ,619 ,454 ,843
[SHULE= 3,00] 0" 0 l 0 , ,
Mine (Цент-рист) (Постоян-ное слага-емое) -,236 ,137 2,982 1 ,084
[ALTER= 1,00] ,766 ,106 52,174 1 ,000 2,152 1,748 2,939
[ALTER= 2,00] Oa 0 0 ,
[SCHULE= 1,00] ,802 ,141 32,539 1 ,000 2,231 1,693 2,939
[SHULE= 2,00] ,149 ,155 ,922 1 ,337 1,161 ,856 1,574
[SHULE= 3,00] Oa 0 , 0 , , , ,
a. This parameter is set to zero because it is redundant (Данный параметр обнуляется, так как он является дублирующим)

В качестве примера определим вероятности для политической самооценки отдельного человека, принадлежащего к возрастной группе свыше 45 лет с неполным средним образованием. Для этого по аналогии с предыдущим примером произведём следующие вычисления:

 g1 = - 0,129 + 0 - 0,179= - 0,308  
 g2 = - 0,236 + 0 + 0,802 = 0,566 
 gз= 0 
 exp (g1) = 0,735 
 exp (g2) = 1,761 
 exp (g3) - 1 

Если перевести данные результаты в процентные показатели, то они будут означать, что среди граждан в возрасте свыше 45 лет с неполным средним образованием 21,0 % симпатизируют левым политическим течениям, 28,6 % правым, а 50,4 % остаются по центру.

Нет необходимости вычислять процентные показатели вероятностей самостоятельно. Вы можете взять их из следующей таблицы, отображающей наблюдаемые и прогнозируемые частоты:

 

Observed and Predicted Frequencies (Наблюдаемые и прогнозируемые частоты)

Schulb-ildung (Образо- вание) Alter (Возраст) Politische Links-Rechts-Einschfltzung (Политическая левая или правая принадлежность) Frequency (Частота) Percentage (Процент)
Observed (Наблю-даемая) Predicted (Прогно-зируемая) Pearson Residual (Остаток Пирсона) Observed (Набл-юдаемый) Predicted (Прогно-зируемый)
Haupt- schule (Непол-ное среднее) bis 45 Jahre (До 45 лет) eher links (Скорее левый) 143 157,488 -1,365 25,8% 28,4%
Mitte (Центрист) 312 313,760 -,151 56,3% 56,6%
eher rechts (Скорее правый) 99 82,752 1,937 17,9% 14,9%
ueber 45 Jahre(Свыше 45 лет) eher links (Скорее левый) 213 198,512 1,157 22,5% 21,0%
Mitte (Центрист) 478 476,240 ,115 50,6% 50,4%
eher rechts (Скорее правый) 254 270,248 -1,170 26,9% 28,6%
Mifflere Reife (Сред-нее) bis 45 Jahre (до 45 лет) eher links (Скорее левый) 129 131,561 -,271 31,5% 32,2%
Mitte (Центрист) 192 184,113 ,784 46,9% 45,0%
eher rechts (Скорее правый) 88 99,326 -,628 21,5% 22.8%
ueber 45 Jahre(Свыше 45 лет) eher links (Скорее левый) 47 44,439 ,435 23,4% 22.1%
Mitte (Центрист) 67 74,887 -1,151 33,3% 37,3%
eher rechts (Скорее правый) 87 81,674 ,765 43,3% 40,6%
Abitur (Аттестат зрелости) bis 45 Jahre (до 45 лет) eher links (Скорее левый) 174 156,952 1,848 50,7% 45,8%
Mitte (Центрист) 111 117,127 -,698 32,4% 34,1%
eher rechts (Скорее правый) 58 68,922 -1,472 16,9% 20,1%
ueber 45 Jahre(Свыше  45 лет) eher links (Скорее левый) 34 51,048 -2,914 21,9% 32,9%
Mitte (Центрист) 52 45,873 1,078 33,5% 29,6%
eher rechts (Скорее правый) 69 58,078 1,812 44,5% 37,5%
The percentages are based on total observed frequencies in each subpopulation (Процентные показатели основываются на наблюдаемых суммарных частотах для каждой частичной совокупности).

Теперь вы можете видеть, что наблюдаемые и прогнозированные значения оказались рассогласованными. Это произошло потому, что теперь в модель входят только главные факторы влияния, а не взаимодействия.

  •  Чтобы это изменить, в диалоговом окне Multinomial Logistic Regression (Мультиномиальная логистическая регрессия) задействуйте выключатель Model (Модель).
Откроется диалоговое окно Multinomial Logistic Regression: Model (Мультиномиальная логистическая регрессия: Модель).

Вы можете включить в расчёт все главные факторы влияния и взаимодействия, если вместо предварительно установленной по умолчанию опции Main effects (Основные эффекты) активируете опцию Full factorial (Полнофакторная модель). При помощи опции Custom (Пользовательский режим), Вы можете отобрать включаемые в расчёт факторы влияния.

  •  Активируйте опцию Full factorial (Полнофакторная модель) и начните расчёт вновь.
В таблице оценки параметра теперь находятся и взаимодействия. Если Вы обратите внимание на наблюдаемые и ожидаемые частоты, то заметите, что теперь они совпадают.

Рис. 16.19: Диалоговое окно Multinomial Logistic Regression: Model (Множественная логистическая регрессия: Модель)

  •  Постройте самостоятельно ещё одну логистическую регрессию, в которой Вы можете взять .переменную schicht (Принадлежность к прослойке) в качестве третьего фактора.
Содержание раздела