Задачи статистики в пакете SPSS

         

16.9 Взвешенное оценивание (оценка с весами)

В линейном регрессионном анализе, рассмотренном до настоящего времени, все наблюдения входят в модель равнозначно. При этом, исходной предпосылкой является тот факт, что все наблюдения должны иметь одинаковую дисперсию.

Если это условие не выполняется и дисперсия увеличивается с ростом значения независимой переменной, то отдельные точки можно взвесить так, чтобы наблюдения с большой дисперсией имели меньшее влияние.

В качестве примера рассмотрим тест, проверяющий знания детей в области географии. Дети в возрасте от 3 до 14 лет должны были в течение двух минут назвать как можно больше городов Германии. Результаты теста сведены в нижеследующей таблице, причём количество детей в каждой возрастной группе варьируется от двух до пяти:



Возраст

Количество названных городов

3

2, 1, 0, 4

4

4, 2, 6

5

3, 8, 4, 7

6

3, 8, 9, 5

7

6, 10

8

7, 14, 10

9

9, 16, 10

10

9, 16, 15, 9

11

18, 12

12

22, 11, 14, 16

13

14, 21

14

20, 15, 23, 14, 26

Эти данные для сорока детей в общей сложности хранятся в переменных alter (возраст) и staedte (города), которые содержатся в файле snamen.sav.

  •  Откройте файл snamen.sav.
  •  Выберите в меню Graphs (Графики) Scatterplot... (Диаграмма рассеяния)

Рис. 16.26: Диаграмма рассеяния

  •  Отметьте и постройте простую диаграмму рассеяния с переменной alter по оси абсцисс и переменной staedte пo оси ординат.
Вы увидите, что с ростом возраста растёт не только количество названных городов, но и рассеяние, то есть дисперсия, становится больше.

  •  В соответствии с описанием из главы 16.1 проведите линейный регрессионный анализ, причём переменной staedte присвойте статус зависимой переменной, а переменной alter — независимой переменной.
  •  Вы получите следующие результаты:

Model Summary (Сводная таблица по модели)

Model (Модель)

R

R Square (R-квадрат)

Adjusted R Square (Смещенный R-квадрат)

Std. Error of the Estimate (Стандартная ошибка оценки)

1

 

,879а 

,772 

,766

3,1623 

a. Predictors: (Conslant), Alter (Bлияющие переменные: (Константа), возраст)

Coefficients (Коэффициенты) а

Model (Модель) Unstandardized Coefficients (He стандарти-зированные коэф-фициенты) Standardized Coefficients (Стандарти-зированные коэф-фициенты) Т  Sig. (Значи-мость)
В Std. Error (Станда-ртная ошибка) /3 (Beta)
1

a. Dep
(Constant) (Koнстанта) -2,722 1,273 -2,138 ,039
Alter (Возраст) endent Variable 1,569 (Зависим ,138 ая перемен-ная) ,879 11,357 ,000
Коэффициент корреляции равен 0,879, а мера определённости 0,772.

В данном примере мы имеем дело с группами случаев, разделёнными по годам возраста, для которых независимая переменная имеет всегда одно и то же значение. Исходя из значений зависимой переменной сопоставленных каждому случаю, можно определить дисперсию; обратное значение этой дисперсии применяется обычно в качестве весового фактора для соответствующего случая.

Если подобной группировки данных нет, то пытаются выявить такую связь между дисперсией и переменной, чтобы степень дисперсии была пропорциональна значению данной переменной. При поиске так называемых весовых переменных речь идет о независимой переменной или, если их много, — об одной из независимых переменных. В приведенном примере такой переменной, очевидно, является независимая переменная alter, по которой и можно проследить изменение дисперсии.

Целью анализа сначала является определение наилучшей возможной степени р. а затем подсчёт веса для каждого случая, причём вес для значения переменной х определяется как

1/хp

  •  Выберите в меню Analyze (Анализ) Regression.. .(Регрессия) Weight Estimation... (Взвешенное оценивание)
Откроется диалоговое окно Weight Estimation (Взвешенное оценивание).

Рис. 16.27: Диалоговое окно Weight Estimation (Весовая цепка)

  •  Перенесите переменную staedte в поле зависимых переменных, а переменную alter в поля для независимых и для весовых переменных. Согласно с установками по умолчанию оптимальная степень вычисляется в пределе от —2 до 2 с шагом 0,5; измените шаг на 0,2.
  •  Щёлкните на кнопке опций и в появившемся диалоговом окне активируйте опцию Save best weight as new variable (Сохранить лучший вес, как новую переменную).
Результаты расчёта, вывод которых производится в старой табличной форме, выглядят следующим образом:

Source variable . . ALTER Dependent variable. . STAEDTE
Log- likelihood Function =-116,950816 POWERvalue= -2,000
log- likelihood Function =-115,170919 POWERvalue=-1,800
Log- likelihood Function =-113,434617 POWERvalue=-1,600
Log- likelihood Function =-111,746484 POWERvalue=-1,400
Log- likelihood Function =-110,111706 POWERvalue=-1,200
Log- likelihood Function =-108,536154 POWERvalue=-1,000
Log- likelihood Function =-107,026465 POWERvalue=-,800
Log- likelihood Function =-105,590111 POWERvalue=-,600
Log- likelihood Function =-104,235463 POWERvalue=-,400
Log- likelihood Function =-102,971835 POWERvalue=-,200
Log- likelihood Function =-101,809499 POWERvalue=,000
Log- likelihood Function =-100,759655 POWERvalue=,200
Log- likelihood Function =-99,834344 POWERvalue=,400
Log- likelihood Function =-99,046284 POWERvalue=,600
Log- likelihood Function =-98,408623 POWERvalue=,800
Log- likelihood Function =-97,934594 POWERvalue=1,000
Log- likelihood Function =-97,637078 POWERvalue=1,200
Log- likelihood Function =-97,528092 POWERvalue=1,400
Log- likelihood Function =-97,618231 POWERvalue=1,600
Log- likelihood Function =-97,916114 POWERvalue=1,800
Log- likelihood Function =-98,427890 POWERvalue=2,000
The Value ofPOWER MaximizingLog-likelihood Function =1,400
Source variable  ALTER POWERvalue=:1,400
Dependent variable. . STAEDTE
Multiple R, 90081
R Square,81146
Adjusted R Square ,80650
Standard Error ,68669
Analysis of Variance :
DF Sum of Squares Mean Square
Regression Residuals 1 77,121477 38 17,918483 77,121477 ,471539
P = 163,55269 Signif F = ,0000
------- - — — Variables in the Equation — - - - - - - - -
Variable В SE В Beta Т Sig Т
ALTER (Constant) 1,569996 ,122764 ,900813 -2,728584 ,840793 12,789 -3,245 ,0000 ,0025
Log-likelihood Function = -97,528092
The following new variables are being created:
Name Label
WGT_1 Weight for STAEDTE from WLS, MOD_ 1 ALTER** -1,400
Оптимальная степень оценивается при помощи логарифма функции правдоподобия; в данном случае максимальное значение получается при значении степени равном 1,4. Это значение используется для определения веса для каждого случая. К примеру, для трёхлетнего ребёнка вес равен

1/(31,4)=0,2148 

Весовые показатели были добавлены в исходный файл под переменной с именем wgt_1. Затем повторно был выполнен расчёт регрессии. Корреляционный коэффициент при этом возрос до 0,90081, а мера определённости до 0,81146. Хотя эти изменения, а также изменение рассчитанных коэффициентов регрессии и констант незначительны, зато стала намного меньше соответствующая им стандартная ошибка.

Содержание раздела