16.9 Взвешенное оценивание (оценка с весами)

В линейном регрессионном анализе, рассмотренном до настоящего времени, все наблюдения входят в модель равнозначно. При этом, исходной предпосылкой является тот факт, что все наблюдения должны иметь одинаковую дисперсию.

Если это условие не выполняется и дисперсия увеличивается с ростом значения независимой переменной, то отдельные точки можно взвесить так, чтобы наблюдения с большой дисперсией имели меньшее влияние.

В качестве примера рассмотрим тест, проверяющий знания детей в области географии. Дети в возрасте от 3 до 14 лет должны были в течение двух минут назвать как можно больше городов Германии. Результаты теста сведены в нижеследующей таблице, причём количество детей в каждой возрастной группе варьируется от двух до пяти:

Возраст	Количество названных городов
3	2, 1, 0, 4
4	4, 2, 6
5	3, 8, 4, 7
6	3, 8, 9, 5
7	6, 10
8	7, 14, 10
9	9, 16, 10
10	9, 16, 15, 9
11	18, 12
12	22, 11, 14, 16
13	14, 21
14	20, 15, 23, 14, 26

Эти данные для сорока детей в общей сложности хранятся в переменных alter (возраст) и staedte (города), которые содержатся в файле snamen.sav.

Откройте файл snamen.sav.
Выберите в меню Graphs (Графики) Scatterplot... (Диаграмма рассеяния)

16.9 Взвешенное оценивание (оценка с весами)

Рис. 16.26: Диаграмма рассеяния

Отметьте и постройте простую диаграмму рассеяния с переменной alter по оси абсцисс и переменной staedte пo оси ординат.

Вы увидите, что с ростом возраста растёт не только количество названных городов, но и рассеяние, то есть дисперсия, становится больше.

В соответствии с описанием из главы 16.1 проведите линейный регрессионный анализ, причём переменной staedte присвойте статус зависимой переменной, а переменной alter — независимой переменной.
Вы получите следующие результаты:

Model Summary (Сводная таблица по модели)

Model (Модель)

R Square (R-квадрат)

Adjusted R Square (Смещенный R-квадрат)

Std. Error of the Estimate (Стандартная ошибка оценки)

,879^а

,772

,766

3,1623

a. Predictors: (Conslant), Alter (Bлияющие переменные: (Константа), возраст)

Coefficients (Коэффициенты) ^а
Model (Модель)	Unstandardized Coefficients (He стандарти-зированные коэф-фициенты)	Standardized Coefficients (Стандарти-зированные коэф-фициенты)	Т	Sig. (Значи-мость)
В	Std. Error (Станда-ртная ошибка)	/3 (Beta)
1 a. Dep	(Constant) (Koнстанта)	-2,722	1,273		-2,138	,039
Alter (Возраст) endent Variable	1,569 (Зависим	,138 ая перемен-ная)	,879	11,357	,000

Коэффициент корреляции равен 0,879, а мера определённости 0,772.

В данном примере мы имеем дело с группами случаев, разделёнными по годам возраста, для которых независимая переменная имеет всегда одно и то же значение. Исходя из значений зависимой переменной сопоставленных каждому случаю, можно определить дисперсию; обратное значение этой дисперсии применяется обычно в качестве весового фактора для соответствующего случая.

Если подобной группировки данных нет, то пытаются выявить такую связь между дисперсией и переменной, чтобы степень дисперсии была пропорциональна значению данной переменной. При поиске так называемых весовых переменных речь идет о независимой переменной или, если их много, — об одной из независимых переменных. В приведенном примере такой переменной, очевидно, является независимая переменная alter, по которой и можно проследить изменение дисперсии.

Целью анализа сначала является определение наилучшей возможной степени р. а затем подсчёт веса для каждого случая, причём вес для значения переменной х определяется как

1/х^p

Выберите в меню Analyze (Анализ) Regression.. .(Регрессия) Weight Estimation... (Взвешенное оценивание)

Откроется диалоговое окно Weight Estimation (Взвешенное оценивание).

16.9 Взвешенное оценивание (оценка с весами)

Рис. 16.27: Диалоговое окно Weight Estimation (Весовая цепка)

Перенесите переменную staedte в поле зависимых переменных, а переменную alter в поля для независимых и для весовых переменных. Согласно с установками по умолчанию оптимальная степень вычисляется в пределе от —2 до 2 с шагом 0,5; измените шаг на 0,2.
Щёлкните на кнопке опций и в появившемся диалоговом окне активируйте опцию Save best weight as new variable (Сохранить лучший вес, как новую переменную).

Результаты расчёта, вывод которых производится в старой табличной форме, выглядят следующим образом:

Source variable	. . ALTER	Dependent variable. . STAEDTE
Log- likelihood	Function =-116,950816	POWERvalue= -2,000
log- likelihood	Function =-115,170919	POWERvalue=-1,800
Log- likelihood	Function =-113,434617	POWERvalue=-1,600
Log- likelihood	Function =-111,746484	POWERvalue=-1,400
Log- likelihood	Function =-110,111706	POWERvalue=-1,200
Log- likelihood	Function =-108,536154	POWERvalue=-1,000
Log- likelihood	Function =-107,026465	POWERvalue=-,800
Log- likelihood	Function =-105,590111	POWERvalue=-,600
Log- likelihood	Function =-104,235463	POWERvalue=-,400
Log- likelihood	Function =-102,971835	POWERvalue=-,200
Log- likelihood	Function =-101,809499	POWERvalue=,000
Log- likelihood	Function =-100,759655	POWERvalue=,200
Log- likelihood	Function =-99,834344	POWERvalue=,400
Log- likelihood	Function =-99,046284	POWERvalue=,600
Log- likelihood	Function =-98,408623	POWERvalue=,800
Log- likelihood	Function =-97,934594	POWERvalue=1,000
Log- likelihood	Function =-97,637078	POWERvalue=1,200
Log- likelihood	Function =-97,528092	POWERvalue=1,400
Log- likelihood	Function =-97,618231	POWERvalue=1,600
Log- likelihood	Function =-97,916114	POWERvalue=1,800
Log- likelihood	Function =-98,427890	POWERvalue=2,000
The Value ofPOWER MaximizingLog-likelihood Function =1,400
Source variable	ALTER	POWERvalue=:1,400
Dependent variable. . STAEDTE
Multiple R, 90081
R Square,81146
Adjusted R Square ,80650
Standard Error ,68669
	Analysis of Variance :
	DF Sum of Squares	Mean Square
Regression Residuals	1 77,121477 38 17,918483	77,121477 ,471539
P = 163,55269	Signif F = ,0000
-------	- — — Variables in the Equation —	- - - - -	- - -
Variable	В SE В Beta	Т	Sig Т
ALTER (Constant)	1,569996 ,122764 ,900813 -2,728584 ,840793	12,789 -3,245	,0000 ,0025
Log-likelihood	Function = -97,528092
The following	new variables are being created:
Name	Label
WGT_1	Weight for STAEDTE from WLS, MOD_	1 ALTER**	-1,400

Оптимальная степень оценивается при помощи логарифма функции правдоподобия; в данном случае максимальное значение получается при значении степени равном 1,4. Это значение используется для определения веса для каждого случая. К примеру, для трёхлетнего ребёнка вес равен

1/(3^1,4)=0,2148

Весовые показатели были добавлены в исходный файл под переменной с именем wgt_1. Затем повторно был выполнен расчёт регрессии. Корреляционный коэффициент при этом возрос до 0,90081, а мера определённости до 0,81146. Хотя эти изменения, а также изменение рассчитанных коэффициентов регрессии и констант незначительны, зато стала намного меньше соответствующая им стандартная ошибка.

Содержание раздела