Задачи статистики в пакете SPSS

         

18.4 Пример из области биологии (три группы)

В предыдущих примерах дискриминантный анализ всегда проводился при наличии лишь двух групп. В этой главе рассматривается пример, в котором групповая переменная имеет больше двух категорий, а именно три.

В файле kaefer.sav содержатся данные о длине и ширине грудной клетки трёх видов жуков (обозначенных как А, В и С). Если вы проведёте однофакторный дисперсионный анализ с последующими дополнительными тестами (Post-hoc-Tests), то увидите, что три разновидности жуков очень значимо различаются между собой как по длине, так и по ширине, поэтому вполне можно предположить, что этих жуков можно классифицировать между упомянутыми видами на основании их длины и ширины посредством дискриминантного анализа.

  •  Откройте файл kaefer.sav.
Вы увидите, что 17 жуков из 30 не отнесены ни к иной из групп; поэтому классификация жуков по группам должна быть произведена при помощи дискриминантного анализа.



  •  В диалоговом окне Discriminant Analysis (Дискриминантный анализ) переменной kaefer (Жук) присвойте статус групповой переменной с пределами от 1 до 3, а переменным laenge (Длина) и breite (Ширина) статус независимых переменных. Оставьте активной установку по умолчанию Enter independents together (Независимые переменные вводить одновременно).
  •  В диалоговом окне Discriminant Analysis: Statistics (Дискриминантный анализ: Статистики) в разделе Descriptives (Дискриптивние статистики) активируйте опции: Means (Средние значения), Univariate ANOVAs (Одномерные тесты ANOVA) и в разделе Function Coefficients (Коэффициенты функции) опцию Unstandardized (He стандартизированные).
  •  В диалоговом окне Discriminant Analysis: Classify (Дискриминантный анализ: Классифицировать) сделайте запрос на Case-wise results (Результаты для отдельных наблюдений) и Summary table (Сводную таблицу) и в разделе Plots (Графики) активируйте опцию Territorial map (Территориальная карта). Эта опция служит для построения классификационной диаграммы, так называемой территориальной карты (Territorial map). Построение этой диаграммы типично для случая с более чем двумя группами.
  •  В заключение, в диалоговом окне Discriminant Analysis: Save (Дискриминантный анализ: Сохранить), активируйте все опции, находящиеся там, с целью создания соответствующих переменных в исходном файле.
Из всей гаммы приводимых результатов расчёта мы рассмотрим только самые важные. Из групповых статистик можно узнать, что в семейство А входят самые большие, а в семейство В самые маленькие жуки.

Group Statistics 

(Статистики для групп)

KAEFEP (Жук)

Mean (Сред-нее значе-ние)

Std. Deviation (Станда-ртное отклоне-ние)

Valid N (listwise) (Действительные значения (по списку))

Unweighted (Не взвеше-нное)

Weighted (Взвеше-нное)

1 (Семейство А)

LAENGE (Длина)

1 ,6226

5.968Е-02

42

42,000

BREITE (Ширина)

1 ,2607

4J54E-02

42

42,000

2 Семейство В)

LAENGE (Длина)

1 ,3089

7.634Е-02

45

45,000

BREITE (Ширина)

1,0122

4.415Е-02

45

45,000

3 Семейство С)

LAENGE (Длина)

1,4788

6.029Е-02

26

26,000

BREITE (Ширина)

1,1192

5.114Е-02

26

26,000

Total

LAENGE (Длина)

1,4646

,1535

113

113,000

BREITE (Ширина)

1,1292

,1191

113

113,000

Статистика Лямбда Уилкса (>i) свидетельствует о том, что жуки очень значимо делятся на группы как по длине, так и по ширине.

Tests of Equality of Group Means (Тест на равенство средних значений групп)

Wilks' Lambda (Лямбда Уилкса)

F

df1

df2

Sig. (Значимость)

LAENGE (Длина)

,187

239,154

2

110

,000

BREITE (Ширина)

,153

303,326

2

110

,000

Если насчитывается более двух классификационных групп, то можно образовать больше одной дискриминантной функции; при трёх группах, как в приведенном примере, их будет две. Следующая таблица свидетельствует о том, что обе дискриминантные функции дают значимые результаты для разделения между группами и, следовательно, могут быть использованы соответствующим образом. Однако, первая функция дает вероятность прогноза 98,7 %, а вторая только 1,3 %.

Eigenvalues (Собственные значения)

Function (Функция)

Eigenvalue (Собствен-ные значение)

% of Variance (% диспер-сии)

Cumulative % (Совокуп-ный %)

Canonical Correlation (Канони-ческая корре-ляция)

1

6,040а

98,7

98,7

,296

2

,078а

1,3

100,0

,269

a. First 2 canonical discriminant functions were used in the analysis (В этом анализе используются первые 2 канонические дискриминантные функции).

Wilks' Lambda (Лямбда Уилкса)

Test of Function(s) (Тест функции (й))

Wilks1 Lambda (Лямбда Уилкса)

Chi-square (Хи-квадрат)

df

Sig. (Значимость)

1 through 2 (1 до 2)

,132

221,900

4

,000

2

,928

8,202

1

,004

Затребованные нестандартизированные коэффициенты функций приводятся в следующей таблице.

Canonical Discriminant Function Coefficients 

(Канонические коэффициенты дискриминантных функций)

Function (Функция)

1

2

LAENGE (Длина)

5,831

18,769

BREITE (Ширина)

14,891

-23,659

(Constant) (Константа)

-25,355

-,773

Unstandardized coefficients (Нестандартизированные коэффициенты)

Мы здесь опускаем вывод статистик для каждого отдельного случая. В результате расчетов Вы получаете соответствующие номера групп и вероятность прогнозирования под заголовком P(G = g|D = d). Прогнозирование осуществлено и для 17 неклассифицированных случаев.

На территориальной карте показано разделение на области, которые означают принадлежность к группе. При этом в пределах границ соответствующей области вероятность отнесения к данной группе выше, чем для других групп. На границах областей вероятности для граничащих групп одинаковы.

Значения обеих дискриминантных функций, на основе которых построена эта территориальная карта, Вы можете увидеть в редакторе данных под именами двух вновь созданных переменных: dis1_1 и dis2_1.

В заключение приводится обзор результатов классификации. По ним Вы можете заметить, что прогноз для групп А и В практически полностью был сделан верно и корректно классифицированы, в общей сложности, 91,2 % всех случаев.

Classification Results a 

(Результаты Классификации)

FUND (Семе-йство)

Predicted Group Membership

Total (Сум-ма)

1 (Семей-ство А)

2 (Семей-ство В)

3 (Семей-ство С)

Original (Перво-нача-льно)

Count (Коли-чество)

1 (Семейство А)

41

0

1

42

2 (Семейство В)

0

43

2

45

3 (Семейство С)

4

3

19

26

Ungrouped cases (He груп-пирован-ные случаи)

7

6

4

17

%

1 (Семейство А)

97,6

,0

2,4

100,0

2 (Семейство В)

,0

95,6

4,4

100,0

3 (Семейство С)

15,4

11,5

73,1

100,0

Ungrouped cases (He груп-пирован-ные случаи)

41,2

35,3

23,5

100,0

а. 91,2% of original grouped cases correctly classified (91,2 % первоначально сгруппированных случаев были классифицированы корректно).

 

Символы, используемые втерриториальной карте

Символ

Группа

Метка

1

2

3

1

3

Семейство А 

Семейство В

 Семейство С

Маркировка 

Центроиды групп

Наряду с уже упоминавшимися значениями обеих дискриминантных функции в редакторе данных были созданы: переменная dis_1, содержащая значение прогнозируемой группы и переменные disl_2, dis2_2 и dis3_2, которые содержат прогнозируемые вероятности отнесения к одной из трёх групп. Группа, которой соответствует наибольшая вероятность прогнозирования и есть прогнозируемая группа.

Содержание раздела