18.4 Пример из области биологии (три группы)
В предыдущих примерах дискриминантный анализ всегда проводился при наличии лишь двух групп. В этой главе рассматривается пример, в котором групповая переменная имеет больше двух категорий, а именно три.
В файле kaefer.sav содержатся данные о длине и ширине грудной клетки трёх видов жуков (обозначенных как А, В и С). Если вы проведёте однофакторный дисперсионный анализ с последующими дополнительными тестами (Post-hoc-Tests), то увидите, что три разновидности жуков очень значимо различаются между собой как по длине, так и по ширине, поэтому вполне можно предположить, что этих жуков можно классифицировать между упомянутыми видами на основании их длины и ширины посредством дискриминантного анализа.
-
Откройте файл kaefer.sav.
Вы увидите, что 17 жуков из 30 не отнесены ни к иной из групп; поэтому классификация жуков по группам должна быть произведена при помощи дискриминантного анализа.
-
В диалоговом окне Discriminant Analysis (Дискриминантный анализ) переменной kaefer (Жук) присвойте статус групповой переменной с пределами от 1 до 3, а переменным laenge (Длина) и breite (Ширина) статус независимых переменных. Оставьте активной установку по умолчанию Enter independents together (Независимые переменные вводить одновременно).
-
В диалоговом окне Discriminant Analysis: Statistics (Дискриминантный анализ: Статистики) в разделе Descriptives (Дискриптивние статистики) активируйте опции: Means (Средние значения), Univariate ANOVAs (Одномерные тесты ANOVA) и в разделе Function Coefficients (Коэффициенты функции) опцию Unstandardized (He стандартизированные).
-
В диалоговом окне Discriminant Analysis: Classify (Дискриминантный анализ: Классифицировать) сделайте запрос на Case-wise results (Результаты для отдельных наблюдений) и Summary table (Сводную таблицу) и в разделе Plots (Графики) активируйте опцию Territorial map (Территориальная карта). Эта опция служит для построения классификационной диаграммы, так называемой территориальной карты (Territorial map). Построение этой диаграммы типично для случая с более чем двумя группами.
-
В заключение, в диалоговом окне Discriminant Analysis: Save (Дискриминантный анализ: Сохранить), активируйте все опции, находящиеся там, с целью создания соответствующих переменных в исходном файле.
Из всей гаммы приводимых результатов расчёта мы рассмотрим только самые важные. Из групповых статистик можно узнать, что в семейство А входят самые большие, а в семейство В самые маленькие жуки.
Group Statistics
(Статистики для групп)
|
KAEFEP (Жук)
|
Mean (Сред-нее значе-ние)
|
Std. Deviation (Станда-ртное отклоне-ние)
|
Valid N (listwise) (Действительные значения (по списку))
|
Unweighted (Не взвеше-нное)
|
Weighted (Взвеше-нное)
|
1 (Семейство А)
|
LAENGE (Длина)
|
1 ,6226
|
5.968Е-02
|
42
|
42,000
|
BREITE (Ширина)
|
1 ,2607
|
4J54E-02
|
42
|
42,000
|
2 Семейство В)
|
LAENGE (Длина)
|
1 ,3089
|
7.634Е-02
|
45
|
45,000
|
BREITE (Ширина)
|
1,0122
|
4.415Е-02
|
45
|
45,000
|
3 Семейство С)
|
LAENGE (Длина)
|
1,4788
|
6.029Е-02
|
26
|
26,000
|
BREITE (Ширина)
|
1,1192
|
5.114Е-02
|
26
|
26,000
|
Total
|
LAENGE (Длина)
|
1,4646
|
,1535
|
113
|
113,000
|
BREITE (Ширина)
|
1,1292
|
,1191
|
113
|
113,000
|
Статистика Лямбда Уилкса (>i) свидетельствует о том, что жуки очень значимо делятся на группы как по длине, так и по ширине.
Tests of Equality of Group Means (Тест на равенство средних значений групп)
|
Wilks' Lambda (Лямбда Уилкса)
|
F
|
df1
|
df2
|
Sig. (Значимость)
|
LAENGE (Длина)
|
,187
|
239,154
|
2
|
110
|
,000
|
BREITE (Ширина)
|
,153
|
303,326
|
2
|
110
|
,000
|
Если насчитывается более двух классификационных групп, то можно образовать больше одной дискриминантной функции; при трёх группах, как в приведенном примере, их будет две. Следующая таблица свидетельствует о том, что обе дискриминантные функции дают значимые результаты для разделения между группами и, следовательно, могут быть использованы соответствующим образом. Однако, первая функция дает вероятность прогноза 98,7 %, а вторая только 1,3 %.
Eigenvalues (Собственные значения)
Function (Функция)
|
Eigenvalue (Собствен-ные значение)
|
% of Variance (% диспер-сии)
|
Cumulative % (Совокуп-ный %)
|
Canonical Correlation (Канони-ческая корре-ляция)
|
1
|
6,040а
|
98,7
|
98,7
|
,296
|
2
|
,078а
|
1,3
|
100,0
|
,269
|
a. First 2 canonical discriminant functions were used in the analysis (В этом анализе используются первые 2 канонические дискриминантные функции).
Wilks' Lambda (Лямбда Уилкса)
Test of Function(s) (Тест функции (й))
|
Wilks1 Lambda (Лямбда Уилкса)
|
Chi-square (Хи-квадрат)
|
df
|
Sig. (Значимость)
|
1 through 2 (1 до 2)
|
,132
|
221,900
|
4
|
,000
|
2
|
,928
|
8,202
|
1
|
,004
|
Затребованные нестандартизированные коэффициенты функций приводятся в следующей таблице.
Canonical Discriminant Function Coefficients
(Канонические коэффициенты дискриминантных функций)
|
|
Function (Функция)
|
1
|
2
|
LAENGE (Длина)
|
5,831
|
18,769
|
BREITE (Ширина)
|
14,891
|
-23,659
|
(Constant) (Константа)
|
-25,355
|
-,773
|
Unstandardized coefficients (Нестандартизированные коэффициенты)
Мы здесь опускаем вывод статистик для каждого отдельного случая. В результате расчетов Вы получаете соответствующие номера групп и вероятность прогнозирования под заголовком P(G = g|D = d). Прогнозирование осуществлено и для 17 неклассифицированных случаев.
На территориальной карте показано разделение на области, которые означают принадлежность к группе. При этом в пределах границ соответствующей области вероятность отнесения к данной группе выше, чем для других групп. На границах областей вероятности для граничащих групп одинаковы.
Значения обеих дискриминантных функций, на основе которых построена эта территориальная карта, Вы можете увидеть в редакторе данных под именами двух вновь созданных переменных:
dis1_1 и dis2_1.
В заключение приводится обзор результатов классификации. По ним Вы можете заметить, что прогноз для групп А и В практически полностью был сделан верно и корректно классифицированы, в общей сложности, 91,2 % всех случаев.
Classification Results a
(Результаты Классификации)
|
|
FUND (Семе-йство)
|
Predicted Group Membership
|
Total (Сум-ма)
|
1 (Семей-ство А)
|
2 (Семей-ство В)
|
3 (Семей-ство С)
|
Original (Перво-нача-льно)
|
Count (Коли-чество)
|
1 (Семейство А)
|
41
|
0
|
1
|
42
|
2 (Семейство В)
|
0
|
43
|
2
|
45
|
3 (Семейство С)
|
4
|
3
|
19
|
26
|
Ungrouped cases (He груп-пирован-ные случаи)
|
7
|
6
|
4
|
17
|
%
|
1 (Семейство А)
|
97,6
|
,0
|
2,4
|
100,0
|
2 (Семейство В)
|
,0
|
95,6
|
4,4
|
100,0
|
3 (Семейство С)
|
15,4
|
11,5
|
73,1
|
100,0
|
Ungrouped cases (He груп-пирован-ные случаи)
|
41,2
|
35,3
|
23,5
|
100,0
|
а. 91,2% of original grouped cases correctly classified (91,2 % первоначально сгруппированных случаев были классифицированы корректно).
Символы,
используемые втерриториальной карте
|
Символ
|
Группа
|
Метка
|
1
2
3
|
1
2
3
|
Семейство А
Семейство В
Семейство С
|
Маркировка
|
Центроиды
групп
|
Наряду с уже упоминавшимися значениями обеих дискриминантных функции в редакторе данных были созданы: переменная
dis_1, содержащая значение прогнозируемой группы и переменные disl_2, dis2_2 и dis3_2, которые содержат прогнозируемые вероятности отнесения к одной из трёх групп. Группа, которой соответствует наибольшая вероятность прогнозирования и есть прогнозируемая группа.