20.2.3 Иерархический кластерный анализ с предварительным факторным анализом
Рассмотрим пример из области географии. В 28 европейских странах в 1985 году были собраны следующие данные, выступающие здесь в качестве переменных:
Переменная
|
Значение
|
land
|
Страна
|
sb
|
Процент городского населения
|
lem
|
Средняя продолжительность жизни мужчин
|
lew
|
|
ks
|
Детская смертность на 1000 новорожденных
|
so
|
Количество часов ясной погоды в году
|
nt
|
Количество дней пасмурной погоды в году
|
tjan
|
Средняя дневная температура в январе
|
tjul
|
Средняя дневная температура в июле
|
Эти данные вы увидите, если откроете файл europa.sav. Переменная land является текстовой переменной, предназначенной для обозначения страны.
Целью нашего кластерного анализа является нахождение стран с похожими свойствами. При самом общем рассмотрении переменных (от непосредственного указания стран мы здесь воздержимся) становится заметным, что данные, содержащиеся в файле связаны
исключительно с ожидаемой продолжительностью жизни или с климатом. Лишь процентный показатель населения, проживающего в городах, не вписывается в эти рамки.
Стало быть, сходства, которые возможно будут найдены между некоторыми странами, основываются на продолжительности жизни и климате этих стран.
Исходя из вышесказанного, в данном случае перед проведением кластерного анализа рекомендуется сократить количество переменных. Подходящим методом для этого является факторный анализ (см. гл. 19), который вы можете провести, выбрав в меню
Analyze (Анализ)
Data Reduction (Преобразование данных) Factor... (Факторный анализ)
Если Вы проведёте факторный анализ и примените, к примеру, вращение по методу варимакса, то получите два фактора. В первый фактор войдут переменные: lem. lew, ks и sb, а во второй фактор - переменные: so, nt, tjan и tjul. Первый фактор однозначно характеризует продолжительность жизни, причём высокое значение фактора означает высокую продолжительность жизни, а второй отражает климатические условия; здесь высокие значения означают тёплый и сухой климат. Вместе с тем, Вы наверняка заметили, что в первый фактор интегрирована и переменная sb, что очевидно указывает на высокую ожидаемую продолжительность жизни при высоких процентных долях городского населения. Вы можете рассчитать факторные значения для этих двух факторов и добавить их к файлу под именами
fac1_1 и fac2_1. Чтобы Вам не пришлось самостоятельно проводить факторный анализ на этом этапе, указанные переменные уже включены в файл europa.sav. Вы можете видеть, к примеру, что высокой продолжительностью жизни обладают северные страны (высокие значения переменной
fac1_1) или южные страны с тёплым и сухим климатом (высокие значения переменной
fac2_1). Факторные значения можно вывести с помощью меню
Analyze (Анализ) Reports (Отчёты)
Case Summaries... (Итоги по наблюдениям)
Они выглядят следующим образом:
Case Summaries a (Итоги по наблюдениям)
|
LAND (Страна)
|
Lebenserwartung (Ожидаемая продолжительность жизни)
|
Klima (Климат)
|
1
|
ALBA
|
-1,78349
|
,57155
|
2
|
BELG
|
,55235
|
-,57937
|
3
|
BULG
|
-,43016
|
-,13263
|
4
|
DAEN
|
,97206
|
-,23453
|
5
|
DDR
|
,26961
|
-,3351 1
|
6
|
DEUT
|
,19121
|
-,44413
|
7
|
FINN
|
-,30226
|
-1,28467
|
8
|
FRAN
|
1,05511
|
1,04870
|
9
|
GRIE
|
,12794
|
2,65654
|
10
|
GROS
|
,75443
|
-,05221
|
11
|
IRLA
|
,16370
|
-,66514
|
12
|
ISLA
|
1,75315
|
-,97421
|
13
|
ITAL
|
,40984
|
1,68933
|
14
|
JUGO
|
-2,63161
|
-,44127
|
15
|
LUXE
|
-.16469
|
-,98618
|
16
|
NIED
|
1,31001
|
-,29362
|
17
|
NORW
|
,96317
|
-,46987
|
18
|
OEST
|
-,20396
|
-,31971
|
19
|
POLE
|
-,65937
|
-,92081
|
20
|
PORT
|
-1,10510
|
1,59478
|
21
|
RUMA
|
-1,32450
|
,09481
|
22
|
SCHD
|
1,22645
|
-,20543
|
23
|
SCHZ
|
, 56289
|
-,45454
|
24
|
SOWJ
|
-,67091
|
-1,32517
|
25
|
SPAN
|
, 83627
|
1,91193
|
26
|
TSCH
|
-,59407
|
-,40632
|
27
|
TUER
|
-,52049
|
1,04424
|
28
|
UNGA
|
-,75761
|
-,08695
|
Total N
|
28
|
28
|
28
|
a. Limited to first 100 cases (Ограничено первыми 100 наблюдениями).
Распределим эти 28 стран по кластерам при помощи двух факторов: ожидаемая продолжительность жизни и климат.
-
Выберите в меню Analyze (Анализ)
Classify (Классифицировать) Hierarchical Cluster... (Иерархический кластерный анализ)
-
Переменные
fac1_1 и fac2_1 поместите в поле тестируемых переменных, а переменную land (страна) — в поле с именем Label cases by: (Наименование (маркировка) наблюдений).
-
После прохождения выключателя Statistics... (Статистики), наряду с таблицей порядка агломерации сделайте запрос на вывод информации о принадлежности к кластеру для наблюдений. Активируйте Range of solutions: (Область решений) и введите граничные значения 2 и 5.
-
Для сохранения информации о принадлежности отдельных наблюдений к кластеру в виде дополнительных переменных, воспользуйтесь выключателем Save... (Сохранить). В соответствии с установками, произведенными в диалоговом окне статистики, активируйте и здесь Range of solutions: (Область решений) и введите граничные значения 2 и 5.
-
Деактивируйте вывод дендрограмм. Так как переменные, используемые в данном кластерном анализе, являются факторными значениями с одинаковыми областями допустимых значений, то стандартизация (z-преобразование) значений является излишней.
Agglomeration Schedule
(Порядок агломерации) |
Stage (Шаг) |
Cluster Combined (Объединение в кластеры) |
Coefficients (Коэф-фициенты) |
Stage Cluster First Appears (Шаг, на котором кластер появляется впервые)
|
Next Stage (Следу-ющий шаг) |
Cluster 1 (Кластер 1) |
Cluster 2 (Кластер 2) |
Cluster 1 (Кластер 1) |
Cluster 2 (Кластер 2) |
1 |
16 |
22 |
1,476 |
0 |
0 |
8 |
2 |
2 |
23 |
1,569 |
0 |
0 |
10 |
3 |
5 |
6 |
1,803 |
0 |
0 |
5 |
4 |
4 |
17 |
5,546 |
0 |
0 |
8 |
5 |
5 |
11 |
8,487 |
3 |
0 |
10 |
6 |
3 |
18 |
8,617 |
0 |
0 |
12 |
7 |
7 |
15 |
,108 |
0 |
0 |
15 |
8 |
4 |
16 |
,118 |
4 |
1 |
13 |
9 |
26 |
28 |
,129 |
0 |
0 |
12 |
10 |
2 |
5 |
,148 |
2 |
5 |
18 |
11 |
19 |
24 |
,164 |
0 |
0 |
15 |
12 |
3 |
26 |
,183 |
6 |
9 |
20 |
13 |
4 |
10 |
,228 |
8 |
0 |
18 |
14 |
13 |
25 |
,231 |
0 |
0 |
19 |
15 |
7 |
19 |
,254 |
7 |
11 |
20 |
16 |
1 |
21 |
,438 |
0 |
0 |
22 |
17 |
20 |
27 |
,645 |
0 |
0 |
22 |
18 |
2 |
4 |
,648 |
10 |
13 |
21 |
19 |
8 |
13 |
,810 |
0 |
14 |
23 |
20 |
3 |
7 |
,939 |
12 |
15 |
24 |
21 |
2 |
12 |
1,665 |
18 |
0 |
24 |
22 |
1 |
20 |
1,793 |
16 |
17 |
25 |
23 |
8 |
9 |
1,839 |
19 |
0 |
27 |
24 |
2 |
3 |
2,229 |
21 |
20 |
26 |
25 |
1 |
14 |
4,220 |
22 |
0 |
26 |
26 |
1 |
2 |
5,925 |
25 |
24 |
27 |
27 |
1 |
8 |
6,957 |
26 |
23 |
0 |
Сначала приводятся самые важные результаты. В таблице порядка агломерации Вы можете проследить последовательность образования кластеров; объяснения по этому поводу приводились в разделе 20.1. Скачкообразное изменение коэффициентов наблюдается при значениях 2,229 и 4,220; это означает, что после образования четырёх кластеров больше не должно происходит ни каких объединений и решение с четырьмя кластерами является оптимальным.
Принадлежность наблюдений к кластерам можно взять из нижеследующей таблицы, которая содержит также и информацию о принадлежности к кластерам для других вариантов решения (пять, три и два кластера).
Если Вы посмотрите на четырёхкластернное решение на нижеследующей таблице, то заметите, к примеру, что к третьему кластеру относятся следующие страны: Франция, Греция, Италия и Испания. Это страны с высокой продолжительностью жизни и тёплым климатом и поэтому не зря они являются предпочтительными для отдыха.
Cluster Membership (Принадлежность к кластеру)
Case (Случай)
|
5 Clusters (5 кластеров)
|
4 Clusters (4 кластера)
|
3 Clusters (3 кластера)
|
2 Clusters (2 кластера)
|
1:ALBA
|
1
|
1
|
1
|
1
|
2:BELG
|
2
|
2
|
2
|
1
|
3:BULG
|
3
|
2
|
2
|
1
|
4:DAEN 5:DEUT
|
2
|
2
|
2
|
1
|
6:DDR
|
2
|
2
|
2
|
1
|
7:FINN
|
3
|
2
|
-3
|
2
|
8:FRAN
|
4
|
3
|
-3
|
2
|
9:GRIE
|
4
|
2
|
2
|
1
|
10:iGROS
|
2
|
|
2
|
1
|
11:IRLA
|
2
|
2
|
2
|
1
|
12:ISLA
|
2
|
3
|
о
|
2
|
13:ITAL
|
4
|
4
|
1
|
1
|
14:JUGO
|
5
|
2
|
2
|
1
|
1 5:LUXE
|
3
|
2
|
2
|
1
|
16:NIED
|
2
|
|
2
|
1
|
17:NORW
|
2
|
2
|
2
|
1
|
18:OEST
|
3
|
2
|
2
|
1
|
19:POLE
|
3
|
2
1
|
1
|
1
|
20:PORT
|
1
|
1
|
1
|
1
|
21:RUMA
|
1
|
2
|
|
1
|
22:SCHD 23:SCHZ
|
2
|
2
|
2
|
1
|
24:SOWJ
|
3
|
1
|
i
|
2
|
!25:SPAN
|
4
|
1
|
|
|
26:TSCH
|
3
|
1
|
1
|
1
|
27:TUER 28:UNGA
|
1
|
2
|
1
|
1
|