br/>
Нехай є два об'єкта X = (X 1 , ..., X m ) і Y = (Y 1 , ..., Y m ). (Табл.4.) Використовуючи цю запис для об'єктів, визначити основні види відстаней, використовуваних процедурі CLUSTER:
В· Евклидово відстань (Euclidian distance).
В· Квадрат евклидова відстані (Squared Euclidian distance)
В· Евклідова відстань і його квадрат доцільно використовувати для аналізу кількісних даних.
В· Міра близькості - коефіцієнт кореляції, де і компоненти стандартизованих векторів X і Y. Цю міру доцільно використовувати для виявлення кластерів змінних, а не об'єктів. Відстань хі-квадрат виходить на основі таблиці спряженості, складеної з об'єктів X і Y (таблиця 4.), які, імовірно, є векторами частот. Тут розглядаються очікувані значення елементів, рівні E (X i ) = X. * (X i + Y i )/(X. + Y.) і E (Y i ) = Y. * (X i + Y i )/(X. + Y.), а відстань хі-квадро має вигляд кореня з відповідного показника
.
В· Відстань Фі-квадрат є відстанню хі-квадрат, нормованим "число об'єктів "в таблиці спряженості, що подається рядками X і Y, тобто на корінь квадратний з N = X. + Y. . p> Кластерний аналіз є описовою процедурою, він не дозволяє зробити ніяких статистичних висновків, але дає можливість провести своєрідну розвідку - вивчити "структуру сукупності". p> Проведемо кластеризацію по всіх 20 ознаками і всім спостереженнями. У результаті роботи програми виводиться таблиця 5. (Показана лише її частина)
Таблиця 5. Cluster Membership
Case Number
Y
Cluster
Distance
............
...
......
............
822
0
0
2985,732
823
1
0
2996,715
824
0
0
3040,706
825
1
0
3054,689
826
0
0
3099,727
827
1
0
3108,674
828
1
1
3100,310
829
1
1
3053,258
830
1
1
3043,285
831
1
1
2991,286
............
......
.........
............
Стовпець Y показує, чи відноситься спостереження до групи вернувших кредит "0" або навернулися "1", стовпець В«ClusterВ» показує приналежність до тієї чи іншої групи спостереження на основі кластеризації.
Таблиця 6 вказує число спостережень в тому чи іншому кластері. br/>
Таблиця 6. Number of Cases in each Cluster
Cluster
1
822,000
В
0
178,000
Valid
1000,000
Missing
, 000
В
Проаналізуємо якість класифікації.
Таблиця 7. Expectation-Predictable Table
Y = 0
Y = 1
всього
всього по вибірці
300
700
1000
...