е є едінcтвенним способом представлення вихідних даних в задачах кластерного аналізу. Іноді вихідна інформація задана у вигляді
квадратної матриці В
елемент, якій визначає ступінь близькості i-гo об'єкта до j-му.
Більшість aлгорітмов кластерного аналізу або повністю виходить з матриці відстаней (або близькість), або вимагає обчислення окремих її елементів, тому, якщо дані представлені у формі Х, то першим етапом вирішення задачі пошуку кластерів буде вибір способу обчислення відстаней або близькості між об'єктами або ознаками (в цьому відношенні відмінність між об'єктами і ознаками є важливим). тносітельно просто визначається близькість між ознаками. Як правило, кластерний аналіз ознак переслідує ті ж цілі, що і факторний аналіз - виділення гpупп пов'язаних між собою ознак, що відображають певну сторону досліджуваних об'єктів. У цьому випадку заходами близькості служать різні статистичні коефіцієнти зв'язку. p> Якщо ознаки кількісні, то можна використовувати оцінки звичайних парних вибіркових коефіцієнтів кореляції
Однак коефіцієнт кореляції вимірює тільки лінійну зв'язок, тому якщо зв'язок не лінійна, то слід використовувати кореляційне відношення, або зробити відповідне перетворення шкали ознак.
Існують також різні коефіцієнти зв'язку, визначені для paнговиx, якісних і дихотомного переменних.5 [120-125]
кластер комп'ютерний математика дискримінантний
1.1.2 Відстань між кластерами
У ряді процедур класифікації (кластерпроцедур) використовують поняття відстані між групами об'єктів і міри близькості двох гpyпп об'єктів . span>
Нехай-я Гpyппa (клас, кластер), що складається з об'єктів;
середнє арифметичне векторних спостережень групи, тобто
"центр ваги" i-ї групи;
відстань між групами і.
Найбільш уживаними відстанями і заходами близькості між класами об'єктів є:
відстань, що вимірюється за принципом "найближчого сусіда"
В В В
відстань, що вимірюється за принципом "далекого сусіда"
В В
відстань, що вимірюється по "центрам тяжкості" гpyпп
В
відстань, що вимірюється за принципом "середнього зв'язку" Це відстань визначається як середнє арифметичне всіх попарних відстаней між представниками аналізованих груп
В
Академіком А.Н. Колмогоровим було запропоновано "узагальнене відстань" між класами, яке в якості приватних випадків включає в себе всі розглянуті вище види відстаней. p> Узагальнене відстань засноване на понятті так званого "узагальненого середнього", а точніше статечного середнього і визначається формулою:
(1)
Можна показати, що при
В
при
В
при
В
З формули (1) виплив...