тавляють відстань об'єднання (у вертикальних деревовидних діаграмах вертикальні осі представляють відстань об'єднання). Так, для кожного вузла в графі (там, де формується новий кластер) ви можете бачити величину відстані, для якого відповідні елементи зв'язуються в новий єдиний кластер. Коли дані мають ясну «структуру» в термінах кластерів об'єктів, схожих між собою, тоді ця структура, швидше за все, повинна бути відображена в ієрархічному дереві різними гілками. У результаті успішного аналізу методом об'єднання з'являється можливість виявити кластери (гілки) і інтерпретувати їх.
Заходи відстані:
Об'єднання або метод деревовидної кластеризації використовується при формуванні кластерів несходства або відстані між об'єктами. Ці відстані можуть визначатися в одновимірному або багатовимірному просторі. Найбільш прямий шлях обчислення відстаней між об'єктами в багатовимірному просторі полягає в обчисленні евклідових відстаней. Якщо ви маєте двох-або тривимірний простір, то цей захід є реальним геометричним відстанню між об'єктами в просторі (наче відстані між об'єктами виміряні рулеткою). Однак алгоритм об'єднання не" дбає» про те, чи є «надані» для цієї відстані справжніми або деякими іншими похідними заходами відстані, що більш значуще для дослідника; і завданням дослідників є підібрати правильний метод для специфічних застосувань.
Евклідова відстань
Це, мабуть, найбільш загальний тип відстані. Воно попросту є геометричним відстанню в багатовимірному просторі і обчислюється таким чином:
відстань (x, y)={i (xi - yi) 2} 1/2
Зауважимо, що евклідова відстань (і його квадрат) обчислюється за вихідними, а не за стандартизованими даними. Це звичайний спосіб його обчислення, який має певні переваги (наприклад, відстань між двома об'єктами не змінюється при введенні в аналіз нового об'єкта, який може виявитися викидом). Проте, на відстані можуть сильно впливати відмінності між осями, за координатами яких обчислюються ці відстані. Наприклад, якщо одна з осей виміряна в сантиметрах, а ви потім переведете її в міліметри (множачи значення на 10), то остаточне евклідова відстань (або квадрат евклидова відстані), звичІсляев за координатами, сильно зміниться, і, як наслідок, результати кластерного аналізу можуть сильно відрізнятися від попередніх.
Квадрат евклидова відстані
Іноді може виникнути бажання звести в квадрат стандартне евклідова відстань, щоб надати більші ваги більш віддаленим один від одного об'єктах. Це відстань обчислюється таким чином (див. також зауваження в попередньому пункті): відстань
(x, y)=i (xi - yi) 2
Відстань міських кварталів (Манхеттенський відстань)
Ця відстань є просто середнім різниць по координатах. У більшості випадків ця міра відстані призводить до таких же результатів, як і для звичайного відстані Евкліда. Проте відзначимо, що для цього запобіжного вплив окремих великих різниць (викидів) зменшується (так як вони не зводяться в квадрат). Манхеттенський відстань обчислюється за формулою: відстань
(x, y)=i | xi - yi |
Відстань Чебишева
Ця відстань може виявитися корисним, коли бажають визначити два об...