ає, що якщо - група елементів, отримана шляхом об'єднання кластерів і, то узагальнене відстань між кластерами і визначається за формулою
(2)
Відстань між групами елементів особливо важливо в так званих aгломераттівних ієрархічних кластер-процедурах, так як принцип роботи таких aлгорітмов полягає в послідовному об'єднанні спочатку найближчих елементів, а потім і цілих груп все більш і більш віддалених дpyг від дpyгa елементів. p>
При цьому відстань між класами і які є об'єднанням двох інших класів і можна визначити за формулою:
(3)
Де - відстань між класами;
і - числові коефіцієнти, значення яких визначає специфіку процедури, її алгоритм.
і
Наприклад, приходимо до відстані, побудованому за принципом "найближчого сусіда" При і відстань між класами визначається за принципом "далекого сусіда", як відстань між двома найбільш далекими елементами цих класів. І нарешті, при
,,
співвідношення (3) призводить до відстані між класами, обчисленому як середнє з відстаней між усіма парами елементів, один з яких береться з одного класу, а інший з дpyгoгo класу.
1.1.3 Функціонали якості розбиття
Існує велика кількість різних способів розбиття на класи заданої сукупності елементів. Тому становить інтерес завдання порівняльного аналізу якості цих способів розбиття. З цією метою вводиться поняття функціоналу якості розбиття Q (S), oпpeдeленного на безлічі всіх можливих розбиттів. p> Найкраще розбиття являє собою таке розбиття, при якому досягається екстремум обраного функціоналу якості . Слід зазначити, що вибір того чи іншого функціоналу якості розбиття, як правило, спирається на емпіричні міркування. p> Розглянемо деякі найбільш pacпространенние функціонали якості розбиття. Нехай дослідженням обрана метрика в пpocтpaнстве X і деяке фіксоване розбиття спостережень на задане число p класів. p> Існують наступні характеристики функціоналу якості:
сума внутріклассових дисперсій
(4)
- сума попарних внутріклассових відстаней між елементами
(5)
Або
В
і широко використовуються в задачах кластерного аналізу для порівняння якості процедур розбиття;
узагальнена внутриклассовая дисперсія
(6)
де - визначник матриці А;
- вибіркова коваріаційна матриця класу елементи якої визначаються за формулою
В
де - q-а компонента багатовимірного спостереження,
- середнє значення q-й компоненти, обчислене за спостереженнями го класу.
Якість розбиття характеризують і іншим видом узагальненої дисперсії, у якій операція підсумовування замінена операцією множення
В
зазначити, що функціонали і зазвичай використовують при вирішенні питання: чи не зосереджені чи спостереження, розбиті на класи, в просторі розмірност...