к званий політетіческій підхід. Всі групувальні ознаки одночасно беруть участь в угрупованні, тобто вони враховуються всі відразу при віднесенні спостереження в ту чи іншу групу. При цьому, як правило, не вказані чіткі межі кожної групи, а також невідомо заздалегідь, скільки ж груп доцільно виділити в досліджуваній сукупності.
Кластерний аналіз - один з напрямків статистичного дослідження. Особливо важливе місце він займає в тих галузях науки, які пов'язані з вивченням масових явищ і процесів. Необхідність розвитку методів кластерного аналізу та їх використання, продиктована насамперед тим, що вони допомагають побудувати науково обгрунтовані класифікації, виявити внутрішні зв'язки між одиницями спостерігається сукупності. Крім того, методи кластерного аналізу можуть використовуватися з метою стиснення інформації, що є важливим чинником в умовах постійного збільшення і ускладнення потоків статистичних даних.
Перші публікації по кластерному аналізу з'явилися наприкінці 30-х років нашого століття, але активний розвиток цих методів і їх широке використання почалося в кінці 60-х - початку 70-х років. Надалі цей напрямок багатовимірного аналізу дуже інтенсивно розвивалося. З'явилися нові методи, нові модифікації вже відомих алгоритмів, істотно розширилася сфера застосування кластерного аналізу. Якщо спочатку методи багатовимірної класифікації використовувалися в психології, археології, біології, то зараз вони стали активно застосовуватися в соціології, економіки, статистики, в історичних дослідженнях. Особливо розширилося їх використання у зв'язку з появою і розвитком ЕОМ і, зокрема, персональних комп'ютерів. Це пов'язано насамперед з трудомісткістю обробки великих масивів інформації (обчислення і звернення матриць великих розмірностей).
Методи кластерного аналізу дозволяють вирішувати наступні завдання:
проведення класифікації об'єктів з урахуванням ознак, що відображають сутність, природу об'єктів. Рішення такого завдання, як правило, призводить до поглиблення знань про сукупність класифікуються об'єктів;
перевірка висунутих припущень про наявність певної структури у досліджуваній сукупності об'єктів, тобто пошук існуючої структури;
побудова нових класифікацій для слабоізученних явищ, коли необхідно встановити наявність зв'язків усередині сукупності і спробувати привнести в неї структуру.
2.1.1 Ієрархічна дерево
Призначення цього алгоритму полягає в об'єднанні об'єктів у достатньо великі кластери, використовуючи деяку міру схожості або відстань між об'єктами. Розглянемо горизонтальну деревоподібну діаграму. Діаграма починається з кожного об'єкта в класі (в лівій частині діаграми). Тепер уявімо собі, що поступово (дуже малими кроками) ви «послабляєте» ваш критерій про те, які об'єкти є унікальними, а які ні. Іншими словами, ви знижуєте поріг, що відноситься до вирішення про об'єднання двох або більше об'єктів в один кластер.
Рис. 1 - Дендрограма ієрархічних угруповань
В результаті, ви пов'язуєте разом все більше і більше число об'єктів і поєднуєте все більше і більше кластерів, що складаються з все сильніше розрізняються елементів. Остаточно, на останньому кроці всі об'єкти об'єднуються разом. На цих діаграмах горизонтальні осі предс...