ів велике, що ускладнює їх ручний аналіз.
Для задачі кластеризації характерна відсутність будь-яких відмінностей, як між змінними, так і між об'єктами. Навпаки, шукаються групи найбільш близьких, схожих об'єктів. Методи автоматичного розбиття на кластери рідко використовуються самі по собі, а тільки для одержання груп схожих об'єктів. Після визначення кластерів використовуються інші методи Data Mining, щоб спробувати встановити, що означає таке розбиття і чим воно викликане. p align="justify"> Відзначимо ряд особливостей, властивих завданню кластеризації.
перше, рішення сильно залежить від природи об'єктів даних (і їх атрибутів). Так, з одного боку, це можуть бути однозначно визначені, кількісно окреслені об'єкти, а з іншого - об'єкти, що мають імовірнісний або нечітке опис. p align="justify"> друге, рішення в значній мірі залежить і від подання кластерів і передбачуваних відносин об'єктів даних і кластерів. Так, необхідно враховувати такі властивості, як можливість/неможливість приналежності об'єктів до кількох кластерам. Необхідно визначення самого поняття приналежності кластеру: однозначна (належить/не належить), імовірнісна (ймовірність приналежності), нечітка (ступінь приналежності). [2] [3] [4] [5]
2.2 Цілі
Цілі кластеризації в Data Mining можуть бути різними і залежать від конкретної розв'язуваної задачі. Розглянемо ці завдання. p align="justify"> ВЁ Вивчення даних. Розбиття множини об'єктів на групи допомагає виявити внутрішні закономірності, збільшити наочність представлення даних, висунути нові гіпотези , зрозуміти, наскільки інформативні властивості об'єктів.
ВЁ Полегшення аналізу. За допомогою кластеризації можна спростити подальшу обробку даних та побудова моделей: кожен кластер обробляється індивідуально, і модель створюється для кожного кластера окремо. У цьому сенсі кластеризація може розглядатися як підготовчий етап перед рішенням інших завдань Data Mining: класифікації, регресії, асоціації, послідовних шаблонів.
ВЁ Стиснення даних. У разі, коли дані мають великий обсяг, кластеризація дозволяє скоротити обсяг збережених даних, залишивши по одному найбільш типовому представникові від кожного кластера.
ВЁ Прогнозування. Кластери використовуються не тільки для компактного представлення об'єктів, а й для розпізнавання нових. Кожен новий об'єкт належить до того кластеру, приєднання до якого найкращим чином задовольняє критерію якості кластеризації. Значить, можна прогнозувати поведінку об'єкта, припустивши, що воно буде схожим з поведінкою інших об'єктів клас...