тера.
ВЁ Виявлення аномалій. Кластеризація застосовується для виділення нетипових об'єктів. Це завдання також називають виявленням аномалій (outlier detection). Інтерес тут представляють кластери (групи), в які потрапляє вкрай мало, скажімо один-три, об'єктів. [2] [3] [4]
2.3 Формальна постановка задачі
Дано - набір даних з наступними властивостями:
ВЁ кожен екземпляр даних виражається чітким числовим значенням;
ВЁ клас для кожного конкретного екземпляра даних невідомий.
Знайти:
ВЁ спосіб порівняння даних між собою (міру подібності);
ВЁ спосіб кластеризації;
ВЁ розбивка даних по кластерах.
Формально завдання кластеризації описується таким чином.
Дано безліч об'єктів даних I , кожен з яких представлений набором атрибутів. Потрібно побудувати безліч кластерів C і відображення F безлічі I на безліч C , тобто F: I? C . Відображення F задає модель даних, яка є рішенням задачі. Якість рішення задачі визначається кількістю вірно класифікованих об'єктів даних. кластеризація rapidminer алгоритм програма
Безліч I визначимо наступним чином:
,
де - досліджуваний об'єкт.
Кожен з об'єктів характеризується набором параметрів:
.
Кожна змінна може приймати значення з деякої безлічі:
.
Задача кластеризації полягає в побудові множини:
,
Тут - кластер, що містить схожі один на одного об'єкти з безлічі I :
,
де - величина, що визначає міру близькості для включення об'єктів в один кластер; - міра близькості між об'єктами, звана відстанню.
Невід'ємне значення називається відстанню між елементами і, якщо виконуються наступні умови:
.
.
.
.
Якщо відстань менше деякого значення, то говорять, що елементи близькі і поміщаються в один кластер. В іншому випадку говорять, що елементи відмінні один від одного і їх п...