Теми рефератів
> Реферати > Курсові роботи > Звіти з практики > Курсові проекти > Питання та відповіді > Ессе > Доклади > Учбові матеріали > Контрольні роботи > Методички > Лекції > Твори > Підручники > Статті Контакти
Реферати, твори, дипломи, практика » Курсовые обзорные » Пошук кластерів спільнот Live Journal за допомогою методів Data Mining в середовищі RapidMiner

Реферат Пошук кластерів спільнот Live Journal за допомогою методів Data Mining в середовищі RapidMiner





тера.

ВЁ Виявлення аномалій. Кластеризація застосовується для виділення нетипових об'єктів. Це завдання також називають виявленням аномалій (outlier detection). Інтерес тут представляють кластери (групи), в які потрапляє вкрай мало, скажімо один-три, об'єктів. [2] [3] [4]


2.3 Формальна постановка задачі


Дано - набір даних з наступними властивостями:

ВЁ кожен екземпляр даних виражається чітким числовим значенням;

ВЁ клас для кожного конкретного екземпляра даних невідомий.

Знайти:

ВЁ спосіб порівняння даних між собою (міру подібності);

ВЁ спосіб кластеризації;

ВЁ розбивка даних по кластерах.

Формально завдання кластеризації описується таким чином.

Дано безліч об'єктів даних I , кожен з яких представлений набором атрибутів. Потрібно побудувати безліч кластерів C і відображення F безлічі I на безліч C , тобто F: I? C . Відображення F задає модель даних, яка є рішенням задачі. Якість рішення задачі визначається кількістю вірно класифікованих об'єктів даних. кластеризація rapidminer алгоритм програма

Безліч I визначимо наступним чином:


,


де - досліджуваний об'єкт.

Кожен з об'єктів характеризується набором параметрів:


.


Кожна змінна може приймати значення з деякої безлічі:


.


Задача кластеризації полягає в побудові множини:


,


Тут - кластер, що містить схожі один на одного об'єкти з безлічі I :


,

де - величина, що визначає міру близькості для включення об'єктів в один кластер; - міра близькості між об'єктами, звана відстанню.

Невід'ємне значення називається відстанню між елементами і, якщо виконуються наступні умови:


.

.

.

.


Якщо відстань менше деякого значення, то говорять, що елементи близькі і поміщаються в один кластер. В іншому випадку говорять, що елементи відмінні один від одного і їх п...


Назад | сторінка 4 з 18 | Наступна сторінка





Схожі реферати:

  • Реферат на тему: Практична обробка безлічі даних, що представляють собою масив покажчиків на ...
  • Реферат на тему: Уявлення китайських і російських студентів один про одного, як про суб' ...
  • Реферат на тему: Розробка додатків на мові VBA в середовищі MS EXCEL з обробки даних для зад ...
  • Реферат на тему: Створення об'єктів баз даних
  • Реферат на тему: Користувальницький інтерфейс програми кластеризації даних