Реферат Пошук кластерів спільнот Live Journal за допомогою методів Data Mining в середовищі RapidMiner

Тема: Курсовые обзорные

нашої задачі.

5.3 Вибір способу кластеризації

Для кластеризації даних у RapidMiner був обраний найбільш поширений серед неієрархічних методів алгоритм k-середніх, також званий швидким кластерним аналізом. Принцип роботи алгоритму був коротко нами розглянуто в четвертому розділі другого розділу. br/>В

Рис. 5.3. Ланцюжок вузлів вирішення поставленого завдання

Перелічимо основні переваги і недоліки даного алгоритму.

Переваги: вЂ‹вЂ‹

ВЁ простота використання;

ВЁ швидкість використання;

ВЁ зрозумілість і прозорість алгоритму.

Недоліки:

ВЁ занадто чутливий до викидів;

ВЁ може повільно працювати на великих базах даних;

ВЁ не в змозі вибрати автоматично оптимальне число кластерів.

5.4 Оцінка якості кластеризації

Для вирішення останньої проблеми у попередньому розділі, в середовищі RapidMiner був розроблений новий процес, що виконує оцінювання якості кластеризації за двома параметрами, виконаний на основі методу k-середніх шляхом перебору різного числа кластерів. Додатково в процес був включений оператор валідації. br/>В

Рис. 5.4. Загальний вид процесу оцінки якості кластеризації

Тут оператор В«Loop ParametersВ» представляє з себе сукупність функцій і підпроцесів з оцінки якості кластеризації на основі алгоритму k-means:

Рис. 5.5. Склад оператора В«Loop ParametersВ»

Короткий опис операторів:

ВЁ В«MultiplyВ» - створює копію вхідних даних на виході;

ВЁ В«ClusteringВ» - процес кластеризації алгоритмом k-means;

ВЁ В«DistanceВ» - оцінює середня відстань між кластерами шляхом обчислення середньої відстані між центроїди і всіма вхідними даними кластеру.

ВЁ В«DistributionВ» - оцінює розподіл даних по кластерах.

Рис. 5.6. Завдання параметрів в операторі В«Loop ParametersВ»

Валідація кластерів. Під валідацією кластерів розуміють перевірку їх обгрунтованості. Розрізняють два типи валідації: внутрішню -...