Теми рефератів
> Реферати > Курсові роботи > Звіти з практики > Курсові проекти > Питання та відповіді > Ессе > Доклади > Учбові матеріали > Контрольні роботи > Методички > Лекції > Твори > Підручники > Статті Контакти
Реферати, твори, дипломи, практика » Курсовые обзорные » Пошук кластерів спільнот Live Journal за допомогою методів Data Mining в середовищі RapidMiner

Реферат Пошук кластерів спільнот Live Journal за допомогою методів Data Mining в середовищі RapidMiner





нашої задачі.


5.3 Вибір способу кластеризації


Для кластеризації даних у RapidMiner був обраний найбільш поширений серед неієрархічних методів алгоритм k-середніх, також званий швидким кластерним аналізом. Принцип роботи алгоритму був коротко нами розглянуто в четвертому розділі другого розділу. br/>В 

Рис. 5.3. Ланцюжок вузлів вирішення поставленого завдання


Перелічимо основні переваги і недоліки даного алгоритму.

Переваги: ​​

ВЁ простота використання;

ВЁ швидкість використання;

ВЁ зрозумілість і прозорість алгоритму.

Недоліки:

ВЁ занадто чутливий до викидів;

ВЁ може повільно працювати на великих базах даних;

ВЁ не в змозі вибрати автоматично оптимальне число кластерів.

5.4 Оцінка якості кластеризації


Для вирішення останньої проблеми у попередньому розділі, в середовищі RapidMiner був розроблений новий процес, що виконує оцінювання якості кластеризації за двома параметрами, виконаний на основі методу k-середніх шляхом перебору різного числа кластерів. Додатково в процес був включений оператор валідації. br/>В 

Рис. 5.4. Загальний вид процесу оцінки якості кластеризації


Тут оператор В«Loop ParametersВ» представляє з себе сукупність функцій і підпроцесів з оцінки якості кластеризації на основі алгоритму k-means:


В 

Рис. 5.5. Склад оператора В«Loop ParametersВ»


Короткий опис операторів:

ВЁ В«MultiplyВ» - створює копію вхідних даних на виході;

ВЁ В«ClusteringВ» - процес кластеризації алгоритмом k-means;

ВЁ В«DistanceВ» - оцінює середня відстань між кластерами шляхом обчислення середньої відстані між центроїди і всіма вхідними даними кластеру.

ВЁ В«DistributionВ» - оцінює розподіл даних по кластерах.

В 

Рис. 5.6. Завдання параметрів в операторі В«Loop ParametersВ»


Валідація кластерів. Під валідацією кластерів розуміють перевірку їх обгрунтованості. Розрізняють два типи валідації: внутрішню -...


Назад | сторінка 12 з 18 | Наступна сторінка





Схожі реферати:

  • Реферат на тему: Користувальницький інтерфейс програми кластеризації даних
  • Реферат на тему: Кластерний аналіз і метод гірської кластеризації
  • Реферат на тему: Підхід &Шість сигма&: ідентифікація рівня аналітичних помилок клінічних лаб ...
  • Реферат на тему: Розробка алгоритму роботи синтаксичного аналізатора тексту, а також бази да ...
  • Реферат на тему: Пошук найкоротшого шляху між парами вершин в орієнтованому і неориентирован ...