нашої задачі.
5.3 Вибір способу кластеризації
Для кластеризації даних у RapidMiner був обраний найбільш поширений серед неієрархічних методів алгоритм k-середніх, також званий швидким кластерним аналізом. Принцип роботи алгоритму був коротко нами розглянуто в четвертому розділі другого розділу. br/>В
Рис. 5.3. Ланцюжок вузлів вирішення поставленого завдання
Перелічимо основні переваги і недоліки даного алгоритму.
Переваги: ​​
ВЁ простота використання;
ВЁ швидкість використання;
ВЁ зрозумілість і прозорість алгоритму.
Недоліки:
ВЁ занадто чутливий до викидів;
ВЁ може повільно працювати на великих базах даних;
ВЁ не в змозі вибрати автоматично оптимальне число кластерів.
5.4 Оцінка якості кластеризації
Для вирішення останньої проблеми у попередньому розділі, в середовищі RapidMiner був розроблений новий процес, що виконує оцінювання якості кластеризації за двома параметрами, виконаний на основі методу k-середніх шляхом перебору різного числа кластерів. Додатково в процес був включений оператор валідації. br/>В
Рис. 5.4. Загальний вид процесу оцінки якості кластеризації
Тут оператор В«Loop ParametersВ» представляє з себе сукупність функцій і підпроцесів з оцінки якості кластеризації на основі алгоритму k-means:
В
Рис. 5.5. Склад оператора В«Loop ParametersВ»
Короткий опис операторів:
ВЁ В«MultiplyВ» - створює копію вхідних даних на виході;
ВЁ В«ClusteringВ» - процес кластеризації алгоритмом k-means;
ВЁ В«DistanceВ» - оцінює середня відстань між кластерами шляхом обчислення середньої відстані між центроїди і всіма вхідними даними кластеру.
ВЁ В«DistributionВ» - оцінює розподіл даних по кластерах.
В
Рис. 5.6. Завдання параметрів в операторі В«Loop ParametersВ»
Валідація кластерів. Під валідацією кластерів розуміють перевірку їх обгрунтованості. Розрізняють два типи валідації: внутрішню -...