курсова робота присвячена пошуку кластерів спільнот Live Journal за допомогою методів і технологій Data Mining в середовищі RapidMiner.
У процесі досягнення поставленої мети були вирішені наступні завдання:
. Аналіз проблем, що виникають при застосуванні методів і алгоритмів кластеризації;
2. Вибір необхідних характеристик;
. Оцінка якості кластеризації при виборі оптимального рішення;
. Аналіз результатів кластеризації;
. Перевірка достовірності результатів кластерного рішення.
Підсумком виконаної роботи стали наступні висновки і практичні результати:
ВЁ Задача кластеризації полягає в поділі досліджуваної безлічі об'єктів на групи схожих об'єктів, званих кластерами;
ВЁ Для визначення В«схожостіВ» об'єктів вводиться міра близькості, звана відстанню;
ВЁ Результати кластеризації можуть бути представлені різними способами;
ВЁ Базові методи кластеризації діляться на ієрархічні й неієрархічні;
ВЁ Найбільш популярний з неіерархіческі' алгоритмів - алгоритм k-means, який в силу своїх достоїнств чудово підходить для оперованого числовими наборами даних у вирішенні завдань кластеризації, хоча і має свої недоліки . Одним з головних недоліків є вибір початкового числа кластерів. Для вирішення цієї проблеми в середовищі RapidMiner був розроблений спеціальний процес з оцінки якості кластеризації. Експериментальне дослідження, проведене з використанням даної середовища, підтвердило достовірність та ефективність результатів отриманих в роботі;
ВЁ Кластери являють собою якісь В«організмиВ», життя яких характеризується активністю їх В«клітинВ». В«КліткиВ» є безліч співтовариств мережі Live Journal, характеризуються різними параметрами, серед яких головну роль у визначенні В«активності клітиниВ» грає атрибут commget (кількість коментарів).
Дані отримані в ході аналізу можуть знайти свої застосування в рекламі, в соціальних опитуваннях, і PR-акціях для яких буде підібрана цільова аудиторія.
7. Список літератури
1. Чубукова І.А. Data Mining. Навчальний посібник. - М.: Інтернет-Університет Інформаційних технологій; БИНОМ. Лабораторія знань, 2006. p> 2. Методи і моделі аналізу даних OLAP і Data Mining: А.А. Барсегян, М.С. Купр...