ма, персональних комп'ютерів. p align="justify"> Задача кластеризації має різні способи рішення. Складність полягає у відсутності на момент початку аналізу якої додаткової інформації про дані. У зв'язку з цим можливе безліч рішень по потужності можна порівняти з вхідним безліччю, що на практиці неприйнятно. Для якісного і швидкого вирішення задачі кластеризації необхідні методики вибору найкращих рішень. p align="justify"> Метою даної роботи є виділення з досліджуваного безлічі об'єктів (спільнот) Live Journal груп схожих об'єктів на основі їх характеристик, та аналіз отриманих даних за допомогою методів і технологій Data Mining в середовищі RapidMiner.
У процесі досягнення поставленої мети вирішувалися такі завдання:
. Аналіз проблем, що виникають при застосуванні методів і алгоритмів кластеризації;
2. Вибір необхідних характеристик;
. Оцінка якості кластеризації при виборі оптимального рішення;
. Аналіз результатів кластеризації;
. Перевірка достовірності результатів кластерного рішення.
Методологічною базою з'явилися роботи за методами кластеризації, в тому числі присвячені практичним аспектам їх застосування. У роботі використано математичний апарат класичної теорії множин, математичної статистики, нейронних мереж, методи дискретної та обчислювальної математики. p align="center"> 2. Кластеризація
2.1 Загальні поняття
Однією з найважливіших завдань Data Mining є кластеризація - об'єднання об'єктів у групи на основі подібності їх ознак. Такі групи називаються кластерами. Попадання двох об'єктів в один кластер дозволяє припустити високу ступінь схожості їх властивостей, і навпаки, якщо об'єкти в результати кластеризації потрапили в різні кластери, то вони істотно відрізняються один від одного за своїми ознаками. p align="justify"> У результати кластеризації деякого безлічі даних формується певна кількість кластерів, що виражається у підсумковій моделі даних, яка є рішенням задачі кластеризації.
Задача кластеризації полягає в пошуку незалежних груп (кластерів) та їх характеристик у всій безлічі аналізованих даних. Вирішення цього завдання допомагає нам краще зрозуміти дані. Крім того, угрупування однорідних об'єктів дозволяє скоротити їх число, а, отже, і полегшити аналіз. br/>В
Рис. 2.1. Ілюстрація завдання кластеризації
кластеризації використовують, коли відсутні апріорні відомості щодо класів, до яких можна віднести об'єкти досліджуваного набору даних, або коли число об'єкт...