Теми рефератів
> Реферати > Курсові роботи > Звіти з практики > Курсові проекти > Питання та відповіді > Ессе > Доклади > Учбові матеріали > Контрольні роботи > Методички > Лекції > Твори > Підручники > Статті Контакти
Реферати, твори, дипломи, практика » Курсовые обзорные » Пошук кластерів спільнот Live Journal за допомогою методів Data Mining в середовищі RapidMiner

Реферат Пошук кластерів спільнот Live Journal за допомогою методів Data Mining в середовищі RapidMiner





оміщають в різні кластери. [2] [3]


2.4 Основні алгоритми


За способом розбиття на кластери алгоритми бувають двох типів: ієрархічні і неієрархічні.

Класичні ієрархічні алгоритми працюють тільки з категорійними атрибутами, коли будується повне дерево вкладених кластерів. Тут поширені агломеративні методи побудови ієрархій кластерів - в них проводиться послідовне об'єднання вихідних об'єктів і відповідне зменшення числа кластерів. Ієрархічні алгоритми забезпечують порівняно високу якість кластеризації і не вимагають попереднього завдання кількості кластерів. Більшість з них мають складність. p> Неієрархічні алгоритми грунтуються на оптимізації деякої цільової функції, що визначає оптимальне в певному сенсі розбиття множини об'єктів на кластери. У цій групі популярні алгоритми сімейства k-середніх (k-means, fuzzy c-means, Густафсон-Кесселя), які в якості цільової функції використовують суму квадратів зважених відхилень координат об'єктів від центрів шуканих кластерів. Кластери шукаються сферичної або еліпсоїдної форми. У канонічній реалізації мінімізація функції проводиться на основі методу множників Лагранжа і дозволяє знайти тільки найближчий локальний мінімум. Використання методів глобального пошуку (генетичні алгоритми) значно збільшить обчислювальну складність алгоритму. p> Серед неієрархічних алгоритмів, не базованих на відстані, слід виділити EM-алгоритм (Expectation-Maximization). У ньому замість центрів кластерів передбачається наявність функції щільності ймовірності для кожного кластеру з відповідним значенням математичного очікування і дисперсією. [6]


.4.1 K-means

Однією з широко використовуваних методик кластеризації є розділова кластеризація , відповідно до якої для вибірки даних, що містить n записів, задається число кластерів k , яке має бути сформоване. Потім алгоритм розбиває всі об'єкти вибірки на k груп ( k ), які і являють собою кластери.

До найбільш простим і ефективним алгоритмам кластеризації відноситься k-means (k-середніх). Він складається з чотирьох кроків:

. Здається число кластерів k , яке має бути сформоване з об'єктів вихідної вибірки.

2. Випадковим чином вибирається k записів, які будуть служити початковими центрами кластерів. Початкові точки, з яких потім виростає кластер, часто називають В«насіннямВ». Кожна така запис являє со...


Назад | сторінка 5 з 18 | Наступна сторінка





Схожі реферати:

  • Реферат на тему: Генетичні алгоритми пошуку глобального екстремуму
  • Реферат на тему: Структура і властивості малоатомних кластерів
  • Реферат на тему: Вивчення кластерів та їх властивостей в області хімії
  • Реферат на тему: Теоретико-методологічні засади формирование кластерів у економіці України
  • Реферат на тему: Фінансові інститути як базовий елемент розвитку регіональних галузевих клас ...