Теми рефератів
> Реферати > Курсові роботи > Звіти з практики > Курсові проекти > Питання та відповіді > Ессе > Доклади > Учбові матеріали > Контрольні роботи > Методички > Лекції > Твори > Підручники > Статті Контакти
Реферати, твори, дипломи, практика » Курсовые обзорные » Пошук кластерів спільнот Live Journal за допомогою методів Data Mining в середовищі RapidMiner

Реферат Пошук кластерів спільнот Live Journal за допомогою методів Data Mining в середовищі RapidMiner





по тому, наскільки кластери відповідають даним, і зовнішню - по тому, наскільки кластери відповідають інформації, що не враховуються при їх побудові, але відомої фахівцям - такого роду інформація зазвичай представляється у вигляді розбиття.

Серед різноманіття різних індексів, що використовуються для валідації кластерів, найбільш популярним є індекс - Девіса Болдіна, який можна визначити наступним чином. Охарактеризуємо відносний розкид у двох кластерах як полусумму середніх відстаней їх елементів до центрів, поділену на відстань між центрами. Охарактеризуємо розкид кластера максимальною величиною його відносного розкиду (щодо інших кластерів). Тоді індекс Девіса - Болдіна - не що інше, як середній розкид кластерів. [10] [11]

Результати всіх виконаних обчислень оператором В«Loop ParametersВ» представлені в чисельному і графічному вигляді.


В 

Рис. 5.7. Обчислені значення індексів і параметрів


В 

Рис. 5.8. Графік розподілу середньої відстані між кластерами


В 

Рис. 5.9. Графік розподілу індексу Девіса - Болдіна


В 

Рис. 5.10. Графік розподілу даних по кластерах


В 

Рис. 5.11. Об'єднання попередніх трьох графіків


Провівши аналіз отриманих графіків, ми прийшли до висновку, що значення k = 6, є оптимальним числом для виділення кластерів у наших даних. Це підтверджується двома відомими емпіричними правилами вибору числа кластерів:

ВЁ Двох або трьох кластерів, як правило, недостатньо: кластеризація буде надто грубою, що приводить до втрати інформації про індивідуальні властивості об'єктів.

ВЁ Більше десяти кластерів не вкладається в В«число Міллера 7 В± 2В»: аналітику важко тримати в короткочасній пам'яті стільки кластерів. [4]

5.5 Представлення і аналіз результатів


Результатом кластерного аналізу є набір кластерів, що містять елементи вихідного безлічі. Кластерна модель повинна описувати як самі кластери, так і приналежність кожного об'єкта до одного з них. p align="justify"> Аналіз результатів кластеризації увазі вирішення таких питань: чи не є отримане розбиття на кластери випадковим; чи є розбиття надійним і стабільним на підвибірках даних; чи існує взаємозв'язок між результатами кластеризації та змінними, які не брали участь в процесі кластеризації ; чи можна інтерпретувати отримані результати кластеризації.


В 

Рис. 5.12. Результати кластерного розбиття <...


Назад | сторінка 13 з 18 | Наступна сторінка





Схожі реферати:

  • Реферат на тему: Структура і властивості малоатомних кластерів
  • Реферат на тему: Вивчення кластерів та їх властивостей в області хімії
  • Реферат на тему: Теоретико-методологічні засади формирование кластерів у економіці України
  • Реферат на тему: Фінансові інститути як базовий елемент розвитку регіональних галузевих клас ...
  • Реферат на тему: Створення системи національних кластерів як ключовий напрямок розвитку екон ...