Теми рефератів
> Реферати > Курсові роботи > Звіти з практики > Курсові проекти > Питання та відповіді > Ессе > Доклади > Учбові матеріали > Контрольні роботи > Методички > Лекції > Твори > Підручники > Статті Контакти
Реферати, твори, дипломи, практика » Курсовые обзорные » Пошук кластерів спільнот Live Journal за допомогою методів Data Mining в середовищі RapidMiner

Реферат Пошук кластерів спільнот Live Journal за допомогою методів Data Mining в середовищі RapidMiner





5.1 Підготовка вхідних даних


Реалізація поставленого завдання виконувалася в середовищі RapidMiner, коротко розглянутої нами в розділі 3.

Вихідні дані нашої задачі були представлені у вигляді числових і строкових типів даних, описують властивості об'єктів, записаних в таблицю, збережену в файлі Microsoft Access. Дані були імпортовані оператором В«Read AccessВ» за допомогою SQL-запиту в середу RapidMiner, де піддалися попередній обробці. Обробка полягала у видаленні всіх примірників з невідомими цілими або речовими ознаками. Отримані дані були записані у файл Microsoft Excel для подальшої роботи. br/>В 

Рис. 5.1. Ланцюжок вузлів попередньої обробки


Наступним нашим кроком у процесі виконання завдання була форміровка робочого набору, що складається з наступних етапів:

. Завантаження раніше отриманого в ході попередньої обробки файлу даних;

2. Відбір вибірки для кластеризації.

У ході аналізу вхідних даних, ми прийшли до висновку, що доцільно вибрати числові атрибути: membernum , readernum , recnum , < i align = "justify"> commget і writernum , що описують властивості об'єктів.

Завантаження вихідних даних здійснювалася оператором В«Read ExcelВ», а вибір атрибутів - В«Select AttributesВ».

В 

Рис. 5.2. Вибір необхідних атрибутів у властивостях оператора В«Select AttributesВ»


5.2 Вибір міри близькості


Як ми вже знаємо - завдання кластеризації полягає в поділі досліджуваної безлічі об'єктів на групи В«схожихВ» об'єктів, званими кластерами. Схожість об'єктів між собою визначається спеціальною величиною - мірою близькості, званої відстанню. p align="justify"> Для обчислення відстаней між об'єктами використовуються багато різних підходів, але до числових наборів даних найчастіше застосовується популярна метрика евклідова відстань, яке сприяє збільшенню контрастності кластерів:


.


Застосування евклидова відстані виправдано в наступних випадках:

ВЁ Властивості (ознаки) об'єкта однорідні за фізичним змістом і однаково важливі для класифікації;

ВЁ простору ознак збігається з геометричним простором. [2] [3]

Ця метрика добре підходить для вирішення ...


Назад | сторінка 11 з 18 | Наступна сторінка





Схожі реферати:

  • Реферат на тему: Розробка додатків на мові VBA в середовищі MS EXCEL з обробки даних для зад ...
  • Реферат на тему: Обробка та аналіз даних за допомогою Microsoft Excel
  • Реферат на тему: Обробка даних за допомогою комп'ютера в середовищі MS Excel
  • Реферат на тему: Комп'ютерні дані: типи даних, обробка та управління
  • Реферат на тему: Етапи розробки бази даних у середовищі Microsoft Access 2003