5.1 Підготовка вхідних даних
Реалізація поставленого завдання виконувалася в середовищі RapidMiner, коротко розглянутої нами в розділі 3.
Вихідні дані нашої задачі були представлені у вигляді числових і строкових типів даних, описують властивості об'єктів, записаних в таблицю, збережену в файлі Microsoft Access. Дані були імпортовані оператором В«Read AccessВ» за допомогою SQL-запиту в середу RapidMiner, де піддалися попередній обробці. Обробка полягала у видаленні всіх примірників з невідомими цілими або речовими ознаками. Отримані дані були записані у файл Microsoft Excel для подальшої роботи. br/>В
Рис. 5.1. Ланцюжок вузлів попередньої обробки
Наступним нашим кроком у процесі виконання завдання була форміровка робочого набору, що складається з наступних етапів:
. Завантаження раніше отриманого в ході попередньої обробки файлу даних;
2. Відбір вибірки для кластеризації.
У ході аналізу вхідних даних, ми прийшли до висновку, що доцільно вибрати числові атрибути: membernum , readernum , recnum , < i align = "justify"> commget і writernum , що описують властивості об'єктів.
Завантаження вихідних даних здійснювалася оператором В«Read ExcelВ», а вибір атрибутів - В«Select AttributesВ».
В
Рис. 5.2. Вибір необхідних атрибутів у властивостях оператора В«Select AttributesВ»
5.2 Вибір міри близькості
Як ми вже знаємо - завдання кластеризації полягає в поділі досліджуваної безлічі об'єктів на групи В«схожихВ» об'єктів, званими кластерами. Схожість об'єктів між собою визначається спеціальною величиною - мірою близькості, званої відстанню. p align="justify"> Для обчислення відстаней між об'єктами використовуються багато різних підходів, але до числових наборів даних найчастіше застосовується популярна метрика евклідова відстань, яке сприяє збільшенню контрастності кластерів:
.
Застосування евклидова відстані виправдано в наступних випадках:
ВЁ Властивості (ознаки) об'єкта однорідні за фізичним змістом і однаково важливі для класифікації;
ВЁ простору ознак збігається з геометричним простором. [2] [3]
Ця метрика добре підходить для вирішення ...