Зміст
1. Введення
2. Кластеризація
2.1. Загальні поняття
2.2. Цілі
2.3. Формальна постановка задачі.
2.4. Основні алгоритми
2.4.1. K-means
2.4.2. G-means
2.4.3. Мережі Кохонена
2.5. Проблеми алгоритмів
3. Середа RapidMiner
4. Постановка завдання
5. Реалізація
5.1. Підготовка вхідних даних
5.2. Вибір міри близькості
5.3. Вибір способу кластеризації
5.4. Оцінка якості кластеризації
5.5. Представлення та аналіз результатів
5.6. Перевірка результатів
6. Висновок
7. Список літератури
1. Введення
Методи Data Mining допомагають вирішити багато завдань, з якими стикається аналітик. Особливий інтерес до методів аналізу даних виник у зв'язку з розвитком засобів збору та зберігання даних, що дозволив накопичувати великі обсяги інформації. p align="justify"> Перед фахівцями з різних галузей людської діяльності постало питання про обробку даних, що збираються, перетворення їх у знання. Відомі статистичні методи покривають лише частину потреб з обробки даних, і для їх використання необхідно мати чітке уявлення про шуканих закономірностях. У такій ситуації методи інтелектуального аналізу даних набувають особливої вЂ‹вЂ‹актуальності. Їх основна особливість полягає у встановленні наявності та характеру прихованих закономірностей у даних, тоді як традиційні методи займаються головним чином параметричної оцінкою вже встановлених закономірностей. p align="justify"> Серед методів інтелектуального аналізу даних особливе місце займає кластеризація. Вона грунтується на встановленому відношенні схожості елементів, встановлює підмножини (кластери), в які групуються вхідні дані. У широкому колі завдань знайшли своє застосування методи нечіткої кластеризації, в яких елементи вхідного безлічі відносять до того чи іншого кластеру на підставі значення функції приналежності. p align="justify"> Перші публікації з кластерному аналізу з'явилися наприкінці 30-х рр.. минулого століття, але активний розвиток цих методів і їх широке використання почалося лише наприкінці 60-х - початку 70-х рр.. Надалі цей напрямок багатовимірного аналізу інтенсивно розвивалося. З'явилися нові методи, модифікації вже відомих алгоритмів, істотно розширилася сфера застосування кластерного аналізу. Якщо спочатку методи багатовимірної класифікації використовувалися в психології, археології, біології, то зараз вони стали активно застосовуватися в соціології, економіці, статистиці, в історичних дослідженнях. Особливо розширилося їх використання у зв'язку з появою і розвитком ЕОМ і, зокре...