осліджень вивчення результатів кластеризації, а саме з'ясування причин, з яких об'єкти об'єднуються в групи, здатне відкрити нові перспективні напрями. Традиційним прикладом, який зазвичай наводять для цього випадку, є періодична таблиця елементів. У 1869 р. Дмитро Менделєєв розділив 60 відомих у той час елементів на кластери або періоди. Елементи, що потрапили в одну групу, володіли схожими характеристиками. Вивчення причин, за якими елементи розбивалися на явно виражені кластери, в значній мірі визначило пріоритети наукових пошуків на роки вперед. Але лише через 50 років квантова фізика дала переконливі пояснення періодичної системи. p align="justify"> Кластеризація відрізняється від класифікації тим, що для проведення аналізу не потрібно мати виділену залежну змінну. З цієї точки зору вона відноситься до класу unsupervised learning. Це завдання вирішується на початкових етапах дослідження, коли про дані мало що відомо. Її рішення допомагає краще зрозуміти дані, і з цієї точки зору завдання кластеризації є описовою завданням. p align="justify"> Для задачі кластеризації характерна відсутність будь-яких відмінностей як між змінними, так і між об'єктами. Навпаки, шукаються групи найбільш близьких, схожих об'єктів. Методи автоматичного розбиття на кластери рідко використовуються самі по собі, просто для отримання груп схожих об'єктів. p align="justify"> Після визначення кластерів застосовуються інші методи Data Mining, для того щоб спробувати встановити, а що означає таке розбиття, чим воно викликане.
Кластерний аналіз дозволяє розглядати досить великий обсяг інформації і різко скорочувати, стискати великі масиви інформації, робити їх компактними і наочними.
Відзначимо ряд особливостей, властивих завданню кластеризації.
перше, рішення сильно залежить від природи об'єктів даних (і їх атрибутів). Так, з одного боку, це можуть бути однозначно визначені, чітко кількісно окреслені об'єкти, а з іншого - об'єкти, що мають імовірнісний або нечітке опис. p align="justify"> По-друге, рішення значно залежить також і від подання кластерів і передбачуваних відносин об'єктів даних і кластерів. Так, необхідно враховувати такі властивості, як можливість/неможливість приналежності об'єктів декільком кластерам. Необхідно визначення самого поняття приналежності кластеру: однозначна (належить/не належить), імовірнісна (ймовірність приналежності), нечітка (ступінь приналежності). br/>
Висновок
Mining включає величезний набір різних аналітичних процедур, що робить його недоступним для звичайних користувачів, які слабо розбираються в методах аналізу даних. Компанія StatSoft знайшла вихід і з цієї ситуації, даний пакет Statistica можуть використовувати як професіонали, так і звичайні користувачі, що володіють невеликими досвідом і знаннями в аналізі даних і математичній статистиці....