е з поняттям класифікації. Якщо відомо кількість груп, які утворюють розбиття, то кластеризація називається класифікацією в широкому сенсі. Під класифікацією у вузькому сенсі розуміється процедура віднесення заданого об'єкта до якої-небудь групи.
Дослідження методів класифікації/кластеризації, заснованих на знаннях, отриманих від експертів, в комбінації з спостерігаються даними, є перспективним напрямком для вирішення подібних завдань. Невід'ємною частиною експертних систем, призначених для класифікації/кластеризації, є база знань. Саме база знань враховує специфіку предметної області. Кожна база знань спирається на модель представлення знань. Ефективним способом представлення експертних знань є продукційні правила, а експертні системи, засновані на продукционной моделі, називають продукційними.
Експертні системи для підтримки прийняття рішень знаходять широке застосування в медицині та економіці. В даний час з'являються пакети програм для побудови нечітких експертних систем. Вони застосовуються в автомобільній, аерокосмічній і транспортної промисловості, в області виробів побутової техніки, у сфері фінансів, аналізу та прийняття управлінських рішень та багатьох інших.
1.1.1 Методи рішення задач класифікації/кластеризації
Загальноприйнятою класифікації методів кластеризації не існує, але можна виділити ряд груп підходів (деякі методи можна віднести відразу до декількох груп і тому пропонується розглядати дану типізацію як деяке наближення до реальної класифікації методів кластеризації) [1]:
1. Імовірнісний підхід. Передбачається, що кожен даний об'єкт відноситься до одного з k класів. Деякі автори (наприклад, А. І. Орлов) вважають, що дана група зовсім не відноситься до кластеризації і протиставляють її під назвою «дискримінація», тобто вибір віднесення об'єктів до однієї з відомих груп (навчальних вибірок).
- K-середніх (K-means) [14]
- K-medians [15]
- EM-алгоритм
- Алгоритми сімейства FOREL [16]
- Дискримінантний аналіз
2. Підходи на основі систем штучного інтелекту.
- Метод нечіткої кластеризації C-середніх (C-means)
- Нейронна мережа Кохонена
- Генетичний алгоритм
3. Логічний підхід. Побудова дендрограмми здійснюється за допомогою дерева рішень.
4. Графові алгоритми кластеризації
. Ієрархічний підхід. Передбачається наявність вкладених груп (кластерів різного порядку). Алгоритми в свою чергу поділяються на агломеративні (об'єднавчі) і дівізівние (розділяють). За кількістю ознак іноді виділяють монотетіческіе і політетіческіе методи класифікації.
6. Інші методи, які не ввійшли в попередні групи.
- Статистичні алгоритми кластеризації
- Ансамбль кластерізаторов
- Алгоритми сімейства KRAB
- Алгоритм, заснований на методі просіювання
- DBSCAN та ін.
1.1.2 Класифікація/кластеризація в пакетах прикладних програм
У таблиці 1 представлений список прикладів програмних пакетів, що реалізують класифікацію/кластеризацию.
Таблиця 1 - Класифікація/кластеризація в пакетах прикладних програм.
SAS (SAS Institute), 1982Настраіваемая система для управління ризиками, маркетингом. Використовується для вирішення ряду завдань: - управління маркетинговими ресурсами - прогнозування попиту - аналіз клієнтурної бази [10] .SPSS (SPSS, 1984) Статистичний пакет для соціальних наук [11] .BMDP (Dixon, 1983) Статистичний пакет для біомедичних застосувань [12].CLUSTAN (Wishart, 1982) Включає одинадцятій процедур, які містять сімейства методів кластеризації [12] .STATISTICAПрограммний пакет для статистичного аналізу, що реалізує функції аналізу даних, управління даними, видобутку та візуалізації даних [11] .MATLABСодержіт інструмент Fuzzy Logic Toolbox, для побудови та аналізу нечітких множин [11].
1.2 Критерій якості класифікації/кластеризації
Критерієм якості класифікації/кластеризації є її точність. Оцінка точності класифікації може проводитися за допомогою крос-перевірки. Крос-перевірка (Cross-validation) - це процедура оцінки точності класифікації на даних з тестового безлічі, яке також називають крос-перевірочним безліччю. Точність класифікації тестового безлічі порівнюється з точністю класифікації навчальної множини. Якщо класифікація тестового множини дає приблизно такі ж результати по точності, як і клас...