ся в кілька етапів. Спочатку за допомогою якого алгоритму Data Mining будується модель аналізованих даних - класифікатор. Потім класифікатор піддається навчанню. Іншими словами, перевіряється якість його роботи і, якщо воно незадовільно, відбувається додаткове навчання класифікатора. p align="justify"> Так продовжується до тих пір, поки не буде досягнутий необхідний рівень якості або не стане ясно, що обраний алгоритм не працює коректно з даними, або ж самі дані не мають структури, яку можна виявити. До цього типу завдань відносять задачі класифікації і регрессіі.learning об'єднує завдання, що виявляють описові моделі, наприклад закономірності в покупках, скоєних клієнтами великого магазину. Очевидно, що якщо ці закономірності є, то модель повинна їх представити і недоречно говорити про її навчанні. Звідси і назва - unsupervised learning. Перевагою таких завдань є можливість їх вирішення без будь-яких попередніх знань про аналізованих даних. До них відносяться кластеризація і пошук асоціативних правил. br/>
3. Задача класифікації і регресії
При аналізі часто потрібно визначити, до якого з відомих класів відносяться досліджувані об'єкти, тобто класифікувати їх. Наприклад, коли людина звертається в банк за наданням йому кредиту, банківський службовець повинен прийняти рішення: кредитоспроможний чи потенційний клієнт чи ні. Очевидно, що таке рішення приймається на підставі даних про досліджуваний об'єкт (у даному випадку - людині): його місце роботи, розмір заробітної плати, віці, склад сім'ї і т. п. У результаті аналізу цієї інформації банківський службовець повинен віднести людини до одного з двох відомих класів "кредитоспроможний" і "некредітоспособен".
Іншим прикладом задачі класифікації є фільтрація електронної пошти. У цьому випадку програма фільтрації повинна класифікувати вхідне повідомлення як спам (небажана електронна пошта) або як лист. Дане рішення приймається на підставі частоти появи в повідомленні певних слів (наприклад, імені одержувача, безособового звернення, слів і словосполучень: придбати, "заробити", "вигідну пропозицію" і т. п.). p align="justify"> У загальному випадку кількість класів у задачах класифікації може бути більше двох. Наприклад, в задачі розпізнавання образу цифр таких класів може бути 10 (за кількістю цифр в десятковій системі числення). У такій задачі об'єктом класифікації є матриця пікселів, що представляє образ розпізнаваної цифри. При цьому колір кожного пікселя є характеристикою аналізованого об'єкта. p align="justify"> У Data Mining завдання класифікації розглядають як завдання визначення 'значення одного з параметрів аналізованого об'єкта на підставі значень інших параметрів. Визначається параметр часто називають залежною змінною, а параметри, що залучені до його визначенні - незалежними змінними. У розглянутих прикладах незалежними змінними були: <...