Розглянемо поняття Data mining і статистика:
В основі методів Data mining лежать математичні методи обробки даних, включаючи і статистичні методи. У промислових рішеннях, нерідко, такі методи безпосередньо включаються в пакети Data mining. Однак, слід враховувати, що статистичні методи, по-перше, грунтуються на статистичній природі аналізованих явищ (наприклад, зазвичай постулюють форму розподілу випадкової величини), а, по-друге, результати статистичних методів, як правило, є тривіальними (легко розраховуються), практично марними (наприклад, всілякі середні) і важко інтерпретуються (ті ж середні), що повністю розходиться з цілями і завданнями Data mining. Тим не менш, статистичні методи використовуються, але їх застосування обмежується виконанням тільки певних етапів дослідження.
Розглянемо поняття Data mining і штучний інтелект:
Знання, що видобуваються методами Data mining прийнято представляти у вигляді моделей. В якості таких моделей виступають:
§ асоціативні правила;
§ дерева рішень;
§ кластери;
§ математичні функції.
Методи побудови таких моделей прийнято відносити до області т.зв. штучного інтелекту raquo ;. Завдання, які вирішуються методами Data Mining, прийнято розділяти на:
§ описові (англ. descriptive);
§ Предсказательная (англ. predictive).
У описових завданнях найголовніше - це дати наочне опис наявних прихованих закономірностей, у той час як в Предсказательная завданнях на першому плані стоїть питання про пророкування для тих випадків, для яких даних ще немає.
До описовим завдань відносяться:
1. Пошук асоціативних правил або патернів (зразків).
2. Угруповання об'єктів або кластеризація.
. Побудова регресійної моделі.
До самий корінь завдань відносяться:
1. Класифікація об'єктів (для заздалегідь заданих класів).
2. Побудова регресійної моделі.
Для задач класифікації характерно навчання з учителем raquo ;, при якому побудова (навчання) моделі проводиться за вибіркою, що містить вхідні і вихідні вектори.
Для завдань кластеризації та асоціації застосовується навчання без учителя raquo ;, при якому побудова моделі проводиться за вибіркою, в якій немає вихідного параметра. Значення вихідного параметра ( відноситься до кластеру ... raquo ;, схожий на вектор ... ) підбирається автоматично в процесі навчання.
Для завдань скорочення опису характерно відсутність поділу на вхідні і вихідні вектори. Починаючи з класичних робіт К. Пірсона за методом головних компонент, основна увага приділяється апроксимації даних.
Виділяється типовий ряд етапів вирішення завдань методами Data Mining:
1. Формування гіпотези;
2. Збір даних;
. Підготовка даних (фільтрація);
. Вибір моделі;
. Підбір параметрів моделі і алгоритму навчання;
. Навчання моделі (автоматичний пошук решти параметрів моделі);
. Аналіз якості навчання, якщо незадовільний перехід на п. 5 або п. 4;
. Аналіз виявлених закономірностей, якщо незадовільний перехід на п. 1, 4 або 5.
Розглянемо основні етапи підготовки даних:
Перед використанням алгоритмів Data Mining необхідно провести підготовку набору аналізованих даних. Так як ІАД може виявити тільки присутні в даних закономірності, вихідні дані з одного боку повинні мати достатній обсяг, щоб ці закономірності в них були присутні, а з іншого - бути досить компактними, щоб аналіз зайняв прийнятний час. Найчастіше в якості вихідних даних виступають сховища або вітрини даних. Підготовка необхідна для аналізу багатовимірних даних до кластеризації або інтелектуального аналізу даних. Далі дані очищаються. Очищення видаляє вибірки з шумами і пропущеними даними. Очищені дані зводяться до векторів ознак, один вектор на вибірку. Вектор ознак - це сумарна версія сирих даних вибірки. Наприклад, чорно-біле зображення особи розміром 100? 100 пікселів містить 10 тис. Біт сирих даних. Вони можуть бути перетворені в вектор ознак шляхом виявлення в зображенні очей і рота. У результаті відбувається зменшення обсягу даних з 10 тис. Біт до списку кодів положення, значно зменшуючи обсяг аналізованих даних, а значить і час аналізу. Вибір функції буде залежати від того, що є метою аналізу; вибір правильної функції має основоположне значення для успішного і...