не залежить від предметної області, це набір атомарних операцій, комбінуючи які, можна отримати потрібне рішення. Виглядає вона приблизно як зображено на схемі нижче.
Рис. 1.1 Методика вилучення знань
З даного малюнка випливає, що методика вилучення знань складається з наступних етапів:
) KDD - вибірка даних
Першим кроком в аналізі є отримання вихідної вибірки. На основі цих даних і будуються моделі. На цьому кроці необхідно активну участь експерта для висунення гіпотез та відбору факторів, що впливають на аналізований процес. Бажано, щоб дані були вже зібрані і консолідовані. Вкрай необхідна наявність зручних механізмів підготовки вибірки. Найчастіше в якості джерела рекомендовано використовувати спеціалізоване сховище даних, агрегує всю необхідну для аналізу інформацію.
2) KDD - очищення даних
Реальні дані для аналізу рідко бувають хорошої якості. Необхідність попередньої обробки при аналізі даних виникає незалежно від того, які технології і алгоритми використовуються. Більше того, ця задача може представляти самостійну цінність в областях, що не мають безпосереднього відношення до аналізу даних. До завдань очищення даних відносяться такі як: заповнення пропусків, редагування аномалій, згладжування, виявлення дублікатів і протиріч та інші.
3) KDD - трансформація даних
Трансформація даних - останній етап перед, власне, аналізом. Справа в тому, що різні алгоритми аналізу вимагають спеціальним чином підготовлені дані, наприклад, для прогнозування необхідно перетворити часовий ряд за допомогою ковзного вікна або обчислення агрегіруемих показників. До завдань трансформації даних відносяться: ковзне вікно, приведення типів, виділення часових інтервалів, перетворення безперервних значень в дискретні і навпаки, сортування, угруповання та інше.
4) KDD - Data Mining (завдання)
Data Mining - це процес виявлення в сирих даних раніше невідомих нетривіальних, практично корисних і доступних інтерпретації знань, необхідних для прийняття рішень у різних сферах людської діяльності. Інформація, знайдена в процесі застосування методів Data Mining, повинна бути нетривіальною і раніше невідомої, наприклад, середні продажу не є такими. Знання повинні описувати нові зв'язки між властивостями, пророкувати значення одних ознак на основі інших.
Розглянемо технологію постановки завдання:
Спочатку, завдання ставиться таким чином:
§ є достатньо велика база даних;
§ передбачається, що в базі даних перебувають якісь приховані знання raquo ;.
Необхідно розробити методи виявлення знань, прихованих у великих обсягах вихідних сирих даних.
Що означає приховані знання raquo ;? Це повинні бути обов'язково знання:
§ раніше не відомі - тобто такі знання, які повинні бути новими (а не підтверджуючими якісь раніше отримані відомості);
§ нетривіальні - тобто такі, які не можна просто так побачити (при безпосередньому візуальному аналізі даних або при обчисленні простих статистичних характеристик);
§ практично корисні - тобто такі знання, які представляють цінність для дослідника чи споживача;
§ доступні для інтерпретації - тобто такі знання, які легко представити в наочній для користувача формі і легко пояснити в термінах предметної області.
Цими вимоги багато в чому визначають суть методів Data mining і те, в якому вигляді і в якому співвідношенні в технології Data mining використовуються системи управління базами даних, статистичні методи аналізу і методи штучного інтелекту.
Розглянемо поняття Data mining і бази даних:
Методи Data mining має сенс застосовувати тільки для досить великих баз даних. У кожній конкретній галузі досліджень існує свій критерій великості бази даних. Розвиток технологій баз даних спочатку привело до створення спеціалізованої мови - мови запитів до баз даних. Для реляційних баз даних - це мова SQL, який надав широкі можливості для створення, зміни та вилучення збережених даних. Потім виникла необхідність в отриманні аналітичної інформації (наприклад, інформації про діяльність підприємства за визначений період), і тут виявилося, що традиційні реляційні бази даних, добре пристосовані, наприклад, для ведення оперативного обліку (на підприємстві), погано пристосовані для проведення аналізу. Це призвело, у свою чергу, до створення т.зв. сховищ даних raquo ;, сама структура яких найкращим способом відповідає проведенню всебічного математичного аналізу.
...