нтелектуальний аналіз даних
рішення інформаційний дані управління
Термін інтелектуальний аналіз даних можна розуміти двояко. У вузькому сенсі це спроба адекватного російського перекладу терміна Data Mining, який ввів в ужиток Григорій Пятецкий-Шапіро в 1992 році. Відповідно до його визначення Data Mining - це процес виявлення в сирих даних раніше невідомих, нетривіальних, практично корисних, доступних інтерпретації знань, необхідних для прийняття рішень у різних сферах людської діяльності. Дослівний переклад розкопки (або видобуток) даних випливає, по всій видимості, вважати невдалим.
У широкому сенсі це сучасна концепція аналізу даних, припускає наступне:
· дані можуть бути неточними, неповними (містити пропуски), суперечливими, різнорідними, непрямими, і при цьому мати гігантські об'єми; тому розуміння даних в конкретних додатках вимагає значних інтелектуальних зусиль;
· самі алгоритми аналізу даних можуть володіти елементами інтелекту raquo ;, зокрема, здатністю навчатися по прецедентах, тобто робити загальні висновки на основі приватних спостережень; розробка таких алгоритмів також вимагає значних інтелектуальних зусиль;
· процеси переробки сирих даних в інформа?? ію, а інформації в знання вже не можуть бути виконані по старинці вручну, і вимагають нетривіальною автоматизації.
Необхідність інтелектуального аналізу даних виникла наприкінці XX століття в результаті повсюдного поширення інформаційних технологій, що дозволяють детально протоколювати процеси бізнесу і виробництва.
За складом вирішуваних завдань Data Mining практично не відрізняється від стандартного набору засобів, що застосовуються з середини XX століття в галузі прикладної статистики, машинного навчання (machine learning), інформаційного пошуку (information retrieval). Основна відмінність полягає в ефективності алгоритмів і технологічності їх застосування. Переважна більшість класичних процедур мають час виконання, квадратичне або навіть кубічне за обсягом вихідних даних. При кількості об'єктів, що перевершує кілька десятків тисяч, вони працюють неприйнятно повільно навіть на найсучасніших комп'ютерах. За останні десятиліття значні зусилля в області Data Mining були спрямовані на створення спеціалізованих алгоритмів, здатних виконувати ті ж завдання за лінійний або навіть логарифмічне час без істотної втрати точності.
Введемо визначення аналізу даних як такого. Основою для аналізу даних служить моделювання.
Побудова моделей є універсальним способом вивчення навколишнього світу.
Побудова моделей дозволяє виявляти залежності, витягувати нові знання, прогнозувати, управляти і вирішувати безліч інших завдань. Більшість економічних систем відносяться до категорії складних, тобто з великою кількістю елементів і складними зв'язками.
Розглянемо принципи побудови моделей:
· при аналізі відштовхуватися від досвіду експерта;
· розглядати проблему під різними кутами і комбінувати підходи;
· не прагнути до високої точності моделі, а рухатися від більш простих і грубих моделей до більш складних і точним;
· після часу і накопиченню нових відомостей потрібно повторювати цикл моделювання;
5. Методика вилучення знань
Discovery in Databases (KDD) - це процес пошуку корисних знань в сирих даних. KDD включає в себе питання: підготовки даних, вибору інформативних ознак, очищення даних, застосування методів Data Mining (DM), постобробки даних та інтерпретації отриманих результатів. Безумовно, серцем всього цього процесу є методи DM, що дозволяють виявляти знання. Цими знаннями можуть бути правила, що описують зв'язки між властивостями даних (дерева рішень), що часто зустрічаються шаблони (асоціативні правила), а також результати класифікації (нейронні мережі) і кластеризації даних (карти Кохонена) і т.д.Discovery in Databases не ставить набір методів обробки або придатні для аналізу алгоритми, він визначає послідовність дій, яку необхідно виконати для того, щоб з вихідних даних отримати знання. Даний підхід універсальний і не залежить від предметної області, що є його безсумнівним достоїнством. Deductor - повнофункціональна платформа для вирішення завдань Knowledge Discovery in Databases, що дозволяє провести всі вищеописані кроки.
Незважаючи на велику кількість різноманітних бізнес-завдань, майже всі вони вирішуються за єдиною методикою Knowledge Discovery in Databases. Вона описує не конкретний алгоритм або математичний апарат, а послідовність дій, яку необхідно виконати для побудови моделі (витяги знання). Дана методика...