ваний, незрадлива, що підтримує хронологію набір даних, організований для цілей підтримки прийняття рішень" (WH Inmon. Building the Data Warehouse. - Wellesley, MA: QED Pub-lishing Group , 1992). Введення цього нового шару в архітектуру інформаційно-аналітичних програм було продиктовано не тільки міркуваннями концептуальної чистоти системи, а й невдалим досвідом реалізації систем аналізу безпосередньо в середовищі СУБД. Останні орієнтовані, як правило, на вирішення завдань оперативного збору інформації та підтримки транзакцій (OLTP), що, по-перше, обумовлює вибір певної моделі зберігання даних - реляційної, а, по-друге, призводить до того, що працююча OLTP система активно використовує всі обчислювальні ресурси. Обидва ці фактори, призводять до того, що аналітичні підсистеми, що вимагають очищених і, часом надлишкових, даних, а також значних обчислювальних ресурсів, працюють в системах, суміщених з OLTP незадовільно. Data Warehouse покликаний вирішити всі ці питання і стати основою для побудови системи аналізу даних. br/>
1. Що таке Data Mining
аналітичний кластеризація дані
Сучасний комп'ютерний термін Data Mining переводиться як В«інтелектуальний аналіз данихВ» або В«видобуток данихВ». Нерідко разом з Data Mining зустрічаються терміни Knowledge Discovery (В«виявлення знаньВ») і Data Warehouse (В«сховище данихВ»). Виникнення зазначених термінів, які є невід'ємною частиною Data Mining, пов'язано з новим витком у розвитку засобів і методів обробки та зберігання даних. Отже, мета Data Mining полягає у виявленні прихованих правил і закономірностей у великих (дуже великих) обсягах даних. p align="justify"> Справа в тому, що людський розум сам по собі не пристосований для сприйняття величезних масивів різнорідної інформації. У середньому людина, за винятком деяких індивідуумів, не здатен уловлювати більше двох-трьох взаємозв'язків навіть у невеликих вибірках. Але і традиційна статистика, довгий час претендувала на роль основного інструменту аналізу даних, так само нерідко пасує при вирішенні завдань з реального життя. Вона оперує усередненими характеристиками вибірки, які часто є фіктивними величинами (середньої платоспроможністю клієнта, коли залежно від функції ризику або функції втрат вам необхідно вміти прогнозувати спроможність і наміри клієнта; середньою інтенсивністю сигналу, тоді як вам цікаві характерні особливості та передумови піків сигналу і т . д.).
Тому методи математичної статистики виявляються корисними головним чином для перевірки заздалегідь сформульованих гіпотез, тоді як визначення гіпотези іноді буває досить складною і трудомістким завданням. Сучасні технології Data Mining переробляють інформацію з метою автоматичного пошуку шаблонів (патернів), характерних для будь-яких фрагментів неоднорідних багатовимірних даних. p align="justify"> На відміну від оперативної аналіти...