для передбачення значень в нових наборах даних.
У другому випадку, метою є виявлення закономірностей, наявних в існуючому наборі даних. При цьому навчальна вибірка не потрібно. Перевагою таких завдань є можливість їх вирішення без будь-яких попередніх знань про аналізованих даних.
Завдання кластеризації полягає в пошуку незалежних груп та їх характеристик у всій безлічі аналізованих даних. Вирішення цього завдання допомагає краще зрозуміти дані. Угруповання однорідних об'єктів дозволяє скоротити їх число і полегшити аналіз.
Інша назва цього завдання - сегментація, розподіл безлічі об'єктів на групи, схожі за параметрами.
Рис. 8. Ілюстрація завдання кластеризації
Завдання визначення взаємозв'язків (завдання пошуку асоціативних правил) полягає у визначенні часто зустрічаються наборів об'єктів серед безлічі подібних наборів. Класичним прикладом є аналіз споживчого кошика.
Поставлені завдання за призначенням поділяються на описові та Предсказательная.
Описові (descriptive) завдання приділяють увагу поліпшенню розуміння аналізованих даних. Ключовий момент у таких моделях - легкість і прозорість результатів для сприйняття людиною. До такого виду завдань відносяться кластеризація і пошук асоціативних правил.
Рішення Предсказательная (predictive) завдань розбивається на два етапи. На першому етапі на підставі набору даних з відомими результатами будується модель. На другому етапі вона використовується для передбачення результатів на підставі нових наборів даних. При цьому потрібно, щоб побудовані моделі працювали максимально точно. До даного виду завдань відносять задачі класифікації і регресії.
Побудова моделі інтелектуального аналізу даних можна представити як послідовність наступних шести базових кроків.
1.Постановка завдання lt; # justify gt; Першим кроком інтелектуального аналізу даних є чітке визначення проблеми і розгляд способів використання даних для вирішення проблеми. Цей крок включає аналіз бізнес-вимог, визначення області проблеми, метрик, за якими буде виконуватися оцінка моделі, а також визначення завдань для проекту інтелектуального аналізу даних.
Рис. 9. Етапи інтелектуального аналізу даних
Другим кроком є ??об'єднання та очищення даних, визначених під час кроку. Постановка задачі. Очищення даних - це не тільки видалення неприпустимих даних або інтерполяція відсутніх значень, а й пошук в даних прихованих залежностей, визначення джерел найточніших даних і підбір стовпців, які найбільше підходять для використання в аналізі. Третім кроком процесу є перегляд підготовлених даних. Для прийняття правильних рішень при створенні моделей інтелектуального аналізу даних необхідно розуміти дані.
Четвертим кроком процесу є побудова моделей інтелектуального аналізу даних. Модель інтелектуального аналізу даних перед обробкою структури і моделі є просто контейнером, який задає стовпці, що використовуються для вхідних даних, прогнозований атрибут і параметри, керуючі алгоритмом обробки данних.Обработку моделі часто називають навчанням.
П'ятим кроком процесу є дослідження побудованих моделей інтелектуального аналізу даних і перевірка їх ефективності. Перед розгортанням моделі в робочому середовищі необхідно перевірити ефективність роботи моделі. Крім того, під час побудови моделі зазвичай створюється кілька моделей з різною конфігурацією, а потім перевіряються всі моделі, щоб визначити, яка з них забезпечує кращі результати для поставленого завдання і наявних даних.
Останнім кроком процесу є розгортання найбільш ефективних моделей в робочому середовищі. Після розгортання моделей інтелектуального аналізу даних в робочому середовищі можна виконувати безліч завдань, які відповідають потребам користувача.
1.3 Архітектура СУБД SQL Server
У SQL Server реалізовано кілька технологій управління та аналізу даних. На малюнку 10 схематично представлені компоненти СУБД MS SQL Server +2008.
Для багатовимірних даних (OLAP):
Служби MicrosoftSQL ServerAnalysis Services реалізують швидкий і зрозумілий аналіз великих кількостей даних. Також дозволяють проектувати, створювати і керувати багатовимірними структурами, які містять деталізують і статистичні дані з декількох джерел даних.
Рис. 10. Служби і компоненти СУБД MS SQL Server 2008
Логічна архітектура:
Служби MicrosoftSQL ServerAnalysis Services використовують як серверні, так і клієнтські компоненти для надання додаткам бізнес-аналітики функцій оперативної...