зокрема - огляд оперативного аналізу даних, побудованого на базі OLAP, і інтелектуального аналізу даних, для реалізації якого може бути використаний Data Mining, і вказана основна їх мета і перевага. Розглядається концепція сховищ даних та їх класифікація з коротким оглядом.
У першій частині роботи наведена докладна архітектура СУБД для поліпшення розуміння процесів.
Також наведено детальний опис моделей, використовувані засобами СУБД SQL Server. У даному розділі детально розповідається про методах та алгоритмах, закладених в аналізі даних, а також їх формалізація. Саме наведені й розглянуті майкрософтовського алгоритми інтелектуального аналізу даних.
Формальне представлення задачі класифікації і регресії:
,
де атрибути-незалежні змінні,
залежна.
Формальне представлення задачі кластеризації:
- досліджуваний об'єкт; набір параметрів.
, - кластер, що містить схожі один на одного об'єкти з безлічі:
.
Формальне представлення задачі пошуку асоціативних правил:
, - об'єкти, що входять в аналізовані набори;- Загальна кількість об'єктів.
, безліч транзакцій, в які входить об'єкт.
При пошуку асоціативних правил потрібно знайти безліч всіх частих наборів:
.
Наступна глава буде присвячена розділу з мовними засобами для СУБД SQL Server.
2. Мовні засоби бізнес-аналітики: мови MDX і DMX
. 1 Базові поняття мови MDX
(MultiDimensional eXpressions - мова багатовимірних виразів) є мовою запитів, використовуваним для отримання даних з багатовимірних баз даних. Він використовується для запиту даних з баз даних OLAP за допомогою Analysis. Спочатку MDX був розроблений компанією Microsoft і був введений в 1998 році.
Основою багатовимірної бази даних є куб. Кожен куб зазвичай містить більше двох вимірювань. Куб Adventure Works в навчальній базі даних містить 21 вимір.
Об'єкт Measures (розмірності) являє собою спеціальне вимір, який є набором розмірностей. Розмірності є кількісними сутностями, які використовуються для аналізу. Кожна розмірність являє собою частину категорії, яка називається розмірної групою (measure group). Розмірні групи використовуються інструментами розробки або клієнтськими інструментами головним чином для навігаційних цілей, щоб поліпшити читабельність або полегшити використання кінцевим користувачам. Вони ніколи не використовуються в запитах MDX при зверненні до размерностям. Тим не менш, вони можуть використовуватися в певних функціях MDX. За замовчуванням служба аналізу генерує розмірну групу для кожної таблиці фактів.
Кожна ієрархія вимірювання містить один або декілька елементів, званих членами (members). Кожен член відповідає одному або декільком входженням цього значення в базову таблицю вимірювань.
У MDX кожен член ієрархії представлений унікальним ім'ям. Унікальні імена допомагають ідентифікувати певні члени.
Осередок (cell) являє собою елемент, з якого здобуваються дані, відповідні перетинанню членів вимірювання. Число осередків всередині куба даних визначається числом ієрархій в кожному з вимірів куба даних і числом членів кожної ієрархії. Осередки зберігають значення всіх розмірностей в кубі. Якщо для якої-небудь розмірності недоступно значення даних в комірці, вважається, що відповідним значенням розмірності є значення Null (тобто пусте значення).
Кортеж (tuple) унікально ідентифікує клітинку або розділ куба даних. Кортеж представлений членами вимірювань куба даних, розділеними комами. Кортеж полягає в круглі дужки. Кортеж зовсім необов'язково повинен явно містити члени всіх вимірювань куба даних.
Оскільки кортеж унікально ідентифікує клітинку, він може містити не більше одного члена від кожного вимірювання. Кортеж, представлений єдиним членом, називають простим кортежем. Простий кортеж можна не укладати в круглі дужки. Якщо кортеж представлений членами декількох вимірювань, то такий кортеж потрібно брати в круглі дужки. Сукупності кортежів формують нові об'єкти (звані наборами), які часто використовуються в запитах і виразах MDX.
Набір (set) - це сукупність кортежів, які визначені з використанням однакової кількості одних і тих же вимірювань. Набір звичайно полягає у фігурні дужки ({}).
. 2 Створення структури багатовимірного аналізу
Запит на мові MDX являє собою набір команд, який виглядає наступним чином:
[WITH lt; formula_expression gt; [, Lt; formula_expression gt;...]] [ lt; axis_expression gt ;, [ lt; axis_expres...