р двічі, то функція DistinctCount порахує цього клієнта тільки один раз. Функція MDX Exists використовується для відбору тільки тих клієнтів, які купували товари з товарної лінії Mountain через Інтернет. Результатом виконання функції Exists є набір записів про клієнтів, які придбали товари з товарної лінії Mountain.
2.4 Базові поняття мови DMX
Найменшою логічною одиницею роботи з даними при інтелектуальному аналізі є атрибут, який містить деяку елементарну інформацію про аналізованому прикладі. Для алгоритмів Data Mining існує два основних типи атрибутів:
· категоріальні (дискретні), приймаючі значення з деякого фіксованого кінцевого набору значень;
· безперервні числові атрибути.
Додаткові типи атрибутів засновані на базових. До них, зокрема, відносяться упорядкований (або циклічний) тип. Такий атрибут є категоріальним, але для нього задано певний порядок значень (наприклад, розміри одягу).
дискретизованої атрибути - це спеціальний варіант категоріального типу, отриманий з безперервного шляхом розбиття на діапазони. Наприклад, спрощений алгоритм Байеса не може обробляти безперервні атрибути, тому буде потрібно дискретизація.
З кожним категоріальним атрибутом пов'язаний набір його значень (або станів). На етапах підготовки і вивчення даних важливо провести аналіз безлічі станів атрибутів і, при необхідності, внести корективи.
Варіант визначається як окремий приклад, що надається алгоритмом інтелектуального аналізу даних. Він складається з набору атрибутів з відповідними значеннями і в багатьох випадках описує об'єкт чи подію. Варіант можна представити рядком в таблиці, стовпці якої - атрибути.
У той же час, MS SQLServer і DMX дозволяють використовувати вкладені таблиці, що дозволяє описувати більш складні за структурою варіанти.
Ключ варіанту використовується для ідентифікації варіанту. У цій якості може використовуватися вихідний ключ таблиці, з якої беруться дані для аналізу. Вкладений ключ дозволяє ідентифікувати об'єкт, описуваний у вкладеній таблиці.
Атрибут може розглядатися алгоритмом інтелектуального аналізу в якості входу, виходу або входу і виходу одночасно. Мова DMX дозволяє це вказати в процесі опису моделі. На стадії навчання алгоритмом надаються як вхідні, так і вихідні дані. На стадії прогнозування - алгоритм отримує вхідні дані і повертає вихідні.
Аналізувати дані можна з реляційних таблиць та інших джерел, якщо вони спеціальним чином описані як представлення джерела даних в службах AnalysisServices. Спочатку визначається джерело даних (DataSource), а потім його подання (DataSourceView). Подання джерела даних дозволяє поєднувати різні джерела даних і працювати з вкладеними таблицями. Один із способів визначити джерело даних - використання відповідного майстра в середовищі BI DevStudio.
Служби AnalysisServices зчитують дані з джерела в спеціальний кеш. Поміщення в кеш дані можна зберегти і використовувати при створенні інших моделей інтелектуального аналізу або видалити, щоб звільнити місце в сховищі.
. 5 Створення структури інтелектуального аналізу даних
Структура інтелектуального аналізу даних може бути представлена ??як сукупність вихідних даних і опису способів їх обробки. Структура містить моделі, які використовуються для аналізу її даних.
Розглянемо конструкції мови DMX, що дозволяють створювати структури.
Для цього використовується оператор CREATE MININGSTRUCTURE. В узагальненому вигляді його формат представлений нижче:
CREATE [SESSION] MINING STRUCTURE lt; structure gt;
[( lt; column definition list gt;)]
)
[WITH HOLDOUT ( lt; holdout-specifier gt; [OR lt; holdout-specifier gt;])]
[REPEATABLE ( lt; holdout seed gt;)]
де
lt; holdout-specifier gt; ::= lt; holdout-maxpercent gt; PERCENT |
lt; holdout-maxcases gt; CASES
Наведені в описі атрибути мають такі значення:
· Structure - унікальне ім'я структури;
· column definition list - cписок визначень стовпців з роздільниками-комами;
· holdout-maxpercent - ціле число від 1 до 100, яке показує процентну частку даних, що виділяються для перевірки;
· holdout-maxcases - ціле число, що показує максимальне число варіантів, використовуваних для перевірки. Якщо вказане значення більше числа вхідних варіантів...