Теми рефератів
> Реферати > Курсові роботи > Звіти з практики > Курсові проекти > Питання та відповіді > Ессе > Доклади > Учбові матеріали > Контрольні роботи > Методички > Лекції > Твори > Підручники > Статті Контакти
Реферати, твори, дипломи, практика » Курсовые проекты » Розробка прототипу інформаційної системи на всіх етапах життєвого циклу програмних засобів

Реферат Розробка прототипу інформаційної системи на всіх етапах життєвого циклу програмних засобів





двічі, то функція DistinctCount порахує цього клієнта тільки один раз. Функція MDX Exists використовується для відбору тільки тих клієнтів, які купували товари з товарної лінії Mountain через Інтернет. Результатом виконання функції Exists є набір записів про клієнтів, які придбали товари з товарної лінії Mountain.


2.4 Базові поняття мови DMX


Найменшою логічною одиницею роботи з даними при інтелектуальному аналізі є атрибут, який містить деяку елементарну інформацію про аналізованому прикладі. Для алгоритмів Data Mining існує два основних типи атрибутів:

· категоріальні (дискретні), приймаючі значення з деякого фіксованого кінцевого набору значень;

· безперервні числові атрибути.

Додаткові типи атрибутів засновані на базових. До них, зокрема, відносяться упорядкований (або циклічний) тип. Такий атрибут є категоріальним, але для нього задано певний порядок значень (наприклад, розміри одягу).

дискретизованої атрибути - це спеціальний варіант категоріального типу, отриманий з безперервного шляхом розбиття на діапазони. Наприклад, спрощений алгоритм Байеса не може обробляти безперервні атрибути, тому буде потрібно дискретизація.

З кожним категоріальним атрибутом пов'язаний набір його значень (або станів). На етапах підготовки і вивчення даних важливо провести аналіз безлічі станів атрибутів і, при необхідності, внести корективи.

Варіант визначається як окремий приклад, що надається алгоритмом інтелектуального аналізу даних. Він складається з набору атрибутів з відповідними значеннями і в багатьох випадках описує об'єкт чи подію. Варіант можна представити рядком в таблиці, стовпці якої - атрибути.

У той же час, MS SQLServer і DMX дозволяють використовувати вкладені таблиці, що дозволяє описувати більш складні за структурою варіанти.

Ключ варіанту використовується для ідентифікації варіанту. У цій якості може використовуватися вихідний ключ таблиці, з якої беруться дані для аналізу. Вкладений ключ дозволяє ідентифікувати об'єкт, описуваний у вкладеній таблиці.

Атрибут може розглядатися алгоритмом інтелектуального аналізу в якості входу, виходу або входу і виходу одночасно. Мова DMX дозволяє це вказати в процесі опису моделі. На стадії навчання алгоритмом надаються як вхідні, так і вихідні дані. На стадії прогнозування - алгоритм отримує вхідні дані і повертає вихідні.

Аналізувати дані можна з реляційних таблиць та інших джерел, якщо вони спеціальним чином описані як представлення джерела даних в службах AnalysisServices. Спочатку визначається джерело даних (DataSource), а потім його подання (DataSourceView). Подання джерела даних дозволяє поєднувати різні джерела даних і працювати з вкладеними таблицями. Один із способів визначити джерело даних - використання відповідного майстра в середовищі BI DevStudio.

Служби AnalysisServices зчитують дані з джерела в спеціальний кеш. Поміщення в кеш дані можна зберегти і використовувати при створенні інших моделей інтелектуального аналізу або видалити, щоб звільнити місце в сховищі.


. 5 Створення структури інтелектуального аналізу даних


Структура інтелектуального аналізу даних може бути представлена ??як сукупність вихідних даних і опису способів їх обробки. Структура містить моделі, які використовуються для аналізу її даних.

Розглянемо конструкції мови DMX, що дозволяють створювати структури.

Для цього використовується оператор CREATE MININGSTRUCTURE. В узагальненому вигляді його формат представлений нижче:

CREATE [SESSION] MINING STRUCTURE lt; structure gt;

[( lt; column definition list gt;)]

)

[WITH HOLDOUT ( lt; holdout-specifier gt; [OR lt; holdout-specifier gt;])]

[REPEATABLE ( lt; holdout seed gt;)]

де

lt; holdout-specifier gt; ::= lt; holdout-maxpercent gt; PERCENT |

lt; holdout-maxcases gt; CASES

Наведені в описі атрибути мають такі значення:

· Structure - унікальне ім'я структури;

· column definition list - cписок визначень стовпців з роздільниками-комами;

· holdout-maxpercent - ціле число від 1 до 100, яке показує процентну частку даних, що виділяються для перевірки;

· holdout-maxcases - ціле число, що показує максимальне число варіантів, використовуваних для перевірки. Якщо вказане значення більше числа вхідних варіантів,...


Назад | сторінка 19 з 27 | Наступна сторінка





Схожі реферати:

  • Реферат на тему: Вивчення методів інтелектуального аналізу даних у середовищі Statgraphics: ...
  • Реферат на тему: Комп'ютерні дані: типи даних, обробка та управління
  • Реферат на тему: Технології аналізу даних (Text Mining, Data Mining)
  • Реферат на тему: Базові поняття реляційної моделі даних (створення таблиці MS Access)
  • Реферат на тему: Створення програмного продукту, що дозволяє синхронізувати дані вже наявної ...