буде використовуватися в подальшому для створення структур і моделей.
Наступним кроком є ??створення структур і моделей.
Для кожної поставленої задачі буде створюватися своя структура і свої моделі. Наприклад, для задачі кластеризації клієнтів створена структура vTargetMail_structure2.dmm, яка використовує єдиний для всіх поставлених завдань у практичній частині роботи джерело даних Adventure Works DW.ds та подання джерела даних TargetMail_dsv2.dsv. Таким чином, є одне джерело даних, 4 подання джерела даних, 4 структури і побудовані на їх основі моделі.
З контекстного меню можна запустити обробку структури і всіх моделей. У процесі обробки дані будуть завантажені в структуру, і пройде навчання моделей.
Існують різні типи обробки об'єкта:
- Повна обробка (об'єкт повністю обробляється, обробка структури і всіх її моделей);
- Обробка за замовчуванням (сервер виконує дії, необхідні для приведення даного об'єкта в оброблене стан)
Обробка структури;
Очищення структури (кеш структури буде очищений від вихідних даних, але моделі збережуться в обробленому вигляді);
Скасування обробки (переводить об'єкт в необроблене стан).
. 3 Завдання кластеризації клієнтів бази даних AdventureWorks
Нехай необхідно розділити всіх клієнтів на кілька груп, подібних за значенням параметрів. Подібна задача називається - кластеризацией.
Необхідно створити структуру, засновану на реляційної БД, і модель інтелектуального аналізу даних. Для вирішення поставленого завдання потрібно модель, що використовує алгоритм кластеризації. Використовуване уявлення джерела даних буде - vTargetMail_dsv.dsv.
В якості вхідних атрибутів будемо використовувати:
· Age (Вік)
· BikeBuyer (Покупка велосипеда)
· CommuteDistance (Відстань щоденних поїздок)
· EnglishEducation (Освіта)
· Gender (Пол)
· NumberCarOwned (Число наявних машин)
· NumberChildrenAtHome (Число дітей вдома)
· Region (Регіон)
· YearlyIncome (Річний дохід)
В результаті, отримаємо модель - vTargetMail_Cl.
Після обробки структури і моделі, можна побачити виявлення характеристики кластерів. Кластер 5 об'єднує людей, що проживають тільки в Європі, у яких, в середньому, 1 дитина, і, в основному, немає машини. І саме в цьому кластері майже у всіх є велосипеди.
3.4 Завдання класифікації клієнтів на основі оцінки їх доходів
Нехай, використовуючи наявні дані компанії Adventure Works, необхідно визначити, до якого типу відноситься клієнт - високо прибутковий чи ні. Це приклад задачі класифікації, яку можна вирішити за допомогою прощеної алгоритму Баейса.
Створимо структуру інтелектуального аналізу і модель, що використовує алгоритм Байеса. Назвемо структуру v DMPrep_structure4.dmm, а модель - v DM Prep_NB2. Подання джерела даних будемо використовувати DMPrep_dsv.dsv, а джерело даних колишній - Adventure Works DW.ds.
Пророкує атрибут виберемо - IncomeGroup (дохід). У нашому випадку дохід у клієнтів буває високий (High), середній (Moderate) і низький (Low). Для того, щоб визначити чи є клієнт високо прибутковим, достатньо тільки два значення - High і Low.
Далі визначаємо які атрибути роблять на нього вплив - Age і Region.
Таким чином, найприбутковішим районом з усіх є Севе?? ная Америка, люди віком від 44 до 52 років. А найбіднішим по прибутку є - Європа, віком молодше 44 років. Отже, якщо необхідно визначити яким є певний клієнт (прибутковий для компанії чи ні), то достатньо визначити його географічний район, а для більш точного результату - уточнити його вік.
3.5 Завдання аналізу точності передбачення
На основі задачі класифікації про те, чи купить клієнт велосипед чи ні, за допомогою різних алгоритмів, можна дізнатися точність передбачення. Дану задачу будемо досліджувати за допомогою алгоритму Байеса, нейронних мереж і дерев рішень.
Створимо одну структуру, а на її базі 3 різних моделі. Пророкує атрибут буде BikeBuyer.
Після того, як структура і моделі створені і оброблені, можна з'ясувати, яка модель дає більш точний прогноз, використовуючи діаграми точності. Пророцтва будемо виконувати відносно клієнта, який купив велосипед.
На діаграмі ро...