атку. Будуть використовуватися вище написані мовні конструкції для створення наочного уявлення аналізу даних.
У практичній частині буде використаний зразок інформаційних баз компанії Microsoft, який описує торгову компанію Adventure Works Cycles. Це виробнича компанія, що виробляє і реалізує металеві та композитні велосипеди для ринків Північної Америки, Європи та Азії.
3. Використання Microsoft SQL Server для аналітичної обробки даних
. 1 Постановка завдання для експериментальної частини роботи
Мета експериментальної частини роботи - показати можливі застосування технологій бізнес-аналітики на підприємстві.
Завдання, які вирішуються:
1. Формування джерела даних, подання джерела даних, у проекті служб Analysis Services, спроектувати вимірювання, куб, створити структури і моделі інтелектуального аналізу даних, провести розгортання проекту і навчання моделей.
. Створення на основі сформованих структур і моделей:
а) класифікації клієнтів вигаданої компанії Adventure Works на основі оцінки їхніх доходів - високо прибуткові клієнти чи ні;
б) кластеризації клієнтів;
в) аналізу точності передбачення
г) передбачення з продажу певного товару в заданому регіоні;
. 2 Опис використовуваної бази даних
Служби SSAS дозволяють аналізувати великі обсяги даних. З їх допомогою можна проектувати, створювати і керувати багатовимірними структурами, які містять докладні і статистичні дані з декількох джерел даних.
Для управління кубами OLAP і даними інтелектуального аналізу і роботи з ними використовується середу SQL Server Management Studio. Для створення нових структур використовується середу Business Intelligence Development Studio.
Установка надбудов і процес розгортання інфраструктури, що відповідає першим двом пунктам поставленого експериментальної завдання, досить прості для розуміння і виконання, за рахунок чого швидко досягається успішне їх виконання.
Конкретно для мого завдання був встановлений Microsoft SQL Server +2008 редакції Enterprise та навчальна база даних AdventureWorksDW2008.
Рис. 25. Перевірка конфігурації операційної системи на предмет можливості встановлення SQL Server
Формувати і проектувати джерело даних, уявлення джерела даних, вимірювання, структури і моделі працюватимемо в середовищі BI Dev Studio.
Одиницею розгортання є весь проект, який представляє собою базу даних аналітичних служб. Для розгортання проекту треба володіти правами адміністратора аналітичних служб примірника SQL Server, на який проводиться розгортання.
Вихідним джерелом даних, який був створений, є Adventure Works DW.ds, який вказує на реляційну базу AdventureWorksDW.
Подання джерела даних визначається як абстрактне уявлення, яке дозволяє модифікувати спосіб розгляду джерела даних, або описати схему і надалі змінювати фактичний джерело даних.
У реляційній базі даних AdventureWorksDW є уявлення dbo.vTargetMail, яке дозволяє отримати інформацію про клієнта (ідентифікатори, ім'я, прізвище, регіон і т.д.) і про те, купив він велосипед чи ні. А також є уявлення dbo.vDMPrep, яке описує категорію і модель продукту, і клієнта, який його купив (регіон, вік, дохід і т.д.).
Якщо в вихідної БД відкрити в конструкторі уявлення vTargetMail, то отримаємо наступний код мовою SQL:
SELECT c. [CustomerKey], c. [GeographyKey], c. [CustomerAlternateKey], c. [Title], c. [FirstName], c. [MiddleName], c. [LastName] , c. [NameStyle], c. [BirthDate], c. [MaritalStatus], c. [Suffix], c. [Gender], c. [EmailAddress], c. [YearlyIncome], c. [TotalChildren], c. [NumberChildrenAtHome], c. [EnglishEducation], c. [SpanishEducation], c. [FrenchEducation], c. [EnglishOccupation], c. [SpanishOccupation], c. [FrenchOccupation], c. [HouseOwnerFlag], c. [ NumberCarsOwned], c. [AddressLine1], c. [AddressLine2], c. [Phone], c. [DateFirstPurchase], c. [CommuteDistance], x. [Region], x. [Age], CASE x. [Bikes ] WHEN 0 THEN 0 ELSE 1 AS [BikeBuyer] [dbo]. [DimCustomer] c INNER JOIN (
[CustomerKey], [Region], [Age], Sum (CASE [EnglishProductCategoryName] Bikes THEN 1 ELSE 0 END) AS [Bikes] [dbo]. [vDMPrep] BY [CustomerKey ], [Region], [Age]) AS [x] ON c. [CustomerKey]=x. [CustomerKey]
Звідси видно, що частина інформації про клієнта береться з таблиці dbo.DimCustomer.
Аналогічним чином і для другого подання - dbo.vDMPrep, яке...