я алгоритмом нових вузлів до моделі призводить до створення деревовидної структури. Верхній вузол дерева описує розбиття прогнозованого стовпця для всіх замовників. При продовженні зростання моделі алгоритм розглядає всі стовпці.
Рис. 17. Гістограма «Б»
Прогнозування безперервних стовпців
Коли алгоритм дерева прийняття рішень будує дерево, засноване на безперервному прогнозованому стовпці, кожен вузол містить регресійну формулу. Розбиття здійснюється в точці нелінійності в цій регресійної формулою.
Рис. 18. Діаграма даних
Діаграма містить дані, які можна моделювати або використовуючи одиночну лінію, або використовуючи дві з'єднані лінії. Однак одиночна лінія не забезпечить належного представлення даних. Замість цього при використанні двох ліній модель забезпечить набагато більш точне наближення даних. Точка з'єднання цих двох ліній є точкою нелінійності і являє собою точку, в якій розіб'ється вузол в моделі дерева рішень. Ці два рівняння представляють регресійні рівняння для цих двох ліній.
Рис. 19. Регресійні рівняння
. 4.3.3 Алгоритм лінійної регресії
Алгоритм лінійної регресії дозволяє представити залежність між вхідний і вихідний змінними як лінійну, а потім використовувати отриманий результат при прогнозиров?? нии. Лінія на діаграмі є найкращим лінійним поданням даних.
Рис. 20. Приклад використання лінійної регресії
У випадку однієї незалежної змінної (одного регресорів), завдання може бути сформульована таким чином.
Рівняння, що описує пряму на площині:. Для ї точки буде справедливо, де - різниця між фактичним значенням і обчисленим відповідно рівнянням лінії. Кожній точці відповідає помилка, пов'язана з її відстанню від лінії регресії. Потрібно за допомогою підбору коефіцієнтів отримати таке рівняння, щоб сума помилок, пов'язаних з усіма точками, стала мінімальною. Для вирішення цього завдання може використовуватися, зокрема, метод найменших квадратів.
Лінійна регресія є корисним і широко відомим методом моделювання, особливо для випадків, коли відомий приводить до змін базовий фактор, і є підстави очікувати лінійний характер залежності.
. 4.3.4 Алгоритм аналізу часових рядів
У загальному випадку, часовий ряд - це набір числових значень, зібраних в послідовні моменти часу. Метою аналізу часового ряду може бути виявлення наявних залежностей поточних значень параметрів від попередніх, з подальшим використанням їх для прогнозування нових значень.
Ряд можна представити як впорядкована множина елементів або подій, кожна з яких у загальному випадку може бути описано набором атрибутів:. На практиці найчастіше використовується один атрибут. При описі варіанту для інтелектуального аналізу даних, відмітка часу (або номер елемента в тимчасовому ряді) вводиться як один з атрибутів. Як правило, передбачається, що відмітка часу - дискретне числове значення, а що передбачається атрибут - безперервний.
Виділяють два основних формату представлення часових рядів - стовпчастий і чергується. З даними в столбчатом форматі дещо простіше працювати, але цей формат менш гнучкий.
Розглянемо тепер деякі особливості реалізації алгоритму в SQL Server 2008. Алгоритм часових рядів (Microsoft Time Series) надає собою сукупність двох алгоритмів регресії, оптимізованих для прогнозу рядів безперервних числових значень.
За замовчуванням служби Analysis Services для навчання моделі використовують кожен алгоритм окремо, а потім об'єднують результати, щоб отримати найбільш точний прогноз. Залежно від наявних даних і вимог до прогнозами, можна вибрати для використання тільки один алгоритм.
Точність прогнозу для часового ряду може підвищити вказівку відомої періодичності.
авторегресії відрізняється від звичайної регресії тим, що поточне значення параметра
виражається через його значення в попередні моменти часу. Якщо використовувати лінійні залежності, то алгоритм має рішення у вигляді:
. (25)
- похибка, яку треба мінімізувати шляхом підбору коефіцієнтів, в чому і полягає навчання моделі. Використання аналітичними службами SQL Server дерева авторегресії дозволяє змінювати формулу шляхом розбиття в точках нелінійності.
1.4.3.5 Алгоритм кластеризації
Кластеризація дозволяє знизити розмірність задачі аналізу предметної області, шляхом «природною» угруповання варіантів в кластери. Таким чином, кластер буде об'єднувати близькі за сукупністю параметрів елементи, і в деяких випадках, його можна розглядати як ...