/p>
Якщо Importance то і - незалежні елементи. Importance означає, що і мають позитивну кореляцію (клієнт купив товар A ймовірно купить і B). Importance вказує на негативну кореляцію.
Для правил важливість розраховується як логарифм відношення ймовірностей:
Importance (28)
У цьому випадку рівна 0 важливість означає, що між і немає взаємозв'язку. Позитивна важливість означає, що ймовірність підвищується, коли справедливо; негативна - ймовірність знижується, коли справедливо.
Настройками порогових значень можна регулювати максимальне число елементів в розглянутих наборах, мінімальну ймовірність, при якій правило буде
розглядатися, мінімальну підтримку для розглянутих наборів і т. д.
. 4.3.7 Алгоритм кластеризації послідовностей
Завдання кластеризації послідовностей - виявити часто зустрічаються послідовності подій. Важлива відмінність полягає в тому, що в даному випадку враховується, в якій черговості події відбуваються (або елементи додаються в набір). Схожі послідовності об'єднуються в кластери. Крім аналізу характеристик кластерів, можливе вирішення завдання прогнозування настання подій на підставі вже сталася раніше.
Використовуваний аналітичними службами SQL Server 2008 алгоритм Microsoft Sequence Clustering - це гібридний алгоритм, що поєднує методи кластеризації з аналізом марковських ланцюгів. Аналізоване безліч варіантів формується з використанням вкладених таблиць.
Важливо, щоб вкладена таблиця містила власний ідентифікатор, який дозволив би визначити послідовність елементів.
За допомогою марківських моделей аналізується спрямований граф, який зберігає переходи між різними станами. Алгоритм Microsoft Sequence Clustering використовує марковские ланцюга го порядку. Число говорить про те, скільки станів використовувалося для визначення ймовірності поточного стану. У моделі першого порядку ймовірність поточного стану залежить тільки від попереднього стану. У марківського ланцюга другого порядку ймовірність поточного стану залежить від двох попередніх станів, і так далі.
Ймовірності переходу між станами зберігаються в матриці переходів. У міру подовження марківського ланцюга, розмір матриці зростає експоненціально, відповідно зростає і час обробки, що треба враховувати при вирішенні практичних завдань.
Далі алгоритм вивчає відмінності між всіма можливими послідовностями, щоб визначити, які послідовності краще всього використовувати в якості вхідних даних для кластеризації. Створений алгоритмом список ймовірних послідовностей використовується в якості вхідних даних для застосовуваного за замовчуванням EM-методу кластеризації (англ. Expectation Maximization, максимізації очікування).
Цілями кластеризації є як пов'язані, так і не пов'язані з послідовностями атрибути. У кожного кластера є марковська ланцюг, що представляє повний набір шляхів, і матриця, що містить переходи і ймовірності послідовності станів. На основі початкового розподілу використовується правило Байеса для обчислення ймовірності будь-якого атрибуту, у тому числі - послідовності, в конкретному кластері.
. 4.3.8 Алгоритм нейронних мереж
У разі наявності в даних складних залежностей між атрибутами, «швидкі» алгоритми інтелектуального аналізу, такі як спрощений алгоритм Байеса, можуть давати недостатньо точний результат. Поліпшити ситуацію може застосування нейромережевих алгоритмів.
Нейронні мережі - це клас моделей, побудованих за аналогією з роботою людського мозку. Існують різні типи мереж, зокрема, в SQL Server алгоритм нейронної мережі використовує мережу у вигляді багатошарового персептрона, до складу якої може входити до трьох шарів нейронів, або персептронов. Такими шарами є вхідний шар, необов'язковий прихований шар і вихідний шар.
Рис. 22 Приклад схеми нейронної мережі
Кожен нейрон отримує одне або кілька вхідних значень (входів) і створює вихідне значення (один або кілька однакових виходів). Кожен вихід є простою нелінійної функцією суми входів, отриманих нейроном. Входи передаються в прямому напрямку від вузлів у вхідному прошарку до вузлів в прихованому шарі, а звідти передаються на вихідний шар. Нейрони в складі шару не з'єднані один з одним. Прихований шар може бути відсутнім (зокрема, це використовується алгоритмом логістичної регресії).
У використовуваному аналітичними службами SQL Server 2008 алгоритмі Microsoft Neural Network, що має більш двох станів дискретний вхідний атрибут моделі інтелектуального аналізу призводить до створення одного вхідного нейрона для кожного стану і одного вхідного нейрона для відсутнього стану (якщо навчальні дані містять які-небудь значення NULL). Безперервний вхідний...