скошених нормальних і t-розподілів Стьюдента. Всі зазначені алгоритми в загальному випадку застосовні для випадку багатовимірних даних. Для даних, у яких пропущені номери класів підкоряються марковской залежності, також може бути використана спеціальна версія EM алгоритму з урахуванням марковской залежності.
1.2 Використання R для аналізу FMM
Вільна середу статистичного програмування R надає вичерпний набір вбудованих функцій і бібліотек розширень для аналізу даних з використанням широко кола статистичних методів і моделей. Повний список бібліотек може бути знайдений на сайті CRAN в розділі Contributed extension packages, де за посиланням CRAN Task Views lt; # justify gt; Глава 2 Методика дослідження
. 1 Опис EM алгоритму
Наведемо загальний опис EM алгоритму для вирішення завдання розщеплення сумішей імовірнісних розподілів у разі незалежних компонент згідно [6]. Для початку визначимо модель даних і сформулюємо задачу. Модель даних типу суміші розподілів (FMM) має наступне загальне уявлення
,
де - вектор числових характеристик,
- апріорні ймовірності класів, такі що,
- параметри розподілів,,
- функції щільності розподілу (компоненти суміші).
Позначимо через складовою вектор всіх параметрів суміші, - вибірку спостережень, - вектор класифікації, де приймає значення номера класу, якому відповідає спостереження, тоді логарифмічна функція правдоподібності параметрів по вибірці представляється у вигляді функціонала який можемо оптимізувати за допомогою різних алгоритмів.
У багатьох завданнях класифікація невідома, тому виникає завдання спільного оцінювання параметрів і класифікації. Такі завдання належить до завдань аналізу даних з пропусками, які успішно вирішуються за допомогою EM алгоритмів. Дані алгоритми є ітераційними, і для їх застосування потрібно попередньо задати початкові значення параметрів моделі, а також визначити механізм їх оновлення на кожній ітерації. Позначимо через значення відповідних параметрів на k-ой ітерації. За допомогою формули Байеса отримаємо апостеріорні ймовірності для можливих реалізацій пропущених значень класифікаційної змінної:
,
,
причому - апостеріорна ймовірність для реалізації вектора класифікації.
В окремому випадку, якщо є сумішшю з багатовимірних нормальних розподілів з параметрами і щільністю
,
де через позначений складовою вектор всіх даних параметрів незалежних параметрів з, то в результаті максимізації функціоналу по вибірці даних з урахуванням значень параметрів і апостеріорних ймовірностей на поточній ітерації, формули для поновлення оцінок параметрів приймають вид
,
,
Визначимо загальну схему EM алгоритму. При заданій вибірці, заданих законах розподілу, початкових значеннях параметрів, можна використовувати ітераційний алгоритм послідовного уточнення оцінок вектора параметрів суміші і вектора класифікації вибірки. Даний алгоритм відноситься до класу ЕМ-алгоритмів, широко застосовуваних в задачах статистичного оцінювання параметрів в умовах апріорної невизначеності. При цьому k ітерація () пропонованого ЕМ-алгоритму включає два послідовно виконуваних етапи:
етап Е (Expectation): оцінювання при поточних значеннях параметрів моделі апостеріорних ймовірностей класів, знання яких дозволяє оцінити вектор класифікації вибірки;
етап М (Maximization): оновлення оцінок параметрів суміші з умови максимуму логарифмічної функції правдоподібності на підставі отриманих раніше апостеріорних ймовірностей класів.
Робота алгоритму триває до досягнення заданої умови зупинки.
2.2 Приклади асиметричних розподілів
У даному розділі дамо огляд розподілів ймовірностей, які можуть бути використані як компоненти суміші. Перерахуємо тільки ті розподіли, яке представлені у програмній бібліотеці mixsmsn відповідно з описом. Всі дані розподілу відносяться до спеціального класу на основі скошених нормальних розподілів SMSN (Scale Mixtures of Skew-Normal distribution), а моделі сумішей на основі даних розподілів формують клас моделей FMSMSN (Finite Mixures of Scale Mixtures of Skew-Normal distributions), для яких в зазначеної бібліотеки реалізовані алгоритми моделювання даних і аналізу за допомогою EM алгоритму.
Наведемо повний список розподілів реалізованих у бібліотеці з прийнятими скороченнями, які в якості параметрів при виклику функцій: нормальний розподіл (Normal), асиметричне нормальний розподіл (Skew.normal), асиметричне слеш-розподіл (Skew.slash ) і асиметричне нормальний розподіл з засміченням (asymmetric contaminated-normal - Skew.cn), а також t-розподіл Стьюдента (t) і його асиметрична версія (Skew.t). Всі дані розподілу представлені я...