Теми рефератів
> Реферати > Курсові роботи > Звіти з практики > Курсові проекти > Питання та відповіді > Ессе > Доклади > Учбові матеріали > Контрольні роботи > Методички > Лекції > Твори > Підручники > Статті Контакти
Реферати, твори, дипломи, практика » Новые рефераты » Статистичний аналіз багатовимірних неоднорідних даних в програмному середовищі R

Реферат Статистичний аналіз багатовимірних неоднорідних даних в програмному середовищі R





скошених нормальних і t-розподілів Стьюдента. Всі зазначені алгоритми в загальному випадку застосовні для випадку багатовимірних даних. Для даних, у яких пропущені номери класів підкоряються марковской залежності, також може бути використана спеціальна версія EM алгоритму з урахуванням марковской залежності.


1.2 Використання R для аналізу FMM


Вільна середу статистичного програмування R надає вичерпний набір вбудованих функцій і бібліотек розширень для аналізу даних з використанням широко кола статистичних методів і моделей. Повний список бібліотек може бути знайдений на сайті CRAN в розділі Contributed extension packages, де за посиланням CRAN Task Views lt; # justify gt; Глава 2 Методика дослідження


. 1 Опис EM алгоритму


Наведемо загальний опис EM алгоритму для вирішення завдання розщеплення сумішей імовірнісних розподілів у разі незалежних компонент згідно [6]. Для початку визначимо модель даних і сформулюємо задачу. Модель даних типу суміші розподілів (FMM) має наступне загальне уявлення


,


де - вектор числових характеристик,

- апріорні ймовірності класів, такі що,

- параметри розподілів,,

- функції щільності розподілу (компоненти суміші).

Позначимо через складовою вектор всіх параметрів суміші, - вибірку спостережень, - вектор класифікації, де приймає значення номера класу, якому відповідає спостереження, тоді логарифмічна функція правдоподібності параметрів по вибірці представляється у вигляді функціонала який можемо оптимізувати за допомогою різних алгоритмів.

У багатьох завданнях класифікація невідома, тому виникає завдання спільного оцінювання параметрів і класифікації. Такі завдання належить до завдань аналізу даних з пропусками, які успішно вирішуються за допомогою EM алгоритмів. Дані алгоритми є ітераційними, і для їх застосування потрібно попередньо задати початкові значення параметрів моделі, а також визначити механізм їх оновлення на кожній ітерації. Позначимо через значення відповідних параметрів на k-ой ітерації. За допомогою формули Байеса отримаємо апостеріорні ймовірності для можливих реалізацій пропущених значень класифікаційної змінної:


,

,


причому - апостеріорна ймовірність для реалізації вектора класифікації.

В окремому випадку, якщо є сумішшю з багатовимірних нормальних розподілів з параметрами і щільністю


,


де через позначений складовою вектор всіх даних параметрів незалежних параметрів з, то в результаті максимізації функціоналу по вибірці даних з урахуванням значень параметрів і апостеріорних ймовірностей на поточній ітерації, формули для поновлення оцінок параметрів приймають вид

,

,


Визначимо загальну схему EM алгоритму. При заданій вибірці, заданих законах розподілу, початкових значеннях параметрів, можна використовувати ітераційний алгоритм послідовного уточнення оцінок вектора параметрів суміші і вектора класифікації вибірки. Даний алгоритм відноситься до класу ЕМ-алгоритмів, широко застосовуваних в задачах статистичного оцінювання параметрів в умовах апріорної невизначеності. При цьому k ітерація () пропонованого ЕМ-алгоритму включає два послідовно виконуваних етапи:

етап Е (Expectation): оцінювання при поточних значеннях параметрів моделі апостеріорних ймовірностей класів, знання яких дозволяє оцінити вектор класифікації вибірки;

етап М (Maximization): оновлення оцінок параметрів суміші з умови максимуму логарифмічної функції правдоподібності на підставі отриманих раніше апостеріорних ймовірностей класів.

Робота алгоритму триває до досягнення заданої умови зупинки.


2.2 Приклади асиметричних розподілів


У даному розділі дамо огляд розподілів ймовірностей, які можуть бути використані як компоненти суміші. Перерахуємо тільки ті розподіли, яке представлені у програмній бібліотеці mixsmsn відповідно з описом. Всі дані розподілу відносяться до спеціального класу на основі скошених нормальних розподілів SMSN (Scale Mixtures of Skew-Normal distribution), а моделі сумішей на основі даних розподілів формують клас моделей FMSMSN (Finite Mixures of Scale Mixtures of Skew-Normal distributions), для яких в зазначеної бібліотеки реалізовані алгоритми моделювання даних і аналізу за допомогою EM алгоритму.

Наведемо повний список розподілів реалізованих у бібліотеці з прийнятими скороченнями, які в якості параметрів при виклику функцій: нормальний розподіл (Normal), асиметричне нормальний розподіл (Skew.normal), асиметричне слеш-розподіл (Skew.slash ) і асиметричне нормальний розподіл з засміченням (asymmetric contaminated-normal - Skew.cn), а також t-розподіл Стьюдента (t) і його асиметрична версія (Skew.t). Всі дані розподілу представлені я...


Назад | сторінка 2 з 5 | Наступна сторінка





Схожі реферати:

  • Реферат на тему: Оцінювання параметрів розподілів
  • Реферат на тему: Безперервна залежність рішень від початкових даних і параметрів
  • Реферат на тему: Методи оцінок невідомих параметрів розподілу
  • Реферат на тему: Розрахунок параметрів різання автогрейдера та визначення параметрів вібропл ...
  • Реферат на тему: Перевірка статистичних гіпотез відносно невідоміх значень параметрів визнач ...