Зміст
Введення
Глава 1. Огляд літератури
1.1 EM алгоритми для FMM
1.2 Використання R для аналізу FMM
Глава 2. Методика дослідження
2.1 Опис EM алгоритму
2.2 Приклади асиметричних розподілів
Глава 3. Результати численних експериментів
3.1 Модельні дані
3.2 Реальні дані
Висновок
Бібліографічний список
Програми
Введення
При статистичному аналізі багатовимірних даних з різних областей людської діяльності часто виникає проблема неоднорідності даних, яка може бути переформульована як задача класифікації. З погляду теорії ймовірності, при вирішенні даної задачі найбільш адекватним є параметричний підхід, при якому для опису даних використовується модель суміші імовірнісних розподілів (Finite Mixture Model - FMM). В якості базової моделі використовується модель суміші нормальних розподілів, оскільки вона найбільш повно вивчена теоретично. Однак на практиці, наприклад, в задачах генетики, обробки сигналів, медицини та економіки, дані найчастіше демонструють асиметричний розподіл з яскраво вираженими важкими хвостами. Оскільки нормальний розподіл є симетричним, потрібно використання моделі асиметричних розподілів, зокрема скошеного нормального розподілу. В умовах зазначеної моделі для одночасної оцінки параметрів і класифікації спостережень традиційно використовується ітераційний алгоритм розщеплення сумішей розподілів, який в англомовній літературі має назву Expectation-Maximization (EM).
Існує безліч реалізацій EM алгоритму для деяких з перерахованих вище завдань, але для наукових досліджень представляється найбільш зручним використання реалізацій даного алгоритму із спеціалізованих бібліотек середовища статистичного програмування R. У даних бібліотеках реалізовані різні версії EM алгоритму для класифікації як симетричних, так і асиметричних одновимірних і багатовимірних спостережень. Більше того, мова програмування R дозволяє відносно швидко розробляти і тестувати нові алгоритми.
Основною метою даної роботи є вивчення можливостей середовища статистичних обчислень R для класифікації багатовимірних неоднорідних асиметричних даних за допомогою EM алгоритмів, зокрема, класифікації багатовимірних даних з фінансової звітності підприємств з раніше проведеного дослідження.
Таким чином, об'єктом даного дослідження є модель суміші багатовимірних розподілів, а предметом дослідження - класифікація неоднорідних даних за допомогою EM алгоритмів розщеплення сумішей розподілів. Основними завданнями є: підготовка огляду по відповідним реалізаціям EM алгоритмів в R, перевірка працездатності даних алгоритмів на модельних даних, а також адаптація зазначених алгоритмів для задачі оцінювання кредитних рейтингів підприємств.
алгоритм статистичний обчислення
Глава 1. Огляд літератури
1.1 EM алгоритми для FMM
EM алгоритм є загальним методом для знаходження оцінок максимальної правдоподібності параметрів моделей за даними з пропусками. У разі FMM пропусками є всі значення категоріальної змінної, що позначає приналежність спостереження до однієї з компонент суміші розподілів. Дана змінна називається змінної класифікації. Прикладом такої змінної може служити змінна, классифицирующая пацієнтів згідно категоріям захворювання, при наявності клінічних даних про стан пацієнтів. При цьому передбачається, що значення даної змінної є СВ або, в загальному випадку, реалізаціями випадкового процесу, прикладом якого може бути ланцюг Маркова.
Існує безліч підходів до оцінювання параметрів моделі FMM, включаючи метод максимальної вірогідності (Maximum Likelihood-based Inference - ML), байесовский метод на основі методу Монте-Карло c використанням ланцюга Маркова (Bayesian approach based on Markov chain Monte Carlo), онлайн EM алгоритм (Online EM). Як правило, останні методи є більш ефективними в обчислювальному плані, дозволяючи оцінювати параметри сумішей в більш жорстких умовах, таких як велика розмірність моделі, великий обсяг даних і т.п. Оскільки в задачі оцінювання кредитних рейтингів названі проблеми не є настільки суттєвими, для даної роботи обрані EM алгоритми на основі методу максимальної правдоподібності, оскільки алгоритми даного типу мають більш просту реалізацію та добре представлені в програмних бібліотеках R, про які піде мова в наступному розділі.
Алгоритм EM на базі ML надає загальний підхід, який може бути застосований для FMM з різними розподілами ймовірностей. Так, для класифікації симетричних даних може бути застосований EM алгоритм для розщеплення суміші гауссовских (нормальних) розподілів, а для асиметричних даних - алгоритми EM розщеплення суміші...