ь важливість використання кожного слова з деякого набору слів (кількість слів набору визначає розмірність вектора) в кожному документі. Подібна модель називається векторною моделлю (Vector space model) і дає можливість порівнювати тексти, порівнюючи їх представляють вектора в якій або метриці (евклідова відстань, косинусна міра, Манхеттенський відстань, відстань Чебишева та ін.), Тобто виробляючи кластерний аналіз.
У контексті розглянутої в даній роботі завдання, міра TF-IDF може бути застосована для вирішення двох завдань:
· «Врівноваження» впливу подій які мають велику кількість параметрів з тими подіями, які мають малу кількість параметрів
· Додання більшої ваги тим значенням параметрів подій, які зустрічаються рідше, ніж ті, які зустрічаються часто. Справді, якщо, наприклад, велика частина подій асоційована з певною країною, це означає що наявність даної країни в параметрах події має малу інформаційну цінність.
Таким чином, використавши підрахунок заходи TF-IDF ми зможемо перетворити наш список подій і змін параметрів у формат числових векторів, тобто ми зможемо перетворити вхідні дані до векторної моделі, в якій більшою вага буде наданий значенням параметрів , які зустрічаються рідко, а також зрівняє важливість подій з великим і малим числом параметрів. Після цього ми зможемо застосувати методи multiclass - multi-label класифікації за допомогою якого-небудь класифікатора. В рамках Document classification відмінно себе показали дві класифікатора - SVM (з алгоритмом навчання SGD) і Наївний Байєсівський класифікатор. Обидва цих класифікатора розглядаються нижче.
.2 Наївний Байєсівський Класифікатор
Наївний байєсовський класифікатор - простий імовірнісний класифікатор, заснований на застосуванні Теореми Байеса зі строгими (наївними) припущеннями про незалежність.
Залежно від точної природи ймовірнісної моделі, наївні байєсовські класифікатори можуть навчатися дуже ефективно. У багатьох практичних додатках, для оцінки параметрів для наївних Байесови моделей використовують метод максимальної вірогідності; іншими словами, можна працювати з наївною байєсівської моделлю, не вірячи в байесовськими ймовірність і не використовуючи байєсовські методи.
Незважаючи на наївний вигляд і, безсумнівно, дуже спрощені умови, наївні байєсовські класифікатори часто працюють набагато краще в багатьох складних життєвих ситуаціях.
Перевагою наївного байєсівського класифікатора є мала кількість даних для навчання, необхідних для оцінки параметрів, необхідних для класифікації.
Імовірнісна модель для класифікатора - це умовна модель над залежною змінною класу з малою кількістю результатів або класів, залежна від декількох змінних. Проблема полягає в тому, що коли кількість властивостей дуже велике або коли властивість може приймати велику кількість значень, тоді будувати таку модель на імовірнісних таблицях стає неможливо. Тому ми формулюємо модель, щоб зробити її легко піддається обробці.
Використовуючи теорему Байєса, запишемо
На практиці цікавий лише чисельник цього дробу, так як знаменник не залежить від і значення властивостей дані, так що знаменник - константа.
Чисельник еквівалентний спільної ймовірності моделі яка може бути переписана наступним чином, використовуючи повторні додатки визначень умовної ймовірності:
і т.д. Тепер можна використовувати «наївні» припущення умовної незалежності: припустимо, що кожна властивість умовно незалежно від будь-якого іншого властивості при. Це означає:
таким чином, спільна модель може бути виражена як:
Це означає, що з припущення про незалежність, умовний розподіл по класовій змінної може бути виражене так:
де - це масштабний множник, що залежить тільки від, тобто константа, якщо значення змінних відомі.
Всі параметри моделі можуть бути апроксимовані відносними частотами з набору даних навчання. Це оцінки максимальної правдоподібності ймовірностей. Безперервні властивості, як правило, оцінюються через нормальний розподіл. В якості математичного очікування й дисперсії обчислюються статистики - середнє арифметичне і середньоквадратичне відхилення відповідно.
Якщо даний клас і значення властивості ніколи не зустрічаються разом в наборі навчання, тоді оцінка, заснована на ймовірно, буде дорівнює нулю. Це проблема, так як при перемножуванні нульова оцінка призведе до втрати інформації про інших ймовірності. Тому переважно проводити невеликі поправки в усі оцінки ймовірностей так, щоб...