авчальної множини документів (іншими словами, безліч документів з навчальних даних, що належать категорії)
В· - безліч документів, які є негативними прикладами навчальної множини документів (іншими словами, безліч документів з навчальних даних, що не належать категорії)
Після побудови всіх профайлів, класифікатор визначає відстані між вектором оброблюваного документа, і профайламі категорій. В якості функції відстані часто використовується косинус кута між векторами. p align="justify"> Даний метод має корисною особливістю: профайли можна швидко перерахувати при додаванні нових прикладів у навчальне безліч. Ця особливість корисна, наприклад, в задачі адаптивної фільтрації, коли користувач поступово вказує системі, які документи обрані правильно, а які ні. br/>
4.2 Метод ймовірнісної класифікації (метод Байєса)
Імовірнісні класифікатори розглядають класифікатор в термінах, тобто як ймовірність того, що документ належить категорії. Цю ймовірність підраховують за допомогою теореми Байеса [3]:
В
де:
В· - імовірність того, що довільно взятий документ можна представити у вигляді вектора
Обчислення у формулі Байєса скрутно, за великої кількості всіляких векторів. В якості вирішення даної проблеми зазвичай вводиться припущення незалежності (independence assumption), яке полягає в тому, що будь-які дві координати вектора документа, розглянуті як випадкові змінні, статистично незалежні один від одного, і виражаються як:
В
На практиці, припущення незалежності майже ніколи не виконується. Класифікатори, які дане припущення використовують, називаються наївними класифікаторами Байєса. Одним з найбільш відомих наївних класифікаторів Байєса є бінарний незалежний класифікатор, який використовує бінарні значення вектора представлення документа. У цьому випадку вираз прийме вигляд:
В
4.3 Метод дозвільних дерев (дерева рішень)
Даний метод заснований на побудові дерева прийняття рішень з обучающему безлічі документів.
У загальному випадку, це дерево являє собою зв'язний ациклічний орграф, внутрішня вузли якого представлені термінами, дуги позначені тестами на вагу, який термін має в оброблюваному документ, листя позначені категоріями.
Категорія присвоюється документу в ході рекурсивного обходу дерева: класифікатор послідовно, починаючи з кореня дерева, обходить внутрішні вузли і перевіряє вагу терміна, відповідного даному вузлу, на відповідність однієї з дуг, що виходять з поточної вершини, для визначення напрямку подальшого обходу p>
Є кілька методів побудови дерева. p> Найбільш простим є спосіб, при якому будується бінарне дерево, одна з дуг якого позначена умовою (що означає відсутність терміна, відповідного вузлу, в документі), а друга дуга позначена умовою (що о...