Теми рефератів
> Реферати > Курсові роботи > Звіти з практики > Курсові проекти > Питання та відповіді > Ессе > Доклади > Учбові матеріали > Контрольні роботи > Методички > Лекції > Твори > Підручники > Статті Контакти
Реферати, твори, дипломи, практика » Курсовые обзорные » Аналіз методів автоматичної класифікації документів

Реферат Аналіз методів автоматичної класифікації документів





авчальної множини документів (іншими словами, безліч документів з навчальних даних, що належать категорії)

В· - безліч документів, які є негативними прикладами навчальної множини документів (іншими словами, безліч документів з навчальних даних, що не належать категорії)

Після побудови всіх профайлів, класифікатор визначає відстані між вектором оброблюваного документа, і профайламі категорій. В якості функції відстані часто використовується косинус кута між векторами. p align="justify"> Даний метод має корисною особливістю: профайли можна швидко перерахувати при додаванні нових прикладів у навчальне безліч. Ця особливість корисна, наприклад, в задачі адаптивної фільтрації, коли користувач поступово вказує системі, які документи обрані правильно, а які ні. br/>

4.2 Метод ймовірнісної класифікації (метод Байєса)


Імовірнісні класифікатори розглядають класифікатор в термінах, тобто як ймовірність того, що документ належить категорії. Цю ймовірність підраховують за допомогою теореми Байеса [3]:


В 

де:

В· - імовірність того, що довільно взятий документ можна представити у вигляді вектора

Обчислення у формулі Байєса скрутно, за великої кількості всіляких векторів. В якості вирішення даної проблеми зазвичай вводиться припущення незалежності (independence assumption), яке полягає в тому, що будь-які дві координати вектора документа, розглянуті як випадкові змінні, статистично незалежні один від одного, і виражаються як:


В 

На практиці, припущення незалежності майже ніколи не виконується. Класифікатори, які дане припущення використовують, називаються наївними класифікаторами Байєса. Одним з найбільш відомих наївних класифікаторів Байєса є бінарний незалежний класифікатор, який використовує бінарні значення вектора представлення документа. У цьому випадку вираз прийме вигляд:


В 

4.3 Метод дозвільних дерев (дерева рішень)


Даний метод заснований на побудові дерева прийняття рішень з обучающему безлічі документів.

У загальному випадку, це дерево являє собою зв'язний ациклічний орграф, внутрішня вузли якого представлені термінами, дуги позначені тестами на вагу, який термін має в оброблюваному документ, листя позначені категоріями.

Категорія присвоюється документу в ході рекурсивного обходу дерева: класифікатор послідовно, починаючи з кореня дерева, обходить внутрішні вузли і перевіряє вагу терміна, відповідного даному вузлу, на відповідність однієї з дуг, що виходять з поточної вершини, для визначення напрямку подальшого обходу

Є кілька методів побудови дерева. p> Найбільш простим є спосіб, при якому будується бінарне дерево, одна з дуг якого позначена умовою (що означає відсутність терміна, відповідного вузлу, в документі), а друга дуга позначена умовою (що о...


Назад | сторінка 9 з 16 | Наступна сторінка





Схожі реферати:

  • Реферат на тему: Бланки документів, протоколи, експертиза цінності документів
  • Реферат на тему: Розробка і застосування класифікаційних довідників в діловодстві (номенклат ...
  • Реферат на тему: Побудова та аналіз взаємодії дерева цілей і дерева систем організації
  • Реферат на тему: Застосування методу аналізу даних - дерева рішень
  • Реферат на тему: Метод оптимальної класифікації одновимірного впорядкованої множини на основ ...