Теми рефератів
> Реферати > Курсові роботи > Звіти з практики > Курсові проекти > Питання та відповіді > Ессе > Доклади > Учбові матеріали > Контрольні роботи > Методички > Лекції > Твори > Підручники > Статті Контакти
Реферати, твори, дипломи, практика » Курсовые обзорные » Аналіз методів автоматичної класифікації документів

Реферат Аналіз методів автоматичної класифікації документів





овненню. Якщо обидві ймовірності близькі за значенням, то значить документ з таким терміном, з приблизно однаковою ймовірністю, може потрапити як в категорію, так і в її доповнення. Значить, для класифікатора такий термін марний, і може бути виключений з розгляду. Коефіцієнт корисності, в даному випадку, можна визначити як модуль різниці цих двох ймовірностей. br/>

3.2 Розрахунок ваг термінів


Нехай кожен термін має вагу по відношенню до документа. Тоді, кожен документ можна представити у вигляді вектора ваг його термінів:


.


Веса термінів зручно нормувати так, що б для


,.


Насправді, вектор відповідно. Тобто це вектор, складений з ваг всіх можливих термінів, які можуть зустрітися в документі. Зрозуміло, тексти, що містять повний набір всіх можливих термінів, на практиці не зустрічаються, тому вектори мають дуже велику розмірність, і (відносно) мало значень, які відмінні від нуля (), тобто є розрідженими векторами. Цю особливість зручно опускати при викладі теорії, але в практичних розрахунках це потрібно враховувати. p> Є кілька підходів до того, як розраховувати ваги термінів. p> Найпростіший підхід - приймати за вагу терміна кількість повторень терміна в даному документі. Тобто для кожного терміна в документі, дорівнює числу дублікатів (де - доповнення до), таких що, плюс один (надалі, з метою скорочення розмірності вектора, дублікати видаляються з індексу). Позначивши безліч дублікатів терміна за отримаємо формулу:


В 

Для нормировки ваги так, що б можна розраховувати вага терміна в документі як відношення до загального числа термінів у документі (позначимо):


В 

Ще один підхід, що полягає в обчисленні функції, випливає з двох, інтуїтивно зрозумілих, спостережень:

В· Чим частіше термін зустрічається в документі, тим краще він відображає його зміст (тим вище його значимість для класифікатора)

В· Чим в більшій кількості документів зустрічається термін, тим менш значущим він є для класифікатора

Для реалізації даного методу індексації необхідно мати навчальні безліч документів. Позначимо за підмножина документів з навчальної множини (), в яких зустрічається термін з документа. p> Величину іноді називають документної частотою [2].

Існує багато різних реалізацій функції, що відрізняються один від одного способами нормалізації ваг термінів та іншими коригуючими множниками.

Ось приклади реалізацій:


В В 

Для нормалізації ваги терміна, розрахованого за допомогою функції, використовують наступну стандартну формулу:


В 

де - кількість всіх термінів у навчальній множині документів.

Для конкретних завдань можуть бути розроблені й інші, більш екзотичні методи розрахунку ваг термінів. Так, на значимість...


Назад | сторінка 7 з 16 | Наступна сторінка





Схожі реферати:

  • Реферат на тему: Словник юридичних термінів: системний підхід до перекладу правової інформац ...
  • Реферат на тему: Особистісні особливості засуджених до різних термінів позбавлення волі
  • Реферат на тему: Лінгвістичний аналіз китайських термінів спорідненості
  • Реферат на тему: Порівняльний аналіз термінів спорідненості в російській і німецькій мовах
  • Реферат на тему: Управління та оптимізація термінів проекту