овненню. Якщо обидві ймовірності близькі за значенням, то значить документ з таким терміном, з приблизно однаковою ймовірністю, може потрапити як в категорію, так і в її доповнення. Значить, для класифікатора такий термін марний, і може бути виключений з розгляду. Коефіцієнт корисності, в даному випадку, можна визначити як модуль різниці цих двох ймовірностей. br/>
3.2 Розрахунок ваг термінів
Нехай кожен термін має вагу по відношенню до документа. Тоді, кожен документ можна представити у вигляді вектора ваг його термінів:
.
Веса термінів зручно нормувати так, що б для
,.
Насправді, вектор відповідно. Тобто це вектор, складений з ваг всіх можливих термінів, які можуть зустрітися в документі. Зрозуміло, тексти, що містять повний набір всіх можливих термінів, на практиці не зустрічаються, тому вектори мають дуже велику розмірність, і (відносно) мало значень, які відмінні від нуля (), тобто є розрідженими векторами. Цю особливість зручно опускати при викладі теорії, але в практичних розрахунках це потрібно враховувати. p> Є кілька підходів до того, як розраховувати ваги термінів. p> Найпростіший підхід - приймати за вагу терміна кількість повторень терміна в даному документі. Тобто для кожного терміна в документі, дорівнює числу дублікатів (де - доповнення до), таких що, плюс один (надалі, з метою скорочення розмірності вектора, дублікати видаляються з індексу). Позначивши безліч дублікатів терміна за отримаємо формулу:
В
Для нормировки ваги так, що б можна розраховувати вага терміна в документі як відношення до загального числа термінів у документі (позначимо):
В
Ще один підхід, що полягає в обчисленні функції, випливає з двох, інтуїтивно зрозумілих, спостережень:
В· Чим частіше термін зустрічається в документі, тим краще він відображає його зміст (тим вище його значимість для класифікатора)
В· Чим в більшій кількості документів зустрічається термін, тим менш значущим він є для класифікатора
Для реалізації даного методу індексації необхідно мати навчальні безліч документів. Позначимо за підмножина документів з навчальної множини (), в яких зустрічається термін з документа. p> Величину іноді називають документної частотою [2].
Існує багато різних реалізацій функції, що відрізняються один від одного способами нормалізації ваг термінів та іншими коригуючими множниками.
Ось приклади реалізацій:
В В
Для нормалізації ваги терміна, розрахованого за допомогою функції, використовують наступну стандартну формулу:
В
де - кількість всіх термінів у навчальній множині документів.
Для конкретних завдань можуть бути розроблені й інші, більш екзотичні методи розрахунку ваг термінів. Так, на значимість...