терміна (а значить, і на його вагу) в позитивну або негативну сторону може впливати, наприклад, особливість форматування цього терміна у вихідному документі (наприклад, слова, виділені жирним шрифтом, іншим кольором, або великим розміром шрифту, можуть розцінюватись як більш значущі), або положення терміна в оригінальному документі (наприклад, слова, взяті з заголовка документа, так само можуть цінуватися вище). Очевидно, що для реалізації таких методів розрахунку ваг, необхідно розробити відповідний спеціальний вид вектора термінів, який міг би відображати таку додаткову інформацію. p> Веса термінів часто використовуватися для зменшення розмірності вектора термінів. У загальному випадку, намагаються привести всі вектори до такого виду, що б суми ваг всіх термінів для кожного вектора були приблизно однакові. Для цього, терміни із занадто низьким або занадто високим значенням ваги можна визнати малозначущими і виключити з вектора. p align="justify"> 4. Методи побудови класифікаторів
Як вже неодноразово зазначалося вище, завдання побудови класифікатора зводиться до задачі визначення функції, апроксимуючої значення цільової функції, для кожної категорії. Взагалі кажучи, реалізація функції може бути різною для різних категорій множини. Але в переважній більшості випадків, метод побудови класифікатора однаковий для всіх категорій. p> На вхід функції надходить документ, представлений у вигляді зважених термінів. На виході, в загальному випадку, ми отримуємо вектор значень статусу категоризації, тобто ступеня приналежності документа до категорій з безлічі:
В
Далі завдання полягає в тому, що б від вектора перейти до точної класифікації. p> Для цього можна для кожної категорії вибрати порогове значення. Якщо, значить, документ належить даної категорії. Інший метод: для кожного документа, для якого вирішується завдання класифікації, вибирати кілька найближчих категорій, тобто перші категорії, на яких приймає найбільші значення.
Розглянемо далі різні способи побудови класифікатора.
4.1 Метод Rocchio
Метод Rocchio є одним з найпростіших і розповсюджених методів побудови класифікатора. Даний метод використовує так званий профайл документа для категорії. p> Профайл (або прототип) документа для категорії - це список зважених термінів, факт присутності яких найбільш добре відрізняє категорію від інших категорій. Таким чином, профайл є ідеальним індексом документа, який міг би належати даної категорії. Чим більше індекс оброблюваного документа, схожий на еталонний профайл категорії, тим з більшим ступенем впевненості він може бути віднесений до цієї категорії. br/>В
Профайл для категорії в методі Rocchio розраховується за наступною формулою:
В
де:
В· - вага терміна в документі
В· - безліч документів, які є позитивними прикладами н...