уже часто зустрічатися в документах, але не нести ніякого смислового навантаження. p align="justify"> Побудова класифікатора, як уже було сказано вище, полягає у визначенні функції. Існує досить багато підходів до побудови класифікаторів. p> Оцінка якості класифікації являє собою перевірку правильності роботи класифікатора (визначення того, наскільки добре функція апроксимує значення цільової функції). Для цього роблять запуск класифікатора для деякого тестового безлічі документів, для яких відомі їх правильні категорії (для яких відомі значення цільової функції). Особливо важлива оцінка якості при машинному навчанні класифікатора, де вона використовується для прийняття рішення про припинення процесу навчання. Оцінку якості так само використовують для вибору класифікатора, найбільш підходящого для рішення даної задачі, якщо в системі реалізовано кілька класифікаторів, побудованих різними методами. br/>
3. Індексація документа
Текстові документи в початковому вигляді не підходять для інтерпретації класифікатором або алгоритмом побудови класифікатора. Тому необхідно застосування процедури індексації, яка переводить текст в зручний, для роботи класифікатора, уявлення. Очевидно, що для індексації навчальних і тестових документів повинен застосовуватися один і той же метод індексації. p align="justify"> Фаза індексації має величезне значення у вирішенні завдання класифікації. Від того, наскільки якісно складено індекс документа, безпосередньо залежить ефективність роботи класифікатора. p align="justify"> У загальному випадку індексація складається з наступних кроків:
В· Побудови вектора термінів документа
В· Зменшення розмірності вектора термінів
В· Розрахунок ваг термінів
Індексом документа в більшості випадків є вектор зважених термінів
Термін (терм, ознака документа) - це слово або словосполучення з документа, важливе для класифікатора.
Слова, які не є термінами (що не несуть смислового навантаження і не важливі для класифікатора), називають стоп-словами. Такі слова не потрапляють в індекс документа, і не розглядаються в процесі роботи класифікатора. p align="justify"> Існує кілька різних підходів до процесу індексації, відмінності між ними полягають:
В· в розумінні, що вважати терміном
В· в способах визначення ваги терміна
3.1 Побудова вектора термінів і зменшення його розмірності
Найчастіше припускають, що термінами є окремі слова, що зустрічаються в документі. p align="justify"> При такому підході може спотворюватися або ...