зовсім губитися зміст, укладений, наприклад, в фразеологізмах, які з погляду лінгвістики є неподільними словарними одиницями. Однак, навіть таке, здавалося б, грубе допущення, зрештою, слабо впливає на кінцевий результат. Д. Д. Льюїс [1] вважає, що причиною цього є те, що методи індексування на основі фраз мають гірші статистичними характеристиками по відношенню до методів на основі одиночних слів, хоча їх семантичні якості набагато вище. p> Безліч всіх термінів, що зустрічаються в документі, позначимо за. p> Документи можуть складатися з дуже великого числа слів. Крім того, що зберігання і обробка такого великого вектора термінів вимагає відчутних обчислювальних потужностей, велика розмірність вектора може знижувати ефективність класифікатора, заснованого на машинному навчанні. Тому в більшості випадків доцільно максимально можливе скорочення розмірності вектора термінів. p> Насамперед, з вектора термінів, за заздалегідь складеним словником, видаляються слова, що володіють семантичної нейтральністю (стоп-слова). Такі слова зустрічаються в текстах будь-якої тематики, а значить, вони марні для класифікатора. p> Те, які слова вважаються нейтральними, залежить насамперед від мови, на якому складено документ, а так само від області застосування автоматичного класифікатора. p> В англійській мові, стоп-словами є артиклі, займенники, прийменники, сполучники, союзні слова, частки, вигуки, допоміжні дієслова, модальні дієслова, числівники, деякі прислівники.
Також можна поповнити безліч стоп-слів термінами, які не типові для тієї предметної області, в рамках якої буде використовуватися програма-класифікатор.
Для деякого класу задач вилучення семантично нейтральних слів буде достатньо, особливо якщо вихідний текст має невеликий розмір (новинні замітки, електронні листи). Якщо текст має більший розмір, цілком імовірно, що в ньому є слова близькі за змістом (синоніми, спільнокореневі слова). Такі терміни можна об'єднувати в кластери (штучні терміни). p> Є кілька різних підходів до кластеризації термінів. p> перше можна застосовувати словники синонімів і словники омонімічних словоформ. Це найбільш простий і надійний спосіб, але дуже повільний. p> Існує декілька, так званих, алгоритмів стеммінга - виділення базової словоформи слова. Одним з найвідоміших і популярних Стеммер є алгоритм Портера, який, застосовуючи послідовно ряд правил, відсікає закінчення і суфікси, грунтуючись на особливостях мови, у зв'язку з чим працює швидко, але не завжди безпомилково. p> Ще одна техніка зменшення розмірності вектора термінів полягає у визначенні В«коефіцієнтів корисностіВ» термінів. Як вже було сказано вище, будь-яке завдання класифікації можна звести до бінарної: для кожної категорії визначаємо, чи належить даний документ до даної категорії або до її доповненню. Тоді можна розрахувати ймовірність зустріти термін в документі за умови, що він належить категорії та ймовірність зустріти термін в документі за умови, що він належить доп...