ля вирішення двох різних підзадач [2]:
В· DPC - document-pivoted categorization. Даний тип підзадач зустрічається найбільш часто і полягає в тому, що для даного документа потрібно знайти всі категорії, в які він може потрапити. Типовий приклад - сортування електронних листів або новин. p> В· CPC - category-pivoted categorization. У цьому випадку для даної категорії потрібно знайти всі документи які до даної категорії належать. Дане завдання виникає наприклад тоді, коли в безліч, для якого вже була проведена класифікація документів, додається одна або кілька нових категорій і потрібно заново перерозподілити документи між новим безліччю категорій. p align="justify"> На практиці завдання класифікації часто ускладнюються. Наприклад, система категорій може бути ієрархічної (мати кілька рівнів глибини). Таким чином, у разі віднесення тексту до однієї з категорій, потрібно далі визначити його приналежність до однієї з підкатегорій, і т.д. Формат тексту може бути не стандартним, наприклад, текст на штучному мовою; текст, поданий у вигляді зображення; тексти на різних мовах в межах одного безлічі
Задача класифікації документів має багато спільного із завданням кластеризації документів, однак у цих завдань є одна принципова відмінність - в задачі кластеризації безліч категорій заздалегідь не заданно, і документи групуються тільки залежно від попарной схожості між собою.
2. Загальні підходи до вирішення задачі класифікації
Зародження теорії автоматичної класифікації текстів датується початком 60-х рр.. ХХ ст. За минулий час помітно змінився підхід до аналізу і вирішення проблеми, що сталося багато в чому завдяки появі значно більш потужного апаратного забезпечення та зрослого інтересу до застосування даних ідей в реальних системах. На сьогоднішній день можна виділити два основні підходи до автоматичної класифікації документів [3]:
. До кінця 80-х рр.. найпопулярнішим підходом до класифікації текстів був метод інженерії знань (knowledge engineering), що полягають у визначенні людиною-спеціалістом набору правил, за якими здійснюється класифікація. За умови, що правила складені грамотно, цей метод є більш точним, ніж другий (див. нижче), а результати обробки легко піддаються інтерпретації, (легко з'ясувати, чому для даного тексту була обрана саме така-то рубрика). Однак, він має суттєвий недолік - створення і підтримка правил в актуальному стані вимагає постійної роботи фахівця, знайомого з тією предметною областю, для якої пишеться даний класифікатор.
. У 90-х рр.. на зміну цьому підходу прийшов підхід, званий машинним навчанням (machine learning), відповідно до якого набір правил або, більш загально, критерій прийняття рішення текстового класифікатора, обчислюється автоматично з навчальних даних.
На...