Реферат Аналіз методів автоматичної класифікації документів

Тема: Курсовые обзорные

ля вирішення двох різних підзадач [2]:

В· DPC - document-pivoted categorization. Даний тип підзадач зустрічається найбільш часто і полягає в тому, що для даного документа потрібно знайти всі категорії, в які він може потрапити. Типовий приклад - сортування електронних листів або новин. p> В· CPC - category-pivoted categorization. У цьому випадку для даної категорії потрібно знайти всі документи які до даної категорії належать. Дане завдання виникає наприклад тоді, коли в безліч, для якого вже була проведена класифікація документів, додається одна або кілька нових категорій і потрібно заново перерозподілити документи між новим безліччю категорій. p align="justify"> На практиці завдання класифікації часто ускладнюються. Наприклад, система категорій може бути ієрархічної (мати кілька рівнів глибини). Таким чином, у разі віднесення тексту до однієї з категорій, потрібно далі визначити його приналежність до однієї з підкатегорій, і т.д. Формат тексту може бути не стандартним, наприклад, текст на штучному мовою; текст, поданий у вигляді зображення; тексти на різних мовах в межах одного безлічі

Задача класифікації документів має багато спільного із завданням кластеризації документів, однак у цих завдань є одна принципова відмінність - в задачі кластеризації безліч категорій заздалегідь не заданно, і документи групуються тільки залежно від попарной схожості між собою.

2. Загальні підходи до вирішення задачі класифікації

Зародження теорії автоматичної класифікації текстів датується початком 60-х рр.. ХХ ст. За минулий час помітно змінився підхід до аналізу і вирішення проблеми, що сталося багато в чому завдяки появі значно більш потужного апаратного забезпечення та зрослого інтересу до застосування даних ідей в реальних системах. На сьогоднішній день можна виділити два основні підходи до автоматичної класифікації документів [3]:

. До кінця 80-х рр.. найпопулярнішим підходом до класифікації текстів був метод інженерії знань (knowledge engineering), що полягають у визначенні людиною-спеціалістом набору правил, за якими здійснюється класифікація. За умови, що правила складені грамотно, цей метод є більш точним, ніж другий (див. нижче), а результати обробки легко піддаються інтерпретації, (легко з'ясувати, чому для даного тексту була обрана саме така-то рубрика). Однак, він має суттєвий недолік - створення і підтримка правил в актуальному стані вимагає постійної роботи фахівця, знайомого з тією предметною областю, для якої пишеться даний класифікатор.

. У 90-х рр.. на зміну цьому підходу прийшов підхід, званий машинним навчанням (machine learning), відповідно до якого набір правил або, більш загально, критерій прийняття рішення текстового класифікатора, обчислюється автоматично з навчальних даних.

На...

Назад | сторінка 3 з 16 | Наступна сторінка

Схожі реферати:

Реферат на тему: Етимологія поняття "Товар класу люкс" та основи класифікації това ...

Реферат на тему: Аналіз можливості застосування методів багатовимірного аналізу для класифік ...

Реферат на тему: Немає нічого більш складного і тому більш цінного, ніж мати можливість прий ...

Реферат на тему: Підходи до вивчення та класифікації депресивних розладів

Реферат на тему: Основні підходи до класифікації банківських ризиків, методи управління ними ...

Український реферат переглянуто разів: | Коментарів до українського реферату:

Коментарів до українського реферату: 0