Теми рефератів
> Реферати > Курсові роботи > Звіти з практики > Курсові проекти > Питання та відповіді > Ессе > Доклади > Учбові матеріали > Контрольні роботи > Методички > Лекції > Твори > Підручники > Статті Контакти
Реферати, твори, дипломи, практика » Курсовые обзорные » Аналіз методів автоматичної класифікації документів

Реферат Аналіз методів автоматичної класифікації документів





ментів написаних на природній мові (однаковому в межах даної множини), і безліч заздалегідь відомих категорій (тим, рубрик, розділів). Потрібно для кожного документа вибрати одну, або кілька категорій, до яких він, в силу свого смислового (семантичного) змісту, ставиться з найбільшою часткою впевненості. p> Таким чином, завдання класифікації документів формально полягає у привласненні булева значення кожній парі. p> Невідома цільова функція, де Т і F це В«істинаВ» (якщо текст належить категорії) і В«брехняВ» (якщо текст не належить категорії) відповідно, є рішенням даної задачі. p> Документ, для якого необхідно дозволити завдання класифікації, домовимося називати оброблюваним документом.

Завдання побудови класифікатора, аппроксимирующего значення цільової функції, для конкретної категорії зазвичай полягає в тому, що б визначити функцію. Область значень функції розрізняється залежно від виду класифікації:

В· При ранжированого класифікації область значень функції лежить у відрізку

В 

У даному випадку, функція на вході отримує документ і повертає значення статусу категоризації (categorization status value), т.е число від нуля до одиниці, яке говорить про ступінь приналежності документа до опрделенние категорії. Таким чином, документи ранжуються у відповідності з їх значенням функції, а класифікатор приймає рішення про присвоєння документу даної категорії при аналізі умови [3]. p> В· При точної класифікації область значень функції представлена ​​двома елементами {+0,1} або {F, T} (де Т або 1 це В«істинаВ», тобто текст належить категорії, а F або 0 це В«брехняВ» , тобто текст не належить категорії)


В 

або

В 

У даному випадку, функція на вході отримує документ і дає точну відповідь, чи належить текст даної категорії чи ні. p> Легко бачити, що розглянуте вище визначення класифікатора допускає випадок, коли одному документу присвоюється кілька категорій. Взагалі кажучи, між елементами безлічі категорій можливі такі співвідношення:

В· Категорії називаються пересічними, якщо документ може належати одночасно кільком категоріям. Категорії називаються непересічними, якщо документ не може належати одночасно кільком категоріям.

Таким чином, якщо завдання не допускає віднесення документа до декількох категорій, достатньо заборонити пересічні категорії в деякій множині.

Існує окремий випадок задачі класифікації документів, при якому безліч складається з двох непересічних категорій - бінарна класифікація.

До бінарної класифікації можна звести всі інші: для кожної категорії визначаємо, чи належить даний документ до даної категорії або до її доповненню. У цьому випадку ми гарантуємо, що документ у результаті буде віднесений не більше ніж до однієї категорії. Є два різні способи використання класифікатора документів д...


Назад | сторінка 2 з 16 | Наступна сторінка





Схожі реферати:

  • Реферат на тему: Етимологія поняття "Товар класу люкс" та основи класифікації това ...
  • Реферат на тему: Структура, категорії та функції соціології
  • Реферат на тему: Функції прибутку як найважливішої ринкової категорії
  • Реферат на тему: Політична культура: зміст і методологічне значення категорії
  • Реферат на тему: Туристський похід з елементами першої категорії складності в Березівському ...