Теми рефератів
> Реферати > Курсові роботи > Звіти з практики > Курсові проекти > Питання та відповіді > Ессе > Доклади > Учбові матеріали > Контрольні роботи > Методички > Лекції > Твори > Підручники > Статті Контакти
Реферати, твори, дипломи, практика » Курсовые обзорные » Аналіз методів автоматичної класифікації документів

Реферат Аналіз методів автоматичної класифікації документів





вчальні дані - це безліч документів, беруть участь в навчанні класифікатора, для яких відомо значення цільової функції. Тобто це деяка кількість хороших зразків документів, які розділені на категорії людиною (назвемо розміткою цей процес присвоєння категорій документам навчальної множини). p> Документ називається позитивним або негативним прикладом для категорії, якщо значення цільової функції дорівнює або відповідно. Очевидно, що для документа необхідно дозволити завдання класифікації. p> Незважаючи на те, що для розмітки і раніше потрібна присутність фахівця, даний метод набагато більш простий в реалізації за рахунок того, що процес розмітки набагато простішим процесу написання правил. У міру необхідності, фахівець додає нові навчальні дані в систему і, тим самим, підтримує актуальність критерію класифікації. p> Найчастіше, при використанні методу машинного навчання, безліч навчальних даних ділиться на три непересічних безлічі:

В· - навчальна множина текстів (training set)

В· - перевірочне безліч текстів (validation set)

В· - Тестове безліч текстів (test set)

Процес навчання класифікатора ділиться, відповідно, на три фази: Фаза машинного навчання класифікатора

В· Фаза перевірки та настроювання класифікатора

В· Фаза фінального тестування класифікатора

Як вже було сказано, навчальна множина текстів використовується у фазі машинного навчання для автоматичного вироблення критерію прийняття рішення. Після того, як такий критерій побудований, його налаштовують на перевірочному безлічі текстів. Класифікатор обробляє дане безліч і видає результати, дані результати перевіряється, вносяться корективи в класифікатор. Потім процес повторюють заново, запускаючи класифікатор для того ж самого перевірочного безлічі текстів. Після того як параметри класифікатора виявляються налаштованими оптимальним чином, проводиться одне єдине фінальне тестування класифікатора на тестовому безлічі текстів, в ході якого класифікатор так само повинен побудувати оптимальне рішення. Якщо цього не відбувається, процес налаштування починають заново. Для нового тестування вибирається нове тестове безліч текстів. p align="justify"> У загальному випадку можна виділити три основні фази вирішення завдання класифікації документів:

. Індексація (побудова індексу) документа

. Побудова класифікатора

. Оцінка якості класифікації

Індексацією називається процес приведення документів до єдиного формату, зручного для подальшої обробки. Найчастіше доводиться мати справу з великими обсягами інформації, тому з індексу документа намагаються викидати все зайве. Так, деякі слова (прийменники, спілки тощо) можуть д...


Назад | сторінка 4 з 16 | Наступна сторінка





Схожі реферати:

  • Реферат на тему: Побудова класифікатора морських підводних цілей
  • Реферат на тему: Оформлення текстів службових документів
  • Реферат на тему: Антропоцентрический підхід у дослідженні текстів (на основі документів офіц ...
  • Реферат на тему: Мислення як процес і проблеми логічного аналізу наукових текстів
  • Реферат на тему: Проблема інваріанта сприйняття текстів різних комунікативних регістрів і її ...