Теми рефератів
> Реферати > Курсові роботи > Звіти з практики > Курсові проекти > Питання та відповіді > Ессе > Доклади > Учбові матеріали > Контрольні роботи > Методички > Лекції > Твори > Підручники > Статті Контакти
Реферати, твори, дипломи, практика » Новые рефераты » Питально-відповідна система

Реферат Питально-відповідна система





аб.3.3.).


Таблиця 3.3.

Ознаки для питання « Which European city hosted the 1992 Olympics? » (3)

Слова як естьWhich which_bqw which_JJ European city host 1992 olympicsЧасті речіWDT_0 which_WDT JJ_0 european_JJ NN_1 city_NN VBD_2hosted_VBD DT_3 CD_4 1992_CD NNS_5 olympics_NNSГіперонімиEuropean city metropolis urban_center municipality urban_areageographical_areageographic_areageographical_regiongeographic_region regionlocation entity metropolisurban_centercity_centercentral_cityfinancial_centerHubcivic_centermunicipal_center down_town inner_city

Разметив вручну колекцію з понад 4 тис. запитань автори (3) порахували, які властивості частіше означають кожен семантичний тег. Для цього використовувався математичний а?? Параті максимізації ентропії. Всього на колекції з 4 тис. запитань було породжене 36 тис. ознак. Нижче наведені ваги для прийняття рішення про простановке того чи іншого тега на підставі виявлених ознак (Таб.3.4.).

Недоліком статистичного методу є необхідність створення великої навчальної колекції питань вручну. Так, автори роботи (3) не задоволені розміром своєї колекції з 4 тис. питань TREC - 9.


Таблиця 3.4.

Ознаки для проставляння семантичного тега (3)

ПрізнакіСемантіческій тегВесmany | COUNT0CARDINAL6, 87why_WRBREASON33, 04RegionLOCATION5, 75who_VPERSON4, 09when_V | DEFN0DATE17, 31PeriodDURATION7, 66GovernmentLOCATION9, 56

4. Оцінка методів аналізу питань


Розглянемо процедуру експериментального дослідження методів аналізу питань.


.1 Створення тестової колекції питань


Як і в інших завданнях інформаційного пошуку пропонується створити текстову колекцію питань і виконати аналіз вручну за допомогою інструменту асесора. В якості тестової колекції автори використовують завдання до питально-відповідної доріжці семінару РОМІП 2009. Це 9617 російськомовних питань, сформульованих користувачами в інтернеті.


Рис.4. Інтерфейс асесора


Авторами був розроблена програма - інтерфейс асесора - що дозволяє виділяти фокус і проставляти семантичний тег у питання (Рис.4.). Було опрацьовано 733 питання.


.2 Метрики


В якості основної метрики пропонується використовувати помилку проставляння семантичного тега : E t=(MN) / M, де N - число питань, оброблених асессором, M - число питань, для яких модулем аналізу питання був проставлений той же семантичний тег, що і асессором (3).

Друга метрика повинна оцінювати правильність виділення фокуса в питанні. Автори не знайшли існуючої метрики в літературі, тому пропонують свої метрики: точність P і повноту R виділення фокусу у заданого питання:



В обох множинах ігноруються незначущі слова: питально слова, прийменники, сполучники. Елементами обох множин є не слова як лексичні одиниці, а позиції слів у реченні, тобто безліч може містити кілька примірників о...


Назад | сторінка 6 з 8 | Наступна сторінка





Схожі реферати:

  • Реферат на тему: Правові позиції конституційного суду Росії з питань організації державної в ...
  • Реферат на тему: Правові позиції Конституційного Суду РФ з питань захисту соціально-економіч ...
  • Реферат на тему: Дослідження теоретичних і практичних питань управління кадрами підприємства ...
  • Реферат на тему: Дослідження питань формування фінансової стратегії розвитку територій
  • Реферат на тему: Аналіз нормативних документів з питань митно-тарифного регулювання