Реферат Питально-відповідна система

Тема: Новые рефераты

аб.3.3.).

Таблиця 3.3.

Ознаки для питання « Which European city hosted the 1992 Olympics? » (3)

Слова як естьWhich which_bqw which_JJ European city host 1992 olympicsЧасті речіWDT_0 which_WDT JJ_0 european_JJ NN_1 city_NN VBD_2hosted_VBD DT_3 CD_4 1992_CD NNS_5 olympics_NNSГіперонімиEuropean city metropolis urban_center municipality urban_areageographical_areageographic_areageographical_regiongeographic_region regionlocation entity metropolisurban_centercity_centercentral_cityfinancial_centerHubcivic_centermunicipal_center down_town inner_city

Разметив вручну колекцію з понад 4 тис. запитань автори (3) порахували, які властивості частіше означають кожен семантичний тег. Для цього використовувався математичний а?? Параті максимізації ентропії. Всього на колекції з 4 тис. запитань було породжене 36 тис. ознак. Нижче наведені ваги для прийняття рішення про простановке того чи іншого тега на підставі виявлених ознак (Таб.3.4.).

Недоліком статистичного методу є необхідність створення великої навчальної колекції питань вручну. Так, автори роботи (3) не задоволені розміром своєї колекції з 4 тис. питань TREC - 9.

Таблиця 3.4.

Ознаки для проставляння семантичного тега (3)

ПрізнакіСемантіческій тегВесmany | COUNT0CARDINAL6, 87why_WRBREASON33, 04RegionLOCATION5, 75who_VPERSON4, 09when_V | DEFN0DATE17, 31PeriodDURATION7, 66GovernmentLOCATION9, 56

4. Оцінка методів аналізу питань

Розглянемо процедуру експериментального дослідження методів аналізу питань.

.1 Створення тестової колекції питань

Як і в інших завданнях інформаційного пошуку пропонується створити текстову колекцію питань і виконати аналіз вручну за допомогою інструменту асесора. В якості тестової колекції автори використовують завдання до питально-відповідної доріжці семінару РОМІП 2009. Це 9617 російськомовних питань, сформульованих користувачами в інтернеті.

Рис.4. Інтерфейс асесора

Авторами був розроблена програма - інтерфейс асесора - що дозволяє виділяти фокус і проставляти семантичний тег у питання (Рис.4.). Було опрацьовано 733 питання.

.2 Метрики

В якості основної метрики пропонується використовувати помилку проставляння семантичного тега : E t=(MN) / M, де N - число питань, оброблених асессором, M - число питань, для яких модулем аналізу питання був проставлений той же семантичний тег, що і асессором (3).

Друга метрика повинна оцінювати правильність виділення фокуса в питанні. Автори не знайшли існуючої метрики в літературі, тому пропонують свої метрики: точність P і повноту R виділення фокусу у заданого питання:

В обох множинах ігноруються незначущі слова: питально слова, прийменники, сполучники. Елементами обох множин є не слова як лексичні одиниці, а позиції слів у реченні, тобто безліч може містити кілька примірників о...

Назад | сторінка 6 з 8 | Наступна сторінка

Схожі реферати:

Реферат на тему: Правові позиції конституційного суду Росії з питань організації державної в ...

Реферат на тему: Правові позиції Конституційного Суду РФ з питань захисту соціально-економіч ...

Реферат на тему: Дослідження теоретичних і практичних питань управління кадрами підприємства ...

Реферат на тему: Дослідження питань формування фінансової стратегії розвитку територій

Реферат на тему: Аналіз нормативних документів з питань митно-тарифного регулювання

Український реферат переглянуто разів: | Коментарів до українського реферату:

Коментарів до українського реферату: 0