аб.3.3.).
Таблиця 3.3.
Ознаки для питання « Which European city hosted the 1992 Olympics? » (3)
Слова як естьWhich which_bqw which_JJ European city host 1992 olympicsЧасті речіWDT_0 which_WDT JJ_0 european_JJ NN_1 city_NN VBD_2hosted_VBD DT_3 CD_4 1992_CD NNS_5 olympics_NNSГіперонімиEuropean city metropolis urban_center municipality urban_areageographical_areageographic_areageographical_regiongeographic_region regionlocation entity metropolisurban_centercity_centercentral_cityfinancial_centerHubcivic_centermunicipal_center down_town inner_city
Разметив вручну колекцію з понад 4 тис. запитань автори (3) порахували, які властивості частіше означають кожен семантичний тег. Для цього використовувався математичний а?? Параті максимізації ентропії. Всього на колекції з 4 тис. запитань було породжене 36 тис. ознак. Нижче наведені ваги для прийняття рішення про простановке того чи іншого тега на підставі виявлених ознак (Таб.3.4.).
Недоліком статистичного методу є необхідність створення великої навчальної колекції питань вручну. Так, автори роботи (3) не задоволені розміром своєї колекції з 4 тис. питань TREC - 9.
Таблиця 3.4.
Ознаки для проставляння семантичного тега (3)
ПрізнакіСемантіческій тегВесmany | COUNT0CARDINAL6, 87why_WRBREASON33, 04RegionLOCATION5, 75who_VPERSON4, 09when_V | DEFN0DATE17, 31PeriodDURATION7, 66GovernmentLOCATION9, 56
4. Оцінка методів аналізу питань
Розглянемо процедуру експериментального дослідження методів аналізу питань.
.1 Створення тестової колекції питань
Як і в інших завданнях інформаційного пошуку пропонується створити текстову колекцію питань і виконати аналіз вручну за допомогою інструменту асесора. В якості тестової колекції автори використовують завдання до питально-відповідної доріжці семінару РОМІП 2009. Це 9617 російськомовних питань, сформульованих користувачами в інтернеті.
Рис.4. Інтерфейс асесора
Авторами був розроблена програма - інтерфейс асесора - що дозволяє виділяти фокус і проставляти семантичний тег у питання (Рис.4.). Було опрацьовано 733 питання.
.2 Метрики
В якості основної метрики пропонується використовувати помилку проставляння семантичного тега : E t=(MN) / M, де N - число питань, оброблених асессором, M - число питань, для яких модулем аналізу питання був проставлений той же семантичний тег, що і асессором (3).
Друга метрика повинна оцінювати правильність виділення фокуса в питанні. Автори не знайшли існуючої метрики в літературі, тому пропонують свої метрики: точність P і повноту R виділення фокусу у заданого питання:
В обох множинах ігноруються незначущі слова: питально слова, прийменники, сполучники. Елементами обох множин є не слова як лексичні одиниці, а позиції слів у реченні, тобто безліч може містити кілька примірників о...