tify"> Проте сьогодні питально-відповідні системи показують далеко не вражаючі результати. Так, найкраща система на доріжці GikiCLEF 2009 продемонструвала точність 47% (відзначимо, що це результат роботи систем на багатомовною колекції). Окремо відзначимо той факт, що сьогодні дуже мало російськомовних питально-відповідних систем бере участь у відкритій незалежної оцінки якості. У публікаціях зустрічається тільки один випадок, який дає можливість порівняти хоча б дві системи - це участь системи Стокона (сьогодні AskNet) і Exacatus на семінарі РОМІП 2006 (2., 23). Обидві системи використовують метод семантичного індексування, який є сьогодні тільки одним з безлічі методів, використовуваних дослідниками в світі (3,4). На думку авторів, потрібно провести дослідження інших популярних методів на російськомовному корпусі.
Аналіз існуючих робіт показав, що для проведення незалежної оцінки на корпусах російської мови всього спектру методів, застосовуваних в питально-відповідних системах, потрібне створення дослідницької програмної платформи в згоді з т.зв. типовий архітектурою питально-відповідної системи (Common architecture for Question Answering (3)). В якості основи пропонується використовувати систему з відкритим вихідним кодом OpenEphyra, яка вже була використана іншими дослідниками для роботи з англійською, німецькою та голландською мовами (5). Архітектура системи OpehEphyra повторює типову архітектуру.
Основними завданнями для роботи є реалізація практично всіх модулів конвеєра системи для російської мови. Автори припускають задіяти наступні існуючі програмні бібліотеки для обробки російської мови: бібліотеки лексичного, морфологічного та синтаксичного розбору від aot (6), модуль морфологічного розбору пропозицій mystem (7), класифікацію питань системи AskNet для російської мови (8., 34 ), тезаурус російської мови RussNet (9). Ряд відсутніх модулів необхідно розробити самостійно: синтаксичні шаблони питань і відповідей, модуль категоризації питань, модуль розпізнавання іменованих сутностей.
Рис.1. Архітектура системи OpenEphyra (10., 1)
Метою роботи є підготовка базової дослідницької системи для виступу на семінарах РОМІП, CLEF, TREC. Без подібної системи автори вважають неможливим проведення експериментальних досліджень методів автоматичної відповіді на питання російською мовою. Враховуючи результати аналогічного проекту голландською мовою - в роботі (5) була досягнута точність 3.5% - автори очікують, що базова реалізація системи продемонструє точність того ж порядку на доріжці РОМІП минулих років. Окремою проблемою є неможливість повторно використовувати питально-відповідні доріжки РОМІП в автоматичному режимі (2). Для вирішення цієї проблеми автори планують створити повторно використовувану тестову колекцію на основі підмножини завдань РОМІП, з використанням регулярних виразів для порівняння відповідей, як запропоновано організаторами TREC в роботі (11).
Далі в статті обговорюється тільки перший етап роботи питально-відповідної системи - модуль аналізу питань. Розглянуті: постановка завдання аналізу питання, методи аналізу питань і доступний апарат експериментального дослідження методів на тестовій колекції питань.
2. Огляд предметної області
Системи питально-відповідна пошуку в порівнянні з тради...