ційними пошуковими системами отримують запитально пропозиція на природній мові (англійською, російською і т.д.), а не набір ключових слів, і повертають короткий відповідь, а НЕ список документів і посилань. Сучасні системи інформаційного пошуку дозволяють нам отримати список цілих документів, які можуть містити інформацію, що цікавить, при цьому залишають користувачеві роботу з отримання потрібних даних із документів, впорядкованих за рівнем релевантності запитом. Наприклад, користувач вводить наступне питання: «Хто є президентом Росії?» і як відповідь отримує ім'я людини, а не список релевантних посилань на документи. Таким чином, знаходження відповіді на питання витяганням невеликого уривка тексту з документа, у якому безпосередньо міститься сам відповідь, на відміну від інформаційного пошуку зовсім інше завдання.
Велика частина існуючих проектів в області питально-відповідна пошуку призначені для англійської мови. Якщо порівняти кілька робіт в даній сфері досліджень, то можна прийти до стандартної схеми пристрою питально-відповідних систем. Як правило, робота типовий питально-відповідної системи складається з декількох етапів:
. етап аналізу питання, введеного користувачем;
. етап інформаційного пошуку;
. етап витягання відповіді.
На першому етапі виробляється введення питання на природній мові і первинна обробки і формалізація пропозиції різними аналізаторами (синтаксичним, морфологічним, семантичним), визначаються відповідні його атрибути для подальшого їх використання. Далі на другому етапі відбувається пошук та аналіз документів - відбираються документи та їх фрагменти, в яких може міститися відповідь на вихідний питання. На третьому етапі відбувається вилучення відповіді: система, отримуючи текстові документи або їх фрагменти, витягує з них слова, пропозиції або уривки тексту, які можуть стати відповіддю.
Слід зазначити, що важливу роль в результатах та розробці відіграє використання різних словників-тезаурусів. Застосування даних словників вирішують завдання визначення типів сутностей для виявлення відповідей, знаходження початкової форми слів для використання їх в пошукових запитах. Також дані словники використовуються для знаходження синонімів слів.
.1 Завдання аналізу питання
Першим етапом роботи є створення модуля аналізу питань (Question Analysis на Рис.1). Для модуля ставиться наступне завдання: для питання на природній мові виділити фокус питання, опору питання і визначити семантичний тег відповіді (Рис.2).
Рис. 2. Недеталізірованние діаграма IDEF0 для процесу аналізу питання.
Фокус питання (англ.: question focus) - це такі відомості, які у питанні, які несуть в собі інформацію про очікування користувача від інформації у відповіді (4).
Опора питання (англ.: question support) - це інша частина питання (після «вирахування» фокуса), яка несе в собі інформацію, підтримуючу вибір конкретної відповіді.
Семантичний тег відповіді (англ.: answer tag, answer type) - клас запитуваної користувачем інформації згідно деякої раніше заданої таксономії.
Нижче на...