слова, а зв'язки - відносини між ними. У даній роботі розглядається чотирьох синтаксичних аналізатора: синтаксичний аналізатор з пакету АОТ, DictaScope Syntax, Cognitive Dwarf і Abbyy Compreno.
Семантичний аналізатор повертає семантичний граф, де вузли - це поняття мови, а зв'язки - відносини між ними. У даній роботі семантичні аналізатори не використовуються.
. 1 АОТ
Програмний пакет АОТ - це набір лінгвістичних процесорів, що здійснюють послідовну обробку тексту [10]. Загальна схема представлена ??на Рис. 2.
Рис. 2. Структурна схема пакета АОТ
Крім аналізу, система надає можливість синтезу тексту іншою мовою. За це відповідають процесори «Трансфер» і «Синтез». Однак як було сказано вище, нас цікавить тільки морфологічний і синтаксичний аналіз.
Русский морфологічний словник АОТ базується на граматичному словнику А.А. Залізняка і включає на даний момент близько 161 тисячі лем. Також, модуль морфологічного аналізу дозволяє отримувати всі форми заданого слова, що можна використовувати для вирішення означеної раніше завдання відміни.
Великим недоліком морфологічного аналізатора є відсутність підтримки букви «е», тоді як, згідно Офіційному порталу Комісії «Російська мова в ЗМІ» Ради з російської мови при Уряді Російської Федерації, вживання літери «е» обов'язково в навчальних посібниках для іноземців [11 ].
Що стосується синтаксичного аналізатора, навіть на простих реченнях він видавав невірні результати (див. Таблицю 1). Тут і далі робота аналізаторів показується на прикладі пропозицій з вправ, наданих викладачами російської мови кафедри РСІ ІМОЯК.
Таблиця 1. Результати роботи синтаксичного аналізатора АОТ
Початкове предложеніеРезультат разбораПапа мив пол.пол - присудок (порожнистий, кр. дод.)? Папа - підмет (ПАПА, сущ.)? мив (МИЛО, сущ.) Які це годинник? Це годинник з будільніком.часи (ГОДИННИК, сущ.)? Які (ЯКИЙ, місць. Дод.) Це (ЦЕЙ, місць. Дод.) Чия машина стоїть біля під'їзду? Варто - присудок (СТОЯТИ, глаг.)? машина - підмет (МАШИНА, сущ.)? ? Чия (ЧИЙ, місць. Дод.)? біля під'їзду - прийменникова група
Як ми бачимо з результатів тестування, не всі пропозиції розібрані правильно. На перше речення дана хоч і граматично вірна, але малоймовірна інтерпретація. Для другого речення не було побудовано зв'язкового дерева. Для третього речення дан вірний розбір.
. 2 Cognitive Dwarf
Cognitive Dwarf - це програмний пакет, що включає в себе синтаксичний аналізатор для російської та англійської мов і систему автоматичного перекладу (російсько-англійське і англо-російське спрямування) [12].
В даний час існує тільки консольний додаток, що надає доступ до функцій пакета. На вхід цьому додатком надходить файл з текстом російською або англійською мовою. Результат роботи консольного застосування зберігається у вихідному файлі, який в залежності від параметрів запуску може містити наступне:
· список слів з текстами нормальних форм і морфологічними атрибутами;
· список синтаксичних зв'язків;
· дерево синтаксичного розбору;
· переклад іншою мовою.
Як видно з опису, програма не дозволяє схиляти окремі слова і робити якісь інші перетворення над вхідними даними, крім перекладу.
Програма поширюється безкоштовно, проте вихідні коди її закриті, і ліцензія дозволяє використання даного пакета тільки в цілях дослідження або навчання.
Протестуємо програму на тих же прикладах, що і попередній пакет. Результати наведені в Таблиці 2.
Таблиця 2. Результати тестування програмного пакета Cognitive Dwarf
Початкове предложеніеРезультат разбораПапа мив пол.мил - присудок (мити, глаг.)? Папа - підмет (тато, сущ.)? підлога - пряме доповнення (стать, сущ.) Які це годинник? Це годинник з будільніком.Какіе (який, місць. Дод.) Це (цей, місць. Дод.) Годинник (годину, сущ.) Чия машина стоїть біля під'їзду? Стои??- Присудок (стояти, глаг.)? машина - підмет (машина, сущ.)? ? Чия - визначення (чий, місць. Дод.)? у - прийменникова група (у, пропоз.)? під'їзду (під'їзд, сущ.)
Як ми бачимо з даної таблиці, для першого і для третього пропозиції був отриманий вірний розбір. Однак результати розбору другого речення навіть гірше, ніж в АОТ: тут взагалі немає зв'язків у дереві, а також слово «годинник» нормалізовано невірно.
. 3 DictaScope
Синтаксичний аналізатор DictaScope Syntax, будує дерево залежностей для вхідного пропозиції природною мовою (російською) [13]. При побудові дерева знімається морфологіч...