на омонімія, словами (лексемам) присвоюються граматичні значення, для кожної підрядної зв'язку визначається її тип. Виробляється сегментація пропозиції: виділення простих речень у складі складного, виділення оборотів, в тому числі вкладених - причетних, дієприкметникових, ад'єктивних і так далі, визначення рядів однорідних членів. Знімається функціональна омонімія розділових знаків, визначаються їх ролі. Облік пунктуації дозволяє домогтися правильного аналізу довгих речень зі складною структурою.
Виділяються деякі складові текстові об'єкти (організації, дати і так далі). Кожен складений об'єкт представлений в дереві однією вершиною, що має синтаксичні зв'язки.
Крім того програма виконує наступні функції:
· може бути вироблено розбиття вхідного тексту на окремі пропозиції;
· можуть бути виправлені деякі орфографічні помилки;
· виробляється поверхнево-семантичний аналіз: визначення дії, суб'єкта й об'єкта для кожної пропозиції, у тому числі для простих у складі складного.
Як ми бачимо, даний програмний продукт не надає можливості відмінювання слів і словосполучень, а також будь-якого іншого зміни вхідного пропозиції.
Ядро аналізатора DictaScope Syntax реалізує універсальні мовні залежності, що дозволяє застосовувати його для розробки аналізаторів різних мов на єдиній платформі. Створено експериментальні версії для англійської та німецької мов. Російська версія є в даний час найбільш проробленою.
Компанія Диктум надає безкоштовний доступ до веб-сервісу DictaScope Syntax для освітніх установ.
У Таблиці 3 наведені результати тестування програми DictaScope Syntax.
Таблиця 3. Результати тестування синтаксичного аналізатора DictaScope Syntax.
Початкове предложеніеРезультат разбораПапа мив пол.мил (мити, глаг.)? Папа (тато, сущ.)? пол (статі, сущ.) Які це годинник? Це годинник з будільніком.часи (години, сущ.)? Які (який, місць. Дод.)? це (цей, місць. дод.) Чия машина стоїть біля під'їзду? коштує (стояти, глаг.)? машина (машина, сущ.)? ? Чия (чий, місць. Дод.)? у (у, пропоз.)? під'їзду (під'їзд, сущ.)
Відразу слід зазначити, що на відміну від інших програмних пакетів, DictaScope Syntax не повертає синтаксичні функції слів.
Що стосується результатів розбору, то можна помітити, що в першому реченні невірно нормалізовано слово «стать». У той же час, друге речення було проаналізовано правильно. Для третього речення результат вийшов практично ідентичним першим двом аналізаторам.
. 4 Pymorphy2
Pymorphy2 - це бібліотека для морфологічного аналізу і відмінювання слів. Вона поширюється по ліцензії MIT, що дозволяє використовувати її в будь-яких цілях.
Можливості бібліотеки [14]:
· приводити слово до нормальної форми;
· ставити слово в потрібну форму;
· повертати граматичну інформацію про слові.
При роботі використовується словник OpenCorpora - проекту по створенню відкритого і вільного корпусу російської мови. Крім того, бібліотека може обробляти слова, що не містяться в словнику.
Великим плюсом є підтримка букви «е», яка, як було показано вище, необхідна при навчанні іноземців російській мові. Цей фактор послужив вирішальним при виборі даної бібліотеки як інструмент для відмінювання слів в модулі контролю знань.
3.5 ABBYY Compreno
ABBYY Compreno - це розробляється в даний момент технологія синтаксичного і семантичного аналізу текстів природною мовою [15]. Центральним ядром створюваної технології служить універсальна ієрархія понять і модель відносин між цими поняттями. У літературі це дерево понять називається Universal Semantic Hierarchy (USH).
Другий, але не менш важливою частиною технології є повний синтаксичний розбір тексту. Семантичні відношення універсальні, а способи їх реалізації в кожній мові - свої. Для кожної мови синтаксичне опис робиться заново, але самі кошти, які різні мови використовують для кодування сенсу, перелічуваних. При описуванні нової мови використовується різні елементи конструктора (той же лінійний порядок, різні типи синтаксичних перетворень, граматичні значення, прийменники, спеціальні конструкції).
Технологія Compreno також дозволяє визначати і більш складні синтаксичні зв'язки, такі як анафора: «Хоч хлопчик і хотів пограти, але він розумів, що у нього мало часу», еліпсис: «він любить червоне вино, а вона - біле ». Виділювані системою зв'язку між поняттями також виражаються в деревній структурі. Таким чин...