Г.В. Дорохіна, В.А. Акчурін
Введення
Обробку природно-мовних текстів (ПМТ) відносять до області штучного інтелекту. Технології обробки ПМТ знайшли своє застосування в системах машинного перекладу, пошукових системах в мережі Інтернет, роботах-автовідповідачах [1] і т.д.
Одним з перших етапів обробки ПМТ є морфологічний аналіз слів, що містяться в тексті. В даний час засоби морфологічного аналізу російськомовних текстів є досить розвиненими - результати їх оцінки представлені в [2], [3].
До теперішнього часу ІПШІ розроблені модуль декларативного морфологічного аналізу слів російської мови «РДМА_ІПІІ» [4] і модуль морфологічного аналізу без словника [5]. РДМА_ІПІІ в явному вигляді зберігає парадигми слів-близько 3 млн словоформ, синтезованих за словником А. А. Залізняка [6].
Оцінка застосування згаданих модулів в рамках форуму «Оцінка методів автоматичного аналізу тексту: морфологічні парсери російської мови» показала, що словникова база РДМА_ІПІІ містить ряд помилок, частина з яких пов'язана з невірним завданням морфологічної інформації (МІ) словоформ - набору граматичних характеристик, притаманних словоформе. Джерелом цих помилок могли служити поетапне розширення набору граматичних характеристик, використовуваних в модулі, а також численні процедури поповнення та коригування, ної бази, в ході вдосконалення її наповнення.
Наявність помилок в словниковій базі РДМА_ІПІІ тягне за собою некоректні тати морфологічного аналізу. Так як словникова база РДМА_ІПІІ є-джерелом для наповнення бази даних модуля морфологічного аналізу без ооваря, помилки в ній згодом поширяться і на результати бессловарного логічного аналізу.
У зв'язку з цим актуальною є розробка методик перевірки словникових наявність некоректних МІ і методики коригування словарной'бази.
Об'єкт дослідження - словникова база модуля морфологічного аналізу. Предмет дослідження - коректність морфологічної інформації.
Мета роботи - корекція словникової бази модуля морфологічного аналізу РДМА_ІПІІ. Для досягнення мети поставлені і вирішені наступні завдання:
- Генерація правил виявлення некоректних значень МІ на основі теоретичних даних і класифікація видів помилок;
- Розробка рекомендацій щодо корекції словникової бази.
Правила виявлення некоректних значень МІ
Для аналізу словникової бази на наявність некоректних значень МІ виберемо з неї всі значення МІ без повторень. В результаті кількість різних значень МІ склало 1359.
На основі теоретичних даних [7], [8] був сформований набір з 96 правил. Ці правила можна представити у вигляді двох таблиць. Табл. 1 відображає перелік обов'язкових і неприпустимих граматичних категорій для частин мови. У цій таблиці граматична категорія, обов'язкова для деякої частини мови, відзначена цифрою «1» на перетині відповідного стовпчика і рядка, а неприпустима граматична категорія для деякої частини мови - цифрою «О».
Порожні комірки таблиці на перетині стовпчика і рядка вказують на те, що граматична категорія не є обов'язковою для всіх словоформ даної частини мови, в той же час парадигма слів даної частини мови містить хоча б одну словоформу, якій притаманна зазначена граматична категорія. У табл. 2 представлені правила визначення некоректних значень МІ для випадків, відповідних порожнім осередкам табл. 1.