Теми рефератів
> Реферати > Курсові роботи > Звіти з практики > Курсові проекти > Питання та відповіді > Ессе > Доклади > Учбові матеріали > Контрольні роботи > Методички > Лекції > Твори > Підручники > Статті Контакти
Реферати, твори, дипломи, практика » Новые рефераты » Корекція словникової бази модуля морфологічного аналізу «РДМА_ІПІІ»

Реферат Корекція словникової бази модуля морфологічного аналізу «РДМА_ІПІІ»





Г.В. Дорохіна, В.А. Акчурін

Введення

Обробку природно-мовних текстів (ПМТ) відносять до області штучного інтелекту. Технології обробки ПМТ знайшли своє застосування в системах машинного перекладу, пошукових системах в мережі Інтернет, роботах-автовідповідачах [1] і т.д.

Одним з перших етапів обробки ПМТ є морфологічний аналіз слів, що містяться в тексті. В даний час засоби морфологічного аналізу російськомовних текстів є досить розвиненими - результати їх оцінки представлені в [2], [3].

До теперішнього часу ІПШІ розроблені модуль декларативного морфологічного аналізу слів російської мови «РДМА_ІПІІ» [4] і модуль морфологічного аналізу без словника [5]. РДМА_ІПІІ в явному вигляді зберігає парадигми слів-близько 3 млн словоформ, синтезованих за словником А. А. Залізняка [6].

Оцінка застосування згаданих модулів в рамках форуму «Оцінка методів автоматичного аналізу тексту: морфологічні парсери російської мови» показала, що словникова база РДМА_ІПІІ містить ряд помилок, частина з яких пов'язана з невірним завданням морфологічної інформації (МІ) словоформ - набору граматичних характеристик, притаманних словоформе. Джерелом цих помилок могли служити поетапне розширення набору граматичних характеристик, використовуваних в модулі, а також численні процедури поповнення та коригування, ної бази, в ході вдосконалення її наповнення.

Наявність помилок в словниковій базі РДМА_ІПІІ тягне за собою некоректні тати морфологічного аналізу. Так як словникова база РДМА_ІПІІ є-джерелом для наповнення бази даних модуля морфологічного аналізу без ооваря, помилки в ній згодом поширяться і на результати бессловарного логічного аналізу.

У зв'язку з цим актуальною є розробка методик перевірки словникових наявність некоректних МІ і методики коригування словарной'бази.

Об'єкт дослідження - словникова база модуля морфологічного аналізу. Предмет дослідження - коректність морфологічної інформації.

Мета роботи - корекція словникової бази модуля морфологічного аналізу РДМА_ІПІІ. Для досягнення мети поставлені і вирішені наступні завдання:

- Генерація правил виявлення некоректних значень МІ на основі теоретичних даних і класифікація видів помилок;

- Розробка рекомендацій щодо корекції словникової бази.

Правила виявлення некоректних значень МІ

Для аналізу словникової бази на наявність некоректних значень МІ виберемо з неї всі значення МІ без повторень. В результаті кількість різних значень МІ склало 1359.

На основі теоретичних даних [7], [8] був сформований набір з 96 правил. Ці правила можна представити у вигляді двох таблиць. Табл. 1 відображає перелік обов'язкових і неприпустимих граматичних категорій для частин мови. У цій таблиці граматична категорія, обов'язкова для деякої частини мови, відзначена цифрою «1» на перетині відповідного стовпчика і рядка, а неприпустима граматична категорія для деякої частини мови - цифрою «О».

Порожні комірки таблиці на перетині стовпчика і рядка вказують на те, що граматична категорія не є обов'язковою для всіх словоформ даної частини мови, в той же час парадигма слів даної частини мови містить хоча б одну словоформу, якій притаманна зазначена граматична категорія. У табл. 2 представлені правила визначення некоректних значень МІ для випадків, відповідних порожнім осередкам табл. 1.


сторінка 1 з 7 | Наступна сторінка





Схожі реферати:

  • Реферат на тему: Розробка бази даних для статистичного аналізу та обробки інформації про іше ...
  • Реферат на тему: Розробка алгоритму роботи синтаксичного аналізатора тексту, а також бази да ...
  • Реферат на тему: Розробка бази даних для аналізу продажів в рекламному агентстві
  • Реферат на тему: Розробка комплексу аналізу помилок в корпоративних інформаційних системах
  • Реферат на тему: Вивчення методики аналізу податків і платежів підприємства, розробка рекоме ...