нятків. Структура цього файлу точно така ж, але до нього внесені цілі словоформи, а не їх закінчення. Таким чином, при пошуку серед виключень доводиться переглядати всі словоформи всіх присутніх у словнику винятків. Це займає багато часу, тому пошук серед виключень проводиться тільки в тому випадку, коли не знайдено жодного варіанту серед звичайних основ. Сам аналіз проводиться точно так само. Якщо деяка словоформа деякого винятку точно збігається з аналізованих словом, то за номером словоформи визначаються змінні морфологічні параметри слова, а по словникової інформації самого виключення - постійні параметри слова. У випадку, коли всі етапи пошуку дали негативний результат (не знайдено жодного варіанту), користувачеві видається запит на введення нової основи в словник.
Другий підхід передбачає наявність словника початкових форм і граматичної інформації, необхідної для словозміни (якось, частина мови, рід і т.д.), а також програмної реалізації правил словотворення. Для слів російської мови такий словник давно розроблений [3] і успішно використовується при розробці морфологічних парсеров. Підхід полягає в тому, що слово послідовно зараховується до кожної з частин мови. Послідовно вибираю?? ся закінчення для цієї частини мови. У випадку, якщо закінчення однією з непрямих форм збігається з кінцівкою слова, що збігається частина відкидається, виробляються чергування в основі, якщо слово відповідає шаблону чергування, і до отриманої основі додається закінчення леми. При побудові леми запам'ятовується проміжна інформація.
Для російської мови, як і для більшості синтетичних мов, завдання лексико-граматичного розбору вирішується досить просто і майже стовідсотковою точністю, завдяки їх розвиненою морфології. В аналітичних мовах, наприклад англійською, де широко представлена ??лексична багатозначність, простий алгоритм, сопоставляющий кожному слову в тексті найбільш ймовірний для даного слова морфологічний клас, дає лише близько 90% точності.
Аналіз показав, що найбільш поширеним методом морфологічного аналізу-синтезу є декларативний, що пояснюється простотою його алгоритму і зручністю кодування. Тому в рамках даної роботи будемо використовувати саме цей підхід.
. 3 Способи подання морфологічної інформації
Одне з питань, що вимагають особливого розгляду, - спосіб представлення МІ. Завдання МІ має бути компактно, дозволяти швидко і просто витягувати окремі морфологічні характеристики слова (наприклад, тільки рід або тільки частина мови).
Зазвичай постійна і змінна МІ зберігаються у вигляді рядків тексту. Іноді її представляють у вигляді фрейму, в якому для зберігання кожної з характеристик відведено окреме поле. Для конкретної словоформи заповнюються не всі поля, а тільки ті які для неї характерні. У першому і в другому випадку стикаємося з резервуванням зайвого місця і необхідністю використання складних процедур інтерпретації.
Третій спосіб зберігання МІ - у вигляді бітових полів. Він поєднує в собі зручності обробки та економне зберігання МІ, тому більш кращий. Розглянемо спосіб завдання МІ за допомогою бітових полів, реалізований в модулі декларативного морфологічного аналізу слів російської мови РДМА_ІПІІ, розробленого в Інституті проблем штучного інтелекту (ІПШІ).
Дана система використовує алгоритми швидкого пошуку рядків у великому масиві рядків і розрахована на кількість словоформ словника, що містить 100 тис. початкових форм, що наближено дорівнює 2 млн. Для реалізації проекту були розроблені засоби швидкого пошуку строкових величин [ 4].
Ряд систем морфологічного аналізу дозволяють користувачеві поповнювати словник. У даній системі передбачається, що користувач не повинен поповнювати словник, тому він може бути джерелом помилок. Словник заповнюється один раз (процес може бути розтягнутий у часі) розробником, і багаторазово використовується кінцевим користувачем.
Модуль в явному вигляді зберігає всі дані в деревовидної структурі, витяг окремих морфологічних характеристик слова проводиться одноманітно, неможлива невірна інтерпретація МІ. Перелік позначень морфологічних характеристик наведений у додатку А (таблиця А.1). Для вилучення МІ використовуються маски категорій МІ (додаток А, таблиця А.2). Визначення значення однієї з категорій, наприклад роду, відбувається шляхом застосування операції побітового «і» значення морфологічної інформації та маски категорій. Якщо словоформе категорія не притаманна, то результат операції побітового «і» її морфологічної інформації та маски цієї категорії буде дорівнює 0. Наприклад, для визначення значення категорії «рід» словоформи з морфологічної інформацією MI необхідно виконати операцію MI amp; rod_mask, внаслідок одержимо одне із значень: _Masculine, _Feminine, _Neuter а...