лійської мови у файлі формату txt;
очистка, завантаження і збереження бази англійських словоформ;
модифікація бази англійських словоформ;
отримання парадигми із зазначенням МІ кожної словоформи по введеної користувачем лемі, що міститься в словнику початкових форм.
Для досягнення зазначеної мети курсової роботи ставляться і вирішуються наступні завдання:
) огляд методів машинної морфології;
) проектування і розробка ПЗ синтезу парадигм слів англійської мови;
) створення бази даних початкових форм англійських слів з граматичною інформацією, необхідної для генерації бази даних словоформ;
) формалізація правил словозміни англійських слів і розробка відповідних алгоритмів;
) автоматична генерація бази даних англійських словоформ з повною морфологічної інформацією, на основі реалізованих алгоритмів словозміни, що використовує базу даних початкових форм англійських слів;
) тестування системи.
Проектування системи синтезу парадигм слів англійської мови повинно містити:
опис функціональних можливостей розробляється ПО;
опис формату вхідних-вихідних даних.
Розробка ПЗ синтезу парадигм слів англійської мови повинна бути заснована на результатах проектування системи і включати обгрунтування вибору засобів програмної реалізації і опис алгоритмів словотворення англійської мови, структур даних, класів, функцій програмного комплексу.
Тестування і аналіз результатів необхідні для виявлення помилок у структурі алгоритму або його програмної реалізації, структурі вхідних і внутрішніх даних, а також для ліквідації конфліктних ситуацій з іншим ПЗ.
1. Огляд методів машинної морфології
Як вже було сказано вище, морфологічна компонента є найважливішою в сучасних інтелектуальних системах, де потрібна розпізнавання і синтез мови, автоматизований переклад з однієї мови на іншу, розуміння і генерування ЕЯ-тексту.
Ця компонента включає в себе морфологічний аналіз і синтез словоформ. У ході морфологічного аналізу проводиться співвіднесення вхідний словоформи до однієї з основ, що зберігаються в словнику, тобто вирішується завдання розпізнавання, а також визначення його граматичних параметрів, тобто виділення конкретної словоформи з даною основою. Подання словоформи у вигляді сукупності основи і граматичних параметрів потрібно для проведення синтаксичного аналізу з метою розпізнавання словосполучень і типу вхідний фрази. Морфологічний синтез вирішує зворотну задачу, а саме, перетворює сукупність коду основи і граматичних параметрів в буквену послідовність відповідну синтезованої словоформе. При цьому з класу словоформ, що визначається даною основою, формується словоформа, обумовлена ??даними граматичними параметрами. Ця процедура є кінцевим етапом при генеруванні ЕЯ-фраз.
Методи машинної морфології можуть бути реалізовані декларативними і процедурними способами.
. 1 Декларативні методи машинної морфології
Для методів декларативною орієнтації характерна наявність повного словника всіх можливих словоформ для кожного слова. При цьому кожна словоформа забезпечується повною і однозначною морфологічної інформацією (МІ), куди входять як постійні, так і змінні морфологічні параметри. Завдання морфологічного аналізу в цьому випадку зводиться до пошуку потрібної словоформи в словнику і копіюванню МІ, відповідної знайденої словоформе, в програму. Робота морфологічного синтезу полягає у зчитуванні зі словника по основі і набору МІ відповідної словоформи цієї основи.
Існує кілька класифікацій основних видів алгоритмів морфологічного аналізу-синтезу: зі словником основ; методом логічного множення; без словників; зі словником словоформ [1].
Морфологічний аналіз зі словником основ є найбільш поширеним способом аналізу. Для його проведення потрібно словник основ слів і ряд допоміжних таблиць. Основа - це незмінна частина слова, яка виражає його лексичне значення, тобто співвіднесеність звукової оболонки слова з відповідними предметами або явищами об'єктивної дійсності. Стосовно до російської мови основа - це частина слова без закінчення. В англійській мові основа слова, як правило, повністю збігається з самим словом.
Якщо слово має кілька варіантів основ, то словник, як правило, містить всі варіанти. Зазвичай в цьому випадку один з варіантів основи позначається як основний, а інші варіанти містять посилання на нього. Це необхідно для подальшого семантичного аналізу, щоб усунути різні смислові трактува...