Введення
Виявлення формальних структур природної мови (ЕЯ), формалізація мови в цілому, побудова конструктивної теорії та комп'ютерної моделі мови є пріоритетними напрямками інформатики протягом останніх десятиліть. Системи інформаційного пошуку, діалогові системи, інструментальні засоби для машинного перекладу і автореферірованія, рубрикатори і модулі перевірки правопису, так чи інакше, проводять аналіз ЕЯ-текстів. Таким чином, область застосування систем автоматичної обробки текстів (АОТ) досить різноманітна, а на увазі великого зростання обсягів текстової інформації і складною її структурованості, аналіз ЕЯ-текстів являє собою дуже актуальну проблему.
Досягнення останніх років в області сучасної логіки, штучного інтелекту та комп'ютерної лінгвістики створили нові передумови для досліджень природи морфологічних, синтаксичних, семантичних і словотворчих зв'язків у ЕЯ та побудови його функціональної моделі.
Компонента системи, що реалізує формальну лінгвістичну модель і здатна здійснювати повний лінгвістичний аналіз ЕЯ-тексту, називається лінгвістичним процесором (ЛП). Незалежно від мови з боку свого внутрішнього устрою ЛП являє собою багаторівневий перетворювач. У ньому розрізняються три рівня представлення тексту - морфологічний, синтаксичний і семантичний. Кожен з рівнів обслуговується відповідним компонентом моделі - масивом правил і певним словником.
На сучасному етапі розвитку інформаційних технологій морфологічний компонент став невід'ємною частиною інтелектуальних АОТ-систем. Всі експериментальні дослідження в області машинної морфології неможливі без машинного граматичного словника. Використання словника дозволяє здійснити більш повний аналіз словоформи (тобто оперувати великим числом граматичних ознак) і підвищити його точність. Основні труднощі, з якими стикаються розробники АОТ-систем наступні.
. Відсутність єдиного загальноприйнятого формату і структури словника. Це призводить до того, що алгоритми всіх компонент ЛП автоматично стають словарнозавісімимі і кожен алгоритм розробляється під певний формат словника.
. Відсутність повних словників. Обсяги даних, з якими має справу лінгвістика, дуже великі, крім того лексика мови безперервно. Для кожної предметної області існує своя термінологія, включити яку в загальний словник неможливо.
. Відсутність засобів автоматизованої лінгвістичної обробки словників, вона ведеться в основному вручну, пов'язана з великими трудовитратами і появою великої кількості помилок, які важко виявляються. Тому створення великих за обсягом словників - багаторічний процес.
Дана робота присвячена розробці програмних засобів синтезу парадигм слів англійської мови для створення бази даних англійських словоформ з повною морфологічної інформацією.
Актуальність даної задачі обумовлена ??необхідністю розробки засобів АОТ, що дозволяють швидко і ефективно обробляти неструктуровану текстову інформацію.
Об'єктом дослідження є лексеми англійської мови.
Предмет дослідження - моделі словозміни в англійській мові.
Методи, використані при написанні роботи - методи прикладного морфологічного аналізу.
Постановка завдання
Відділ розпізнавання мови Інституту проблем штучного інтелекту (ІПШІ) вже понад 15 років веде роботи, пов'язані з обробкою ЕЯ-текстів. Даним відділом розроблені бібліотеки словозміни слів російської мови, бібліотека лематизації і декларативного морфологічного аналізу; створено кілька версій експериментальних систем синтаксичного аналізу та синтаксичного коректора пропозицій. Дані кошти обробки природно-мовних текстів широко використовуються як при розробці систем розпізнавання мови, так і при розробці систем розуміння ЕЯ-текстів.
В даний час фахівцями відділу ведуться роботи в рамках міжнародного проекту «Дослідження і розробка програмного забезпечення розуміння неструктурованою текстової інформації російською та англійською мовами на базі створення методів комп'ютерного повного лінгвістичного аналізу». У зв'язку з цим виникає необхідність адаптувати наявні засоби морфологічної обробки, які орієнтовані на російську мову, для аналізу англомовних текстів.
Метою курсової роботи є розробка програмного забезпечення (ПО) системи синтезу парадигм слів англійської мови та створення з його допомогою бази даних англійських словоформ, що містить повну морфологічну інформацію кожної словоформи.
Розробляється програмний продукт (ПП) повинен володіти наступними можливостями:
створення, завантаження, редагування і зберігання словника початкових форм слів анг...