і т.д. Таким чином, лінійний порядок пропозиції в автоматичному синтаксичному аналізі використовується як покажчик найбільш ймовірного напрямку пошуку слуги чи господаря, і тільки в рідкісних випадках як обов'язковий критерій встановлення синтаксичної залежності.
. Розробка системи синтаксичного аналізу тексту
2.1 Структура системи синтаксичного аналізатора тексту і використовувана методика аналізу тексту
Розбір тексту підрозділяється на 4 етапи:
1. Графематіческій аналіз (аналіз структури тексту). На даному етапі проводиться аналіз структури тексту, виділяються слова і словосполучення, абревіатури, знаки пунктуації та інші усталені структури.
2. Фрагментаціонний аналіз. В пропозиції виділяються синтаксичні єдності (фрагменти) великих чи рівних словосполученню (синтаксичної групі) і встановлюються ієрархії на безлічі цих єдностей
. Морфологічний аналіз. Аналіз словотворення.
. Синтаксичний аналіз. Перевірка синтаксису пропозицій. Розбір на структурні складові.
Рис. 2.1. Загальна схема модулів ССА та їх взаємодії
Для того, щоб зрозуміти важливість і необхідність цих шести етапів розбору, розглянемо їх більш докладно.
2.2 Графематіческій аналіз
2.2.1 Загальний опис
Даний етап генерує вихідну інформацію, необхідну для подальшої обробки за допомогою морфологічного, фрагментаціонного і синтаксичного аналізаторів. У завдання графематіческого аналізу входять:
1. Поділ вхідного тексту на слова, роздільники і т.д.
2. Збірка слів, написаних у розрядку;
. Виділення стійких оборотів, які не мають словоїзменітельних варіантів;
. Виділення дат в цифрових форматах;
. Виділення П.І.Б. (Прізвище, ім'я, по батькові), коли ім'я та по батькові написані ініціалами;
. Виділення електронних адрес;
. Виділення пропозицій з вхідного тексту;
. Виділення абзаців, заголовків, приміток.
2.2.2 Вхідні і вихідні дані