P>
За основу взято метод, описаний в [14]. Суть методу полягає у використанні так званих «граничних маркерів» (token boundaries - TB). Їх розташування сигналізує про кінець поточної лексеми і про початок нової. Наприклад, пропозиція:
(4) «Чудесний жереб здійснився: згас велика людина.»
прийме вигляд:
(5) «Чудесний TB жереб TB здійснився TB: TB згас TB великий TB людина TB.»
Для складання ритмічного малюнка слід виключити з тексту знаки пунктуації. Таким чином, (4) прийме вигляд:
(6) «Чудесний TB жереб TB здійснився TB згас TB великий TB людина TB»
Слід розробити ряд правил - якийсь алгоритм розстановки граничних маркерів, що дозволяє зробити певні дії по виділенню необхідних лексем. Правила розробляються окремо в залежності від цілей і особливостей природної мови. За своєю структурою правила нагадують розпізнає кінцевий автомат: на вхід подається рядок тексту, здійснюється зрушення і зчитування кожного символу, виконуються відповідні операції в залежності від стану, і на вихід подається перероблена рядок. Для нашого випадку перелік правил буде мати наступний вигляд:
1. Знак пунктуації? TB
2. Пробіл? TB
3. TB TB? TB
Пункти 1 і 2 подразумевают ігнорування всіх знаків, які не є буквами (цифри та інші символи не підлягають аналізу, так як ми розглядаємо ситуацію, в якій вірш містить тільки букви і розділові знаки). Пункт 3 здійснює заміну кількох йдуть підряд граничних маркерів на один. Така необхідність виникає в силу того, що кожен з знаків пунктуації або прогалин, що стоять поруч, після виконання пунктів 1 і 2 залишає після себе граничний маркер. Так як граничний маркер призначений для відділення лексем один від одного, розташування граничних маркерів поруч один з одним нераціонально.
. 2 Аналіз структури вірша
Для подальшої роботи необхідний збір відомостей, що дозволяють визначити основні характеристики тексту:
· кількість слів
· кількість невідомих слів
· розмір строфи
Від співвідношення обсягу невідомих слів до загального обсягу слів у вірші залежить релевантність майбутнього ритмічного малюнка: якщо в тексті зустрічається надто багато невідомих слів, ритмічний малюнок може виявитися неточним, що негативно позначиться на формуванні еталонного ритмічного малюнка.
4.3 Формування ритмічного малюнка
На даному етапі відбувається переклад тексту в схематичну послідовність ударних і ненаголошених складів. У системи вже повинна бути заготовлена ??база знань, що містить відомості про голосних даного природної мови, за якими буде відбуватися побудова ритмічного малюнка.
Введемо таблицю позначень:
«-» - безударна позиція;
«/» - ударний склад;
«=» - ймовірносно безударная позиція;
«%» - ймовірносно ударна позиція;
«X» - неоднозначна позиція;
«?» - невідома позиція.
Система почергово зчитує лексеми, визначаючи початок і кінець кожного елемента за допомогою граничних маркерів, введених в розділі 2, паралельно визначаючи кількість голосних в поточному елементі. Залежно від цієї кількості, можливий два розвитку подій:
1) У слові одна голосна
Це слова не додається в словник, так як постановка наголосу в даному випадку очевидна. Система записує підсумкову схему «X». Це обумовлено тим, що по односкладовим словами не можна будувати ритмічний малюнок, так як в різних строфах їх позиції можуть з однаковою ймовірністю мати сильну і слабку позиції. В іншому випадку послідовність з декількох йдуть підряд односкладових слів буде розпізнаватися як послідовність ударних складів, що негативно вплине на якість ритмічного малюнка.
2) У слові більше однієї голосної
Системі необхідно з'ясувати, чи є дане слово в словнику наголосів. Для цього здійснюється почергове порівняння поточного слова з кожним елементом вихідного словника .. Слово знайдено в словнику
Так як словоформи в словнику вже згруповані по позиції ударної гласною, можна відразу визначити наголос. Приміром, слово «транзистор» буде знайдено в категорії 2, так як наголос падає на передостанній склад. Однак тепер потрібно знати положення наголоси відносно не кінця, а початку слова, так як розбір тексту відбувається зліва направо. Отже, позицію наголоси слід також аналізувати зліва направо. Це значення обчислюєт...