Теми рефератів
> Реферати > Курсові роботи > Звіти з практики > Курсові проекти > Питання та відповіді > Ессе > Доклади > Учбові матеріали > Контрольні роботи > Методички > Лекції > Твори > Підручники > Статті Контакти
Реферати, твори, дипломи, практика » Статьи » Метод автоматизованого поповнення словника наголосів

Реферат Метод автоматизованого поповнення словника наголосів





P>

За основу взято метод, описаний в [14]. Суть методу полягає у використанні так званих «граничних маркерів» (token boundaries - TB). Їх розташування сигналізує про кінець поточної лексеми і про початок нової. Наприклад, пропозиція:

(4) «Чудесний жереб здійснився: згас велика людина.»

прийме вигляд:

(5) «Чудесний TB жереб TB здійснився TB: TB згас TB великий TB людина TB.»

Для складання ритмічного малюнка слід виключити з тексту знаки пунктуації. Таким чином, (4) прийме вигляд:

(6) «Чудесний TB жереб TB здійснився TB згас TB великий TB людина TB»

Слід розробити ряд правил - якийсь алгоритм розстановки граничних маркерів, що дозволяє зробити певні дії по виділенню необхідних лексем. Правила розробляються окремо в залежності від цілей і особливостей природної мови. За своєю структурою правила нагадують розпізнає кінцевий автомат: на вхід подається рядок тексту, здійснюється зрушення і зчитування кожного символу, виконуються відповідні операції в залежності від стану, і на вихід подається перероблена рядок. Для нашого випадку перелік правил буде мати наступний вигляд:

1. Знак пунктуації? TB

2. Пробіл? TB

3. TB TB? TB

Пункти 1 і 2 подразумевают ігнорування всіх знаків, які не є буквами (цифри та інші символи не підлягають аналізу, так як ми розглядаємо ситуацію, в якій вірш містить тільки букви і розділові знаки). Пункт 3 здійснює заміну кількох йдуть підряд граничних маркерів на один. Така необхідність виникає в силу того, що кожен з знаків пунктуації або прогалин, що стоять поруч, після виконання пунктів 1 і 2 залишає після себе граничний маркер. Так як граничний маркер призначений для відділення лексем один від одного, розташування граничних маркерів поруч один з одним нераціонально.


. 2 Аналіз структури вірша


Для подальшої роботи необхідний збір відомостей, що дозволяють визначити основні характеристики тексту:

· кількість слів

· кількість невідомих слів

· розмір строфи

Від співвідношення обсягу невідомих слів до загального обсягу слів у вірші залежить релевантність майбутнього ритмічного малюнка: якщо в тексті зустрічається надто багато невідомих слів, ритмічний малюнок може виявитися неточним, що негативно позначиться на формуванні еталонного ритмічного малюнка.


4.3 Формування ритмічного малюнка


На даному етапі відбувається переклад тексту в схематичну послідовність ударних і ненаголошених складів. У системи вже повинна бути заготовлена ??база знань, що містить відомості про голосних даного природної мови, за якими буде відбуватися побудова ритмічного малюнка.

Введемо таблицю позначень:

«-» - безударна позиція;

«/» - ударний склад;

«=» - ймовірносно безударная позиція;

«%» - ймовірносно ударна позиція;

«X» - неоднозначна позиція;

«?» - невідома позиція.

Система почергово зчитує лексеми, визначаючи початок і кінець кожного елемента за допомогою граничних маркерів, введених в розділі 2, паралельно визначаючи кількість голосних в поточному елементі. Залежно від цієї кількості, можливий два розвитку подій:

1) У слові одна голосна

Це слова не додається в словник, так як постановка наголосу в даному випадку очевидна. Система записує підсумкову схему «X». Це обумовлено тим, що по односкладовим словами не можна будувати ритмічний малюнок, так як в різних строфах їх позиції можуть з однаковою ймовірністю мати сильну і слабку позиції. В іншому випадку послідовність з декількох йдуть підряд односкладових слів буде розпізнаватися як послідовність ударних складів, що негативно вплине на якість ритмічного малюнка.

2) У слові більше однієї голосної

Системі необхідно з'ясувати, чи є дане слово в словнику наголосів. Для цього здійснюється почергове порівняння поточного слова з кожним елементом вихідного словника .. Слово знайдено в словнику

Так як словоформи в словнику вже згруповані по позиції ударної гласною, можна відразу визначити наголос. Приміром, слово «транзистор» буде знайдено в категорії 2, так як наголос падає на передостанній склад. Однак тепер потрібно знати положення наголоси відносно не кінця, а початку слова, так як розбір тексту відбувається зліва направо. Отже, позицію наголоси слід також аналізувати зліва направо. Це значення обчислюєт...


Назад | сторінка 5 з 22 | Наступна сторінка





Схожі реферати:

  • Реферат на тему: Архаїчне Значення слів у словнику української мови
  • Реферат на тему: Розробка алгоритму роботи синтаксичного аналізатора тексту, а також бази да ...
  • Реферат на тему: Програма частотного словника сполучень слів
  • Реферат на тему: Розробка малюнка настінного календаря за допомогою графічного редактора Cor ...
  • Реферат на тему: Графіків-орфографічний вигляд сучасного тексту