Реферат Досвід розробки моделі розпізнавання російської мови з надвеликим словником

Тема: Новые рефераты

люнку 1. Автоматична обробка зібраного матеріалу здійснюється наступним чином [2] . Спочатку відбувається розбиття текстового масиву на пропозиції, при цьому пропозиції, що містять пряму і непряму мову, поділяються на окремі пропозиції. Початок і кінець пропозиції відзначаються знаками та відповідно. Видаляються повторювані пропозиції. Потім відбувається видалення тексту, написаного в будь-яких дужках, видалення речень, що складаються з п'яти і меншої кількості слів (як правило - це заголовки, складені не за граматичним правилам для повних речень). Потім з текстів видаляються знаки пунктуації, розшифровуються загальноприйняті скорочення (наприклад, «см», «кг»). У словах, що починаються з великої літери, відбувається заміна великої літери на рядкову. Якщо все слово написано великими літерами, то заміна не робиться, так як це слово, ймовірно, є абревіатурою. На даний момент загальний обсяг корпусу після його обробки складає понад 110 млн слововживань (близько 750 Мб даних).

Рисунок 1 - Діаграма процесу створення моделі мови

На базі зібраного російськомовного текстового корпусу був створений частотний словник, розмір якого становить близько одного мільйона унікальних словоформ. Статистична модель мови була створена за допомогою програмного модуля обробки та аналізу текстів CMU (Cambridge Statistical Language Modeling Toolkit) [4] . Модель мови створювалася в кілька етапів. Спочатку кількість биграмм становило 22,7 млн, триграм - 56400000, кількість унікальних слів в текстах (словник) - 937 тис. Оскільки в оброблюваному тексті присутня досить велика кількість рідкісних слів і слів з друкарськими помилками, при побудові моделі мови був введений поріг K, тобто і-грами, у яких частота появи менше K, віддалялися з моделі мови. Для біграммной моделі мови був утсановлен поріг K=2. При створенні тріграммной моделі мови був обраний поріг K=3, оскільки при меншому порозі за великого числа триграм ймовірність деяких з них була настільки мала, що виникали помилки при округленні, в результаті чого сума ймовірностей виявлялася більше 1. Потім для слів, які використовувалися в цих моделях мови, були автоматично створені транскрипції [1] . і-грами зі словами, для яких транскрипції не могли бути створені автоматично, були видалені з моделі мови. Однак через вилучення деяких і-грам з моделі мови з'явилися слова, які в моделі не призводять до кінцевого результату (розривають ланцюжок слів), оскільки зустрічаються в і-грамах не у всіх позиціях. Тому модель мови була також скорочена шляхом видалення і-грам, що містять такі слова. У результаті в кінцевій біграммной моделі кількість унікальних словоформ склало 208 тис., кількість биграмм - 6010000, в тріграммной моделі кількість унікальних словоформ - 76 тис., триграм - 3,43 млн.

2. Результати розпізнавання мови з використанням п програмних моделей мови

Для розпізнавання злитої російської мови використовувався розроблений в СПІІРАН декодер SIRIUS [8] . В якості фонетичних одиниць при розпізнаванні мови застосовувалися контекстно-залежні фони (Трифо...

Назад | сторінка 2 з 5 | Наступна сторінка

Схожі реферати:

Реферат на тему: Розробка інформаційної моделі автосервісу з використанням мови моделювання ...

Реферат на тему: Особливості при перекладі технічних текстів з англійської мови на російську ...

Реферат на тему: Причини і наслідки запозичення іноземних слів для розвитку російської мови

Реферат на тему: Етимологія слів англійської мови

Реферат на тему: Вплив мови реклами на збагачення лексичного складу російської мови

Український реферат переглянуто разів: | Коментарів до українського реферату:

Коментарів до українського реферату: 0