люнку 1. Автоматична обробка зібраного матеріалу здійснюється наступним чином [2] . Спочатку відбувається розбиття текстового масиву на пропозиції, при цьому пропозиції, що містять пряму і непряму мову, поділяються на окремі пропозиції. Початок і кінець пропозиції відзначаються знаками та відповідно. Видаляються повторювані пропозиції. Потім відбувається видалення тексту, написаного в будь-яких дужках, видалення речень, що складаються з п'яти і меншої кількості слів (як правило - це заголовки, складені не за граматичним правилам для повних речень). Потім з текстів видаляються знаки пунктуації, розшифровуються загальноприйняті скорочення (наприклад, «см», «кг»). У словах, що починаються з великої літери, відбувається заміна великої літери на рядкову. Якщо все слово написано великими літерами, то заміна не робиться, так як це слово, ймовірно, є абревіатурою. На даний момент загальний обсяг корпусу після його обробки складає понад 110 млн слововживань (близько 750 Мб даних).
Рисунок 1 - Діаграма процесу створення моделі мови
На базі зібраного російськомовного текстового корпусу був створений частотний словник, розмір якого становить близько одного мільйона унікальних словоформ. Статистична модель мови була створена за допомогою програмного модуля обробки та аналізу текстів CMU (Cambridge Statistical Language Modeling Toolkit) [4] . Модель мови створювалася в кілька етапів. Спочатку кількість биграмм становило 22,7 млн, триграм - 56400000, кількість унікальних слів в текстах (словник) - 937 тис. Оскільки в оброблюваному тексті присутня досить велика кількість рідкісних слів і слів з друкарськими помилками, при побудові моделі мови був введений поріг K, тобто і-грами, у яких частота появи менше K, віддалялися з моделі мови. Для біграммной моделі мови був утсановлен поріг K=2. При створенні тріграммной моделі мови був обраний поріг K=3, оскільки при меншому порозі за великого числа триграм ймовірність деяких з них була настільки мала, що виникали помилки при округленні, в результаті чого сума ймовірностей виявлялася більше 1. Потім для слів, які використовувалися в цих моделях мови, були автоматично створені транскрипції [1] . і-грами зі словами, для яких транскрипції не могли бути створені автоматично, були видалені з моделі мови. Однак через вилучення деяких і-грам з моделі мови з'явилися слова, які в моделі не призводять до кінцевого результату (розривають ланцюжок слів), оскільки зустрічаються в і-грамах не у всіх позиціях. Тому модель мови була також скорочена шляхом видалення і-грам, що містять такі слова. У результаті в кінцевій біграммной моделі кількість унікальних словоформ склало 208 тис., кількість биграмм - 6010000, в тріграммной моделі кількість унікальних словоформ - 76 тис., триграм - 3,43 млн.
2. Результати розпізнавання мови з використанням п програмних моделей мови
Для розпізнавання злитої російської мови використовувався розроблений в СПІІРАН декодер SIRIUS [8] . В якості фонетичних одиниць при розпізнаванні мови застосовувалися контекстно-залежні фони (Трифо...