. Використовується діагональний вид гауссовского функ ¬ ций щільності ймовірності.
Рідко зустрічаються фонеми моделюються 64 сумішами гауссовского функцій щільності ймовірності, більш часто зустрічаються фонеми моделюються великим числом сумішей, найчастіші фонеми використовують 1024 суміші.
Словник транскрипцій створюється автоматично із орфографічного словника з використанням контекстно-незалежних правил.
2. Акустичне і текстове наповнення
2.1 Навчальна вибірка
Навчання проводилося на виступах депутатів Верховної Ради України, записаних через телевізійну мережу. Парламентська мовлення характеризується деякими особливостями:
це спонтанна мова. Зустрічаються окремі доповіді, зачитує за підготовленим заздалегідь тексту, проте мало дикторів в точності дотримується цього тексту;
через обмеження в часі виступи багатьох дикторів вимовляються в занадто швидкому темпі.
Для навчання використовувалися записи довжиною в 197 тис. секунд, в яких зустрілося близько 427 тис. слів. Всього було записано 287 дикторів.
Навчання проводилося на попередньо розміченій вибірці. Для цього запис виступу автоматично розбивалася на фрази з кількох слів, обмежені паузами більше 400 мсек. Середня кількість слів у фразі виявилося рівним 5.
Кожній фразі оператором ставилася у відповідність мітка у вигляді тексту зі стенограми. Потім автоматично вироблялося перетворення тексту в послідовність фонем відповідно до контекстно-незалежними правилами української мови. Вибірка, розмічена таким чином, використовувалася для побудови акустичної моделі.
2.2 Контрольна вибірка
Розпізнавання проводилося на виступах депутатів, записаних у відмінні від навчальної вибірки дні. Для розпізнавання використовувалися записи довжиною в 42 тис. секунд, в яких зустрілося 94 тис. слів. Всього використовувалися записи 152 дикторів. Записи 41 диктора не зустрілися в навчальній вибірці. Таким чином, ці диктори виявилися невідомими для системи розпізнавання.
2.3 Текстовий матеріал
Словник був складений з текстів стенограм засідань Верховної Ради України. З офіційного сайту Верховної Ради були завантажені всі стенограми засідань, починаючи з 1991 року, що склало більше 100 МБ тексту. Текст був модифікований для того, щоб прибрати службову інформацію зі стенограм (на ¬ приклад, оплески), записати числа в текстовому вигляді, а також відокремити російський текст від українського.
3. Фонетичний стенограф
Алгоритм фонетичного стенографа дозволяє будувати послідовність фонем для мовного сигналу без використання будь-якого словника. Для цієї мети будується деяка генеративная граматика, яка може синтезувати всі можливі модельні сигнали безперервної мови для будь-якій послідовності фонем. У рамках побудованої моделі будується алгоритм пофонемного розпізнавання для невідомого сигналу. Використовуються ті ж контекстно-незалежні моделі фонем, як і в базовому розпізнавача.