аналітична методика розрахунку розбірливості мови на сьогоднішній день опрацьована теоретично і експериментально вельми глибоко, при практичному її використанні слід пам'ятати про існування безлічі модифікацій такої методики. Непродумане «перехресне» використання елементів цих методик може призвести до невірних результатів розрахунку розбірливості мови.
2.5.1 Організація експерименту з оцінки
Малюнок 2.11 Залежність складової словесної чіткості від розбірливості
мова акустичний шум розбірливість
Малюнок 2.12 Залежність від розбірливості формант розбірливості складів
Малюнок 2.13 Залежність фразової розбірливості від розбірливості слів
3. Методи розпізнавання мови і їх зв'язок з підвищенням розбірливості
Розпізнавання мови - це загальна назва широкій області мовних технологій, за яким криється ціла низка досить відособлених напрямків, кожне з яких орієнтовано на рішення конкретних прикладних завдань і вимагає окремого пророблення.
. 1 Технологія розпізнавання мови
Система розпізнавання мови складається, як правило, з трьох основних компонентів: акустичні моделі, мовна модель і декодер.
Акустичні моделі Акустичні моделі дозволяють оцінити розпізнавання мовного сегмента з погляду схожості на звуковому рівні. Сучасні акустичні моделі для так званого пофонемного розпізнавання засновані на використанні прихованих Марковських моделей (Hidden Markov Models - HMM) (рисунок 3.1).
Малюнок 3.1 Структура прихованої Марківської моделі
Моделі мови Використання чисто акустичної інформації недостатньо для здійснення якісного розпізнавання мови. Наприклад, в реальних умовах (при наявності сторонніх шумів і спотворень мовного сигналу) ні одні навіть найточніші акустичні моделі не зможуть відрізнити слово гак від слова трюк.
У такій ситуації важлива інформація про контекст: теми розмови і, що ще більш важливо, про ті слова, які вже були розпізнані раніше. Наприклад, якщо раніше було розпізнано слово залізний, то в цій ситуації набагато ймовірніше очікувати проголошення слова гак, ніж трюк. Подібна оцінка і здійснюється мовної моделлю.
За допомогою граматик можна вручну задати можливі послідовності слів, які, як очікується, виголосить мовець. Такий підхід ефективний для вузьких завдань, коли користувач поставлений жорсткі в рамки певної мовної ситуації. Наприклад, граматика може задавати довільну послідовність цифр в тому випадку, якщо відомо, що в даний момент користувач відповідає на питання «Будь ласка, продиктуйте номер вашого телефону».
Статистичні моделі мови використовуються при розпізнаванні злитої промови, не обмеженої вузької ситуацією. У цьому випадку неможливо вручну створити граматику, яка моделювала б всі можливі поєднання слів у мови. Замість цього на підставі текстових даних великого обсягу (десятки мільйонів слів) будується статистична модель, яка оцінює ймовірності проходження слів один за одним. Для прикладу, наведеного вище, така модель могла б повідомити, що ймовірність словосполучення залізний гак у 30 разів більше, ніж залізний трюк.
Декодер Декодер - це програмний компонент системи розпізнавання, який поєднує дані, одержувані в ході розпізнавання від акустичних і мовних моделей, і на підставі їх об'єднання визначає найбільш ймовірну послідовність слів, яка і є кінцевим результатом розпізнавання.
На перший погляд декодер - найменш навантажений в науковому плані компонент системи розпізнавання. Однак, швидкий і надійний декодер є головним фактором успіху будь-якої прикладної системи розпізнавання. Створення такого декодера - складні технічні завдання, що вимагає найвищої кваліфікації розробників.
3.2 Методи розпізнавання мови
Методи розпізнавання мови бувають наступних видів:
. Розпізнавання голосових команд
Розпізнавання голосових команд передбачає, що користувач вимовляє окремі команди з заздалегідь зумовленого списку.
Такі системи використовуються для організації управління голосом окремими комп'ютерними програмами або пристроями.
. Язиконезавісімое розпізнавання
Чи не залежне від мови розпізнавання команд припускає обов'язкову тренування системи голосом.
Для того щоб створити еталон нової команди користувач повинен кілька разів вимовити дану команду в мікрофон. Подібні системи розпізнавання застосовні для випадків, коли кількість команд складає не більше о...