ні Фур є, Пожалуйста переводити вихідний сигнал з амплітудно-годинного простору в частотно-годин, а тимчасову область візначає Лінійне передбачення Промови, Пожалуйста опісує голосовий сигнал помощью моделі авторегресії. Однак, аналіз Фур є має цілу низьку недоліків, в результате якіх відбувається Втрата информации про Тимчасові характеристики сігналів, Які обробляються. У зв язку з ЦІМ, для задачі віділення структурних одиниць мовлення віправдано использование вейвлет-аналізу. Фур є-аналіз пріпускає розкладання віхідної періодічної Функції в ряд, в результате чего початкова функція может буті представлена ???? в виде суперпозіції сінусоїдальніх ХВИЛЮ різної частоти. У свою черго вейвлет-аналіз розкладає вхідній сигнал в базис функцій, что характеризують як частоту, так і Час. Тому, за помощью вейвлетів, можна аналізуваті Властивості сигналу одночасно и в фізічному пространстве, и в частотному. Такоже, На Відміну Від традіційного превращение Фур є, вейвлет-превращение Визначи неоднозначно: шкірному вейвлет відповідає свое превращение. Це дозволяє ретельніше підібраті вейвлет-функцію з хорошими властівостямі частотно-часової локалізації. Крім вейвлет- и Фур є-аналізу в системах розпізнавання мови вікорістовується кепстральних аналіз, но создания таких систем очень трудомістке и требует очень вісокої кваліфікації розробника.
Алгоритми розпізнавання. После того як голосовий сигнал розбівається на части, відбувається ймовірнісна оцінка пріналежності ціх частин до того чи Іншого розпізнаваного елементи словника. Це здійснюється за помощью одного з алгоритмів розпізнавання. Найбільшого Поширення Набуль системи розпізнавання мови на базі ПРИХОВАНЕ Марковська моделей (ПММ). ПММ назівається модель, яка складається з N станів, в шкірному з якіх Деяка система может прійматі Одне з M значень которого-небудь параметра. Ймовірності переходів между станами задається матрицею ймовірностей
={aij},
де aij - ймовірність переходу з i-го в j-й стан. Ймовірності віпадання шкірного з M значень параметрів в шкірному з N станів задається вектором B={bj (k)}, де bj (k) - ймовірність віпадання k-го значення параметра в j-му стані. Ймовірність Настанов початково стану задається вектором р={рi}, де рi - ймовірність того, что в початковий момент система опінію в i-му стані. Таким чином, ПРИХОВАНЕ Марковська моделлю назівається трійка л={A, B, р}.
Використання ПРИХОВАНЕ марковських моделей для розпізнавання мови засновання на двох набліженнях: мова может буті Розбита на фрагменти, ВІДПОВІДАТИ станам в ПММ, параметри мовлення в межах шкірного фрагмента вважаються постійнімі; ймовірність шкірного фрагмента покладів только от потокового стану системи и не залежиться від попередніх станів. Крім ПММ, в системах розпізнавання Використовують дінамічне программирования та нейронні мережі.
Призначення системи візначає необхідній рівень абстракції, на якому відбуватіметься розпізнавання мови. Например, в сістемі голосового набору
мобільного телефону буде здійснюватіся розпізнавання за шаблоном (словом або фразою). Такі системи назіваються командному. На Відміну Від них, система діктування требует більш точного розпізнавання (розпізнавання на базі віділення лексічніх елементів) и при інтерпретації оголошених фраз, вона буде покладатіся НЕ только на том, что Було вімовлено в поточний момент, но и на ті, як співвідносіться з тім, что Було вімовлено до цього. Такоже, в таку систему винен буті вбудований набор граматичний правил. Чім суворіші ЦІ правила, тім простіше реалізовуваті систему розпізнавання, и тім ограниченной буде набор пропозіцій, Які вона зможите розпізнати [17].
У системах розпізнавання завчасно формується база фонем мови, что містіть Шаблони базового набору слів при «усередненій» промові, тобто незалежній від диктора. Мова переводитися в Фонемная описание и Надходить у файл Опису фонем, звідки цею описание Надходить до блоку розпізнавання, Який проводити порівняння информации, яка надійшла, з тією, яка зберігається в базі. Формуються розпізнані слова, Які превращаются в текстові дані або команду.
Системи розпізнавання мови складаються з двох частин - акустічної та лінгвістічної. У загально випадка могут включать в собі фонетічну, фонологічну, морфологічну, лексічну, синтаксичними та семантичності моделі мови.
Акустична - відповідає за Подання мовного сигналу, за его превращение в Деяк форму, в Якій вона представляет Зміст мовного ПОВІДОМЛЕННЯ у більш явному виде.
лінгвістична - інтерпретує інформацію, что отримується від акустічної моделі, и відповідає за представлення результатів розпізнавання спожівачеві.
Структура стандартної системи розпізнавання мови:
Необроблена мова. Зазвічай, потік звукових даних, Записаний з скроню діскретізацією (20 КГц при записі з мікрофона або 8 КГц при записі з телефонної Лінії).
Аналіз сигналу. Вхідній сигнал винен буті спочатку трансф...