и, залежні від диктора - налаштовуються на мова диктора в процесі навчання. Для роботи з іншим диктором такі системи вимагають повної перенастроювання.
) Системи, що не залежні від диктора - робота яких не залежить від диктора. Такі системи не вимагають попереднього навчання і здатні розпізнавати мову будь-якого диктора.
Спочатку на ринку з'явилися системи першого виду. У них звуковий образ команди зберігався у вигляді цілісного еталона. Для порівняння невідомого проголошення та еталона команди використовувалися методи динамічного програмування. Ці системи добре працювали при розпізнаванні невеликих наборів з 10-30 команд і розуміли тільки одного диктора. Для роботи з іншим диктором ці системи вимагали повної перенастроювання.
Для того щоб розуміти злиту мова, необхідно було перейти до словників набагато більших розмірів, від декількох десятків до сотень тисяч слів. Методи, що використовувалися в системах першого виду, не підходили для вирішення цього завдання, оскільки просто неможливо створити еталони для такої кількості слів.
Крім цього, існувало бажання зробити систему, не залежну від диктора. Це дуже складне завдання, оскільки у кожної людини індивідуальна манера вимовляння: темп мови, тембр голосу, особливості вимови. Такі відмінності називаються варіативністю мови. Щоб її врахувати, були запропоновані нові статистичні методи, що спираються в основному на математичні апарати Прихованих Марковських Моделей (СММ) або штучних нейронних мереж. Замість створення еталонів для кожного слова, створюються еталони окремих звуків, з яких складаються слова, так звані акустичні моделі. Акустичні моделі формуються шляхом статистичної обробки великих мовних баз даних, що містять запису мови сотень людей.
В існуючих системах розпізнавання мови використовуються два принципово різних підходи:
Розпізнавання голосових міток
Розпізнавання лексичних
Відзначимо, що створення систем розпізнавання мови являє собою надзвичайно складну задачу.
Слід зазначити, що існують різні методи побудови моделей мовних сигналів [2, 3]. Наведемо п'ять основних підходів до створення математичних моделей мовних сигналів, заданих функціональною залежністю відлікових значень моделі від часу:
) лінійне пророкування мовного сигналу; недоліками даного підходу є: малий час віщування, а також той факт, що отримання відлікових часових значень сигналу математичної моделі засноване на використанні додаткового джерела сигналу у вигляді білого шуму, що тягне за собою певні труднощі [2, 4];
) рішення диференціальних рівнянь (модифіковане хвильове рівняння і граничні умови) [3], складених при використанні декількох умовних фізичних наближень, ці рівняння описують поширення акустичного коливання в мовному тракті, з урахуванням збудливого сигналу; в даному підході присутні наступні основні недоліки: при апроксимації збудливого сигналу і площі поперечного перерізу мовного апарату якщо і вдається, як правило, чисельними методами вирішити дане хвильове рівняння, то отримані результати мають дуже складний характер просторово-часової залежності і малопридатні для швидкого та адекватного аналізу мови;
) гармонійна математична модель мовного сигналу, що використовує для представлення сигналу синусоїди кратної частоти (решта сигналу, яка не може бути описана за допомогою даної моделі, називається шумовий). Подання сигналу у формі гармоніки плюс шум ефективно використовується в багатьох мовних застосуваннях [5, 6]. Слід зазначити, що від поділу математичної моделі мовного сигналу на періодичну (вокалізованих ділянки мови) і шумову (невокалізованная мова) частини в істотному ступені залежить адекватність моделі та її застосовність в конкретних технічних завданнях [2]. Дану модель можна синтезувати, використовуючи, наприклад, коефіцієнти дискретного перетворення Фур'є мовного сигналу (також можна застосовувати інші форми спектральних або кепстральних коефіцієнтів). Основні недоліки: використання, як правило, великого числа коефіцієнтів моделі, а також обмежена точність моделі, пов'язана з нескінченною тривалістю гармонійної функції;
) математична модель мовного сигналу у вигляді набору відрізків функцій, синтезируемая на основі вейвлет-коефіцієнтів [7];
) побудова математичної моделі мовного сигналу у вигляді явної функціональної часової залежності, засноване на теорії модуляції (як окремий випадок, модульований імпульс [8, 9]).
Відзначимо, що точність верифікації та ідентифікації особистості по голосу буде тим вище, чим точніше модель, що описує мовний сигнал. Очевидні вимоги, пропоновані до вибору моделі мовного сигналу при однаковій точності моделі, - найменша кількіст...