Пилипенко В.В.
Введення
У зв'язку з усе більш активним використанням природного інтерфейсу і зокрема голоси, для спілкування з технікою зросла і значення аудіозаписи як носія інформації. З'явилася потреба в системах, здатних швидко і ефективно обслуговувати аудіоархіву і знаходити потрібну інформацію у великому обсязі запису. Для цієї мети запропоновано використовувати алгоритми пошуку ключових слів у потоці мовлення.
Завданням пошуку ключових слів є знаходження заданих фрагментів (це можуть бути окремі слова або цілі фрази) в потоці мовлення. Спочатку для завдання фрагментів використовувалися відрізки виголошеної промови, при цьому за кількома проголошенні формувався еталон ключового слова. Незручність такого методу проявлялося в тому, що для введення в систему нового ключового слова необхідно заздалегідь його вимовити або вирізати з відомого потоку мови.
Сучасні алгоритми пошуку ключових слів використовують завдання ключових слів послідовністю фонем або інших елементарних одиниць. При цьому може використовуватися перетворювач графема-фонема відповідно до правил даної мови і тоді ключове слово задається текстом слова чи фрази, що значно розширює область застосування такої системи.
Широке застосування отримали алгоритми, в яких для моделювання елементарних одиниць рівня фонеми застосовуються приховані Марківські моделі (СММ). Для пошуку ключових слів використовуються ті ж підходи, що і для розпізнавання злитого мовлення.
Модифікація стосується способу завдання слів, відсутніх у словнику системи. Запропоновано два способи завдання невідомих слів:
Моделювання незнайомих слів довільними послідовностями фонем.
Використання гауссовского Суміші Моделей (Gaussian Mixture Model GMM) для моделювання фонового потоку мови.
У даній статті розглядається перший спосіб завдання незнайомих слів. Для цього використовується концепція фонетичного стенографа [1,2].
1.Базовий система розпізнавання злитий мови
У даній роботі використовується інструментарій HTK [3] на основі прихованих Марковських моделей (CMM). За допомогою інструментарію НТК побудовані акустичні та лінгвістичні моделі системи. Для розпізнавання мови був розроблений програмний комплекс, сумісний з акустичними і лінгвістичними моделями НТК.
1.1 Попередня обробка мовного сигналу
Мовний сигнал перетвориться в послідовність векторів ознак з інтервалом аналізу 25 мс і кроком аналізу 10 мс. Спочатку мовний сигнал фільтрується фільтром високих частот з характеристикою P (z)=1-0.97 z - 1. Потім застосовується вікно Хеммінга і обчислюється швидке перетворення Фур'є. Спектральні коефіцієнти усереднюються з використанням 26 трикутних вікон, розташованих в крейда-шкалою, і обчислюються 12 кепстральних коефіцієнтів.
Логарифм енергії додається як тринадцятий коефіцієнта. Ці 13 коефіцієнтів розширюються до 39-мірного вектора параметрів шляхом дописування першої та другої різниць від коефіцієнтів, сусідніх за часом. Для обліку впливу каналу застосовується віднімання середнього кепстра.
1.2 Акустична модель
В якості акустичних моделей використовуються приховані Марківські моделі. 56 українських контекстно-незалежних фонем моделюються трьома станами Марківського ланцюга без пропуску...