Реферат Розпізнавання ключових слів у потоці мовлення за допомогою фонетичного стенографа

Тема: Новые рефераты

Пилипенко В.В.

Введення

У зв'язку з усе більш активним використанням природного інтерфейсу і зокрема голоси, для спілкування з технікою зросла і значення аудіозаписи як носія інформації. З'явилася потреба в системах, здатних швидко і ефективно обслуговувати аудіоархіву і знаходити потрібну інформацію у великому обсязі запису. Для цієї мети запропоновано використовувати алгоритми пошуку ключових слів у потоці мовлення.

Завданням пошуку ключових слів є знаходження заданих фрагментів (це можуть бути окремі слова або цілі фрази) в потоці мовлення. Спочатку для завдання фрагментів використовувалися відрізки виголошеної промови, при цьому за кількома проголошенні формувався еталон ключового слова. Незручність такого методу проявлялося в тому, що для введення в систему нового ключового слова необхідно заздалегідь його вимовити або вирізати з відомого потоку мови.

Сучасні алгоритми пошуку ключових слів використовують завдання ключових слів послідовністю фонем або інших елементарних одиниць. При цьому може використовуватися перетворювач графема-фонема відповідно до правил даної мови і тоді ключове слово задається текстом слова чи фрази, що значно розширює область застосування такої системи.

Широке застосування отримали алгоритми, в яких для моделювання елементарних одиниць рівня фонеми застосовуються приховані Марківські моделі (СММ). Для пошуку ключових слів використовуються ті ж підходи, що і для розпізнавання злитого мовлення.

Модифікація стосується способу завдання слів, відсутніх у словнику системи. Запропоновано два способи завдання невідомих слів:

Моделювання незнайомих слів довільними послідовностями фонем.

Використання гауссовского Суміші Моделей (Gaussian Mixture Model GMM) для моделювання фонового потоку мови.

У даній статті розглядається перший спосіб завдання незнайомих слів. Для цього використовується концепція фонетичного стенографа [1,2].

1.Базовий система розпізнавання злитий мови

У даній роботі використовується інструментарій HTK [3] на основі прихованих Марковських моделей (CMM). За допомогою інструментарію НТК побудовані акустичні та лінгвістичні моделі системи. Для розпізнавання мови був розроблений програмний комплекс, сумісний з акустичними і лінгвістичними моделями НТК.

1.1 Попередня обробка мовного сигналу

Мовний сигнал перетвориться в послідовність векторів ознак з інтервалом аналізу 25 мс і кроком аналізу 10 мс. Спочатку мовний сигнал фільтрується фільтром високих частот з характеристикою P (z)=1-0.97 z - 1. Потім застосовується вікно Хеммінга і обчислюється швидке перетворення Фур'є. Спектральні коефіцієнти усереднюються з використанням 26 трикутних вікон, розташованих в крейда-шкалою, і обчислюються 12 кепстральних коефіцієнтів.

Логарифм енергії додається як тринадцятий коефіцієнта. Ці 13 коефіцієнтів розширюються до 39-мірного вектора параметрів шляхом дописування першої та другої різниць від коефіцієнтів, сусідніх за часом. Для обліку впливу каналу застосовується віднімання середнього кепстра.

1.2 Акустична модель

В якості акустичних моделей використовуються приховані Марківські моделі. 56 українських контекстно-незалежних фонем моделюються трьома станами Марківського ланцюга без пропуску...

сторінка 1 з 4 | Наступна сторінка

Схожі реферати:

Реферат на тему: Архаїчне Значення слів у словнику української мови

Реферат на тему: Розробка програмного забезпечення системи синтезу парадигм слів англійської ...

Реферат на тему: Розробка програмної системи для Вивчення іноземних слів з використанн мови ...

Реферат на тему: Способи перекладу складних слів з англійської мови на російську в текстах с ...

Реферат на тему: Етимологія слів англійської мови

Український реферат переглянуто разів: | Коментарів до українського реферату:

Коментарів до українського реферату: 0