Шелєпов В.Ю., Акопян О.Г., Ніценко А.В., Костенко А.В.
Загальна постановка проблеми
Мовний сигнал загасає поступово. Тому комп'ютер може помилятися у питанні закінчується чи слово гласним або дзвінким приголосним. Далі, сигнал, що містить глухий вибуховий звук (к, п, т) в середині слова, має характерний паузообразний відрізок, оскільки при його проголошенні відбувається повне перекриття мовного тракту і не беруть участь голосові зв'язки. Якщо глухий вибуховий буде знаходитися в кінці слова, то визначити правильні кордону записаного слова і виділити кінцевий звук стає дуже складним завданням, так як кінець слова мало відрізняється від мовчання. У даний роботі пропонуються способи вирішення цих проблем.
1. Запис мовного сигналу
Алгоритм запису мовного сигналу описаний в [1]. Зараз ми хочемо дещо видозмінити його. А саме, ми збережемо в сигналі 10000 відліків після моменту, який в [1] описаний як кінець сигналу. В результаті отримаємо сигнал наступного виду (рис. 1).
Рис. 1. Візуалізація записи слова «ЗАКОН»
Сигнал на малюнку отсегментірован. Використання паузи в кінці сигналу дозволяє за допомогою алгоритмів сегментації (див. [1-2]) надійно розрізняти випадки, коли слово закінчується голосним або дзвінким приголосним звуком. Наведемо згадані алгоритми.
2. «У-Н» - обробка числового масиву
Нехай є одновимірний числовий масив і заданий певний поріг р. Побудуємо символьну послідовність S, поставивши у відповідність членам масиву, які більше р, символ «В» (вище порога), іншим - символ «Н» (нижче порога). Для того щоб усунути випадкові одиничні включення, для кожного проміжного i-го елемента отриманої символьної послідовності S виконуються дві додаткові обробки. Обробка «трійками», есліs [i - 1]=s [i +1] іs [i]? s [i - 1], тополагаетсяs [i]=s [i - 1]. Обробка «четвірками», есліs [i]=s [i +3] іs [i +1]? s [i], s [i +2]? s [i], тополагаетсяs [i +1]=s [i] іs [i +2]=s [i].
3. Виділення глухих приголосних
Цей етап сегментації здійснюється за допомогою обробки сигналу смуговим фільтром із смугою пропускання від 100 до 200 Гц. Глухі звуки відрізняються від усіх інших тим, що після такої фільтрації їх ділянки стають подібними паузі і містять велику кількість точок сталості (наступного дискретний момент значення сигналу не змінюється). Таким чином, на цих ділянках різниця між числом точок непостійності і числом точок сталості буде негативною, що дозволяє виділити їх в масиві таких різниць, побудованому для послідовності вікон в 256 відліків.
4. Розпізнавання в парі класів «шипляча-пауза»
Розглянемо для довільно виділеної ділянки мовного сигналу чисельний аналог повної варіації «із змінною верхньою межею»:
(1)
Нехай N1 - максимальне число, таке, що W (N1)? 255. Вважаємо
(2)
де N2 - максимальне число, таке, що W (N2)? 255 і так далі. Виникає масив чисел
(3)
На сегменті шиплячої величина (1) швидко зростає, тому ділянки зростання величини W (n) від 0 до 255 відносно короткі, тобто числа (3) відносно малі. На сегменті паузи величина (1) росте повільно, і тому числа (3) відносно великі. Для розрізнення шиплячої і паузи введемо поріг p (для нашого обладнання 200). ...