Теми рефератів
> Реферати > Курсові роботи > Звіти з практики > Курсові проекти > Питання та відповіді > Ессе > Доклади > Учбові матеріали > Контрольні роботи > Методички > Лекції > Твори > Підручники > Статті Контакти
Реферати, твори, дипломи, практика » Новые рефераты » Досвід розробки моделі розпізнавання російської мови з надвеликим словником

Реферат Досвід розробки моделі розпізнавання російської мови з надвеликим словником





нов). Запис навчає і тестового мовного корпусу для системи проводилася з частотою дискретизації 44 кГц, 16 біт на відлік, моно, відношення сигнал / шум більше 35 дБ. Для навчання системи розпізнавання мови були використані 300 вручну розмічених фраз з мовного корпусу [6] . Система була навчена на записах одного диктора і є, таким чином, дікторозавісімой. Для тестування системи були записані 100 злито виголошених фраз, що складаються з 1068 слів (7191 символів); фрази взято з матеріалів інтернет-газети «Фонтанка.т» (fontanka). У текстовому корпусі, використовуваному для тестування, кількість биграмм, присутніх в моделі мови, склало 83,58%, триграм - 35,83%, при цьому для словника обсягом 208 тис. слів відносна кількість внесловарних слів було одно 0,75%, для словника обсягом 76 тис. слів - 4,87%. Для цього тестового корпусу обчислені величини ентропії і коефіцієнта невизначеності (perplexity) статистичної моделі мови [7] . Для уніграммной моделі величина коефіцієнта невизначеності склала 5493,11, ентропії - 12,42 біт / слово, для біграммной моделі коефіцієнт невизначеності дорівнює 776,67, ентропія - 9,60 біт / слово, для тріграммной моделі коефіцієнт невизначеності дорівнює 452,14, ентропія- 8,82 біт / слово. Отримані значення є достатньо великими. Наприклад, для англійської мови при розмірі словника в 200 тис. слів, коефіцієнт невизначеності для біграммной моделі дорівнює 232 [9] , при цьому ентропія буде приблизно дорівнює 7,9 біт / слово.

Результати розпізнавання слів і символів (під символом розуміються буква і знак пробілу) із застосуванням різних моделей мови представлені в таблицях 1 і 2. Методика оцінювання результатів розпізнавання описана в [10] . Для нульграммной, уніграммной і біграммной моделі використовувався однаковий словник обсягом в 208 тис. слів, для тріграммной моделі обсяг словника був 75 тис. слів. При використанні нульграммной моделі (тобто при розпізнаванні без моделі мови) точність розпізнавання слів виявилася негативною і рівної - 20,97%, це пов'язано з тим, що кількість вставлених слів було більше ніж кількість правильно розпізнаних. Використання уніграммной моделі дозволило підвищити точність розпізнавання слів до 30,06%. Найкращі результати були досягнуті при застосуванні біграммной моделі, де точність розпізнавання слів склала 36,89%. При застосуванні тріграммной моделі точність розпізнавання впала до 24,72%. Зниження точності при розпізнаванні з тріграммной моделлю мови пов'язане з малим розміром словника, використовуваним в даній моделі, в результаті чого в тестових фразах кількість триграм, присутніх в моделі мови, було також мало (35,83%). Однак точність розпізнавання з використанням тріграммной моделі була значно вище, ніж при розпізнаванні мови без застосування моделі мови, але з великим словником.

Таблиця 1 - Результати розпізнавання слів з використанням різних моделей мови Тип моделі

Точність розпізнавання,%

Кількість правильно розпізнаних слів

Кількість видалених слів

Кількість замінених слів

Кількість вставлених слів


Назад | сторінка 3 з 5 | Наступна сторінка





Схожі реферати:

  • Реферат на тему: Розпізнавання ключових слів у потоці мовлення за допомогою фонетичного стен ...
  • Реферат на тему: Етимологія слів англійської мови
  • Реферат на тему: Розробка програмного забезпечення системи синтезу парадигм слів англійської ...
  • Реферат на тему: Архаїчне Значення слів у словнику української мови
  • Реферат на тему: Розробка програмної системи для Вивчення іноземних слів з використанн мови ...