Теми рефератів
> Реферати > Курсові роботи > Звіти з практики > Курсові проекти > Питання та відповіді > Ессе > Доклади > Учбові матеріали > Контрольні роботи > Методички > Лекції > Твори > Підручники > Статті Контакти
Реферати, твори, дипломи, практика » Новые рефераты » Досвід розробки моделі розпізнавання російської мови з надвеликим словником

Реферат Досвід розробки моделі розпізнавання російської мови з надвеликим словником





І.С. Кіпяткова

А.А. Карпов

Установа Російської академії наук Санкт-Петербурзький інститут інформатики та автоматизації РАН, м. Санкт-Петербург

У статті описується процес створення статистичних моделей російської мови для систем розпізнавання злитого мовлення. Моделі мови були створені по текстовому корпусу, сформованому з новинних стрічок низки інтернет-сайтів електронних газет, була проведена автоматична статистична обробка текстового корпусу. Також у статті представлені результати експериментів з розпізнавання злитого мовлення з надвеликим словником із застосуванням і програмних моделей мови.

Введення

Однією з основних невирішених проблем в області мовних досліджень є автоматичне стенографування або розпізнавання злитої розмовної мови. Згідно прийнятої зараз у світі класифікації, малим словником розпізнавання вважається словник в одиниці і десятки слів [3] . Завдань і додатків, де використовується малий словник розпізнавання, досить багато: розпізнавання послідовностей цифр, номерів телефонів; системи мовного командного управління і т.д. Середній розпізнаваний словник містить сотні слів. Такого словника достатньо для більшості діалогових або запитання-відповідь систем. Великий словник містить тисячі і десятки тисяч слів, такі системи розпізнавання можуть використовуватися в автоматизованих довідкових системах або системах диктування тексту в обмеженою предметної області (для аналітичних мов). Словник розміром в сотні тисяч і мільйони слів вважається надвеликим, він дозволяє реалізовувати системи стенографування тексту (включаючи синтетичні мови) [5].

Світових досліджень, присвячених розробці систем розпізнавання мови з надвеликим словником, відносно небагато. Це пов'язано з тим, що для багатьох мов такий словник був би надлишковим. Так в роботі [9] показано, що при розмірі словника в 65 тис. слів англійської мови, кількість внесловарних слів (out-of-vocabulary words) складає 1,1%. Для флективних ж мов, до числа яких належить і російська, з-за наявності великого числа словоформ для кожної парадигми слова обсяг словника розпізнавання і кількість існуючих внесловарних слів зростають на порядок у порівнянні з аналітичними мовами.

Для задачі розпізнавання мови з великим і надвеликим словником необхідна модель мови для генерації граматично правильних і семантично пов'язаних гіпотез виголошеній фрази. Однією з найбільш ефективних моделей природної мови є статистична модель на основі та-грам. У статті представлені результати розпізнавання злитої російської мови з надвеликим словником із застосуванням і програмних моделей мови при і, рівному від 0 до 3.

1. Створення статистичної моделі російської мови

Для створення моделі мови нами був зібраний і оброблений новинний текстовий російськомовний корпус, сформований з новинних стрічок останніх років чотирьох інтернет-сайтів: ng («Независимая газета»), smi («СМІ.гі»), lenta («LENTA»), gazeta («Газета.гі»). Він містить тексти, що відображають зріз сучасного стану мови, в тому числі і розмовної російської мови. Поповнення цього корпусу може здійснюватися автоматично при оновленні сайтів у режимі он-лайн, що дозволяє оперативно додавати нові з'являються в мові слова і перенавчати модель мови з урахуванням нових текстових даних.

Діаграма процесу створення моделі мови представлена ??на ма...


сторінка 1 з 5 | Наступна сторінка





Схожі реферати:

  • Реферат на тему: Сучасні технології розпізнавання мови
  • Реферат на тему: Основні поняття культури мовлення. Словник труднощів російської мови
  • Реферат на тему: Методика роботи над словником учнів на уроках російської мови в молодших кл ...
  • Реферат на тему: Причини і наслідки запозичення іноземних слів для розвитку російської мови
  • Реферат на тему: Словник синонімів сучасної російської мови А.Ю. Кожевникова: наукова та пр ...