ористовується декілька методів розпізнавання. Зразок символу розкладається на окремі елементи - події. Наприклад, подією є фрагмент від однієї лінії перетину до іншої. Сукупність подій являє собою компактне опис символу.
Інші методи засновані на використанні співвідношення «мас» окремих елементів символів і описі їх характерних ознак (заокруглення, прямі кути і т.д.). По кожному з цих описів існують бази даних, в яких знаходяться відповідні еталони. Вступник на обробку елемент зображення порівнюється з еталоном, а потім на підставі цього порівняння вирішальна функція виносить вердикт про відповідність зображення конкретного символу.
Таким чином, на відміну від FineReader, тут повною мірою використовується прізнаковая підхід, зокрема, розглянутий вище метод Паркса.
Оскільки в системі CuneiForm використовується не один, а відразу кілька методів розпізнавання, розпізнаваний образ порівнюється не з одним, а з декількома типами еталонів, представленими різними способами.
Крім того, існують алгоритми, які дозволяють працювати з текстами низької якості. Так, для розрізання «склеєних» символів існує метод оцінки оптимальних разбиений (ноу-хау не розкриваються). І, навпаки, для «розсипаних» елементів розроблено алгоритм їх з'єднання.
У версії CuneiForm 96 вперше застосований алгоритм самонавчання. Принцип його полягає в наступному. У кожному тексті присутні чітко і нечітко пропечатані символи. Якщо після того, як система розпізнала текст (як це робить звичайна система, наприклад попередня версія CuneiForm 2.95), з'ясовується, що точність виявилася нижче порогової, то проводиться дораспозна-вання тексту на основі шрифту, який генерується системою по добре пропечатаних символам. p>
Як стверджують розробники, результати застосування CuneiForm 96 показали, що використання самообучающихся алгоритмів дозволяє підвищити точність розпізнавання низькоякісних текстів у 4 - 5 разів. Але головна перевага полягає в тому, що самообучающиеся системи мають набагато більшим потенціалом підвищення точності розпізнавання, відкриваючи новий напрямок в теорії розпізнавання символьної інформації.
Не обмежуючись геометричними методами розпізнавання, розробники системи CuneiForm доповнили її орфографічним, синтаксичним і семантичним дораспознаваніямі і контролем. При цьому розробникам довелося вирішити два важливі завдання. По-перше, було необхідно реалізувати швидкий доступ до великого (близько 100 000 слів) словником. У результаті вдалося побудувати систему зберігання слів, де на кожне слово йшло не більше одного байта, а доступ здійснювався за мінімальний час (ноу-хау не розкривається). По-друге, треба було побудувати систему корекції результатів розпізнавання, орієнтовану на альтернативність подій (подібно системі перевірки орфографії).
Сама по собі альтернативність результатів розпізнавання очевидна і зумовлена ??зберіганням колекцій букв разом з оцінками відповідності. Словниковий контроль з використанням словникової бази приводив до зміни цих оцінок. У підсумку застосування словника дозволило реалізувати схему дораспознаванія символів.
Таким чином, розглянута система має »властивістю самонавчання. Вона самовдосконалюється в процесі роботи, налаштовуючись на конкретний текст. Критерій якості розпізнавання, необхідний...