ати хід процесу розпізнавання). У підсумку це призводить до розширення кола потенційних користувачів за рахунок включення в нього людей володіють мінімальною комп'ютерною грамотністю.
10. Огляд існуючих систем оптичного розпізнавання символів
Більшість програм оптичного розпізнавання символів (OCR Optical Character Recognition) працюють з растровим зображенням, яке отримано через факс-модем, сканер, цифрову фотокамеру або інший пристрій.
Основне призначення OCR-систем полягає в аналізі растрової інформації (відсканованого символу) і присвоєння фрагменту зображення відповідного символу. Після завершення процесу розпізнавання OCR-системи повинні вміти зберігати форматування вихідних документів, присвоювати в потрібному місці атрибут абзацу, зберігати таблиці, графіку ит.д. Сучасні програми розпізнавання підтримують всі відомі текстові та графічні формати і формати електронних таблиць, а деякі підтримують такі формати, як HTML і PDF.
Робота з OCR-системами, як правило, не повинна викликати особливих труднощів. Більшість таких систем мають найпростіший автоматичний режим скануй і розпізнавати. Крім того, вони підтримують і режим розпізнавання зображень з файлів. Однак для того, щоб досягти кращих з можливих для даної системи результатів, бажано (а нерідко і обов'язково) попередньо вручну налаштувати її на конкретний вид тексту, макет бланка і якість паперу.
Дуже важливим при роботі з OCR-системою є зручність вибору мови розпізнавання і типу розпізнаваного матеріалу (друкарська машинка, факс, матричний принтер, газета ит.д.), а також інтуїтивна зрозумілість для користувача інтерфейсу. При розпізнаванні текстів, у яких використано кілька мов, ефективність розпізнавання залежить від уміння OCR-системи формувати групи мов. У той же час в деяких системах вже є комбінації для найбільш часто використовуваних мов, наприклад: російська та англійська.
На даний момент існує величезна кількість програм, що підтримують розпізнавання тексту.
Почнемо огляд з лідера в цій галузі FineReader. Це програмний продукт фірми ABBYY Software, раніше розроблявся фірмою Bit Software. Восьма версія програми (8.0) знає величезну кількість форматів для збереження, включаючи PDF і має можливість прямого розпізнавання з PDF-файлів. Нова технологія Intelligent Background Filtering (інтелектуальної фільтрації фону) дозволяє відсіяти інформацію про текстуру документа і фоновому шумі зображення: іноді для виділення тексту в документі використовується сірий або кольоровий фон. Людині це не заважає читати, але звичайні алгоритми розпізнавання тексту відчувають серйозні труднощі при роботі з літерами, розташованими поверх такого фону. Тепер програма FineReader вміє визначати зони, що містять подібний текст, відокремлюючи текст від фону документа, знаходячи точки, розмір яких менше певної величини, і видаляючи їх. При цьому контури букв зберігаються, так що точки фону, близько розташовані до цим контурам, не вносять перешкод, здатних погіршити якість розпізнавання тексту.
Рисунок 9 - Розпізнавання у FineReader
Рисунок 10 - Розпізнавання у FineReader через майстра
Нова версія ABBYY FineReader 8.0 Professional Edition поєднує в собі неперевершену точність розпізнавання, простоту використання і широкий діапазон налаштувань. Підвищено якість розпізнавання факсів та документів відсканованих з низьким дозволом, на новий рівень виведено розпізнавання зображень, отриманих за допомогою цифрової камери. Новий швидкий режим розпізнавання дозволяє в кілька разів прискорити обробку якісно отпечатаних документів. Реалізовано автоматизоване виконання типових завдань розпізнавання, у тому числі і за власними сценаріями. Швидше і точніше стало перетворення PDF-файлів, додана функція захисту PDF-файлів паролем. Тепер в комплект постачання системи входить утиліта для розпізнавання скріншотів.
Переваги FineReader 8.0 перед іншими системами оптичного розпізнавання символів:
Підвищення точності розпізнавання які важко документів. Зображення документів, які були відскановані з низьким дозволом, ABBYY FineReader 8.0 розпізнає на 15% * краще, ніж системи CuneiForm, Readiris Pro 7. Також підвищено якість розпізнавання факсів - на 30% * результати досягнуті завдяки удосконаленню унікальною OCR-технології ABBYY.
Підвищення точності розпізнавання спеціалізованих текстів. Додана можливість підключати при розпізнаванні користувача словник Microsoft Word. Це додатковий спосіб підвищення точності розпізнавання спеціалізованих текстів.
Малюнок 11 - Вибір словника
Підвищення точності розпізнавання цифрових фотографій. Теп...