х як листи, факси, журнальні статті, газетні вирізки, в об'єкти, доступні для редагування (включаючи файли PDF). Основними достоїнствами програми є: можливість більш-менш точного розпізнавання картинок, стислих по максимуму (з максимальною втратою якості) методом JPEG, підтримка цифрових камер і автовизначення орієнтації сторінки. Підтримка до 92 мов (включаючи російську) .11 продукт компанії ScanSoft. Обмежена версія цієї програми (OmniPage11 Limited Edition, OmniPage Lite) зазвичай поставляється в комплекті з новими сканерами (на території Європи і США). Розробники стверджують, що їхня програма практично з 100% точністю розпізнає друковані документи, відновлюючи їх форматування, включаючи стовпці, таблиці, переноси (у тому числі переноси частин слів), заголовки, назви розділів, підписи, номери сторінок, зноски, параграфи, нумеровані списки , червоні рядки, графіки і картинки. Є можливість збереження у формати Microsoft Office, PDF і в 20 інших форматів, розпізнавання з файлів PDF, редагування прямо в форматі PDF. Система штучного інтелекту дозволяє автоматично виявляти і виправляти помилки після першого виправлення вручну. Новий спеціально розроблений модуль Despeckle дозволяє розпізнавати документи з погіршеним якістю (факси, копії, копії копій ит.д.). Перевагами програми є можливість розпізнавання кольорового тексту і можливість коригування голосом.
Висновок
Дослідження методів і програмно-апаратних систем оптичного розпізнавання символів дозволяє сформулювати наступні висновки:
. Сучасний стан технології автоматичного розпізнавання друкованих текстів (OCR) дозволяє вирішувати задачу автоматизації введення інформації при необхідному рівні надійності.
. При побудові системи OCR, що включає оптичний пристрій оцифровки зображень, блок локалізації та виділення елементів тексту, блок предобработки зображення; блок виділення ознак, блок розпізнавання символів і блок постобробки результатів розпізнавання, необхідно використовувати методи і алгоритми, що володіють високою робастний до яркостное-геометричних спотворень і складним текстурованим фонам.
. В якості таких методів і алгоритмів, можуть бути використані: процедури визначення рядків, знакомест на основі модифікацій перетворення Hough; методи, засновані на дослідженні стійких статистичних розподілів точок; методи, що використовують інтегральні перетворення, а також структурний аналіз символів.
. При розробці сучасних систем OCR для підвищення якості розпізнавання символів і слів необхідно враховувати контекстну інформацію. Використання контекстної інформації дозволяє не тільки знаходити помилки, але і виправляти їх.
Переходячи до програмою розробленою в ході виконання курсової роботи необхідно зазначити, що хоча в ній і не застосовуються системи штучного інтелекту (перцептрони і нейромережі), а використовується досить простий метод порівняння з еталонними символами, алгоритм дає прийнятний результат на заздалегідь відомому наборі еталонів.
Застосування цього методу доречно в тих випадках, коли необхідно розпізнавати великі обсяги текстів надрукованих одним шрифтом в єдиному розмірі. За таких умов результати розпізнавання можуть конкурувати з методами заснованими на використанні нейромереж і не поступатися їм по швидкості розпізнавання.
При всьому цьому метод порівняння з еталоном набагато простіше інших алгоритмів, використовує простий математичний апарат. Однак невеликі відхилення вхідних даних від еталонних значень призводять до різкого падіння якості розпізнавання.
Список літератури
Бутаков А., Островський В. І., Фадєєв І.Л. Обробка зображень на ЕОМ raquo ;, - М .: Радио и связь, 1987.
Дуда Р., Харт П. Розпізнавання образів та аналіз сцен.- М .: Світ, 1986.
Котович Н.В., Славін О.А. Розпізнавання скелетних образів//Методи і засоби роботи з документами - збірник праць Інституту системного аналізу РАН - 2000.
Додаток А Вихідний текст програми
{Бінаризація - робить картинку чернобелой}
function Binarise (Bmp: TBitmap): TBitmap;=record, G, R: Byte ;;=^ TRGB; x, y: word ;: TBitmap ;: pRGB;:=TBitmap.Create;.Width:=Bmp.Width; .Height:=Bmp.Height; .PixelFormat:=pf8bit; y:=0 to Bmp.Height - 1 do:=Bmp.ScanLine [y]; x:=0 to Bmp.Width- 1 do (0.3 * Dest ^ .R + 0.59 * Dest ^ .G + 0.11 * Dest ^ .B) lt; 200 then.Canvas.Pixels [x, y]:=clBlack; (Dest) ;;;:=TmpBmp ;;
{фукнции максимуму} Max (x, y: Integer): Integer; x gt; y then Result:=x else Result:=y;
end;
{Різниця між двома зображеннями}
...