Розглянемо приклад роботи модуля на графічному файлі:
Вихідний файл:
Рис. 1.27 Приклад досліджуваного зображення
В обробленому зображенні виділяються передбачувані текстові блоки, решта закрашивается сірим фоном.
Файл після обробки:
Рис. 1.28 Результат дослідження
При цьому інформація у звіті буде наступна:
Файл: text12.JPG;
Розміри растра: 816x891;
Імідж стиснуто до розмірів: 600x655;
Виявлено текстоподобних ділянок: 79;
З них містять не менше 20 умовних символів: 39;
Загальне число умовних символів у всіх ділянках: одна тисяча п'ятсот тридцять чотири;
*** WARNING ***.
Це дослідження було проведено з наступними параметрами в коді програми:
ns=20;=15;=7;=700.
Де:
Мінімум для числа символів в широкому ділянці тексту (ns);
«Небезпека» для числа всіх ділянок (aw);
«Небезпека» для числа всіх широких ділянок (bw);
«Небезпека» для загального числа символів у всіх ділянках (cw).
Зображення після дослідження отримала мітку «WARNING» тому як дані, отримані після дослідження, не задовольняють критеріям безпеки, встановленим нашими параметрами. Тому зображення визнане потенційно «небезпечним», тобто воно може містити в собі конфіденційну інформацію.
.3.3.2 Особливості програмного модуля
Параметр «cw» як загальне число «умовних» символів в зображенні є глобальним параметром, який несе в собі можливість підстрахування від витоку інформації, розкиданої по зображенню невеликими текстовими блоками, які попередні умови можуть пропустити, як що не несе в собі достатнього обсягу інформації зображення.
Також в програмному модулі є інші особливості, які дозволяють знизити ризик помилкового виявлення або навпаки - пропуску «небезпечного» графічного файлу.
Наприклад:
(1) Якщо передається зображення з потенційно «небезпечним» текстом повернене на 90 градусів, досліджуючи його, текст природно буде упущений, тому в модулі введена перевірка зображення в перевернутому стані;
(2) Якщо «штріхованіем» передбачуваного текстового квадрата розміром 24 на 24 пікселя дуже велика і перевершує 3000, то це не буде текстової область, так як таких щільних текстових областей не буває. У даній програмі використовується обмеження на щільність «штріхованіем» в інтервалі від 600 до 3000. Експериментальним шляхом встановлено що «штріхованіем» всіх букви і ієрогліфів в тексті потрапляє в проміжок від 600 до 3000;
(3) Сетка за своєю структурою дуже схожа не текст, від її детектування позбавляємося за допомогою пункту (2);
(4) Параметр «cw» як глобальний параметр, який несе функцію перевірки на велику кількість інформації, розкиданої по зображенню дрібними текстовими блоками.
.3.3.3 Приклад роботи особливостей програмного модуля
Розглянемо приклад роботи особливостей програмного модуля:
Вихідний файл:
Як видно з малюнка 1.29 досліджуване зображення повернуто на 90 градусів і потрапляє під особливість (1).
Рис. 1.29 Приклад досліджуваного зображення
Файл після обробки:
Як видно з малюнка 1.30 програмний модуль повернули зображення на 90 градусів і досліджував його. На жаль, ми не можемо відстежити в яку сторону повертати зображення, тому результатом може виявитися перевернуте зображення. На особливість виявлення текстових областей це не впливає, так як текстові блоки в будь-якому положенні не змінюють своїх властивостей.
Рис. 1.30 Результат дослідження
Вихідний файл:
Як видно з малюнка 1.31 на зображенні присутній сітка і в ній текст. Воно потрапляє під властивості (2) і (3).
Рис. 1.31 Приклад досліджуваного зображення
Файл після обробки:
Як видно з малюнка 1.32 текст був успішно виявлений, незважаючи на наявність сітки, яка за своїми властивостями дуже походить на текстову область, а сама сітка була проігнорована.
Рис. 1.32 Результат дослідження
.3.3.4 Приклад роботи програмного модуля в зображеннях з різним текстом і складним фоном
Такі зображення часто використовуються при розповсюдженні реклами і спам-повідомлень (малюнок 1.34):
Вихідний файл:
Рис. 1.33 Приклад досліджуваного зображення
Файл після обробки:
Рис. 1.34 Результат дослідження
Приклад роботи модуля на трохи повернутому зображенні зі складним фоном (малюнок 1.36):
Вихідний файл:
Рис. 1.35 Приклад досліджуваного зображення
Файл після обробки:
Рис. 1.36 Результат дослідження
Приклад роботи модуля на зображенні зі складним текстом (рисунок 1.38):
Вихідний файл:
Рис. 1.37 Приклад досліджуваного ...