Теми рефератів
> Реферати > Курсові роботи > Звіти з практики > Курсові проекти > Питання та відповіді > Ессе > Доклади > Учбові матеріали > Контрольні роботи > Методички > Лекції > Твори > Підручники > Статті Контакти
Реферати, твори, дипломи, практика » Статьи » Огляд існуючих систем захисту від витоку конфіденційної інформації

Реферат Огляд існуючих систем захисту від витоку конфіденційної інформації





о їх дослідження іншими модулями системи захисту.

Головною особливістю даного модуля буде швидке виявлення потрібних текстових областей. Це дозволить передавати на подальше дослідження інших модулів системи захисту для розпізнавання образів на предмет наявності конфіденційної інформації тільки ті файли, в яких містяться текстові області, задовольняють певним умовам. Це допоможе прискорити обробку графічної інформації та роботу системи захисту в цілому, і додасть властивість комплексності системам захисту.

В основу методики взяті існуючі алгоритми виявлення текстових областей. Для її реалізації була вибрана мова програмування Python 2.6.

1.3 Розробка алгоритму виявлення текстових областей в графічних файлах


. 3.1 Аналіз алгоритмів виявлення текстових областей

. 3.1.1 Алгоритм «Швидке та ефективне текстове виявлення»

Алгоритм «Швидке та ефективне текстове виявлення» розроблений в Університеті Дипломованого фахівця китайської Академії Наук, Пекін, Китай.


Рис 1.11 Блок-схема алгоритму «Швидке та ефективне текстове виявлення»


Для оригінального зображення спочатку використовується «штриховий фільтр», який обчислює горизонтальну, вертикальну і діагональні штрихові карти. Потім двічі використовується SVM алгоритм, так званий «Метод опорних векторів» щоб класифікувати текстові блоки, нетекстові блоки і сам текст. [15]

1.3.1.1.1 Генерація штрихових Карт


Рис. 1.12 Ілюстрація штрихового фільтра



Спочатку кольорове зображення перетвориться в напівтонове «grayscale», після чого генерується горизонтальна, вертикальна і діагональні штрихові карти (малюнок 1.12).

Значення штрих фільтра в центральній точці залежить від значень пікселя в трьох прямокутних областях, де - три параметри, які відповідають орієнтації, довжині і ширині штриха відповідно. [15]

витік конфіденційна інформація


Де - інтенсивності пікселів по всіх трьох регіонах;

- це стандартне відхилення інтенсивності пікселів.

У цьому методі формула має вигляд:


.3.1.1.2 Виявлення блоків тексту

За допомогою рухомого вікна розмірів W * H, яке проходить по зображенню SVM класифікатор ідентифікує, чи існує потенційний текстовий блок в даній позиції, покритий рухомим вікном B. Для кожного рухомого вікна обчислюється «штрихова карта». Текстові блоки зазвичай мають суттєві обчислені значення по всіх чотирьох напрямках. В даному випадку використовуються статистичні особливості в штрихових картах, щоб фіксувати ці властивості. Конкретно, особливості включають: мале, дисперсію і зважену енергію.



Щоб характеризувати просторовий розподіл штрихів, ми визначаємо відповідні особливості: вертикальну і горизонтальну конфігурації накопичення. Для кожного рухомого вікна у вертикальній штриховий карті вони однаково розділені на вісім областей прямокутників. У кожному прямокутнику вертикальна «VAP» обчислюється таким чином:


Ідентично і для кожного рухомого вікна в горизонтальній штриховий мапі:



Таким чином, кожен блок, покритий рухомим вікном, представлений 24-мірним характеристичним вектором.

У порівнянні з іншими класифікаторами, такими як нейронна мережа, вирішальне дерево та інші, SVM класифікатор потребує меншої кількості навчальних вибірок і має кращу здатність узагальнення. Таким чином, був обраний SVM класифікатор, щоб отримати блоки тексту кандидата.

У даному прикладі SVM класифікатор навчався на наборі даних, що складається з 240 текстових блоків і 480 нетекстових блоків. Якщо висновок класифікатора SVM буде позитивним, то пікселі в рухомому вікні будуть повністю помічені як текст. Рухається крок рухомого вікна горизонтально W/2, вертикально H/2. У результаті створюється подвійне зображення маски, білі області якого представляють області тексту кандидата, а чорна область представляє фон. [15]

Рис. 1.13 Грубе текстове виявлення


.3.1.1.3 Витяг рядків тексту кандидата

Як видно з малюнка 1.13, області кандидата можуть покривати кілька нетекстових областей. Таким чином, використовуються наступні кроки для розділення і встановлення текстових областей:

Рис 1.14 Роздільна областей


Поділ області в маленькі прямокутники (малюнок 1.14 (b));

Якщо проміжок в горизонтальній рядку менше 1/6 довжини всього рядка, то потрібно об'єднати його (малюнок 1.14 (c));

Для двох вертикально суміжних прямокутників, якщо ширина коротшого прямокутника перевищує 4/5 ширини довшого, то необхідно об'єднати їх в більший прямокутник, висота якого - сума їх висот, а ширина - максимум ширини одного з прямокутник...


Назад | сторінка 9 з 23 | Наступна сторінка





Схожі реферати:

  • Реферат на тему: Карти поширення промислових тварин Вологодської та Ярославської областей
  • Реферат на тему: Особливості ран окремих органів і областей тіла
  • Реферат на тему: Аналіз органів фінансового контролю на прикладі областей
  • Реферат на тему: Інформаційний ресурс в Республіці Білорусь за термінологією електронного ур ...
  • Реферат на тему: Рельєф західніх областей України