Реферат Методи статистичного аналізу тексту

Тема: Новые рефераты

у тексті, яке з точністю до заміни символів буде зберігатися в процесі шифрування і дешифрування [10]. p align="justify"> Коротко кажучи, частотний аналіз передбачає, що частота появи заданої букви алфавіту в досить довгих текстах одна і та ж для різних текстів однієї мови. При цьому у разі моноалфавитной шифрування, якщо в зашифрованому тексті буде символ з аналогічною ймовірністю появи, то можна припустити, що він і є зазначеної зашифрованою буквою. Аналогічні міркування застосовуються до биграмм (двубуквенним послідовностям), триграм у разі поліалфавітних шифрів. p align="justify"> Метод частотного аналізу відомий з ще IX-го століття і пов'язаний і ім'ям Ал-Кінді. Але найбільш відомим випадком застосування такого аналізу є дешифрування єгипетських ієрогліфів Ж.-Ф. Шампольоном в 1822 році. p align="justify"> Даний вид аналізу грунтується на тому, що текст складається з слів, а слова з букв. Кількість різних букв в кожній мові обмежена і букви можуть бути просто перераховані. Важливими характеристиками тексту є повторюваність літер, пар букв (биграмм) і взагалі m-ок (m-грам), сполучуваність букв один з одним, чергування голосних і приголосних і деякі інші. p align="justify"> Ідея полягає в підрахунку чисел входжень кожної nm можливих m-грам в досить довгих відкритих текстах T = t1t2 ... tl, складених з літер алфавіту {a1, a2, ..., an}. При цьому проглядаються поспіль йдуть m-грами тексту: t2 ... tm, t2t3 ... tm +1, ..., ti-m +1 tl-m +2 ... tl.

Якщо - число появ m-грами ai1ai2 ... aim в тексті T, а L - загальне число підрахованих m-грам, то досвід показує, що при достатньо великих L частоти

для даної m-грами мало відрізняються один від одного.

У силу цього, відносну частоту вважають наближенням ймовірності P (ai1ai2. .. aim) появи даної m-грами в випадково вибраному місці тексту (такий підхід прийнятий при статистичному визначенні ймовірності).

У представленій нижче таблиці наводяться частоти народження букв в російській мові (у відсотках):

Буква алфавітаПоказатель частоти народження-0, 175А0, 062Б0, 014В0, 038Г0, 013Д0, 025Е, Ь0, 014И0, 016Е0, 003Ю0, 006Я0, 018

Мається мнемонічне правило запам'ятовування десяти найбільш частих букв російського алфавіту. Ці літери складають слово СЕНОВАЛІТР. p align="justify"> Стійкими є також частотні характеристики биграмм, триграм і четирехграмм осмислених текстів. Існують спеціальні таблиці із зазначенням частоти биграмм деяких алфавітів. За результатами досліджень за допомогою таких таблиць вчені визначили найбільш часто зустрічаються біграми і триграми для російського алфавіту:

СТ, АЛЕ, ЄП, ТО, НА, ОВ, НІ, РА, ВО, КО, СТО, ЕНО, НОВ, ТОВ, ОВО, ОВА.

З таблиць биграмм можна також легко витягти інформацію про сполучуваність букв, тобто про бажаних зв'язках букв о...

Назад | сторінка 2 з 15 | Наступна сторінка

Схожі реферати:

Реферат на тему: Узагальнення знань про гласних звуках і буквах, подорож у чарівну країну зв ...

Реферат на тему: Розробка програм шифрування і дешифрування тексту методом простої заміни

Реферат на тему: Розробка програми шифрування та дешифрування тексту методом простої заміни

Реферат на тему: Створення компонента для шифрування-дешифрування тексту

Реферат на тему: Літері англійського алфавіту, слова. Ігри на уроках англійської мови

Український реферат переглянуто разів: | Коментарів до українського реферату:

Коментарів до українського реферату: 0