5 ПРОТОКОЛИ СТИСКУ ДАНИХ
5.1. Основні методи стиснення
Як відомо, застосування стиснення даних дозволяє більш ефективно використовувати ємність дискової пам'яті. Не менш корисно застосування стиснення при передачі інформації в будь-яких системах зв'язку. В останньому випадку з'являється можливість передавати значно менші (Як правило, у кілька разів) обсяги даних і, отже, потрібні значно менші ресурси пропускної здатності каналів для передачі тієї ж самої інформації. Виграш може виражатися в скороченні часу заняття каналу і, відповідно, в значній економії орендної плати. p>В
Науковій передумовою можливості стиснення даних виступає відома з теорії інформації теорема кодування для каналу без перешкод, опублікована в кінці 40-х років у статті Клода Шеннона "Математична теорія зв'язку". Теорема стверджує, що в каналі зв'язку без перешкод можна так перетворити послідовність символів джерела (у нашому випадку DTE) в послідовність символів коду, що середня довжина символів коду може бути як завгодно близька до ентропії джерела повідомлень Н (Х), обумовленою як:
де p (x i ) - ймовірність появи конкретного повідомлення x i з N можливих символів алфавіту джерела. Число N називають об'ємом алфавіту джерела. p> Ентропія джерела Н (Х) виступає кількісною мірою різноманітності видаваних джерелом повідомлень і є його основною характеристикою. Чим вище різноманітність алфавіту Х повідомлень та порядку їх появи, тим більше ентропія Н (Х) і тим складніше цю послідовність повідомлень стиснути. Ентропія джерела максимальна, якщо апріорні ймовірності повідомлень і ймовірності їх видачі є рівними між собою. З іншого боку, Н (Х) = 0, якщо одне з повідомлень видається постійно, а поява інших повідомлень неможливо. p> Одиницею виміру ентропії є біт. 1 біт - це та невизначеність, яку має джерело з рівноймовірної видачею двох можливих повідомлень, зазвичай символів "0" і "1". p> Ентропія Н (Х) визначає середнє число двійкових знаків, необхідних для кодування вихідних символів (повідомлень) джерела. Так, якщо вихідними символами є російські букви (N = 32 = 2) і вони передаються равновероятно і незалежно, то Н (Х) = 5 біт. Кожну букви можна закодувати послідовністю з п'яти довічних символів, оскільки існують 32 такі послідовності. Однак можна обійтися і меншим числом символів на букву. Відомо, що для російського літературного тексту H (Х) = 1,5 біт, для віршів Н (Х) = 1,0 біт, а для текстів телеграм Н (Х) = 0,8 біт. Отже, можливий спосіб кодування в якому в середньому на букву російського тексту буде витрачено трохи більше 1,5, 1,0 або навіть 0,8 довічних символів. p> Якщо вихідні символи передаються не равновероятно і не...