арт запропонований в 1991 році некомерційною організацією «Консорціум Юнікоду» (Unicode Consortium, Unicode Inc.). Застосування цього стандарту дозволяє закодувати дуже велике число символів з різних писемностей: у документах Unicode можуть сусідити китайські ієрогліфи, математичні символи, букви грецького алфавіту, латиниці і кирилиці, при цьому стає непотрібним перемикання кодових сторінок.
Стандарт складається з двох основних розділів: універсальний набір символів (UCS, universal character set) і сімейство кодувань (UTF, Unicode transformation format). Універсальний набір символів задає однозначну відповідність символів кодам - ??елементам кодового простору, що представляє невід'ємні цілі числа. Сімейство кодувань визначає машинне представлення послідовності кодів UCS.
Коди в стандарті Юнікод розділені на кілька областей. Область з кодами від U +0000 до U +007 F містить символи набору ASCII з відповідними кодами. Далі розташовані області знаків різних писемностей, знаки пунктуації і технічні символи. Частина кодів зарезервована для використання в майбутньому. Під символи кирилиці виділені області знаків з кодами від U +0400 до U +052 F, від U +2 DE0 до U +2 DFF, від U + A640 до U + A69F
До кінця 1980-х років стандартом стали 8-бітові символи, при цьому існувало безліч різних 8-бітних кодувань. Це пояснювалося як постійним розширенням кола підтримуваних мов. У результаті з'явилося кілька проблем
Малюнок 2.3 Види проблем та варіанти їх рішень для Unicode
Консорціум Юнікоду працює в тісному зв'язку з робочою групою ISO/IEC/JTC1/SC2/WG2, яка займається розробкою міжнародного стандарту 10646 (ISO / IEC 10646). Між стандартом Юникода та ISO / IEC 10646 встановлена ??синхронізація, хоча кожен стандарт використовує свою термінологію і систему документації.
Співпраця Консорціуму Юникода з Міжнародною організацією зі стандартизації (International Organization for Standardization, ISO) розпочалося в 1991 році. У 1993 році ISO випустила стандарт DIS 10646.1. Для синхронізації з ним Консорціум затвердив стандарт Юнікоду версії 1.1, в який були внесені додаткові символи з DIS 10646.1. У результаті значення закодованих символів в Unicode 1.1 і DIS 10646.1 повністю збіглися.
Надалі співпраця двох організацій продовжилося. У 2000 році стандарт Unicode 3.0 був синхронізований з ISO / IEC 10646-1:2000. Майбутня третя версія ISO / IEC 10646 буде синхронізована з Unicode 4.0. Можливо, ці специфікації навіть будуть опубліковані як єдиний стандарт.
Аналогічно форматам UTF - 16 і UTF - 32 в стандарті Юникода, стандарт ISO / IEC 10646 також має дві основні форми кодування символів: UCS - 2 (2 байти на символ, аналогічно UTF - 16) і UCS- 4 (4 байти на символ, аналогічно UTF - 32). UCS значить універсальний многооктетний (мультибайтних) кодований набір символів (universal multiple-octet coded character set). UCS - 2 можна вважати підмножиною UTF - 16 (UTF - 16 без сурогатних пар), а UCS - 4 є синонімом для UTF - 32.
.3 Формати подання текстових файлів
Формат файлів визначає спосіб зберігання тексту у файлі. Найпростіший формат містить тільки числові коди символів, інші формати містять додаткові керуючі числові коди, які забезпечують форматування тексту. <...