Теми рефератів
> Реферати > Курсові роботи > Звіти з практики > Курсові проекти > Питання та відповіді > Ессе > Доклади > Учбові матеріали > Контрольні роботи > Методички > Лекції > Твори > Підручники > Статті Контакти
Реферати, твори, дипломи, практика » Новые рефераты » Розробка алгоритму та програми автоматичного оброблення матеріалів для інформаційного ресурсу

Реферат Розробка алгоритму та програми автоматичного оброблення матеріалів для інформаційного ресурсу





арт запропонований в 1991 році некомерційною організацією «Консорціум Юнікоду» (Unicode Consortium, Unicode Inc.). Застосування цього стандарту дозволяє закодувати дуже велике число символів з різних писемностей: у документах Unicode можуть сусідити китайські ієрогліфи, математичні символи, букви грецького алфавіту, латиниці і кирилиці, при цьому стає непотрібним перемикання кодових сторінок.

Стандарт складається з двох основних розділів: універсальний набір символів (UCS, universal character set) і сімейство кодувань (UTF, Unicode transformation format). Універсальний набір символів задає однозначну відповідність символів кодам - ??елементам кодового простору, що представляє невід'ємні цілі числа. Сімейство кодувань визначає машинне представлення послідовності кодів UCS.

Коди в стандарті Юнікод розділені на кілька областей. Область з кодами від U +0000 до U +007 F містить символи набору ASCII з відповідними кодами. Далі розташовані області знаків різних писемностей, знаки пунктуації і технічні символи. Частина кодів зарезервована для використання в майбутньому. Під символи кирилиці виділені області знаків з кодами від U +0400 до U +052 F, від U +2 DE0 до U +2 DFF, від U + A640 до U + A69F

До кінця 1980-х років стандартом стали 8-бітові символи, при цьому існувало безліч різних 8-бітних кодувань. Це пояснювалося як постійним розширенням кола підтримуваних мов. У результаті з'явилося кілька проблем


Малюнок 2.3 Види проблем та варіанти їх рішень для Unicode


Консорціум Юнікоду працює в тісному зв'язку з робочою групою ISO/IEC/JTC1/SC2/WG2, яка займається розробкою міжнародного стандарту 10646 (ISO / IEC 10646). Між стандартом Юникода та ISO / IEC 10646 встановлена ??синхронізація, хоча кожен стандарт використовує свою термінологію і систему документації.

Співпраця Консорціуму Юникода з Міжнародною організацією зі стандартизації (International Organization for Standardization, ISO) розпочалося в 1991 році. У 1993 році ISO випустила стандарт DIS 10646.1. Для синхронізації з ним Консорціум затвердив стандарт Юнікоду версії 1.1, в який були внесені додаткові символи з DIS 10646.1. У результаті значення закодованих символів в Unicode 1.1 і DIS 10646.1 повністю збіглися.

Надалі співпраця двох організацій продовжилося. У 2000 році стандарт Unicode 3.0 був синхронізований з ISO / IEC 10646-1:2000. Майбутня третя версія ISO / IEC 10646 буде синхронізована з Unicode 4.0. Можливо, ці специфікації навіть будуть опубліковані як єдиний стандарт.

Аналогічно форматам UTF - 16 і UTF - 32 в стандарті Юникода, стандарт ISO / IEC 10646 також має дві основні форми кодування символів: UCS - 2 (2 байти на символ, аналогічно UTF - 16) і UCS- 4 (4 байти на символ, аналогічно UTF - 32). UCS значить універсальний многооктетний (мультибайтних) кодований набір символів (universal multiple-octet coded character set). UCS - 2 можна вважати підмножиною UTF - 16 (UTF - 16 без сурогатних пар), а UCS - 4 є синонімом для UTF - 32.


.3 Формати подання текстових файлів


Формат файлів визначає спосіб зберігання тексту у файлі. Найпростіший формат містить тільки числові коди символів, інші формати містять додаткові керуючі числові коди, які забезпечують форматування тексту. <...


Назад | сторінка 12 з 44 | Наступна сторінка





Схожі реферати:

  • Реферат на тему: Роль символів і знаків у культурології
  • Реферат на тему: Ознаки символів, використовувані для автоматичного розпізнавання
  • Реферат на тему: Значення анімалістичних символів Європейських країн
  • Реферат на тему: Мови і символи культури, культурні коди
  • Реферат на тему: Розрахунок кількості символів у тексті