Кодиране на глава1 и файлови формати

Кодирането на текст е най-важният, но и най-чувствителният и взривоопасен обект в областта на интернационализацията в Интернет. Това е от съществено значение, тъй като голяма част от информацията, циркулираща в Интернет, е в текстова форма. Историята на Интернет обаче гарантира, че преобладаващото кодиране, а в някои случаи и единственото възможно кодиране, е много ограниченото ASCII. Но това кодиране може да представлява само няколко езика, от които само три са важни: английски, индонезийски и суахили.

Системи за кодиране

Кодиране: принципи

Компютрите обработват само цифрови данни, в този случай в двоична форма (двоични цифри: двоична цифра = BIT).
Битът е най-малката единица информация, която компютърът може да обработи.
Битът може да бъде или 1, или 0.
С 2 бита можем да имаме четири различни състояния (2 * 2): 00, 01, 10, 11
С 3 бита можем да имаме осем различни състояния (2 * 2 * 2): 000, 001, 010, 011, 100, 101, 110, 111
Със 7 бита можем да имаме 128 различни състояния (27)
С 8 бита можете да имате 256 различни състояния (28)
С 16 бита можете да имате 65 000 различни състояния (216)
С 32 бита можем да имаме + 4 милиарда различни състояния (232)

Код (набор от знаци) е таблица на съответствието, която свързва графичен символ с числови данни.
Наборът от символи обикновено отговаря на определени критерии:
- Фамилия: Наборът от символи се обозначава с различни имена: кодиране на символи, кодиран репертоар и кодова страница. Той винаги е именуван така, че системата за обработка или получаване да може да използва правилната таблица. Примери за набори от знаци: ISO/IEC 8859-1, ISO/IEC 8859-2, ASCII, Unicode 4.0 и др.;
- Разрез: размерът на набор от символи се изразява с броя на битовете, използвани за представяне на знак и определя броя на символите, които трябва да бъдат кодирани:
* 7 бита се използват за кодиране на 128 знака: ASCII, ISO/IEC 9036 (арабски)
* 8 бита могат да кодират 256 знака: ISO/IEC 8859-1, UTF-8
* 16 бита позволяват кодиране +65000 знака: UTF-16, KSC 5601 (корейски)
* 32 бита могат да кодират +4 милиарда знака: UCS-4, UTF-32.

- Герои: има поне (за латинската азбука): 10-те цифри, 26-те букви от азбуката, пунктуационни знаци или оператори, контролни знаци, предназначени да улеснят предаването на информация и за оформление на функциите.

Всички набори от знаци разграничават понятието за характер от това за глиф:

* Символът е единица информация, използвана за кодиране на текст. Представен е с число, което се намира само в паметта или на диска.

* Глифът е геометрична форма, използвана за представяне на характер. Той се появява на екрана или в печат. Директорията с глифи представлява шрифт (Arial, Times New Roman и др.)

- Лечение: кодирането на цифри и букви трябва да бъде проектирано да улесни обработката.

Например трябва да можем лесно да сортираме по знаци. Тъй като в лексикографския смисъл „A =? -, & ’ +
-12 кутии са запазени за национална или специфична употреба (диакритични букви и други символи).

Кодиране: проблеми с несъвместимостта

Създадени са стотици системи за кодиране на символи.

Те често са несъвместими помежду си: две системи могат да използват един и същ цифров код за два различни знака или да използват различни кодове за един и същ знак.

Поради множеството игри, всеки производител предлага собствено решение, базирано горе-долу на един от тези стандарти. Тогава възниква проблемът с трансфера на данни между системи или миграциите от една система в друга.

Следователно проблемът не е недостигът, а изобилието.

За арабски: няколко набора от символи: ISO 8859-6, ISO 9036, MS Arabic Dos Code Page 708, MS Windows Arabic Code Page 1256, Arabic Mac Code Page, Arabic Windows 3X Code Page, Code Page 864 Dos Arabic и др.

Примери за несъвместимост:
Арабската дума „. "Кодиран е в ISO 8859-6 като следната последователност от цифрови кодове: 226 () 232 (?) И 234 (?).

Ако преминем от ISO 8859-6 към кодовата страница на Windows 1256, същата последователност от цифрови кодове ще даде дисплея:.

Защо тази трансформация ?: двата набора от символи присвояват различни кодове за трите арабски букви в нашия пример.

- Същият проблем се наблюдава и с ударени латински букви: û, ê, î, ï, è и др.

Кодиране: универсално решение (Unicode и ISO 10646)

Стандарт Unicode и стандарта ISO/IEC 10646 посочете уникален номер за всеки символ, независимо от платформата, какъвто и да е софтуерът и езикът.
От 1992 г., датата на сливането, разработването на Unicode е синхронизирано с това на стандарта ISO/IEC 10646.
Появата на стандарта Unicode и стандарта ISO/IEC 10646, както и наличието на инструменти, които ги поддържат, са сред най-поразителните факти от скорошната глобализация на разработването на софтуер.
Благодарение на стандарта Unicode и стандарта ISO/IEC 10646, един софтуер или уебсайт могат едновременно и без модификация да отговорят на изискванията на няколко платформи, езици и държави.
Те също така позволяват на софтуер от различни източници да обменя символи без загуба на данни.

Unicode/ISO 10646: интернационализация на Интернет

Понастоящем Unicode и ISO/IEC 10646 се изискват от много скорошни стандарти от W3C и IETF като XML, XSL, XHTML и др.

RFC 2277 установява следните насоки:

всеки протокол трябва да идентифицира използвания набор от знаци;
всеки протокол трябва да може да използва кодирането UTF-8 на универсалния набор от знаци ISO/IEC 10646;

съществуващите протоколи, които използват други набори от символи или дори които използват набор от символи по подразбиране от UTF-8, трябва да поддържат кодиране UTF-8 [...]

Последните версии на основните браузъри поддържат UTF-8 кодиране: Internet Explorer 4, 5 и 6, Netscape 4 и 6, Tango и др.

На HTML език е достатъчно да добавите в раздела на документ метаинформация, указваща това:

При XML споменаването на UTF-8 кодирането трябва да бъде посочено в пролога на XML документа:

В тялото на HTML или XML документа можете да вмъкнете символите, като се позовавате на номерата, които имат в таблицата с кодове.
Препратките към символите могат да бъдат предоставени или като шестнадесетична стойност, или като десетична стойност на символа в таблицата.
В първия случай препратката е с префикс &#x, последвана от шестнадесетичната стойност на символа в таблицата, последвана от точка и запетая.
Във втория случай препратката е с префикс & #, последвана от числовата стойност на знака в таблицата, последвана накрая от точка и запетая.

Различните файлови формати

Файлове, съдържащи текст

.RTF (Rich Text Format) Този стандартизиран формат на текстов документ ASCII с форматиране насърчава обмена между различен софтуер. Използва се, ако има съмнение относно съвместимостта на версията, софтуера или средата по време на обикновен обмен на текстови файлове. Моля, обърнете внимание, че оформлението и таблиците ви няма да бъдат преписани вярно. Да бъде резервиран за прости документи (в противен случай използвайте Acrobat и неговия PDF формат).