Инструкции за мигриране към UTF-8

Изчислителната система на отдела премина към използване на многобайтово UTF-8 кодиране за файлови системи и потребителска среда вместо еднобайтово KOI8-R кодиране. Това ръководство обсъжда типични проблеми, които потребителите могат да имат във връзка с този преход, и предлага начини за тяхното решаване (промяна на настройките, командите и т.н.).

Основни понятия

Unikod или Unikod (английски Unicode ™) - стандарт за кодиране на символи, който ви позволява да представяте символи на почти всички писмени езици.

UTF-8 (от английския формат за преобразуване на Unicode) е кодиране, което реализира представяне на Unicode, съвместимо с 8-битово кодиране на текст.

Важно е да се разбере, че един UTF-8 знак може да бъде представен от повече от един байт. Това е свързано например с факта, че файл, съдържащ текст в кодиране UTF-8, ще има по-голям размер в сравнение с файл, съдържащ същия текст в кодиране KOI8-R.

Пример: командата wc има -c превключвател за преброяване на байтове и -m превключвател за преброяване на символи.

Имена на файлове

Имената на файловете бяха преобразувани автоматично с помощта на помощната програма convmv:

Всеки потребител, в чиято домашна директория помощната програма convmv преименува поне един файл, автоматично изпраща дневник за преименуване.

Ако е необходимо, можете да направите обратното преобразуване:

След като проверите изхода на командата, повторете с бутона --notest. Превключвателят -r позволява рекурсивно обръщане на директория.

Съдържание на файла

За да конвертирате съдържанието на файлове от кодиране KOI8-R в кодиране UTF-8, можете да използвате командата: