Инструкции за мигриране към UTF-8
Изчислителната система на отдела премина към използване на многобайтово UTF-8 кодиране за файлови системи и потребителска среда вместо еднобайтово KOI8-R кодиране. Това ръководство обсъжда типични проблеми, които потребителите могат да имат във връзка с този преход, и предлага начини за тяхното решаване (промяна на настройките, командите и т.н.).
Основни понятия
Unikod или Unikod (английски Unicode ™) - стандарт за кодиране на символи, който ви позволява да представяте символи на почти всички писмени езици.
UTF-8 (от английския формат за преобразуване на Unicode) е кодиране, което реализира представяне на Unicode, съвместимо с 8-битово кодиране на текст.
Важно е да се разбере, че един UTF-8 знак може да бъде представен от повече от един байт. Това е свързано например с факта, че файл, съдържащ текст в кодиране UTF-8, ще има по-голям размер в сравнение с файл, съдържащ същия текст в кодиране KOI8-R.
Пример: командата wc има -c превключвател за преброяване на байтове и -m превключвател за преброяване на символи.
Имена на файлове
Имената на файловете бяха преобразувани автоматично с помощта на помощната програма convmv:
Всеки потребител, в чиято домашна директория помощната програма convmv преименува поне един файл, автоматично изпраща дневник за преименуване.
Ако е необходимо, можете да направите обратното преобразуване:
След като проверите изхода на командата, повторете с бутона --notest. Превключвателят -r позволява рекурсивно обръщане на директория.
Съдържание на файла
За да конвертирате съдържанието на файлове от кодиране KOI8-R в кодиране UTF-8, можете да използвате командата: