Kódová stránka

Aktuální verze stránky ještě nebyla zkontrolována zkušenými přispěvateli a může se výrazně lišit od verze recenzované 19. září 2019; kontroly vyžadují 7 úprav .

Kódová stránka ( anglicky  code page ) - tabulka, která přiřazuje každé hodnotě bytu určitý znak (nebo jeho absenci). Znakový kód má obvykle velikost 8 bitů , takže kódová stránka může obsahovat maximálně 256 znaků, což znamená, že jakákoli 8bitová kódová stránka je pro reprezentaci vícejazyčných textů velmi nedostatečná. Některé znaky se navíc používají jako řídicí znaky, proto počet vytištěných znaků jen zřídka přesáhne 223 [1] .

Historicky byl termín kódová stránka zaveden společností IBM Corporation ; výměnné kódové stránky byly použity pro podporu různých jazyků (se systémy abecedního psaní). V poslední době dochází k záměně mezi pojmem „kódová stránka“ a obecnějším pojmem znaková sada (kódování).

Kódové stránky dnes

V současnosti se používají především dva typy kódování: ASCII kompatibilní a EBCDIC kompatibilní [2] , přičemž první z nich drtivě převládá. V kódování kompatibilním s ASCII jsou kódy pro 95 tisknutelných znaků a 33 řídicích znaků pevně dané a zbývajících 128 kódových bodů se používá pro různé znaky mimo ASCII.

Pro kódování textů v ruštině (tj. písmen azbuky ) se nejčastěji používají následující kódové stránky:

Používání různých kódových stránek vytváří mnoho nepříjemností pro uživatele i programátory. Při pokusu o čtení textového souboru pomocí kódové stránky, která není kompatibilní s tou, ve které byl vytvořen, se vyskytují chyby . V posledních letech se Unicode rozšířil jako alternativa k tradičním kódovým stránkám.

V systému Microsoft Windows

V systémech Microsoft Windows jsou kódové stránky důležitou součástí lokalizace , která se nastavuje v klíčích registru HKEY_LOCAL_MACHINE\SYSTEM\CurrentControlSet\Control\Nls\CodePage\ [3] .

Historicky (v systémech Windows 3.xa Windows 9x ) existovaly dva typy kódových stránek. Kódové stránky ANSI [4] (angl. ANSI code page , v registru: ACP ), také nazývané Windows [5]  jsou nativní kódové stránky Windows. Obsahují mnoho typografických znaků , ale téměř žádnou pseudografiku, protože jsou určeny pro použití v grafickém prostředí. Microsoft následně uznal, že použití názvu ANSI bylo způsobeno nedorozuměním. [6] Mezi kódování "ANSI"/Windows patří zejména Windows-1252 a výše zmíněný Windows-1251 . Microsoft také označuje kódové stránky jako kódové tabulky, jejichž některé pozice vyžadují k vytvoření znaku druhý (koncový) bajt, tedy takové, které umožňují dvoubajtovou reprezentaci některých znaků [7] , i když přísně vzato jsou již kódování znaků s proměnnou délkou.

Kódování OEM (angl. kódová stránka OEM , v registru: OEMCP ) jsou založena na CP437 a obsahují pseudografiku kompatibilní s VGA . Výše uvedené alternativní kódování je v systému Windows známé jako CP866 .

Počínaje Windows NT se objevila třetí třída kódových stránek: Macintosh encodings (anglicky Macintosh code page , v registru: MACCP ), kompatibilní s MacOS .

Poznámky

  1. Jednou z mála výjimek je kódování VISCII pro vietnamskou latinku, které je kompatibilní s ASCII mínus šest kódů v zóně řídicích znaků nahrazených písmeny, viz RFC 1456 . Obsahuje tedy 229 tisknutelných znaků.
  2. Kódování založená na EBCDIC (např. DCOI ) se používají pouze na některých sálových počítačích .
  3. REG: CurrentControlSet, ČÁST 1 Archivováno 10. ledna 2013 na Wayback Machine , Microsoft 
  4. Kódové stránky ve Visual C++ Archivováno 22. února 2014 na Wayback Machine , MSDN
  5. Kódové stránky archivovány 22. února 2014 na Wayback Machine , MSDN
  6. MSDN: Slovník pojmů (odkaz není k dispozici) . Získáno 2. března 2010. Archivováno z originálu dne 28. března 2016. 
  7. Kódové stránky Windows Archivováno 2. května 2014 na Wayback Machine , MSDN