Znaková sada ( anglicky character set ) - tabulka, která specifikuje kódování konečné sady abecedních znaků (obvykle textové prvky: písmena, čísla, interpunkční znaménka). Taková tabulka porovnává každý znak se sekvencí jednoho nebo více znaků jiné abecedy (tečky a čárky v Morseově abecedě , signální vlajky v námořnictvu , nuly a jedničky ( bity ) v počítači).
Znaky v počítači jsou obvykle kódovány v jednom nebo více bytech (skupinách osmi bitů).
Ačkoli je nyní možná nejsměrodatnějším termínem „znaková sada“ ( angl. character set, charset ), legitimizovaný internetovým standardem RFC 2278 , stále se jako výraz „ kódování “ používá termín „kódování“, který mu předcházel synonymem, zejména v programovacích jazycích Java [1] , Perl [2] a XSLT [3] , jakož i v HTML [4] .
Často je místo termínu „znaková sada“ nesprávně použit termín „ kódová stránka “, což ve skutečnosti znamená speciální případ znakové sady s jednobajtovým kódováním.
V současné době se používají tři typy kódování: ASCII -kompatibilní, EBCDIC -kompatibilní a 16bitové kódování založené na Unicode , přičemž první z nich drtivě převládá. Reprezentace Unicode UTF-8 je kompatibilní s ASCII. Kódování založená na EBCDIC (jako je DCOI ) se používají pouze na některých sálových počítačích . Zpočátku používal každý operační systém jednu znakovou sadu. Nyní jsou používané znakové sady standardizované [5] , závisí na typu operačního systému pouze tradicí a jsou nastaveny podle národního prostředí .
Wikipedia a další projekty Wikimedia Foundation používají UTF-8 Unicode.
Moderní 8bitové výpočetní platformy se vyznačují malým množstvím paměti RAM a ROM; vícebajtová kódování v takových produktech nebyla významně rozšířena. Důvodem je nejen větší objem, který zabírají textová data prezentovaná ve vícebajtovém kódování, ale také nedostatek „extra“ paměti pro uložení grafického znázornění dalších znaků a také obtížnost zpracování takových řetězců. Dnes se běžně používají následující standardní jednobajtová kódování:
Mnoho moderních textových editorů a prohlížečů má funkci automatického rozpoznávání kódování, ale ne vždy poskytuje správný výsledek. Někdy se stane, že text napsaný například na příkazovém řádku nebo v některých programech je dekódován špatně a místo normálních slov se získá sada nesrozumitelných znaků. Se čtením takového textu vám může pomoci velké množství textových dekodérů, které fungují online.
U jednobajtových kódování je třeba vzít v úvahu skutečnost, že frekvence použití různých písmen se velmi liší (například v ruštině se často používá „o“, ale „ъ“ se používá zřídka). Při znalosti jazyka textu si tedy můžete snadno vybrat kódování, ve kterém frekvence bajtů lépe odpovídá frekvenci písmen v daném jazyce. [6]
Alternativní hledisko považuje takovéto heuristické algoritmy pro určování kódování textu za škodlivé, protože moderní informační technologie mají prostředky k tomu, aby text jednoznačně porovnaly s jeho kódovou stránkou (viz např. MIME ). Rozšířené používání heuristických analyzátorů podporuje používání nekvalitních programů pro vytváření textových dat, která porušují standardy.
Kódování znaků | |
---|---|
Historická kódování | doplňková komp. semafor (Makarov) morse Bodo MTK-2 komp. 6bitový SCP RADIX-50 EBCDIC KOI-7 ISO 646 |
moderní 8bitová reprezentace | symboly ASCII non-ASCII 8bitové kódové stránky cyrilice KOI-8 Základní kódování MacCyrillic ISO 8859 1 (lat.) 2 3 čtyři 5 (kir.) 6 7 osm 9 deset jedenáct 12 13 čtrnáct 15 (€) 16 Okna 1250 1251 (Kir.) 1252 1253 1254 1255 1256 1257 1258 WGL4 IBM a DOS 437 850 852 855 866 "alternativní" MIC |
Vícebajtové | tradiční DBCS GB2312 HTML unicode UTF-32 UTF-16 UTF-8 seznam postav cyrilice |
uživatelské rozhraní rozložení klávesnice národní prostředí překlad řádků písmo přepis vlastní písma utility iconv záznam |
Typová slévárna a typový design | |||||||||
---|---|---|---|---|---|---|---|---|---|
Koncepty | |||||||||
Struktura písma |
| ||||||||
Charakteristika písma | |||||||||
Klasifikace abecedních písem |
| ||||||||
Styly písma | |||||||||
Jednotky | |||||||||
počítačová typografie | |||||||||
viz také nakladatelství Tiskárna Typografie Kit Rozložení Tisk |