Sada znaků

Aktuální verze stránky ještě nebyla zkontrolována zkušenými přispěvateli a může se výrazně lišit od verze recenzované 15. května 2017; kontroly vyžadují 17 úprav .

Znaková sada ( anglicky  character set ) - tabulka, která specifikuje kódování konečné sady abecedních znaků (obvykle textové prvky: písmena, čísla, interpunkční znaménka). Taková tabulka porovnává každý znak se sekvencí jednoho nebo více znaků jiné abecedy (tečky a čárky v Morseově abecedě , signální vlajky v námořnictvu , nuly a jedničky ( bity ) v počítači).

Počítačová znaková sada

Znaky v počítači jsou obvykle kódovány v jednom nebo více bytech (skupinách osmi bitů).

Ačkoli je nyní možná nejsměrodatnějším termínem „znaková sada“ ( angl.  character set, charset ), legitimizovaný internetovým standardem RFC 2278 , stále se jako výraz „ kódování “ používá termín „kódování“, který mu předcházel synonymem, zejména v programovacích jazycích Java [1] , Perl [2] a XSLT [3] , jakož i v HTML [4] .  

Často je místo termínu „znaková sada“ nesprávně použit termín „ kódová stránka “, což ve skutečnosti znamená speciální případ znakové sady s jednobajtovým kódováním.

V současné době se používají tři typy kódování: ASCII -kompatibilní, EBCDIC -kompatibilní a 16bitové kódování založené na Unicode , přičemž první z nich drtivě převládá. Reprezentace Unicode UTF-8 je kompatibilní s ASCII. Kódování založená na EBCDIC (jako je DCOI ) se používají pouze na některých sálových počítačích . Zpočátku používal každý operační systém jednu znakovou sadu. Nyní jsou používané znakové sady standardizované [5] , závisí na typu operačního systému pouze tradicí a jsou nastaveny podle národního prostředí .

Wikipedia a další projekty Wikimedia Foundation používají UTF-8 Unicode.

Moderní 8bitové výpočetní platformy se vyznačují malým množstvím paměti RAM a ROM; vícebajtová kódování v takových produktech nebyla významně rozšířena. Důvodem je nejen větší objem, který zabírají textová data prezentovaná ve vícebajtovém kódování, ale také nedostatek „extra“ paměti pro uložení grafického znázornění dalších znaků a také obtížnost zpracování takových řetězců. Dnes se běžně používají následující standardní jednobajtová kódování:

Automatické rozpoznávání kódování

Mnoho moderních textových editorů a prohlížečů má funkci automatického rozpoznávání kódování, ale ne vždy poskytuje správný výsledek. Někdy se stane, že text napsaný například na příkazovém řádku nebo v některých programech je dekódován špatně a místo normálních slov se získá sada nesrozumitelných znaků. Se čtením takového textu vám může pomoci velké množství textových dekodérů, které fungují online.

U jednobajtových kódování je třeba vzít v úvahu skutečnost, že frekvence použití různých písmen se velmi liší (například v ruštině se často používá „o“, ale „ъ“ se používá zřídka). Při znalosti jazyka textu si tedy můžete snadno vybrat kódování, ve kterém frekvence bajtů lépe odpovídá frekvenci písmen v daném jazyce. [6]

Alternativní hledisko považuje takovéto heuristické algoritmy pro určování kódování textu za škodlivé, protože moderní informační technologie mají prostředky k tomu, aby text jednoznačně porovnaly s jeho kódovou stránkou (viz např. MIME ). Rozšířené používání heuristických analyzátorů podporuje používání nekvalitních programů pro vytváření textových dat, která porušují standardy.

Běžná kódování

Viz také

Odkazy

Poznámky

  1. Seznam hlavních „kódování“ v příručce Java SE 6 . Datum přístupu: 27. září 2008. Archivováno z originálu 16. prosince 2008.
  2. Diskuse o "kódování" v dokumentaci jazyka Perl . Získáno 27. září 2008. Archivováno z originálu 6. října 2008.
  3. Diskuse o "kódování" v dokumentaci XSLT . Získáno 5. října 2008. Archivováno z originálu 13. srpna 2017.
  4. Diskuse o vztahu mezi pojmy „kódování“ a „znaková sada“ v HTML dokumentaci . Získáno 11. října 2008. Archivováno z originálu 26. října 2008.
  5. Specifikace znakové sady na webu IANA . Získáno 27. září 2008. Archivováno z originálu 16. července 2004.
  6. Univerzální dekodér - převodník azbuky . Datum přístupu: 4. prosince 2014. Archivováno z originálu 28. prosince 2014.