Sada znaků

Aktuální verze stránky ještě nebyla zkontrolována zkušenými přispěvateli a může se výrazně lišit od verze recenzované 15. května 2017; kontroly vyžadují 17 úprav .

Znaková sada ( anglicky character set ) - tabulka, která specifikuje kódování konečné sady abecedních znaků (obvykle textové prvky: písmena, čísla, interpunkční znaménka). Taková tabulka porovnává každý znak se sekvencí jednoho nebo více znaků jiné abecedy (tečky a čárky v Morseově abecedě , signální vlajky v námořnictvu , nuly a jedničky ( bity ) v počítači).

Počítačová znaková sada

Znaky v počítači jsou obvykle kódovány v jednom nebo více bytech (skupinách osmi bitů).

Ačkoli je nyní možná nejsměrodatnějším termínem „znaková sada“ ( angl. character set, charset ), legitimizovaný internetovým standardem RFC 2278 , stále se jako výraz „ kódování “ používá termín „kódování“, který mu předcházel synonymem, zejména v programovacích jazycích Java [1] , Perl [2] a XSLT [3] , jakož i v HTML [4] .

Často je místo termínu „znaková sada“ nesprávně použit termín „ kódová stránka “, což ve skutečnosti znamená speciální případ znakové sady s jednobajtovým kódováním.

V současné době se používají tři typy kódování: ASCII -kompatibilní, EBCDIC -kompatibilní a 16bitové kódování založené na Unicode , přičemž první z nich drtivě převládá. Reprezentace Unicode UTF-8 je kompatibilní s ASCII. Kódování založená na EBCDIC (jako je DCOI ) se používají pouze na některých sálových počítačích . Zpočátku používal každý operační systém jednu znakovou sadu. Nyní jsou používané znakové sady standardizované [5] , závisí na typu operačního systému pouze tradicí a jsou nastaveny podle národního prostředí .

Wikipedia a další projekty Wikimedia Foundation používají UTF-8 Unicode.

Moderní 8bitové výpočetní platformy se vyznačují malým množstvím paměti RAM a ROM; vícebajtová kódování v takových produktech nebyla významně rozšířena. Důvodem je nejen větší objem, který zabírají textová data prezentovaná ve vícebajtovém kódování, ale také nedostatek „extra“ paměti pro uložení grafického znázornění dalších znaků a také obtížnost zpracování takových řetězců. Dnes se běžně používají následující standardní jednobajtová kódování:

V programech v angličtině - CP437 ;
V programech v ruštině se používají následující možnosti:
- CP866 - častěji používaný zkušenějšími inženýry, kteří začali pracovat v DOSu; umožňuje kreslit pseudografické „snímky“, ale vyžaduje uložení zdrojového kódu softwaru v této konkrétní kódové stránce, což může být pro začátečníky obtížné;
- CP1251 - používá se, pokud je nutné mít ruské znaky v souvislém poli pro snadné zpracování, a pokud je k dispozici Windows, lze takový text překódovat bez použití softwaru třetích stran. Neumožňuje vám však kreslit „rámce“.

Automatické rozpoznávání kódování

Mnoho moderních textových editorů a prohlížečů má funkci automatického rozpoznávání kódování, ale ne vždy poskytuje správný výsledek. Někdy se stane, že text napsaný například na příkazovém řádku nebo v některých programech je dekódován špatně a místo normálních slov se získá sada nesrozumitelných znaků. Se čtením takového textu vám může pomoci velké množství textových dekodérů, které fungují online.

U jednobajtových kódování je třeba vzít v úvahu skutečnost, že frekvence použití různých písmen se velmi liší (například v ruštině se často používá „o“, ale „ъ“ se používá zřídka). Při znalosti jazyka textu si tedy můžete snadno vybrat kódování, ve kterém frekvence bajtů lépe odpovídá frekvenci písmen v daném jazyce. [6]

Alternativní hledisko považuje takovéto heuristické algoritmy pro určování kódování textu za škodlivé, protože moderní informační technologie mají prostředky k tomu, aby text jednoznačně porovnaly s jeho kódovou stránkou (viz např. MIME ). Rozšířené používání heuristických analyzátorů podporuje používání nekvalitních programů pro vytváření textových dat, která porušují standardy.

Běžná kódování

ISO 646
- ASCII
BCDIC
EBCDIC
ISO 8859 :
- ISO 8859-1 , ISO 8859-2 , ISO 8859-3 , ISO 8859-4 , ISO 8859-5 , ISO 8859-6 , ISO 8859-7 , ISO 8859-8 , ISO 8859-9 , ISO 8859-1 ISO 8859-11 , ISO 8859-13 , ISO 8859-14 , ISO 8859-15
- CP437 , CP737 , CP850 , CP852 , CP855 , CP857 , CP858 , CP860 , CP861 , CP863 , CP865 , CP866 , CP869
Kódování Microsoft Windows :
- Windows-1250 pro středoevropské jazyky, které používají znaky latinky (polština, čeština, slovenština, maďarština, slovinština, chorvatština, rumunština a albánština)
- Windows-1251 pro azbuku
- Windows-1252 pro západní jazyky
- Windows-1253 pro řečtinu
- Windows-1254 pro turečtinu
- Windows-1255 pro hebrejštinu
- Windows-1256 pro arabštinu
- Windows-1257 pro baltské jazyky
- Windows-1258 pro Vietnamce
MacRoman , MacCyrillic
KOI8 (KOI8-R, KOI8-U…), KOI-7
Bulharské kódování
ISCII
VISCII
Big5 (nejznámější varianta Microsoft CP950 )
- HKSCS
Guobiao
- GB2312
- GBK (Microsoft CP936 )
- GB18030
Shift JIS pro japonštinu (Microsoft CP932 )
EUC-KR pro korejštinu (Microsoft CP949 )
ISO-2022 a EUC pro čínské písmo
Kódování UTF- 8 , UTF-16 a UTF-32 znakové sady Unicode

Viz také

Odkazy

Unicode znakové kódy na unicode.org

Poznámky

↑ Seznam hlavních „kódování“ v příručce Java SE 6 . Datum přístupu: 27. září 2008. Archivováno z originálu 16. prosince 2008. (neurčitý)
↑ Diskuse o "kódování" v dokumentaci jazyka Perl . Získáno 27. září 2008. Archivováno z originálu 6. října 2008. (neurčitý)
↑ Diskuse o "kódování" v dokumentaci XSLT . Získáno 5. října 2008. Archivováno z originálu 13. srpna 2017. (neurčitý)
↑ Diskuse o vztahu mezi pojmy „kódování“ a „znaková sada“ v HTML dokumentaci . Získáno 11. října 2008. Archivováno z originálu 26. října 2008. (neurčitý)
↑ Specifikace znakové sady na webu IANA . Získáno 27. září 2008. Archivováno z originálu 16. července 2004. (neurčitý)
↑ Univerzální dekodér - převodník azbuky . Datum přístupu: 4. prosince 2014. Archivováno z originálu 28. prosince 2014. (neurčitý)

Kódování znaků
abeceda text soubor data sada znaků konverze
Historická kódování	doplňková komp. semafor (Makarov) morse Bodo MTK-2 komp. 6bitový SCP RADIX-50 EBCDIC DKOI KOI-7 ISO 646
moderní 8bitová reprezentace	symboly ASCII manažeři vytištěné non-ASCII pseudografika 8bitové kódové stránky cyrilice KOI-8 Základní kódování MacCyrillic ISO 8859 1 (lat.) 2 3 čtyři 5 (kir.) 6 7 osm 9 deset jedenáct 12 13 čtrnáct 15 (€) 16 Okna 1250 1251 (Kir.) 1252 1253 1254 1255 1256 1257 1258 WGL4 IBM a DOS 437 850 852 855 866 "alternativní" MIC
Vícebajtové	tradiční DBCS GB2312 HTML unicode UTF-32 UTF-16 UTF-8 seznam postav cyrilice
uživatelské rozhraní rozložení klávesnice národní prostředí překlad řádků písmo přepis vlastní písma utility iconv záznam

Typová slévárna a typový design

Koncepty

Struktura písma

Charakteristika písma

Clona
Aprosh
kerning
Růst malými písmeny
Kapitálový růst
růst písma
bod písma
Kuželka
- Seznam
Proporce
Nasycení

Klasifikace abecedních písem

starověký	Mayuscule Minuskule karolínská minuskula Unciální Ostrovní styl Gaelské písmo
gotický	neogotické písmo Rotunda Textura Zlomenina Schwabacher
slovanský	Jilm hlaholice Občanské písmo Polocharta Kurzívní Charta
Moderní	Antikva Groteskní Jednoprostorový / Proporcionální čtvercový ručně psaný Zobrazit bulharský

Styly písma

Jednotky

počítačová typografie

viz také nakladatelství Tiskárna Typografie Kit Rozložení Tisk