Textový soubor

Aktuální verze stránky ještě nebyla zkontrolována zkušenými přispěvateli a může se výrazně lišit od verze recenzované 28. května 2022; kontroly vyžadují 5 úprav .
Textový soubor
MIME typ text/prostý
Naproti binární soubor a grafický soubor
Přípona souboru .txtnebo.text
 Mediální soubory na Wikimedia Commons

Textový soubor  je počítačový soubor obsahující textová data . Textové soubory jsou protikladem k binárním (binárním) souborům , které obsahují data, která nejsou navržena tak, aby byla interpretována jako text (například soubory, které ukládají text v zakódované nebo komprimované podobě nebo které neukládají text, ale zvuk, obrázek nebo jiné data).

Na rozdíl od termínu „textová data“ (formát textových dat), který charakterizuje obsah dat, termín „textový soubor“ označuje soubor a charakterizuje jej jako kontejner, který taková data uchovává.

Popis

Textový soubor obsahuje posloupnost znaků (většinou tištěné znaky patřící do jedné nebo druhé znakové sady ). Tyto znaky jsou obvykle seskupeny do řádků ( anglicky  lines, rows ). V moderních systémech jsou řádky odděleny oddělovači řádků , zatímco v minulosti byly řetězce ukládány jako záznamy konstantní nebo proměnné délky (viz: Děrný štítek ). Někdy je konec textového souboru (zejména pokud systém souborů neukládá informace o velikosti souboru) označen také jedním nebo více speciálními znaky známými jako značky konce souboru .

Výhody a nevýhody

výhody:

nedostatky:

Formáty založené na textových souborech

Díky své jednoduchosti se textové soubory často používají k ukládání servisních informací (například protokolů ): protože operace přidávání nových dat na konec textového souboru nevyžaduje žádné významné výpočetní zdroje, bez ohledu na již dostupnou velikost souboru a typu přidávaných textových dat, údržba textových protokolových souborů se obvykle provádí efektivně a nepostřehnutelně pro uživatele a pro další aplikace (až do vyčerpání místa na disku).

Textový formát slouží jako základ pro mnoho specializovanějších formátů (např . .ini , SGML , HTML , XML , TeX , zdrojový kód programovacího jazyka ). V některých z těchto formátů lze jako textová označení použít určité kombinace znaků. V tomto případě může soubor ukládat formátovaný text, ve kterém lze pro znaky dodatečně specifikovat písmo, styl, velikost atd. (například Rich Text Format , HTML ).

Přípony názvů souborů

V systémech DOS , macOS a Windows soubory ve formátu prostého textu obvykle používají příponu .txt . Textové soubory však mohou být s jinými příponami nebo bez nich. Zdrojové kódy programů jsou například obvykle uloženy v souborech s příponami odpovídajícími programovacímu jazyku , ve kterém jsou programy napsány ( .java , .bas , .pas , .c ).

Formátovaný text (text s označením) je obvykle uložen v souborech s příponou odpovídající formátu nebo značkovacímu jazyku  - .rtf , .htm , .html .

Kódování

8bitový text

Historicky se ke kódování textových souborů používala 7bitová znaková sada ASCII , stejně jako 8bitová EBCDIC a různá rozšíření ASCII . V 8bitových kódových stránkách je běžné používat znaky odpovídající ASCII v první polovině kódové tabulky.

Výhodou 8bitové textové reprezentace je programová jednoduchost a nezávislost na pořadí bajtů nebo na problémech s délkou slov stroje . Nevýhodou je velké množství různých norem, což může vést k nekompatibilitě.

Unicode v textových souborech

Použití Unicode v textových souborech, přestože v zásadě řeší „problém kódování“ a standardizuje použití řídicích znaků, vytváří své vlastní problémy. Ve většině moderních systémů je nedělitelnou jednotkou informace v datovém proudu bajt (8 bitů) , který vyžaduje několik pro zakódování jednoho znaku z Unicode. Řešením je použití nekompatibilních systémů UTF-8 a dvou verzí UTF-16 (UTF-16LE a UTF-16BE s opačným endianem ). Někdy je na začátek souboru přidán speciální znak (U+FEFF [1] ), který umožňuje jednoznačně rozpoznat formát. UTF-8 má tu výhodu, že je zpětně kompatibilní s ASCII, ale programové zpracování textu v UTF-8 je komplikované proměnlivou velikostí znaků. Také texty Unicode jsou ještě redundantnější než 8bitové.

Řídicí znaky

Různé operační systémy mají svůj vlastní způsob reprezentace nových řádků a konce souboru. V UNIXu se odřádkování skládá z jednoho znaku LF (kód 0xA), na Mac OS (ale ne macOS ) se skládá ze znaku CR (kód 0xD) a v DOS a Windows je odřádkování zakódováno jako sekvence dvou znaků: CR a LF.

Tento nesoulad je dán principy fungování psacích strojů: pro přesun na nový řádek musíte vrátit vozík na začátek řádku ( návrat vozíku ) a poté otočit buben o jeden řádek ( posun řádku ). Při tisku na tiskárně může jeden a druhý znak stát od sebe (například pro výběr řádku jeho dvojím tiskem nebo pro rolování válce o několik řádků), ale v textových souborech to není nutné.

Kromě jmenovaných jsou v textových souborech takové znaky, jako je tabelace (kód 9) a posun stránky (kód 0xC). Ten byl používán starými textovými editory jako LEXICON , stejně jako v souborech určených pro tisk na tiskárně.

Poznámky

  1. Standard Unicode, část 2. . Získáno 11. srpna 2008. Archivováno z originálu dne 22. dubna 2021.