Textová data

Textová data (také textový formát ) jsou reprezentací informací o typu řetězce (tj. sekvence tištěných znaků ) ve výpočetním systému . V MIME takto zakódovaná data odpovídají typu text/plain.

Textová data jsou často chápána v užším smyslu - jako text v jakémkoli jazyce ( formálním nebo přirozeném ), který může člověk číst a rozumět mu.

Textový formát je protikladem k „ binárním datům “, informace, ve kterých jsou zakódovány libovolným způsobem, nejsou určeny pro lidské vnímání.

U většiny počítačového hardwaru a softwaru nezáleží na tom, zda jsou data textová. Mnoho síťových protokolů je však navrženo tak, aby pracovalo pouze s textovými daty a nemohou zpracovat libovolnou sekvenci bajtů. Některé programy také zpracovávají textová a binární data odlišně a některé jsou navrženy pro specifické zpracování textových dat. Programy pro vytváření a úpravu textových dat se nazývají textové editory .

Struktura

Textová data jsou obvykle posloupností podmnožiny znaků, která obsahuje pouze tištěné znaky ( písmena , čísla , interpunkci ) a některé řídicí znaky ( mezery , tabulátory , nové řádky). Existují metody (například UUENCODE nebo Base64 ), které umožňují kódovat libovolná data libovolného formátu v textovém formátu, který se často používá ke kódování binárních dat.

Požadavek na lidské porozumění obsahu vnáší do reprezentace dat další redundanci . Například číslo 123, pro jehož zakódování stačí jeden 8bitový bajt, je v textové podobě zakódováno několika digitálními znaky - například v desítkové soustavě čísel to vyžaduje tři číslice ("123"), v binárním  - sedm číslic ("1111011" ), v šestnáctkové soustavě  - dvě ("7B").

Formát textu neumožňuje používat příkazy pro formátování textu, spravovat atributy písem, označovat obsah [1] .

Zalamování řádků

Textová data lze rozdělit do řádků. V některých operačních systémech (zejména rodina UNIX ) je zalamování řádků kódováno jedním řídicím znakem s kódem 10 v tabulce ASCII (název - Line Feed, LF), na jiných (například v MS-DOS a Microsoft Windows ) - dvojice řídicích znaků s kódy 13 a 10 (Carriage Return a Line Feed, CR/LF). Na Mac OS (ale ne Mac OS X ) je rozdělení zakódováno jedním znakem, kódem 13.

Toto rozdělení podle řídicího znaku nebo znaků je dáno tím, jak fungovaly psací stroje , přes které se v některých raných počítačích zadávalo – vstupní pozice tam byla indikována polohou válečku s papírem a otáčením válečku a přesunem na další řádek. vyžaduje stisknutí jedné nebo dvou kláves nebo pák.

Znaky pro zalamování řádků se také používaly k ovládání mechanických tiskáren (což mohly být stejné psací stroje používané pro zadávání) – znak LF způsobil rolování role papíru a znak CR způsobil návrat tiskového vozíku (kde byly) v začátek řádku. Odtud název znamení – anglicky.  Line Feed (line feed) a angličtina.  Vrácení kočáru .

Na některých platformách se řádkování dělalo jinak – text byl prezentován jako sekvence záznamů pevné délky, u kterých byly kratší řádky doplněny potřebným počtem mezer. Tomu odpovídala prezentace dat na děrných štítcích , které sloužily jako prostředek pro zadávání a dokonce ukládání dat s pevnou šířkou (např. 80 pozic - sloupců).

Použití

Hlavním účelem použití textových dat je „společný jmenovatel“, nezávislost na jednotlivých programech, které vyžadují vlastní kódování či formátování a jsou nekompatibilní s jinými programy. Textové soubory (soubory v textovém formátu) lze otevírat, číst a upravovat v libovolném textovém editoru, jako je MS-DOS Editor ( DOS ), Poznámkový blok ( Windows ), ed , vi a vim ( UNIX , Linux ), SimpleText , TextEdit ( Mac OS X ) atd. Ostatní programy jsou také obecně schopny číst a importovat textová data. Můžete také zobrazit textové soubory s vestavěnými příkazy ( typev DOS a Windows) a nástroji ( catv Unixu).

Textový formát se často používá k reprezentaci dat, která sama o sobě nejsou čistým textem. V tomto případě jsou na prostý text „vystavěny“ jiné datové formáty, pro tento účel jsou jejich řídicí konstrukce vyjádřeny tištěnými slovy a interpunkčními znaménky. To poskytuje dvě úrovně pohodlí pro práci s daty – například data HTML a XML lze prohlížet a upravovat se zobrazeným formátováním WYSIWYG nebo je můžete otevřít v běžném textovém editoru a mít přístup ke všem složitostem značkovacího jazyka. Pokud jsou data uložena v „binární“ podobě (jak je tomu např. v dřívějších verzích Microsoft Word ), často s nimi nelze pracovat v jiných programech (kvůli nedostupnosti informací o struktuře formátu) resp. i v různých verzích stejného programu.

Většina programovacích jazyků předpokládá použití textového formátu pro zdrojový kód programu . To vám mimo jiné umožňuje aplikovat na zdrojové kódy různé nástroje pro transformace, formátování, vyhledávání, statistiky, analýzy atd.

Mnoho konfiguračních souborů programů používá textový formát , i když obsahují čísla a binární přepínače (ano/ne). To poněkud komplikuje programy kvůli nutnosti převodu textových dat do interního formátu a naopak, ale je možné upravovat konfiguraci ručně, bez použití konfiguračních nástrojů samotného programu.

Je obtížné ukázat na určitou část textu uloženého ve formátu textových dat. Jako ukazatele lze použít čísla řádků nebo znaků [2] .

Související pojmy

Termín čistý text ( eng . plain  text ; vypadá velmi podobně jako výraz eng.  plain text , používaný k označení textových dat) je široce používán v kryptografii a znamená jakákoliv nešifrovaná data, včetně netextových dat. Pojem čistý text se  také používá v kryptografii a znamená nešifrovaná data, která jsou také pro člověka srozumitelná a nejsou chráněna před „odposlechem“ během přenosu.

Poznámky

  1. RFC 2046 "Prostý text neposkytuje ani nepovoluje formátovací příkazy, specifikace atributů písma, instrukce pro zpracování, výkladové směrnice ani označení obsahu."
  2. Zdroj . Získáno 17. září 2016. Archivováno z originálu 20. dubna 2016.

Odkazy