URI ( /ˌjuː ɑːr ˈaɪ/ anglicky Uniform Resource Identifier ) je jednotný (jednotný) identifikátor zdroje. URI je posloupnost znaků, která identifikuje abstraktní nebo fyzický zdroj. Dříve nazývaný Universal Resource Identifier – univerzální identifikátor zdroje.
URI je znakový řetězec , který vám umožňuje identifikovat jakýkoli zdroj: dokument , obrázek, soubor , službu, e-mailovou schránku atd. Především mluvíme o zdrojích internetu a World Wide Web . URI poskytuje jednoduchý a rozšiřitelný způsob identifikace zdrojů. Rozšiřitelnost URI znamená, že v rámci URI již existuje několik identifikačních schémat a v budoucnu budou vytvořeny další.
URI je buď URL nebo URN nebo obojí.
URL je URI, které kromě identifikace zdroje poskytuje také informace o umístění tohoto zdroje. A URN je URI, které pouze identifikuje zdroj v konkrétním jmenném prostoru (a tedy v konkrétním kontextu ), ale neuvádí jeho umístění. Například URN urn:ISBN:0-395-36341-1 je URI, které ukazuje na zdroj (knihu) 0-395-36341-1 v oboru názvů ISBN , ale na rozdíl od adresy URL URN neukazuje na umístění tohoto zdroje: neříká, ve kterém obchodě jej lze zakoupit nebo na kterém webu stáhnout. V poslední době se však objevila tendence říkat URI o jakémkoli řetězci identifikátoru bez dalšího upřesňování. Snad se tedy pojmy URL a URN brzy stanou minulostí.
Vzhledem k tomu, že URI na rozdíl od adresy URL ne vždy ukazuje, jak získat zdroj, ale pouze jej identifikuje, umožňuje to popsat pomocí zdrojů RDF (Resource Description Framework), které nelze získat přes internet (například osoba, auto, město atd.).
V roce 1990 v Ženevě ve Švýcarsku , ve zdech Evropské rady pro jaderný výzkum ( fr. Conseil Européen pour la Recherche Nucléaire, CERN ), vynalezl britský vědec Tim Berners-Lee identifikátor umístění zdroje URL . Protože URL je nejpoužívanější podmnožinou URI, považuje se za rok narození URI stejný rok 1990. Ale přísně vzato, koncept URI byl zdokumentován až v červnu 1994 v RFC 1630 .
Nová verze URI byla definována v roce 1998 v RFC 2396 , v té době bylo slovo Universal v názvu změněno na Uniform . V prosinci 1999 zavedl RFC 2732 drobné změny specifikace URI, aby byla kompatibilní s IPv6 . V srpnu 2002 RFC 3305 oznámilo ukončení podpory termínu URL a priority URI. Aktuální struktura a syntaxe URI se řídí RFC 3986 , vydaným v lednu 2005 . Mnoho nejnovějších technologií sémantického webu (jako je RDF ) je založeno na standardu URI. Nyní má vedoucí roli ve vývoji URI World Wide Web Consortium .
URL byla zásadní inovací na internetu , takže principy URI byly zdokumentovány jako plně kompatibilní s URL. Odtud pochází velká nevýhoda URI, která pochází z adresy URL. Identifikátory URI, stejně jako adresy URL, mohou používat pouze omezenou sadu znaků latinky a interpunkce (dokonce menší než ASCII ). Jinými slovy, pokud chceme v URI používat znaky azbuky , hieroglyfy nebo, řekněme, specifické francouzské znaky , budeme muset kód URI zakódovat stejným způsobem, jakým Wikipedia kóduje adresy URL se znaky Unicode . Například řádek jako:
https://ru.wikipedia.org/wiki/Кириллица
zakódováno v URL jako:
https://ru.wikipedia.org/wiki/%D0%9A%D0%B8%D1%80%D0%B8%D0%BB%D0%BB%D0%B8%D1%86%D0%B0
Vzhledem k tomu, že písmena všech abeced podléhají takové transformaci, s výjimkou latinské abecedy používané v angličtině , URI se slovy v jiných jazycích (i evropských) ztrácejí schopnost být vnímány lidmi. A to je v hrubém rozporu s principem internacionalismu , hlásaným všemi předními organizacemi internetu , včetně W3C a ISOC . K vyřešení tohoto problému je navržen standard IRI ( Internationalized Resource Identifier ) – mezinárodní identifikátory zdrojů, ve kterých by bylo možné bez problémů používat znaky Unicode a které by neporušovaly práva jiných jazyků . I když je těžké předem říci, zda IRI někdy budou schopny nahradit URI v tak rozšířeném použití.
Další zajímavou variantou URI je XRI Extensible Resource Identifier vyvinutý organizací OASIS . Tento formát má za cíl vytvořit identifikátory, které jsou zcela nezávislé na kontextu, tedy nezávislé na protokolu , doméně , cestě, aplikaci a platformě – zcela nezávislé.
Tvůrce URI, Tim Berners-Lee, také řekl, že systém doménových jmen, který je základem adresy URL, je špatné rozhodnutí, které vnucuje zdrojům hierarchickou architekturu, která není vhodná pro hypertextový web.
V tomto příspěvku:
systém schéma přístupu ke zdrojům (často označující síťový protokol), např. http , ftp , soubor , ldap , mailto, urn hierarchická část obsahuje data, obvykle organizovaná v hierarchické formě, která spolu s daty v nehierarchické komponentě požadavku slouží k identifikaci zdroje v rámci schématu URI. Část hier obvykle obsahuje cestu ke zdroji (a případně adresu serveru, na kterém se nachází před ním) nebo identifikátor zdroje (v případě URN). žádost tato volitelná komponenta URI je popsána výše. fragment (také volitelné)
RFC 3986 :
umožňuje nepřímo identifikovat sekundární zdroj odkazem na primární a uvedením dalších informací. Sekundárním identifikovatelným zdrojem může být nějaká část nebo podmnožina primárního zdroje, nějaká jeho reprezentace nebo jiný zdroj definovaný nebo popsaný takovým zdrojem.
Původní text (anglicky)[ zobrazitskrýt] Složka identifikátoru fragmentu URI nepřímo umožňuje identifikaci sekundárního zdroje odkazem na primární zdroj a další identifikační informace. Identifikovaný sekundární zdroj může být nějaká část nebo podmnožina primárního zdroje, nějaký pohled na reprezentace primárního zdroje nebo nějaký jiný zdroj definovaný nebo popsaný těmito reprezentacemi.Část URI bez schématu odkazu na zdroj je často označována jako „ odkaz URI “ . Existují precedenty pro použití odkazů URI v HTML , XHTML , XML a XSLT . Proces převodu odkazu URI na absolutní formu URI se nazývá rozlišení URI .
Proces vývoje nových schémat je popsán v RFC 2718 . Nová schémata musí být registrována u IANA ( Internet Assigned Numbers Authority ), postup registrace je stanoven v RFC 2717 . Obě tyto žádosti o připomínky ( RFC ) jsou v současné době v procesu revize.
Pro tzv. „parsing“ URI ( anglicky parsing ), tedy pro rozklad URI na jednotlivé části a jejich následnou identifikaci, je nejvýhodnější použít systém regulárních výrazů dostupný téměř ve všech moderních programovacích jazycích. RFC 3986 doporučuje použít k analýze URI následující vzor :
^(([^:/?#]+):)?(//([^/?#]*))?([^?#]*)(\?([^#]*))?( #(.*))? 12 3 4 5 6 7 8 9Tento vzor zahrnuje 9 skupin označených výše čísly (další informace o vzorech a skupinách viz Regulární výrazy ), které nejúplněji a nejpřesněji analyzují typickou strukturu URI, kde:
Pokud tedy použijete tento vzor k analýze například takového typického URI:
http://www.ics.uci.edu/pub/ietf/uri/#Relatedpak 9 výše uvedených skupin vzorů poskytne následující výsledky:
/relative/URI/with/absolute/path/to/resource.txt
//example.org/scheme-relative/URI/with/absolute/path/to/resource.txt
relativní/cesta/k/zdroji.txt
../../../resource.txt
resource.txt
/resource.txt#frag01
#frag01
[prázdný řetězec] - ekvivalentní k analýze identifikátoru analyzátorem s výsledkem [prázdný řetězec], to znamená, že odkaz vede na výchozí objekt ve výchozím schématu
URI | Schémata|
---|---|
Oficiální | |
neoficiální |
sémantický web | |
---|---|
Základy | |
Pododdíly |
|
Aplikace |
|
související témata | |
Normy |
|