URI

Aktuální verze stránky ještě nebyla zkontrolována zkušenými přispěvateli a může se výrazně lišit od verze recenzované 6. dubna 2020; kontroly vyžadují 7 úprav .

URI ( /ˌjuː ɑːr ˈaɪ/ anglicky Uniform Resource Identifier ) je jednotný (jednotný) identifikátor zdroje. URI je posloupnost znaků, která identifikuje abstraktní nebo fyzický zdroj. Dříve nazývaný Universal Resource Identifier – univerzální identifikátor zdroje.

Základy

URI je znakový řetězec , který vám umožňuje identifikovat jakýkoli zdroj: dokument , obrázek, soubor , službu, e-mailovou schránku atd. Především mluvíme o zdrojích internetu a World Wide Web . URI poskytuje jednoduchý a rozšiřitelný způsob identifikace zdrojů. Rozšiřitelnost URI znamená, že v rámci URI již existuje několik identifikačních schémat a v budoucnu budou vytvořeny další.

Vztah mezi URI, URL a URN

URI je buď URL nebo URN nebo obojí.

URL je URI, které kromě identifikace zdroje poskytuje také informace o umístění tohoto zdroje. A URN je URI, které pouze identifikuje zdroj v konkrétním jmenném prostoru (a tedy v konkrétním kontextu ), ale neuvádí jeho umístění. Například URN urn:ISBN:0-395-36341-1 je URI, které ukazuje na zdroj (knihu) 0-395-36341-1 v oboru názvů ISBN , ale na rozdíl od adresy URL URN neukazuje na umístění tohoto zdroje: neříká, ve kterém obchodě jej lze zakoupit nebo na kterém webu stáhnout. V poslední době se však objevila tendence říkat URI o jakémkoli řetězci identifikátoru bez dalšího upřesňování. Snad se tedy pojmy URL a URN brzy stanou minulostí.

Vzhledem k tomu, že URI na rozdíl od adresy URL ne vždy ukazuje, jak získat zdroj, ale pouze jej identifikuje, umožňuje to popsat pomocí zdrojů RDF (Resource Description Framework), které nelze získat přes internet (například osoba, auto, město atd.).

Historie

V roce 1990 v Ženevě ve Švýcarsku , ve zdech Evropské rady pro jaderný výzkum ( fr. Conseil Européen pour la Recherche Nucléaire, CERN ), vynalezl britský vědec Tim Berners-Lee identifikátor umístění zdroje URL . Protože URL je nejpoužívanější podmnožinou URI, považuje se za rok narození URI stejný rok 1990. Ale přísně vzato, koncept URI byl zdokumentován až v červnu 1994 v RFC 1630 .

Nová verze URI byla definována v roce 1998 v RFC 2396 , v té době bylo slovo Universal v názvu změněno na Uniform . V prosinci 1999 zavedl RFC 2732 drobné změny specifikace URI, aby byla kompatibilní s IPv6 . V srpnu 2002 RFC 3305 oznámilo ukončení podpory termínu URL a priority URI. Aktuální struktura a syntaxe URI se řídí RFC 3986 , vydaným v lednu 2005 . Mnoho nejnovějších technologií sémantického webu (jako je RDF ) je založeno na standardu URI. Nyní má vedoucí roli ve vývoji URI World Wide Web Consortium .

Nevýhody

URL byla zásadní inovací na internetu , takže principy URI byly zdokumentovány jako plně kompatibilní s URL. Odtud pochází velká nevýhoda URI, která pochází z adresy URL. Identifikátory URI, stejně jako adresy URL, mohou používat pouze omezenou sadu znaků latinky a interpunkce (dokonce menší než ASCII ). Jinými slovy, pokud chceme v URI používat znaky azbuky , hieroglyfy nebo, řekněme, specifické francouzské znaky , budeme muset kód URI zakódovat stejným způsobem, jakým Wikipedia kóduje adresy URL se znaky Unicode . Například řádek jako:

https://ru.wikipedia.org/wiki/Кириллица

zakódováno v URL jako:

https://ru.wikipedia.org/wiki/%D0%9A%D0%B8%D1%80%D0%B8%D0%BB%D0%BB%D0%B8%D1%86%D0%B0

Vzhledem k tomu, že písmena všech abeced podléhají takové transformaci, s výjimkou latinské abecedy používané v angličtině , URI se slovy v jiných jazycích (i evropských) ztrácejí schopnost být vnímány lidmi. A to je v hrubém rozporu s principem internacionalismu , hlásaným všemi předními organizacemi internetu , včetně W3C a ISOC . K vyřešení tohoto problému je navržen standard IRI ( Internationalized Resource Identifier ) – mezinárodní identifikátory zdrojů, ve kterých by bylo možné bez problémů používat znaky Unicode a které by neporušovaly práva jiných jazyků . I když je těžké předem říci, zda IRI někdy budou schopny nahradit URI v tak rozšířeném použití.

Další zajímavou variantou URI je XRI Extensible Resource Identifier vyvinutý organizací OASIS . Tento formát má za cíl vytvořit identifikátory, které jsou zcela nezávislé na kontextu, tedy nezávislé na protokolu , doméně , cestě, aplikaci a platformě – zcela nezávislé.

Tvůrce URI, Tim Berners-Lee, také řekl, že systém doménových jmen, který je základem adresy URL, je špatné rozhodnutí, které vnucuje zdrojům hierarchickou architekturu, která není vhodná pro hypertextový web.

Struktura URI

URI = [ schéma ":" ] hierarchické - část [ "?" požadavek ] [ fragment "#" ]

V tomto příspěvku:

systém schéma přístupu ke zdrojům (často označující síťový protokol), např. http , ftp , soubor , ldap , mailto, urn hierarchická část obsahuje data, obvykle organizovaná v hierarchické formě, která spolu s daty v nehierarchické komponentě požadavku slouží k identifikaci zdroje v rámci schématu URI. Část hier obvykle obsahuje cestu ke zdroji (a případně adresu serveru, na kterém se nachází před ním) nebo identifikátor zdroje (v případě URN). žádost tato volitelná komponenta URI je popsána výše. fragment (také volitelné)

RFC 3986 :

umožňuje nepřímo identifikovat sekundární zdroj odkazem na primární a uvedením dalších informací. Sekundárním identifikovatelným zdrojem může být nějaká část nebo podmnožina primárního zdroje, nějaká jeho reprezentace nebo jiný zdroj definovaný nebo popsaný takovým zdrojem.

Původní text (anglicky)[ zobrazitskrýt] Složka identifikátoru fragmentu URI nepřímo umožňuje identifikaci sekundárního zdroje odkazem na primární zdroj a další identifikační informace. Identifikovaný sekundární zdroj může být nějaká část nebo podmnožina primárního zdroje, nějaký pohled na reprezentace primárního zdroje nebo nějaký jiný zdroj definovaný nebo popsaný těmito reprezentacemi.

Část URI bez schématu odkazu na zdroj je často označována jako „ odkaz URI “ . Existují precedenty pro použití odkazů URI v HTML , XHTML , XML a XSLT . Proces převodu odkazu URI na absolutní formu URI se nazývá rozlišení URI .

Proces vývoje nových schémat je popsán v RFC 2718 . Nová schémata musí být registrována u IANA ( Internet Assigned Numbers Authority ), postup registrace je stanoven v RFC 2717 . Obě tyto žádosti o připomínky ( RFC ) jsou v současné době v procesu revize.

Analýza struktury URI

Pro tzv. „parsing“ URI ( anglicky parsing ), tedy pro rozklad URI na jednotlivé části a jejich následnou identifikaci, je nejvýhodnější použít systém regulárních výrazů dostupný téměř ve všech moderních programovacích jazycích. RFC 3986 doporučuje použít k analýze URI následující vzor :

^(([^:/?#]+):)?(//([^/?#]*))?([^?#]*)(\?([^#]*))?( #(.*))? 12 3 4 5 6 7 8 9

Tento vzor zahrnuje 9 skupin označených výše čísly (další informace o vzorech a skupinách viz Regulární výrazy ), které nejúplněji a nejpřesněji analyzují typickou strukturu URI, kde:

skupina 2 - schéma,
skupina 4 - zdroj,
skupina 5 - cesta,
skupina 7 - žádost,
skupina 9 - fragment.

Pokud tedy použijete tento vzor k analýze například takového typického URI:

http://www.ics.uci.edu/pub/ietf/uri/#Related

pak 9 výše uvedených skupin vzorů poskytne následující výsledky:

http:
http
//www.ics.uci.edu
www.ics.uci.edu
/pub/ietf/uri/
žádný výsledek
žádný výsledek
#Příbuzný
příbuzný

Příklady URI

Absolutní URI

https://ru.wikipedia.org/wiki/URI
ftp://ftp.is.co.za/rfc/rfc1808.txt
file://C:\UserName.HostName\Projects\Wikipedia_Articles\URI.xml
soubor:///C:/file.wsdl
file:///Users/John/Documents/Projects/Web/MyWebsite/about.html
ldap://[2001:db8::7]/c=GB?objectClass?one
mailto:John.Doe@example.com
sip:911@pbx.mycompany.com
news:comp.infosystems.www.servers.unix
data:text/plain;charset=iso-8859-7,%be%be%be
tel:+1-816-555-1212
telnet://192.0.2.16:80/
urn:oáza:jména:specifikace:docbook:dtd:xml:4.1.2
urn:oid:1.2.840.113549.1.1.1

Relativní URI

/relative/URI/with/absolute/path/to/resource.txt

//example.org/scheme-relative/URI/with/absolute/path/to/resource.txt

relativní/cesta/k/zdroji.txt

../../../resource.txt

resource.txt

/resource.txt#frag01

#frag01

[prázdný řetězec] - ekvivalentní k analýze identifikátoru analyzátorem s výsledkem [prázdný řetězec], to znamená, že odkaz vede na výchozí objekt ve výchozím schématu

Viz také

Odkazy

RFC 3986 / STD 66 (od roku 2005)
RFC 2396 (z roku 1998) - Zastaralá syntaxe
pracovní skupina URI
W3C URI Development Activity
Schémata URI registrovaná u IANA

Schémata URI
Oficiální	aaa aaas o čepice víčko cid crid data dav diktát dns fax soubor ftp jít gopher h323 http https im imap iri ldap poslat poštou střední zprávy nfs nntp pop lis rtsp doušek doušky snmp tel telnet urna url zobrazit zdroj wais xmpp
neoficiální	cíl bolo btc bzr zavolej chrom cvs cs2d daap ed2k ed2kftp krmit Ryba git gizmoprojekt iax2 irc ircs itms lastfm ldaps magnet mms msnim psyc rsync druhý život Skype ssh svn sftp koho sms voják pára webcal xfire ymsgr

sémantický web
Základy	Celosvětový web Internet Hyper-textový Databáze Sémantické sítě Ontologie Popisná logika
Pododdíly	Propojená data datový web Hyperdata Server pro provádění obchodních pravidel Datové prostory
Aplikace	Sémantická Wiki Sémantické publikování Sémantické vyhledávání Sémantické výpočty sémantická reklama Mechanismus sémantického uvažování sémantické shody sémantický mapovač sémantický zprostředkovatel sémantická analytika sémantická architektura orientovaná na služby
související témata	Folksonomie Knihovna 2.0 Web 2.0 Odkazy Informační architektura Management znalostí kolektivní inteligenci Tematické mapy Mindmapping metadata Geotagging webová věda
Normy	Syntaxe : RDF RDF/XML Notace 3 Želva N-trojky JSON-LD SPARQL URI http XML Schémata, ontologie : RDFS SOVA Formát výměny pravidel Jazyk pravidel sémantického webu společná logika Schema.org Sémantická anotace : RDFa eRDF GRDDL Mikroformáty Mikrodata Slovníky : DOAP FOAF SIOC Dublinské jádro SKOS OKOLÍK Historie : Prostý starý sémantický HTML DAML+OLEJ