Zánik odkazů ( anglicky link rot , doslova - link rot ) je proces, při kterém použité URL již nesměřují na původní zdroj. Takové odkazy se nazývají nefunkční nebo mrtvé odkazy . Jako zánik nebo rozpad jsou chápány dva hlavní procesy: hniloba odkazu ( zánik poznámek pod čarou) a hniloba odkazu (zánik odkazů). V prvním případě URL zůstává funkční, ale vede na nesprávnou nebo upravenou stránku. Tento jev se také nazývá drift obsahu . Drift je obtížnější odhalit, ale má významnější důsledky, protože přispívá k šíření dezinformací nebo záměně pojmů. V případě rotace odkazů je odkaz nedostupný, což způsobuje, že uživatelé ztratí přístup na webovou stránku .
Odkazy mohou přestat fungovat z různých důvodů. Někdy to vyžaduje pouze změnu jednoho znaku v adrese URL. Mnoho webů například přestalo používat předponu „www“, a i když jejich obsah zůstal stejný, původní odkazy přestaly fungovat. Totéž se může stát při implementaci šifrování a přechodu z " http: " na " https: ". Majitelé stránek také přejmenovávají adresáře, mění názvy domén a strukturu portálu a zapomínají aktualizovat registraci domény – to vše vede k nefunkčním odkazům.
Zánik odkazů v průběhu času postupuje. Od roku 1996 do roku 2021 tedy přestala fungovat čtvrtina odkazů na zdroje třetích stran v článcích The New York Times (NYT) . Data byla získána z analýzy více než 550 000 publikací členů Harvardské právnické fakulty ve spolupráci s novináři NYT [1] [2] [3] .
Hypertextové odkazy jsou široce používány nejen v každodenní komunikaci, ale také v článcích v časopisech, vědeckých zprávách a dalších typech publikací. Jejich popularita je způsobena jejich pohodlností a cenovou dostupností. Například podle harvardského profesora práva Lawrence Lessiga citované online články potenciálně osloví více čtenářů, protože se k nim lze dostat „pouhým kliknutím na odkaz“. Zároveň se stále více novin a časopisů přesouvá online. Analýza více než 100 000 článků ukázala, že průměrný počet citací tištěných prací byl 2,74 a online verzí - 7,03 [4] . Procento článků citujících alespoň jednu URL se zvýšilo z 24 % v roce 2006 na 48,5 % v roce 2013 [5] [6] [7] .
Pod zánikem odkazů ( angl. link rot , doslova - rotting links ) rozumíme dva hlavní procesy: zánik poznámek pod čarou ( angl. reference rot ) a zánik odkazů ( angl. link rot ). V prvním případě URL zůstává funkční, ale vede na nesprávnou nebo upravenou stránku. Tento jev se také nazývá drift obsahu . Na rozdíl od tištěných zdrojů podléhá obsah webové stránky změnám bez zvláštního označení. Drift je obtížnější odhalit, ale nese s sebou významnější důsledky, protože přispívá k šíření dezinformací nebo záměně pojmů [8] . Případ, kdy URL není dostupné a vyvolá chybu, se nazývá link rot [9] [10] [11] [8] [12] [13] [14] .
Hlavním důvodem zániku odkazů je decentralizace World Wide Web - design webu neznamená centralizované ukládání obsahu. Dobu dostupnosti odkazů určují vlastníci doménových jmen [15] , kteří často zapomínají obnovit registraci domény, sledovat obsah a sledovat nefunkční odkazy. Stránky se navíc pravidelně obměňují – na webových stránkách mění informace a strukturu samotných stránek, přejmenovávají soubory a adresáře, přesouvají obsah [16] [2] . Četnost a rozsah změn webové stránky závisí také na velikosti dokumentu. Větší dokumenty se mění častěji než menší [17] . To vše vede k zániku odkazů [4] [8] [18] [16] . V roce 2009 Yahoo! vypnout bezplatné webhostingové servery GeoCities , což má za následek ztrátu dat na 7 milionech webových stránek [19] . Zánik může být navíc způsoben změnou nastavení přístupu například při zadání registrace nebo zavedení předplatného dříve otevřeného obsahu [4] . Odkazy mohou také zmizet v důsledku úmyslných akcí. Po změně redakční politiky BuzzFeedu v roce 2015 bylo tedy smazáno více než 1000 příspěvků, včetně těch, na které si inzerenti portálu nebo zaměstnanci partnerských společností dříve stěžovali [20] [21] [22] [23] .
Jediná změna znaku v URL stačí k tomu, aby byl odkaz nefunkční. Mnoho stránek například přestalo používat předponu „www“, a přestože se jejich obsah nezměnil, původní odkazy již nefungují. Totéž se může stát se zavedením šifrování provozu: nesprávné nastavení při přechodu z " http: " na " https: " má za následek "zlomení" odkazu [24] . Pokud je odkaz nefunkční, uživatelé se mohou setkat s několika typy chyb [16] [25] [16] [26] [4] :
Perzistence odkazu je zajištěna třemi hlavními faktory: rokem vydání, hierarchií URL a doménou nejvyšší úrovně [27] [11] . Čím je odkaz starší, tím je pravděpodobnější, že nebude dostupný. Poznámky k datu přístupu budou pravděpodobně stabilnější – i když je webová stránka nedostupná, znalost data přístupu uživatelům umožní používat archivační služby, jako je Wayback Machine . Také domény nejvyšší úrovně jsou považovány za stabilnější [28] . Soukromě provozované stránky mají tendenci mizet častěji než vládní a vzdělávací stránky [29] . Studie z roku 2003 zjistila, že nejčastěji vymizely odkazy končící na „ .com “ (46 % ztraceno po 27 měsících), následovalo „ .edu “ (30 %), ostatní (20 %), „ .gov “ (10 %) a „ .org “ (5 %) [30] .
Z článku Jonathana Zittraina pro The Atlantic [15][...] Ukazuje se, že zánik odkazů a posun obsahu jsou nedílnou součástí internetu, což je pro knihovnu, která má „miliardy knih a žádný centrální souborový systém“, nepřekvapivě a šokujícím způsobem riskantní. Představte si svět, kde knihovny neexistují a místo toho existuje „sdílená ekonomika“ fyzických kopií knih – lidé si mohou knihy, které mají doma, zaregistrovat a ostatní se na ně mohou přijít podívat. Samozřejmě není divu, že takový systém by mohl zastarat, když knihy již nejsou tam, kde byly původně označeny – zvláště pokud někdo poznamenal, že kniha byla v roce 2015 v cizím domě, a pak by další zainteresovaný čtenář viděl zprávu o 2015 a pokusí se navštívit původní domov v roce 2021. To je situace, která se v současnosti vyvíjí na internetu.
První rozsáhlé studie o prevalenci vymírání odkazů začaly na konci 90. let. Jedním z prvních výzkumníků byl Jakob Nielsen , odborník na výkon webových stránek. V roce 1998 informoval o výsledcích studie provedené All Things Web, podle níž bylo na internetu nefunkčních asi 6 % odkazů [31] [9] . Následně profesorka University of Tennessee Sally McMillanová analyzovala vzorek stránek z let 1997-2000 a zjistila, že 27 % URL zmizelo tři roky po vytvoření [29] . Následná analýza prokázala, že počet mrtvých spojů se v čase lineárně zvyšuje. Takže v roce 2008 byly mrtvé odkazy přítomny v 8,3 % adres URL zdrojů ze statisticky významného vzorku 579 nadpisů. V roce 2009 byly nefunkční odkazy nalezeny u 13,7 % URL ze vzorku 680 stránek a v roce 2010 tvořily nefunkční odkazy 22,4 % všech URL ze vzorku 736 odkazů [11] [9] . V roce 2021 tým na Harvard Law School spolupracoval s novináři z The New York Times (NYT) na provedení studie životaschopnosti citací založené na online verzích článků zveřejněných NYT. Celkem bylo od roku 1996 prostudováno více než 550 000 publikací, které obsahovaly asi 2,2 milionu odkazů na stránky třetích stran. Studie ukázala, že téměř čtvrtina všech odkazů použitých při citování přestala fungovat [1] [2] [3] [1] [2] [3] .
Problematice zániku odkazů byla věnována řada studií. Analyzovali vědecké články, v nichž se autoři opírali o internetové zdroje. Studie z roku 2003 zjistila, že asi 13 % adres URL publikovaných ve třech nejlepších vědeckých časopisech se rozbilo do dvaceti sedmi měsíců od vydání článku. V roce 2008 studie historických časopisů zjistila, že 38 % citovaných URL se stalo nepřístupných do sedmi let od vydání článku a 10 % se stalo nefunkčních během několika měsíců. Ve vzorku novozélandských vědeckých časopisů z let 2002-2005 přestalo do roku 2006 fungovat 30 % webových citací [11] . V roce 2013 provedla společnost BMC Bioinformatics analýzu životnosti odkazů ve vědecké literatuře. Výzkumníci Jason Hennessy a Steven Xijin Ge z University of South Dakota analyzovali asi 15 000 citací ve výňatcích z Web of Science Citation Index . Zjistili, že průměrná životnost webových stránek byla 9,3 roku a pouze 62 % odkazů bylo archivováno [24] . To vedlo výzkumníky k závěru, že míra úpadku pro nedávné adresy URL je vyšší než u starších [32] [16] [33] [7] . Vědci také zjistili, že v řadě právních časopisů vydávaných v letech 1999 až 2011 již více než 70 % odkazů nefungovalo [24] [9] .
V roce 2008 čtvrtletní analýza čtyř let předních publikací ukázala, že bylo zachováno pouze 61 % ze 416 online citací. 19 % online poznámek pod čarou obsahovalo chybu v adrese URL a 63 % nezahrnovalo datum přístupu do zveřejněné nabídky. Z těch odkazů, které byly stále aktivní, pouze 58 % odpovídalo citovanému obsahu [34] [35] [2] . V roce 2015 Herbert Van de Sompel, informační specialista z Národní výzkumné knihovny Los Alamos v Novém Mexiku , analyzoval více než 1 milion webových odkazů na webové stránky z přibližně 3,5 milionu článků publikovaných v letech 1997 až 2012. V článcích z roku 2012 bylo mrtvých 13 % hypertextových odkazů v článcích na arXiv.org a 22 % hypertextových odkazů v článcích z časopisů Elsevier . Přibližně 75 % odkazů nebylo archivováno na žádném portálu do dvou týdnů od data zveřejnění článku. To znamená, že jejich obsah již nemusí odrážet originál [36] [37] .
Ukázkovým příkladem rozsahu zániku odkazů je projekt The Million Dollar Homepage Alexe Tewa . Portál byl spuštěn v roce 2005, aby pomohl Tewovi získat peníze na univerzitní vzdělání. Za tímto účelem přišel s webem s mřížkou 1 000 x 1 000 pixelů , kde jste si mohli koupit prostor pro odkaz na váš web za dolar za kus. Kupující mohli umístit malé obrázky svých stránek, které byly propojeny s adresou URL a sloganem zobrazeným na ukazateli myši. Všechny pixely byly prodány 138 dní po spuštění portálu. Do roku 2014 22 % pixelů domovské stránky nenačítalo webovou stránku [38] [39] .
Nejvyšší soud USA vyvinul praxi citování trvalých zdrojů – zpravidla to byly knihy. Takové citace umožnily právníkům a vědcům najít, pochopit a vyhodnotit důkazy a argumenty soudu. Od roku 1996 však soudci při popisu rozsudků stále častěji používají odkazy a hypertextové odkazy [40] [12] [41] . Podle studie profesora Harvard Law School Jonathana Zittraina z roku 2013 asi 49 % hypertextových odkazů v rozhodnutích Nejvyššího soudu nefungovalo [42] [43] [44] . Soud je na vrcholu hierarchie federálních soudů, definuje zákony země a dokonce ovlivňuje zákony v mezinárodních jurisdikcích, takže mrtvé odkazy v rozhodnutích mohou být obzvláště škodlivé [45] . Když například soudce Samuel Alito v roce 2011 odkazoval na adresu URL v případu násilí ve videohrách, vlastníci domény opustili web a nechali na něm tuto zprávu, aby zdůraznili pomíjivost informací zveřejněných na internetu [46] :
Nejsi rád, že jsi necitoval tuto webovou stránku ve zprávě Nejvyššího soudu ve věci Brown v. Interactive Entertainment Merchants Association , 131 S.Ct. 2729, 2749 č. 14 (2011). Pokud byste to udělali, jako to udělal soudce Alito, původní obsah by byl dávno pryč a někdo jiný by mohl přijít a koupit doménu, aby komentoval rychlost souvisejících informací v době internetu.
K vyřešení tohoto problému se všechny webové materiály citované v soudních rozhodnutích začaly archivovat v papírové podobě. Kromě toho vznikl specializovaný portál, kde jsou uloženy archivované kopie stránek [47] .
Podobné problémy mohou nastat při sepisování protokolů – policie se může spolehnout na záznam z videorekordérů zveřejněný na internetu , který může majitel později smazat. Další otázkou je, jak dlouho uchovávat data v systému - většina policejních útvarů nemá dostatečné technické možnosti na to, aby se vyrovnala s objemem příchozích dat [46] .
Zánik odkazů narušuje a podkopává integritu a důkazní základnu vědeckého výzkumu ve všech oblastech [48] [33] [49] [50] . Již v roce 1996 nebyla k dispozici třetina citací v recenzovaných elektronických časopisech a mnoho pracovních referencí neobsahovalo kompletní informace – chybělo datum extrakce, metadata byla nesprávně formátována [51] . Podle studie provedené v roce 2016 již 75 % odkazů na vědecký obsah neodkazuje na informace citované v textu [52] . Zároveň neustále roste počet vědeckých prací odkazujících na internetové zdroje [32] . Některé časopisy, jako Cancer Research , začaly zakazovat používání URL v poznámkách pod čarou. Tato praxe je však spíše výjimkou [30] .
Plošný zánik odkazů vedl také ke změně postupů knihoven při archivaci materiálů [9] . Jestliže dřívější papírové kopie byly považovány za hlavní způsob uchovávání informací a jejich online verze byly doplňkovou možností, nyní knihovny a nakladatelství přecházejí na digitální formát, protože tištěné kopie považují za zastaralé [15] . Mnoho knihoven si začalo vytvářet vlastní online archivy s trvalým přístupem k uloženým materiálům [53] [54] .
Zánik spojení je nedílnou součástí předpovídaného scénáře digitálního temného věku – situace, kdy dojde ke ztrátě elektronických dat při absenci jejich papírových ekvivalentů. Zastánci této teorie se domnívají, že kvůli neadekvátním postupům elektronické archivace a zvyšující se decentralizaci internetu hrozí v budoucnu ztráta informací o naší době [55] [56] . Termín digitální temný věk byl poprvé navržen v roce 1997 na mezinárodní konferenci Mezinárodní federace knihovnických asociací a institucí . Definice odkazuje na období středověku , charakterizované téměř úplnou absencí písemných důkazů [57] [58] [59] . Jedním z nejběžnějších příkladů doby digitálního temna je ztráta přístupu ke starým jednotkám a paměťovým médiím, včetně disket , Zip mechanik a CD [60] [61] [62] [63] [64] [65] .
Elektronická archivace je jednou z hlavních strategií řešení zániku odkazů [10] . V této oblasti existuje několik velkých projektů. V roce 1996 založil americký programátor Brewster Cale „ Internet Archive “ – neziskovou organizaci , která si dala za cíl uchovat všechny informace zveřejněné na internetu, což v prvních letech sítě nebylo tolik. Sbírka Archiv se skládá z podsbírek archivovaných webových stránek, digitalizovaných knih, audio a video souborů, her a softwaru. V roce 2001 byla spuštěna služba Wayback Machine , která prostřednictvím práce webových prohledávačů archivuje a poskytuje přístup k většině otevřeného internetu. Služba navíc uživatelům umožňuje porovnávat různé verze úprav. K říjnu 2021 WB poskytla přístup k více než 580 miliardám uložených webových stránek [66] [67] [68] [66] [69] . Ukládání dat probíhá prostřednictvím systému zrcadlových míst umístěných v geograficky vzdálených místech [70] - v San Franciscu , Richmondu , Alexandrii , Amsterdamu . Pro efektivní ukládání souborů používá „Archiv“ formát archivních souborů ( ARC ), který vám umožňuje ukládat soubory přijaté přes jakýkoli typ síťového protokolu . Archivované obrázky jsou zobrazeny ve formátu HTML , JavaScript a CSS [70] [24] [9] [32] .
Z iniciativy Archivu také vznikla služba Archive It - webová archivační služba, která umožňuje jednotlivcům i jednotlivým organizátorům samostatně shromažďovat, vytvářet a ukládat sbírky elektronických materiálů. Od října 2021 mají uživatelé přístup k více než 200 sbírkám o historii, kultuře, vědě, lidských právech a dalších společensky důležitých tématech [70] [24] [9] [32] .
Obdobou projektu Wayback Machine je Perma.cc , archivační služba vytvořená knihovnou Harvard Law School Library v Cambridge ve státě Massachusetts . V Perma.cc můžete zadat URL a systém ji automaticky archivuje a vytvoří nový hypertextový odkaz pro trvalé uložení materiálu [36] [9] . Perma se nejčastěji používá v právní oblasti k uchování citovaných zdrojů [71] . Stylistická příručka Bluebook , která je běžná v USA, vybízí k archivaci odkazů [72] [73] . Někteří badatelé však poukazují na potenciální zranitelnost portálu, neboť současná autorská legislativa nevěnuje existenci a fungování webových archivů dostatečnou pozornost [74] .
Open source projekt Amber, který vytvořilo Berkman Klein Center for Internet & Society , vám umožňuje pořizovat snímky každé stránky spojené s archivovaným webem a ukládat je lokálně nebo na centralizovanou platformu, jako je Internet Archive nebo Perma. cc. Pokud projekt při zavádění materiálu do Amber zjistí, že odkaz je přerušený nebo nefunguje správně, Amber navrhuje archivaci [9] [75] .
K boji proti vymírání spojů ve vědecké oblasti se používá identifikátor digitálního objektu (DOI), vyvinutý Mezinárodní organizací pro standardizaci v roce 2000. DOI je trvalý identifikátor, který funguje jako odkaz na konkrétní objekt, ať už se jedná o článek, audio nebo video [30] [32] . Po přiřazení DOI obdrží objekt „trvalý“ pevný odkaz, který na rozdíl od URL nelze přesunout ani odstranit. Mnoho vydavatelů si systém přizpůsobilo [76] . DOI je uloženo ve specializovaných registrech spolu s metadaty o každém jednotlivém prvku. Citace děl se provádí prostřednictvím číselného identifikátoru, nikoli prostřednictvím hypertextového odkazu. Takový systém umožňuje vytvořit stabilitu v oblasti vědecké citace – i když bude materiál převeden na novou URL, bude stále dostupný [77] . Podle různých odhadů lze pomocí plošného zavedení DOI zabránit zániku 30-60 % odkazů ve vědeckých pracích [32] [78] [24] [77] . DOI má však značnou nevýhodu – kvůli nutnosti platit poplatek za registraci děl si řada malých vydavatelů nemůže dovolit systém implementovat [30] .