Wayback Machine | |
---|---|
| |
URL | web.archive.org |
Typ webu | webový archiv |
jazyky) | Angličtina |
Programovací jazyk | Java , Python |
Majitel | Internetový archiv |
Začátek práce | 24. října 2001 |
Země | |
Mediální soubory na Wikimedia Commons |
Wayback Machine (z angličtiny - "Time Machine") je bezplatný online archiv neziskové knihovny " Archive of the Internet ". S pomocí vyhledávacích robotů Wayback Machine archivuje a zpřístupňuje veřejnosti většinu „otevřeného“ internetu [1] . Služba byla spuštěna v roce 1996, ale pro veřejnost byla zpřístupněna až v roce 2001. Během prvních 20 let své existence zkatalogizoval a uchoval Wayback Machine sbírku více než 286 miliard webových stránek. Archivované snímky se zobrazují v HTML , JavaScriptu a CSS [2]. Díky dokumentům uloženým ve Wayback Machine mohou uživatelé sledovat změny vyskytující se na stránkách a porovnávat různé verze úprav [3] . Od června 2022 poskytuje Wayback Machine přístup k více než 689 miliardám uložených webových stránek [4] .
V roce 1989 anglický vědec Tim Berners-Lee vytvořil World Wide Web - systém, který umožňuje přenášet data prostřednictvím počítačů připojených k internetu. S rozšířením World Wide Web však byly identifikovány dva hlavní problémy. Prvním byl nedostatek místa pro uložení všech dat, což způsobilo smazání mnoha dokumentů a webových stránek. Dalším problémem bylo, že po úpravě webové stránky (například z právních důvodů) uživatelé nemohli vidět její původní verzi. Internet Archive, americká digitální knihovna , nezisková organizace vytvořená programátory Brewsterem Calem a Brucem Galliatem v roce 1996, se snažila tyto nedostatky vyřešit. Ve spolupráci s Alexa Internet ( dceřiná společnost Amazon pro indexování webu ) inicioval „Archiv“ vytváření a ukládání kopií existujících stránek za účelem rozvoje „univerzálního přístupu ke znalostem“. Organizace poskytla bezplatný veřejný přístup k digitalizovaným materiálům, jako jsou webové stránky, knihy, zvukové nahrávky včetně živých koncertů, videa, obrázky a software. Od roku 2021 sídlí internetový archiv v San Franciscu , v budově bývalé křesťanské církve v oblasti Richmond . Novinář z místní rozhlasové stanice Kawl v roce 2019 srovnal kancelář Archivu s římským chrámem [5] [6] [7] . Organizace si klade za cíl zachránit internet před zánikem [8] .
The Wayback Machine se stal nejznámějším projektem Archivu. Online služba byla pojmenována po stroji času z animovaného seriálu The Rocky and Bullwinkle Show ze 60. let 20. století . Poskytuje přístup k digitální sbírce více než 550 miliard webových stránek [3] [9] [10] . Projekt Wayback Machine byl koncipován jako řešení problému chyby 404 , což znamená, že server nemůže najít data na požadované adrese. Může za to tzv. zánik odkazů – rostoucí nedostupnost jednou publikovaných dat. Například v roce 1997 byla průměrná životnost webové stránky 44 dní. V roce 2003 to bylo 100 dní. Analýza odkazů na 2 700 digitálních zdrojů z roku 2008, z nichž většina neměla tištěné protějšky, ukázala, že asi 8 procent odkazů přestalo po roce fungovat. Do roku 2011, po třech letech, bylo přerušeno 30 procent odkazů ve sbírce [11] . Díky integraci s Alexou mohl uživatel, který narazil na chybovou zprávu, získat přístup k archivované verzi stránky prostřednictvím panelu nástrojů zabudovaného v prohlížeči. Pokud by se v databázi Wayback Machine nacházela kopie nepřístupné stránky, rozsvítilo by se speciální tlačítko. Uživatelé zároveň mohli dát prohlížeči oprávnění k prohlížení a registraci aktivity – v tomto případě byly všechny navštívené stránky archivovány na portálu [12] .
Wayback Machine byl spuštěn v květnu 1996, ale pro veřejnost se stal dostupným až v roce 2001 – předtím byly všechny informace zaznamenané na digitální magnetické pásky přístupné pouze omezenému počtu vědců a výzkumníků [13] . V době „otevření“ archiv obsahoval více než 10 miliard archivovaných stránek [3] . Do prosince 2014 Wayback Machine oznámil, že celosvětově zachránil 435 miliard webových stránek [1] . Technicky software Wayback Machine není archiv, ale spíše veřejné rozhraní pro omezenou podmnožinu všech repozitářů [14] . Wayback Machine tedy nelze považovat za vyhledávač sbírky organizace, protože neprohledává databázi jiné velké virtuální knihovny - Open Library , která uživatelům umožňuje bezplatný přístup k digitálním kopiím knih, které jsou staženy a archivovány v rámci projekt [15] [16 ] .
Se spuštěním Wayback Machine se Internet Archive stal jedním z nejpopulárnějších a nejznámějších online portálů a přední službou pro webovou archivaci [3] [8] . V roce 1999 začal The Archive rozšiřovat sbírku nad rámec archivního webového obsahu, aby poskytoval status jak digitalizovaným, tak nativním digitálním zdrojům, včetně knih, zvuku, filmů, obrázků, dokumentů, softwaru a videoher [6] . Některé kontroly provádějí vlastní vyhledávací roboti archivu, zatímco jiné provádějí partnerské organizace. Jednotlivé databáze lze získat prostřednictvím darů uživatelů a cílených akvizic [16] . Sami zakladatelé organizace porovnávali svou sbírku s Alexandrijskou knihovnou [6] . Od roku 2021 obsahoval Wayback Machine více než 424 miliard webových stránek [14] – více než dokumenty v Kongresové knihovně [17] [6] [16] .
Platforma Wayback Machine funguje prostřednictvím dvou hlavních prvků – vyhledávacích robotů (neboli webových prohledávačů) a rozhraní. Webové prohledávače navštěvují, načítají, stahují a archivují webové stránky. Prostřednictvím rozhraní zase uživatelé získají přístup k online sbírkám [2] .
Kolekce strojů Wayback podle roku | Archivované stránky (v miliardách) |
---|---|
2005 | 40 |
2008 | 85 |
2012 | 150 |
2013 | 373 |
2014 | 400 |
2015 | 452 |
2016 | 505 |
2020 | 514 |
2021 | 581 |
2022 | 689 |
Zpočátku byla sbírka archivu doplněna zásuvným modulem prohlížeče od společnosti Alexa Internet , který automaticky zachytil a uložil každou navštívenou webovou stránku a poté přenesl všechny shromážděné informace do „internetového archivu“. Uživatelé si také mohli nainstalovat bezplatný panel nástrojů, který jim umožňoval kontrolovat stav archivace vybraného webu [16] .
V roce 2002 Archive spustil svého vlastního vyhledávacího robota s otevřeným zdrojovým kódem Heritrix . Crawler kódy jsou psány pomocí kombinace programovacích jazyků C a Perl . Internetový archiv navíc přijímá také skenovací data od jiných dárců [6] . Naskenované kopie webových stránek jsou automaticky převedeny na soubory o velikosti přibližně 100 MB, které jsou následně uloženy na serverech. Celková rychlost doplňování archivu je asi 10 terabajtů za měsíc [19] .
Webové prohledávače zachycují verzi webu tak, jak byla uložena, když k němu byl přístup prostřednictvím adresy URL. Roboti pravidelně procházejí velké množství webových stránek, rekurzivně stahují, analyzují a vykreslují stránky HTML , JavaScript a CSS [2] . Mechanismus prohledávače je podobný práci vyhledávačů – roboti samostatně vyhledávají portály pro archivaci prostřednictvím pathfinderu, skenují stránky a související weby a tvoří tak síť portálů. V době vytvoření Internet Archive byl World Wide Web tak malý, že webové prohledávače mohly procházet všechny stránky v jedné relaci. Neustálý růst online portálů a jejich volatilita však postupem času téměř znemožnily kompletní obejití celé sítě. Ne všechny změny webu jsou tedy zaznamenány ve Wayback Machine [8] . Internet Archive Guide nespecifikuje, jak roboti vyhledávají a vybírají stránky k procházení, ale uvádí, že prohledávače jsou nejčastěji směrovány na stránky, které jsou propojeny z jiných portálů a jsou ve veřejné doméně. Prohledávač začíná webovou stránkou a poté následuje každý hypertextový odkaz na této webové stránce, aby přešel na nové stránky. Na každé z nových webových stránek prohledávač proces opakuje [14] . Bude pokračovat, dokud se archivace nezastaví nebo nedosáhne limitu nastaveného skriptem [20] . Každý uživatel navíc může využít speciální formulář na portálu a zavolat crawler, který stránku uloží v aktuálním stavu [2] . Wayback Machine pouze prochází veřejné webové stránky a nemůže přistupovat k obsahu, který je chráněn heslem nebo se nachází na soukromém serveru [10] [14] [3] .
Rozhraní Wayback Machine umožňuje uživatelům provádět dvě hlavní akce – přístup k historii změn na webu a zobrazení všech úprav provedených na portálech. K dispozici je také funkce porovnávání různých verzí stránek [12] [21] [17] [22] . Za tímto účelem se do speciálního vyhledávacího pole zadá adresa URL portálu, který vás zajímá, a poté Wayback Machine vydá seznam dat archivace. Hvězdička za některými daty se používá k označení změn nalezených na stránce. URL archivované stránky začíná web.archive.org [23] [14] .
Kdokoli si může uložit adresy URL pro archivaci a pomocí bezplatného archivačního účtu můžete na domovské stránce vytvářet a archivovat jakékoli odchozí nebo externí odkazy a získat přehled [24] [24] .
V roce 2018 měla sbírka Internet Archive více než 40 petabajtů nebo 40 milionů gigabajtů dat, Wayback Machine poskytoval přístup k přibližně 63 % všech dostupných materiálů [25] . K únoru 2020 měl archiv Wayback Machine přes 900 miliard URL a přes 400 miliard webových stránek [26] . V červnu 2021 poskytoval Wayback Machine přístup k více než 581 miliardám uložených webových stránek [4] .
Portál Wayback Machine je často využíván v právní oblasti – právníci službu využívají k vyhledávání informací o občanskoprávních nárocích, trestních věcech, správních řízeních a patentových procesech. Archivní verze stránek získaných prostřednictvím Wayback Machine lze použít k vyřešení problémů s patentovým právem nebo ke stanovení sankcí za zveřejnění materiálu, který byl mezitím odstraněn z webu [2] [12] . Navzdory širokému využití sbírky Internet Archive k poskytování důkazů některé americké soudy odmítly přijmout snímky obrazovky webových stránek s odkazem na právní potíže s identifikací původního dokumentu a jeho archivované verze [27] . V roce 2018 americký odvolací soud pro druhý okruh rozhodl, že snímky obrazovky z archivovaných webových stránek Wayback Machine jsou právním důkazem, který lze použít v soudním řízení; dříve podobné rozhodnutí učinil americký odvolací soud pro třetí federální okruh žádostí [28] ; později , odvolací soud Spojených států pro sedmý obvod také rozhodl, že snímky obrazovky webového archivu byly přípustné elektronické důkazy [29] .
Díky článkům archivovaným ve Wayback Machine si autoři mohou založit právo otevřít nebo publikovat [30] . Pro sociology a historiky nabízí Wayback Machine cenný rozsáhlý zdroj dat pro analýzu chování společnosti, prodejních strategií a společenských praktik [1] [31] . Wayback Machine také umožňuje přístup k deníkům s otevřeným přístupem . Od počátku 20. století tak z internetu zmizelo 84 časopisů OA v přírodních vědách a asi 100 dalších v sociálních a humanitních vědách [32] [33] [34] .
Aktivisté a výzkumníci využívají portál k boji proti dezinformacím , které po zvolení prezidenta Donalda Trumpa ve Spojených státech zesílily . V reakci na nárůst protichůdných prohlášení prezidentské administrativy vytvořil Archiv samostatnou sbírku nazvanou Trump Archive obsahující prezidentova televizní vystoupení a tweety . Archiv doufá, že jeho úložiště pomůže ostatním identifikovat nepravdivé informace a zkontrolovat podezřelý obsah [35] [36] . V některých případech však jednotliví aktivisté tvrdili, že zdroje archivované Wayback Machine naopak přispěly k šíření dezinformací. S nástupem pandemie koronaviru tedy konspirační teoretici použili snímky obrazovky uložené portálem k šíření nepravdivých informací o koronaviru [37] . Jako protiopatření Archive v listopadu 2020 implementoval nástroje pro kontrolu pravosti informací ve Wayback Machine. Za tímto účelem se nezisková organizace spojila s různými společnostmi provádějícími kontrolu faktů, aby uživatelům poskytla důvody k odstranění konkrétní stránky ze sbírky. Při otevření archivované verze webu poskytuje Wayback Machine uživatelům informace o důvodu jejich smazání ve formě žlutého banneru v horní části obrazovky. Pokud je webová stránka podezřelá ze zapojení do dezinformační kampaně, Wayback Machine poskytne podrobnosti o organizaci, která ověření provedla, a odkaz na její zprávu [38] .
V některých případech se informace získané prostřednictvím Wayback Machine objevily ve velkých skandálech. S pomocí portálu se tedy zjistilo, že oficiální zástupce amerického ministerstva zdravotnictví a sociálních služeb Michael Caputo publikoval rasistické a hanlivé komentáře o čínském lidu v sérii již smazaných tweetů [ 39] . Kromě toho si Wayback Machine uchovává kopii smazané zprávy ze stránky s názvem „Zprávy Igora Ivanoviče Strelkova “ na sociální síti VKontakte o sestřeleném letadle An-26, které se ve skutečnosti ukázalo jako osobní Boeing 777 [40 ] [41] . V květnu 2021 Bellingcat zjistil, že americká armáda v Evropě používá dětské mobilní paměťové aplikace k ukládání tajných dat. Kvůli nesprávně nastavenému nastavení soukromí získali další uživatelé přístup k citlivým informacím. Poté, co byl únik odhalen, armáda všechny karty odstranila, ale zůstaly na Wayback Machine [42] .
Internetový archiv nepožaduje povolení ke kopírování webových stránek před vzdáleným sběrem dat, ale na požádání odstraní nebo omezí přístup k archivovaným materiálům. Dříve měli vlastníci webů možnost „odhlásit se“ z archivace prostřednictvím standardního souboru robots.txt , který vyřazuje weby nebo jejich jednotlivé stránky, adresáře, ze seznamu portálů pro web crawlery [8] [43] . Od roku 2022 jsou požadavky na odstranění webů nebo jejich stránek z archivu akceptovány pouze na základě přímé žádosti administrace odstraňovaného webu. Internetový archiv je však kvůli uchovávání dalších dat v právně zranitelné pozici [44] . Například v roce 2005 byl Wayback Machine zapleten do sporu o ochranné známky mezi Healthcare Advocates a Health Advocate. Ten použil Wayback Machine k přístupu na webové stránky Healthcare Advocates z roku 1999 ve snaze najít informace, které by případ podpořily. V reakci na to Healthcare Advocates zažalovali Health Advocate i The Archive, přičemž tvrdili, že Archive porušil zákon Digital Millennium Copyright Act . Následně byl případ mimosoudně vyřešen [45] .
V roce 2002 Archiv ze svého systému odstranil odkazy na archivované kopie portálu Xenu.net vlastněného církevním kritikem Andreasem Heldal-Lundem. K odstranění došlo na žádost právníků Scientologické církve , kteří si nárokovali vlastnictví výňatků z církevních dokumentů zveřejněných na webových stránkách [46] [47] .
Výzkumníci a aktivisté kritizovali Wayback Machine a Internet Archive za to, že se snaží uchovat veškerý online materiál, z nichž většina má malou hodnotu. Podle některých badatelů je to způsobeno zastaralou politikou Archivu, který byl založen koncem 90. let – tehdy, na úsvitu vytváření internetových archivů, se věřilo, že internetová data by měla být uchovávána v plném rozsahu. S vytvořením mnoha jednodenních stránek však mnoho výzkumníků a aktivistů změnilo názor [48] . Další výtky se týkají technických omezení služby – Wayback Machine neumožňuje ukládání a zpracování určitých prvků JavaScriptu a může také vytvářet archivované stránky obsahující nefunkční odkazy, chybějící grafiku nebo jinak neúplné [49] . Prohledávače zachycují pouze statický snímek webu – funkce portálu založené na Java nebo Flash nebudou fungovat. To znamená, že většina funkčnosti původní webové stránky je ztracena [8] .
V roce 2015 se Roskomnadzor rozhodl zablokovat Wayback Machine kvůli zkopírování stránky textu „Solitary Jihad in Russia“ obsahující informace o „teorii a praxi partyzánského odporu“. Odpovídající stránka v internetovém archivu byla přidána do oficiálního registru zakázaných webových stránek v Rusku dne 23. června 2015, kvůli čemuž byli někteří ruští poskytovatelé internetu nuceni web Archiv zcela zablokovat [50] [51] [52] . Přístup k Wayback Machine byl znovu otevřen v roce 2016 poté, co byla z portálu odstraněna zakázaná videa [53] .
V roce 2019 podali zástupci Internet Copyright Association (ACAPI) sérii žalob na službu Wayback Machine za porušení autorských práv. Zástupci AZAPI požádali moskevský městský soud , aby rozhodl o trvalém zablokování portálu na území Ruska, nicméně od srpna 2020 Internetový archiv stále pokračoval ve své práci [54] [55] [56] [57] .
V roce 2017 byl portál zablokován v Indii a Kyrgyzstánu pro obsah „extremistických materiálů“ [58] [59] [60] . Od roku 2021 je stránka v Číně zablokována [61] .
V červnu 2022 udělil Moskevský okresní soud Tagansky pokutu 800 000 rublů Internet Archive za to, že neodstranil video o tom, jak vyrobit Molotovův koktejl ze stroje WayBack [62] .