Internetový archiv | |
---|---|
URL | archive.org |
Komerční | Ne |
Typ webu | univerzální elektronická knihovna |
jazyky) | Angličtina |
Umístění serveru |
Spojené státy Egypt Nizozemsko |
Majitel | Internetový archiv |
Autor | Brewster Cale [1] |
Začátek práce | 24. ledna 1996 |
Aktuální stav | funguje |
obrat | |
Počet zaměstnanců |
|
Slogan | univerzální přístup ke všem znalostem |
Země | |
Mediální soubory na Wikimedia Commons |
The Internet Archive (AI) ( anglicky Internet Archive ) je nezisková organizace založená v roce 1996 v San Francisku americkým programátorem Brewsterem Calem . Hlavním stanoveným účelem Archivu je poskytovat veřejnosti přístup k informacím shromážděným na internetu. Kolekce AI se skládá z mnoha podsbírek archivovaných webových stránek, digitalizovaných knih, audio a video souborů, her a softwaru.
Mezi největší projekty Archivu patří Wayback Machine , spuštěný v roce 2001, který archivuje a poskytuje přístup k většině „otevřeného“ internetu. Uživatelé Wayback Machine mohou sledovat změny probíhající na vybraných stránkách a porovnávat různé verze úprav [4] . Další významnou iniciativou AI je Open Library , otevřená online knihovna, jejímž prostřednictvím si uživatelé mohou půjčovat digitalizované verze knih na 2 týdny [5] . Archive také inicioval vytvoření Archive It, webové archivační služby, která pomáhá organizacím a jednotlivcům shromažďovat, vytvářet a uchovávat sbírky digitálního obsahu. Na začátku května 2022 sbírka internetového archivu obsahovala více než 35 milionů knih, 7,9 milionů filmů, videí a televizních pořadů, 842 tisíc programů, 14 milionů zvukových souborů, 4 miliony obrázků, 2,4 milionů televizních klipů , 237 tisíc koncertů a více než 682 miliard webových stránek na Wayback Machine .
Pro dlouhodobé ukládání dat využívá „Archiv“ systém zrcadlových míst umístěných v geograficky vzdálených místech [6] . Kopie Wayback Machine existují v San Franciscu , Richmondu , Alexandrii , Amsterdamu . Pro efektivní ukládání souborů používá "Archiv" formát souboru ( ARC ), který umožňuje ukládat soubory bez ztráty při archivaci [6] .
Absolvent MIT Brewster Cale hrál hlavní roli ve vytvoření „Internet Archive“ . Během studia měli Cale a jeho spolužáci přístup k prototypu internetu, ARPANETu . Jednoho dne se rozhodli zjistit, co by se stalo, kdyby oddělené komunity (v té době – malé mailing listy a Usenet skupiny ) dali do společného virtuálního prostoru – jednoho mailing listu. Jak programátor později vzpomínal: "Byl to chaos, anarchie a dezinformace - bylo to hrozné!" Právě tehdy si však Cale uvědomil potenciál sítě v tom, že umožňuje lidem z různých institucí spolu komunikovat bez zpoždění a třenic. Díky experimentům s ARPANETem dostal programátor nápad vytvořit první digitální úložiště [7] .
Počínaje 80. lety Cale pomohl založit mini superpočítačovou společnost Thinking Machines Corporation a v roce 1989 založil první webový systém pro vyhledávání informací WAIS a stejnojmennou společnost, kterou v roce 1995 prodal společnosti America Online za 15 dolarů. Následně se WAIS stal prototypem moderních vyhledávačů a jedním z prvních programů, které indexovaly velké množství informací. Ve stejné době se Brewster přestěhoval z Bostonu do San Francisca , města, které se v té době teprve začínalo stávat centrem Silicon Valley [8] [9] [10] [11] .
V tomto období se Cale začal zajímat o archivaci celého internetu. Pro tyto účely vytvořil v roce 1996 dvě vzájemně propojené organizace – NPO Internet Archive a komerční webový archivační systém Alexa Internet , který byl vytvořen společně s Brucem Gilliatem a pojmenován po Library of Alexandria . Alexa Internet měla za úkol financovat nekomerční projekt z výnosů z archivace webu . Kromě toho se všechna data archivovaná přes Alexa také automaticky ukládala do sbírky. Počáteční investice do projektu Alexa Internet činily přibližně 1 milion USD. Již rok po vytvoření Internet Archive a Alexa společně vyvinuly zásuvný modul prohlížeče – program automaticky identifikoval a uložil „hodnotné“ webové stránky a seřadil je podle počet návštěv a křížových odkazů a kliknutí [ 12] . Cyklus vytváření a archivace stránek byl osm týdnů, poté byl proces skenování restartován. Panel nástrojů Alexa, zabudovaný do prohlížeče , pomáhal uživatelům procházet web při jeho katalogizaci a shromažďoval metadata o tom, jak spolu stránky souvisí. Nejprve se pro ukládání dat používala magnetická páska – i přesto, že nově se objevující disková úložiště zvítězila z hlediska úspory místa a pohodlí, pásky byly asi 10x levnější [13] [14] [15] [8] [12] .
Cílem internetového archivu bylo bojovat proti zániku odkazů — většina vytvořených webových stránek nebyla trvanlivá. Všechna shromážděná data byla uložena do sbírky Internet Archive [12] [6] . 72 % odkazů publikovaných v roce 1998 se tak do roku 2021 stalo „mrtvými“ [16] [17] . Aby demonstroval důležitost skenování a udržování kopií webových stránek, zahájil The Archive společný projekt se Smithsonian Institution ve Washingtonu s cílem shromáždit snímky webových stránek všech prezidentských kandidátů z roku 1996 . Následně byly tyto údaje zařazeny do archivu institutu o stranách a kandidátech, který shromažďuje údaje o amerických politických stranách a všech prezidentských kandidátech [ 12] [6] [6] .
V roce 1998 Alexa Internet darovala 2 terabajty archivovaného obsahu během dvou let, neboli 500 000 webových stránek , Kongresové knihovně . Brewster Keil se tehdy zmínil, že doufal, že inspiruje Kongresovou knihovnu a další výzkumné knihovny k uchování znalostí nejen v tisku, ale také online [18] [19] . V letech 1998-1999 Internet Archive a Alexa uzavřely smlouvu se společnostmi Microsoft a Netscape Communications o zahrnutí jejich softwaru do prohlížečů Internet Explorer a Netscape Navigator . Dohody umožnily výrazně rozšířit infrastrukturu Archivu – Alexa byla implementována na 90 % tehdejších osobních počítačů . Koncem roku 1998 se vedení Archivu rozhodlo přejít z magnetických pásek na pevné disky [12] [20] . V roce 1999 dostal Bruce Cale nabídku od Amazonu , aby jí prodal komerčně úspěšný Alexa Internet za 250 milionů dolarů, s čímž tvůrce souhlasil. Po nákupu Alexa stále pokračovala v odesílání dat do „internetového archivu“. Ve stejném roce vytvořil Andy Jewel nový webový prohledávač , který vám umožňuje současně provádět několik skenů najednou a ukládat výsledky ve formátu ARC . Ve stejném roce NPO představila nový crawler vyvinutý společností Jewell, který jim umožňoval shromažďovat nejen webové stránky, ale také další typy dat, jako jsou animace. Prostřednictvím partnerství s Rickem Prelingerem z Prelinger Archives byl dokončen projekt digitalizace 1 000 filmů (celková hodnota 160 000 $ ) a archivace televizních zpráv [12] [21] . V roce 2005 získala Kongresová knihovna Prelinger Archives , materiály jsou stále přístupné prostřednictvím „archivu“ [22] .
Mezi lety 2000 a 2001 se velikost archivu ztrojnásobila na zhruba 40 terabajtů [12] . Vedení zároveň stálo před otázkou zpřístupnění sbírané sbírky. Některá data byla dostupná široké veřejnosti, ale vyžadovala znalost Unixu od uživatele . Aby se otevřel přístup k informacím, programátoři Alexa vytvořili Wayback Machine , online službu, prostřednictvím které mohli uživatelé vyhledávat URL , které zadali. Služba byla spuštěna 24. října 2001 a nabízela přístup k více než 10 miliardám archivovaných webových stránek a 100 TB dat. V té době byla data uložena na serverech Hewlett-Packard a uslab.com s operačními systémy FreeBSD a Linux . Každý server měl asi 512 MB RAM a něco málo přes 300 GB místa na pevném disku [12] . Do prosince 2014 Wayback Machine oznámil, že celosvětově zachránil 435 miliard webových stránek [23] . Z technického hlediska není WM archivem, ale spíše veřejným rozhraním k omezené podmnožině všech repozitářů [24] [25] .
V souvislosti s prezidentskými volbami v USA v roce 2000 Internet Archive inicioval společný projekt s Kongresovou knihovnou na sběr informací o politických kampaních kandidátů [12] . Dalším významným projektem té doby byl Archiv 9/11, věnovaný stejnojmenným událostem v roce 2001. Archiv ve spolupráci s Kongresovou knihovnou shromáždil snímky z více než 30 000 vybraných webových stránek do 1. prosince 2001 a také stovky hodin televizního pokrytí [12] [26] [27] .
V roce 2002 realizoval „Archiv“ několik velkých projektů najednou, což významně rozšířilo jeho fond. První a největší z nich byl zrcadlový pozemek knihovny ve městě Alexandrie . Celkem byly do Egypta odeslány servery s více než 100 TB dat v celkové hodnotě asi 5 milionů $ [12] . Internetový archiv také daroval Alexandrinské knihovně 10 miliard webových stránek shromážděných v letech 1996 až 2001, 2 000 hodin egyptského a amerického televizního vysílání a 1 000 starých filmů [28] [29] .
V létě 2002 Internet Archive spolupracoval s Carnegie Mellon Center na projektu Million Books Project (MBP) na digitalizaci více než jednoho milionu knih a jejich zpřístupnění k bezplatnému čtení na internetu 12] . Projekt byl realizován za plné účasti dalších amerických univerzit a digitálních sbírek Indie , Číny , Egypta . Peníze na MBP byly přiděleny americkou národní vědeckou nadací (3,63 milionů dolarů), indickou vládou (25 milionů) a ministerstvem školství ČLR (8,46 milionů). Internetový archiv zase poskytl vybavení, personál a finanční prostředky na digitalizaci potřebných dokumentů. Následně byla sestavená sbírka zpřístupněna prostřednictvím zrcadlových stránek v Indii, Číně, portálů Carnegie Mellon University a internetového archivu [30] . V prosinci 2004 oznámila AI novou spolupráci s několika mezinárodními knihovnami na umístění digitalizovaných knih do archivů s otevřeným přístupem [31] . Druhým velkým projektem tohoto období byl Bookbombil , mobilní knihovna, která tiskne díla z archivního fondu dle libosti. Bookmobil se pohyboval po San Franciscu a na žádost uživatelů dokázal vytisknout asi 20 stran za minutu, poté je dobrovolníci projektu ručně shromáždili, umístili do přebalu a svázali pomocí nahřívacího lepidla naneseného na hřbet stránek. K rozřezání knihy byla použita gilotinová řezačka papíru [32] [12] .
V roce 2003 pokračovala spolupráce „Archivu“ s národními knihovnami. V červenci se AI podílela na vytvoření International Internet Preservation Consortium , což je skupina 12 národních knihoven USA, které se dohodly, že se spojí za účelem vytvoření standardů, nástrojů a postupů pro získávání, uchovávání a vytváření dostupných znalostí a informací z internetu. K dosažení tohoto cíle konsorcium shromažďuje internetový obsah z celého světa tak, aby jej bylo možné archivovat a chránit, a podporuje vývoj a používání společných nástrojů, metod a způsobů podpory rozvoje národních knihoven. Ve stejném roce Internet Archive spustil Heritrix , open source webový prohledávač založený na Javě , který byl později přijat mnoha institucemi po celém světě [12] [33] .
V roce 2004 Internet Archive zahájil migraci dat na hardware třetí generace , PetaBox . PetaBox je založen na operačním systému Linux a poskytuje úložiště RAID za cenu přibližně 2 000 USD za terabajt nebo 2 miliony USD za petabajt . První nové zařízení bylo instalováno v amsterodamské pobočce "Archive" - webového archivu EU, který shromažďuje dokumenty v zemích Evropské unie a zároveň slouží jako zrcadlo hlavního fondu [12] [33] [34 ] .
Internetový archiv si klade za cíl poskytnout univerzální přístup ke všem lidským znalostem a stát se masivní internetovou knihovnou. V červnu 2007 označil stát Kalifornie Internet Archive za knihovnu, čímž jej zpřístupnil pro federální financování a začlenil jej do sítě organizací zaměřených na zachování otevřeného přístupu k informacím [6] [35] .
Na počátku 21. století Archives koupil starý křesťanský kostel v San Franciscu a přeměnil ho na knihovnu [6] . V roce 2009 měla organizace méně než pět zaměstnanců zapojených do provozu a údržby lokalit [35] .
|
Do roku 2012 se sbírka Archivu rozrostla na 10 petabajtů s více než 1,5 milionu zvukových souborů a více než milionem videí ve veřejné doméně [36] . Do roku 2014 Archiv obsluhoval dva až tři miliony návštěvníků denně a sbírka čítala více než 7 milionů textů, 2,1 milionu zvukových nahrávek a 1,8 milionu videí [37] . V roce 2016 oslavil Archiv 20 let od svého založení. Do této doby měla archivní sbírka 370 milionů webových stránek a 273 miliard webových stránek [38] .
V roce 2013 vypukl v kanceláři Archivu požár, který zničil část zařízení, ale sbírka nebyla poškozena [39] . Ve stejném roce, v reakci na odhalení Edwarda Snowdena Národní bezpečnostní agentury , Internet Archive zavedl šifrování pro čtenářský webový provoz [40] .
Po vítězství Donalda Trumpa v prezidentských volbách v USA v roce 2016 se Archive rozhodl mít kopii své sbírky v Kanadě pro případ, že by se Trump rozhodl zpřísnit zákony o cenzuře nebo pomluvě – Brewster Cale na svém blogu vyzval příznivce, aby finančně pomohli při nákupu potřebné vybavení, protože přesun bude stát několik milionů dolarů [41] .
V roce 2019 Google oznámil, že brzy smaže informace o uzavřené sociální síti Google+ , nicméně Internetový archiv a Archivní tým podepsaly dohodu o zachování veřejných příspěvků na svých platformách [42] – pouze během prvních čtyř týdnů archivace , bylo shromážděno 1,56 petabajtů dat [43] .
V letech 2018–2019 Archiv realizoval řadu společných projektů s Wikipedií . V roce 2018 Archive nahradil řadu nefunkčních odkazů v encyklopedii těmi, které již byly archivovány ve Wayback Machine – speciální bot vypočítával mrtvé odkazy, následně je kopíroval a aktualizoval s odkazem na archivované kopie. Během prvního roku projektu bylo obnoveno 9 milionů spojení [44] . V roce 2019 Archiv inicioval projekt na zlepšení práce Wikipedie – portál poskytoval náhled knih, na které se v článcích odkazovalo. K tomu mohli uživatelé kliknout na název knihy a zobrazit dvoustránkový materiál. Za první rok existence služby Archiv proměnil 130 000 odkazů v článcích encyklopedie na přímé odkazy na 50 000 knih, které organizace naskenovala a zpřístupnila široké veřejnosti. Nakonec AI doufá, že umožní uživatelům prohlížet a půjčovat si všechny knihy citované Wikipedií [45] . Aby služba správně zobrazila citovaný materiál, musí uživatelé encyklopedie správně naformátovat citaci s uvedením čísel stránek [46] [47] .
V roce 2020 Internet Archive zahájil partnerství s Brave – prohlížeč nyní dokáže automaticky detekovat nedostupnost webové stránky a na oplátku nabídnout zálohu prostřednictvím služby Wayback Machine . Funkce je dostupná pro chyby: 404 , 408, 410, 451, 500, 502, 503, 504, 509, 520, 521, 523, 524, 525 a 526 [48] . V témže roce byla oznámena spolupráce s Cloudflare , která nabízí funkci Always On, která kešuje statické verze stránek. Partnerství umožnilo Wayback Machine najít ještě více webových stránek k procházení [49] .
Internetový archiv se aktivně zasazuje o boj proti dezinformacím . V roce 2019 organizace společně s Public Knowledge , Wikimedia Foundation , Samuelson Law, Technology and Public Policy Clinic uspořádala konferenci, na které se podělili o zkušenosti s praktikami boje proti vědomě nepravdivým informacím [50] . Od začátku pandemie COVID-19 v březnu 2020 používali konspirační teoretici snímky obrazovky uložené portálem k šíření nepravdivých informací o koronaviru [51] . Například v Medium vyšel článek , který uvádí, že v Číně zemřelo na COVID-19 21 milionů lidí . Poté, co se tento článek začal široce šířit na Facebooku , sociální síť odkaz zablokovala. Článek však zůstal zachován v „Archivu“ a uživatelé jej začali šířit prostřednictvím Wayback Machine [52] . Jako protiopatření implementoval Internet Archive v listopadu 2020 nástroje pro kontrolu pravosti informací ve Wayback Machine. Při otevření archivované verze webu poskytuje Wayback Machine uživatelům informace o důvodu jejich smazání ve formě žlutého banneru v horní části obrazovky. Pokud je webová stránka podezřelá ze zapojení do dezinformační kampaně, Wayback Machine poskytne podrobnosti o organizaci, která ověření provedla, a také odkaz na její zprávu [53] [54] [55] . Služba ověřování faktů umožňuje uživatelům lépe porozumět tomu, proč byly určité stránky v daném okamžiku odstraněny nebo změněny. Mezi přispěvatele do ověřování faktů odeslaných do Wayback Machine patří FactCheck.org , PolitiFact , Graphika, Stanford Internet Observatory a další. Internetový archiv vysvětlil důvody pro přidání ověřování faktů na tyto stránky a uvedl: „Snažíme se zachovat naši digitální historii, ale uznáváme problémy spojené s poskytováním přístupu k nepravdivým a zavádějícím informacím z různých zdrojů“ [56] .
V druhé polovině 90. let byla řešení úložiště drahá. K vyřešení tohoto problému použil Internet Archive ve své první generaci infrastruktury magnetické pásky. V roce 2004 Archive vyvinul levný a výkonný úložný systém pro velká množství dat – PetaBox, který pojme jeden petabajt nebo jeden milion gigabajtů dat [6] [12] . Pro dlouhodobé uchovávání využívá „Archiv“ systém zrcadlových míst umístěných v geograficky vzdálených místech [6] . Kopie Wayback Machine existují v San Franciscu , Richmondu , Alexandrii , Amsterdamu . Soubory jsou uloženy ve formátu ( ARC ). Každý dokument ve formátu ARC má velikost asi 100 MB a obsahuje několik souborů získaných během skenování. Každý vnořený prvek obsahuje metadata o souboru a jeho vyhledávání: název souboru (jeho URL), jeho velikost, typ obsahu, datum a čas extrakce a název organizace, která jej obdržela [6] . Z cenových důvodů ukládá "Archiv" data na ATA disky umístěné v krabici na pizzu form factor , která pojme čtyři disky, z nichž jeden je spouštěcí disk operačního systému Linux a druhý ukládá data nakonfigurovaná pod JBOD . Každý regál má 40 skladovacích uzlů. Na konci roku 2000 obsahoval samotný cluster v San Franciscu asi 36 stojanů [57] [58] .
Sbírka Archive se skládá z mnoha podsbírek vytvořených různými organizacemi, z nichž každá má jiný přístup k archivaci webu. Některá data spravuje přímo Archiv, jiná jsou spravována mnoha partnery organizace [59] . V prvních letech byl hlavním zdrojem pravidelných dat internetový prohledávač Alexa . S nárůstem objemu zpracovávané návštěvnosti si však vedení NPO uvědomilo potřebu zavedení rozsáhlého a snadno přizpůsobitelného vyhledávacího robota. Jenže programy, které na trhu existovaly, neměly dostatečný výkon a možnosti pro široké a hluboké skenování internetu. Zásadním bodem byla otevřenost softwaru , která by podpořila rozvoj spolupráce mezi institucemi se zájmem o archivaci internetu. V první polovině roku 2003 začal Archive pracovat na vývoji nového open source crawleru s názvem Heritrix . Prohledávač byl napsán v Javě a byl vyvinut Mezinárodním konsorciem pro ochranu internetu a dalšími partnerskými knihovnami a institucemi. Na Heritrix byly kladeny stejné požadavky jako na internetový prohledávač Alexa – robot se musí řídit všemi pokyny pro procházení stanovené v souboru robots.txt na webu a vyvarovat se agresivní archivace, která může bránit provozu portálu. Kromě toho by všechny soubory zachycené skenerem měly být zkombinovány do větších souborů pro snadnou správu a přístup. Prohledávač začne zachycovat stránky počínaje již známými adresami URL a poté následuje odkazy v rámci každého webu [6] [33] . Robot analyzuje a sleduje vložené odkazy a poté přidá všechny adresy URL do seznamu souborů k extrahování. Poté tento proces zopakuje s následujícími odkazy a zkontroluje, zda jsou všechny uložené stránky „zachyceny“ [6] . Heritrix má řadu omezení – nemůže skenovat deep web nebo jakýkoli materiál v databázích nebo stránkách, které pro přístup vyžadují autentizaci. Robot také nebude procházet stránky chráněné heslem a bude se řídit výjimkami popsanými v robot.txt. Také skenování s velkými obtížemi zpracovává prvky JavaScriptu , streamovaná média , obrazové mapy [60] .
Alexa Internet používá své vlastní algoritmy pro skenování webu, nejčastěji analyzuje stránky na základě statistik návštěv a počtu odkazů, které na ně vedou. Pokud si tedy uživatelé chtějí samostatně uložit svůj vlastní web, mohou si stránku uložit pomocí speciálního panelu nástrojů zabudovaného do Alexa. Od roku 2010 „Internetový archiv“ provádí Worldwide Web Crawling po globální síti a shromažďuje webové prvky, stránky, stránky a části stránek z celého internetu. Od března do prosince 2011 zachytil Worldwide Web Crawling 2,7 miliardy snímků a 2,3 miliardy jedinečných adres URL z 29 milionů webových stránek [59] . Každé procházení začíná seznamem konkrétních adres URL, známým jako „zdrojové seznamy“, a také se řídí samostatným algoritmem, který určuje hloubku procházení. Většinu webů unese pouze jeden, avšak jednotlivé portály (jako jsou zpravodajské weby) mohou být archivovány častěji prostřednictvím jiných procházení [59] .
V roce 2013 Internet Archive spolu s Wikipedií a WordPress inicioval program Archive No More 404, který neustále monitoruje portály, zda neobsahují mrtvé odkazy. Následně se do programu zapojil GDELT [61] . V rámci tohoto projektu vytvořil Archive v roce 2016 společně s Mozilla Firefox plugin, který uživatelům umožňuje prohlížet „mrtvé“ stránky, pokud byly archivovány [62] . Tyto spolupráce značně rozšířily sbírku o články a materiály o aktuálním dění. Archiv také uchovává data o webových stránkách naskenovaných Alfred Sloan Foundation a Alexa, NARA a Internet Memory Foundation , DNS registry obsahující od roku 2013 více než 2,5 miliardy záznamů. Mnoho specializovaných archivů také ukládá konečné snímky svých stránek do sbírky Internet Archive. Patří mezi ně například GeoCities a Wretch [59] .
Procházení může být zaměřeno jak na jednorázové „zachycení“ webu, aby se zajistilo zachování alespoň jedné kopie portálu, nebo mohou být navrženy tak, aby v pravidelných intervalech často znovu prohledávaly malou podmnožinu ručně vybraných webů. - frekvence skenování přímo závisí na tom, jak populární je stránka [59] .
The Wayback Machine je bezplatná online služba, která poskytuje přístup k webovým archivům Internet Archive. Služba byla zpřístupněna veřejnosti až v roce 2001. Během prvních 20 let své existence zkatalogizoval a uchoval Wayback Machine sbírku více než 286 miliard webových stránek. Archivní snímky podporují stránky s HTML , JavaScriptem a CSS [63] . Prostřednictvím Wayback Machine mohou uživatelé sledovat změny webu a porovnávat různé verze úprav [64] . V květnu 2022 poskytoval Wayback Machine přístup k více než 682 miliardám uložených webových stránek [4] [65] . V roce 2017 Internet Archive představil modernizovanou verzi Wayback Machine [66] . Technicky software Wayback Machine není archiv, ale spíše veřejné rozhraní pro omezenou podmnožinu všech repozitářů [24] . Platformu provozují webové prohledávače a uživatelé přidávají své vlastní stránky [63] [67] [68] [69] [70] zadáním adresy URL zájmového portálu [71] [24] [35] [72] .
URL pro archivaci si může uložit kdokoli a pomocí bezplatného archivačního účtu můžete vytvářet a archivovat jakékoli odchozí nebo externí odkazy na původní stránce [73] [73] . Podle studie z roku 2014 většina uživatelů Archive navštěvuje Wayback Machine při hledání materiálů v anglickém jazyce, které nemohou najít v „živém“ segmentu internetu [74] .
V roce 2006 Archive představil službu Archive It, webovou archivační službu, která pomáhá organizacím a jednotlivcům shromažďovat, vytvářet a ukládat vlastní sbírky digitálních dat. Archiv Poskytuje procházení webových stránek, organizaci a správu dat, technické zprávy pro sledování procházení, rozhraní pro zadávání metadat stránek a fulltextové vyhledávání . Služba je poháněna open source softwarem Heritrix [60] [75] .
Veškerý obsah je hostován v datových centrech Internet Archive. Uživatelům je k dispozici více než 200 sbírek týkajících se historie, kultury, vědy, lidských práv a dalších společensky důležitých témat [65] [75] [59] .
Webový archiv lidských právWebový archiv lidských práv (HRWA) je sbírka archivovaných webových stránek od více než 600 nevládních organizací, národních institucí pro lidská práva a blogů, které se tak či onak zabývají tématem lidských práv . HRWA byla sestavena různými nevládními organizacemi, národními institucemi pro lidská práva a jednotlivci. Vytvoření HRWA stály v čele knihoven a informačních služeb Kolumbijské univerzity a jejího Centra pro dokumentaci a výzkum lidských práv (CHRDR) s podporou Andrewa W. Mellona . Sběr dat začal v roce 2008 a odborníci na lidská práva z celého světa identifikovali požadované portály. Od roku 2022 je sbírka pravidelně aktualizována. Webové stránky mezivládních organizací, jako je Organizace spojených národů , nebyly do sbírky zahrnuty. Sbírka obsahuje přes 711 webových stránek, z nichž přes 50 milionů lze vyhledávat [65] . Sběr dat začal pilotním projektem v roce 2008, kdy se webové stránky procházely čtvrtletně pomocí služby Archive It [76] . Kopie sbírek jsou uloženy v internetovém archivu a knihovně Kolumbijské univerzity. Pro rok 2022 zahrnoval HRWA více než tisíc stránek a 50 milionů dokumentů [65] [77] .
Převzít Wall StreetOd začátku série protestů v New Yorku s názvem „ Occupy Wall Street “ v roce 2011 volajících po sociální a ekonomické rovnosti členové týmu Archive It a členové online komunity dobrovolně identifikovali a zaznamenali všechny zdroje související s hnutím. . Sbírka zahrnuje webové stránky, blogy, sociální portály a zpravodajské články z tradičních nebo alternativních médií [65] . Informace o protestech mimo New York shromáždilo Centrum Roye Rosenzweiga pro historii a nová média na Univerzitě George Masona [78] [79] [80] .
Počet všech textů (17. května 2022) |
34 739 370 [81] |
---|
Jazyk | Počet textů |
---|---|
Angličtina | 25 779 040 |
francouzština | 740 679 |
německy | 727 010 |
holandský | 722 451 |
čínština | 568 727 |
Arab | 475 878 |
italština | 396 364 |
španělština | 311 750 |
japonský | 154 282 |
řecký | 144 773 |
latinský | 136 532 |
Urdu | 98 953 |
ruština | 76 979 |
portugalština | 71 961 |
V roce 2005 Archiv inicioval vznik Open Content Alliance (OSA) – konsorcia organizací a společností, které se společně zabývají digitalizací knihovních fondů a jejich zveřejňováním. Kromě Internet Archive se na projektu podílely Yahoo , University of California, University of Toronto , National Archives of Great Britain a další [82] . Microsoft [83] byl také členem OCA , ale v roce 2008 společnost oznámila, že snižuje své investice do projektu digitalizace knih. Tím Microsoft zrušil všechna smluvní omezení knih ve veřejné doméně a umožnil Archivu ponechat si veškerý potřebný hardware [84] [85] . Rozhodnutí Microsoftu donutilo Archiv hledat nové zdroje financování [86] .
Ke květnu 2022 Archiv nabízel více než 35 000 000 knih a textů s otevřeným přístupem. Všem registrovaným uživatelům je k dispozici také kolekce 2,3 milionu moderních e-knih [5] . Uživatelé mohou vyhledávat podle obsahu, typu média, roku, tématu a předmětu. Na hlavní stránce části knihy jsou také uvedeny sbírky seřazené podle zobrazení, názvu, data vydání a autora. Archive spolupracuje s více než 1 100 knihovními institucemi, aby vytvořili knižní sbírku, jako je Boston Public Library , Library of Congress a další. Během partnerství byly digitalizovány různé typy médií, včetně mikrofilmů, časopisů a seriálových publikací, především v angličtině, holandštině , němčině , francouzštině , arabštině , italštině . Denně bylo naskenováno asi 3 500 knih na 18 místech po celém světě. Knihy vydané před více než 95 lety jsou k dispozici ke stažení [87] . Tento mechanismus digitální distribuce využívá stejné bezpečnostní technologie, jaké vydavatelé používají pro své tištěné e-knihy distribuované komerčními podniky, jako je OverDrive, Inc. a Google Books [88] .
Internetový archiv funguje jako online knihovna a vydává uživatelům digitální kopie za předpokladu, že současně není v oběhu více než jedna digitální kopie knihy [25] . V roce 2006 byla spuštěna Open Library , online služba, která uživatelům umožňuje číst elektronické kopie knih v souladu s „ řízeným digitálním půjčováním “ (nebo CDL), který omezuje počet současných výpůjček jednoho naskenovaného obrázku. Internetový archiv obchází tradiční formy licenčních omezení – kopie jsou pořizovány z fyzických kopií spíše než kupovány digitálně, takže projekt nikdy neuzavře licenční smlouvu s vydavatelem [89] .
Počet textů podle desetiletí
|
|
|
Počet zvukových souborů (17. května 2022) |
14 099 859 [91] |
---|
Počet obrázků (17. května 2022) |
4 301 137 [92] |
---|
Počet souborů videa (17. května 2022) |
7 930 236 [93] |
---|
V roce 2017 The Archive zahájil projekt The Great 78 Project, který se věnuje ochraně tisíců 78rpm vinylových desek , z nichž některé byly vyrobeny na počátku 20. století. Kromě "Archive" se projektu účastní ARChive of Contemporary Music a George Blood Audio. The Great 78 Project si klade za cíl najít, vyčistit, zdigitalizovat a archivovat asi tisíc záznamů od starých přehrávačů denně [94] . K tomu je každá deska vyčištěna na speciálním stroji, který na její povrch stříká destilovanou vodu . Následně malý vysavač nasaje vodu spolu s nečistotami, které se za ta léta nashromáždily v deskách. Poté jsou disky vyfotografovány a na základě těchto fotografií jsou vyrobeny štítky, které budou přidány do obecné databáze archivu. Většina zpracovaných nahrávek patří významným nahrávacím společnostem, jako jsou Columbia Records , RCA Records a Capitol Studios , ale ve sbírce je zahrnuto asi 1700 dalších vydavatelství [95] . Jen za první rok provozu bylo umístěno asi 50 000 digitalizovaných disků. Projekt Internet Archive plánuje digitalizovat přes 200 000 fyzických záznamů, z nichž většina pochází z 50. let minulého století a dříve [96] .
Významnou součástí zvukové sbírky Internet Archive je Live Music Archive, sbírka více než 220 000 bezztrátově komprimovaných živých nahrávek . Část této sbírky pocházela od hudební komunity etree , která distribuuje nahrávky živých koncertů [97] . „Archive“ obsahuje nahrávky živých vystoupení různých umělců, včetně Grateful Dead , John Meyer , Elliott Smith , The Smashing Pumpkins [98] .
Od roku 2022 se sbírka fotografií Archivu skládala ze 4,3 milionů snímků [99] . Jedna z největších podsbírek se získává od roku 2007 ve spolupráci s NASA . Organizace společně skenovaly a archivovaly fotografie, historické filmy a videa z archivu agentury. Prostřednictvím tohoto partnerství jsou sbírky dostupné v jednotném archivu snímků NASA na webu Archiv [100] .
V roce 2014 nahrál výzkumník Kalev Leetaru z Univerzity George Washingtona 2,6 milionu fotografií z veřejně dostupných knih z Archivu. Následně přidal všechny obrázky do služby Flickr , přičemž ke všem obrázkům přidal předem značky, aby uživatelé mohli v materiálech prohledávat [101] .
Sbírka videí Archivu se skládá z mnoha dílčích sbírek, včetně více než 3 milionů hodin nahraných televizních zpráv [38] . Projekt nahrávání a uchovávání zpráv byl zahájen Philly Political Media Watch Project, programem vytvořeným Sunlight Foundation , Philadelphia City Council , Linguistic Data Consortium na University of Pennsylvania a University of Delaware Community Research a servisní středisko . Díky projektu jsou na webu Archivu k dispozici statisíce zpráv a uložených politických inzerátů [37] .
V roce 2019 archiv rozšířil svou sbírku o 2,5 tisíce starých her napsaných pro systém DOS . Stalo se tak v důsledku projektu eXoDOS, ve kterém byly staré hry analyzovány a optimalizovány pro běh na moderních počítačích [102] . V roce 2021 společnost Adobe oznámila, že přehrávač Flash Player bude ukončen . V reakci na to Archiv zveřejnil na webu sbírku několika stovek her a flashových animací [103] [104] .
V roce 2016 Internet Archive zveřejnil velkou sbírku programů pro operační systémy řady Windows 3.x. Celkem sekce Windows 3.x Showcase obsahuje 1523 programů, které fungují díky vestavěnému emulátoru Windows 3.1 v JavaScriptu. Kolekce navíc obsahuje programy, hry a demoverzi Windows 95 . K souborům chráněným autorským právem zveřejnili pracovníci Archivu bezplatné analogy [105] .
Pro zpřístupnění knižních děl prostřednictvím služby Otevřená knihovna se vedení Archivu řídí principy Controlled Digital Lending (CDL) - výklad autorského zákona , podle kterého mohou knihovny půjčovat digitalizované tištěné knihy na stejném principu. jako tištěné - počet vydaných digitálních titulů musí odpovídat výtiskům ve vlastnictví knihovny. Archiv získává všechny knihy do svého fondu v tištěné nebo elektronické podobě. Poté je naskenuje a vytvoří vlastní digitální soubory, které pak zpřístupní čtenářům. Projekt proto nikdy neuzavře licenční smlouvu s vydavatelem. Všechny vydané online soubory mají vložený kód, díky kterému se k dílu dostane pouze jeden uživatel prostřednictvím elektronické fronty. Tento model umožňuje knihovnám zpřístupnit své knihy digitálně, ale také umožňuje vydavatelům a autorům rozšíření dostat zaplaceno za svou práci, aniž by ztratili tržby. Když je tištěná kniha velmi populární, knihovny mají tendenci kupovat více výtisků. Čtenáři nemají právo kopírovat nebo distribuovat materiály. Tímto způsobem vám systém CDL umožňuje obejít některá omezení stanovená autorským zákonem [106] [89] [107] .
"Archiv" odstraňuje data z Wayback Machine na žádost držitelů autorských práv, kteří mohou prokázat autorská práva, poskytnout popis materiálu, kontaktní údaje žadatele a podepsané prohlášení [108] [25] .
Aktivity internetového archivu měly významný dopad na rozvoj postupů archivace webu po celém světě. Po vzoru AI vzniklo mnoho rozsáhlých webových archivačních programů a portálů, často národních. Mezi prvními, které ukládaly online obsah, byly velké mezinárodní knihovny – Kongresová knihovna , Australská národní knihovna , Švédská národní knihovna , Norská národní knihovna a Národní knihovna Nového Zélandu [109] . V roce 2013 byl zahájen projekt webového archivu EU, jehož cílem je skenovat a archivovat webové stránky Evropské unie za účelem dlouhodobého zachování evropského webového obsahu ve veřejné doméně [34] . V roce 2000 Česká republika iniciovala projekt Webarchiv pro webovou archivaci národních stránek [110] . Později byly podobné iniciativy realizovány v Chorvatsku [109] , Maďarsku [111] , Irsku [112] , Belgii a dalších zemích [113] . Ve většině případů byla archivace provedena webovým prohledávačem Heritrix [6] vytvořeným "Archivem" . Internetový archiv také poskytuje velkou část technologií, které jiné instituce používají k vytváření archivačních aplikací [6] .
Sbírky archivu jsou často využívány badateli z různých oblastí vědy. Data jsou tedy analyzována z hlediska změn v jazykových a sociálních praktikách [114] , chování společnosti, prodejních strategií [23] [115] . Kromě toho mohou vědci využít archivované materiály k založení práva na otevírání nebo publikování [116] , stejně jako k získání přístupu k časopisům s otevřeným přístupem - podle výzkumu v roce 2020 zmizelo z internetu 84 časopisů OA v přírodních vědách od r. počátek 21. století a více o 100 - v sociálním a humanitárním [117] [118] [119] .
V roce 2002 právníci Scientologické církve požadovali, aby Internet Archive odstranil z Wayback Machine archivované kopie stránky portálu Xenu.net vlastněné církevním kritikem Andreasem Heldal-Lundem. Důvodem byla přítomnost úryvků z dokumentů Církve na portálu Heldala-Lundu. V reakci na to však „Archiv“ odstranil nejen stránky webu s úryvky, ale také uzavřel přístup k celému portálu Xenu.net. Rozhodnutí Archivu vyvolalo masivní veřejnou debatu o etice a svobodě slova [120] [121] .
Kvůli pandemii COVID-19 a nucené izolaci mnoha lidí v roce 2020 Archiv spustil dočasnou službu Národní pohotovostní knihovna, která zpřístupnila veřejnosti kopie 1,4 milionu knih pro ty, kteří se nemohli dostat do knihoven. Na rozdíl od klasického provozu služby Otevřená knihovna si uživatelé knihovny v případě nouze mohli půjčovat texty bez čekání ve frontě [122] . Americká asociace autorů Authors Guild v reakci na to vydala otevřený dopis, ve kterém obvinila organizaci ze „skutečné krádeže“ [123] – projekt porušil řadu ustanovení CDL tím, že umožnil více než jednomu uživateli přístup k texty. V reakci na porušování Internet Archive čtyři komerční vydavatelé - Hachette , Penguin Random House , Wiley - podali žalobu obviňující portál z pirátství [124] . Z tohoto důvodu Internetový archiv ukončil svůj program dříve, než bylo plánováno, 16. června 2020, namísto 30. června [125] [126] [25] [106] . Žaloba se snažila zabránit tomu, aby Otevřená knihovna fungovala jako schéma, které digitalizuje a půjčuje díla chráněná autorským právem [25] [89] . Soudní líčení v případu je naplánováno na listopad 2021 [127] .
země SNSV roce 2014 Roskomnadzor přidal Internetový archiv do rejstříku zakázaných stránek za to, že měl kopii dokumentárního filmu Clash of Swords vydané Islámským státem [128] . O rok později vydala prokuratura Ruské federace rozhodnutí zablokovat webovou stránku Internet Archive na základě článku 15.3 zákona „o informacích, informačních technologiích a ochraně informací“. Důvodem zablokování portálu byl archivovaný článek „Samotný džihád v Rusku“, který podle prokuratury obsahoval výzvy k masovým nepokojům a extremistickým aktivitám [129] [130] . Poté, co zdroj odstranil všechny odkazy na stránky zakázané v Rusku, byl přístup na portál obnoven [131] .
V roce 2015 byl portál Internet Archive zařazen na seznam nežádoucích stránek blokovaných v Kazachstánu [132] .
Dne 6. června 2017 zablokoval soud Okťabrskij v Biškeku stránky v Kyrgyzstánu kvůli materiálům s „extremistickým obsahem“ [133] .
V roce 2019 Asociace pro ochranu autorských práv na internetu (AZAPI) prosazovala zablokování „Internetového archivu“ v Rusku. Důvodem byla přítomnost ve sbírce knihovny kopií zvukových knih ruských spisovatelů - Dmitrije Glukhovského a Darie Dontsové . Žaloba v případu byla podána 13. března 2019 a posouzení moskevským městským soudem proběhlo 13. května 2019 na základě nouze. Internetovému archivu bylo podle soudního rozhodnutí zakázáno vytvářet technické podmínky pro umístění audioknih [134] .
Dne 12. května 2022 podal Roskomnadzor žalobu na Internetový archiv podle článku 13.41 Kodexu správních deliktů Ruské federace („Nesmazání informací uznaných jako zakázané v Ruské federaci“) [135] [136] . Důvodem bylo video archivované službou, které ukazovalo, jak vyrobit Molotovův koktejl . Soudní zasedání se konalo 28. června 2022, podle jeho výsledků byla Internetovému archivu uložena pokuta 800 tisíc rublů [137] .
krocan9. října 2016 byl Archiv v Turecku dočasně zablokován poté, co jej hackeři použili k hostování 17 GB vládních e-mailů [138] .
IndieV roce 2017 byly stránky služby WayBackMachine v Indii zablokovány rozhodnutím soudu v Madrasu v reakci na žalobu držitelů autorských práv Bollywood , kteří uvedli, že portál měl několik tisíc odkazů na pirátské kopie filmů [139] . Po uzamčení byla indická vláda obviněna z cenzury [140] [141] .