Deep Web (také známý jako „Invisible Web“, „Deep Web“, „Deep Internet“; anglicky deep web ;) je soubor webových stránek World Wide Web , které nejsou indexovány vyhledávači .
Termín vznikl z přísl. Angličtina neviditelná síť [1] . Nejvýznamnější částí deep webu je Deep Web (z angl. deep web, skrytý web ), skládající se z webových stránek dynamicky generovaných dotazy do online databází [2] .
Pojem Deep Web by neměl být zaměňován s pojmem Dark Web (z anglického dark web ), který označuje síťové segmenty, i když jsou připojeny k obecnému internetu , ale pro přístup vyžadují určité softwarové nástroje.
Hluboký web obsahuje webové stránky , které nejsou propojeny s jinými hypertextovými odkazy (například slepé webové stránky dynamicky vytvářené skripty na samotných stránkách, na vyžádání, na které nevedou přímé odkazy), a také stránky , které jsou pouze přístupné registrovaným uživatelům uživatelům a webové stránky přístupné pouze s heslem.
Vyhledávače používají speciální vyhledávací roboty , které sledují hypertextové odkazy a indexují obsah webových stránek, na kterých se nacházejí, zadávají jejich obsah a hypertextové odkazy do svých databází. Po nalezení odkazů na jiné stránky na indexované webové stránce je vyhledávací robot sleduje a indexuje obsah každé z nalezených stránek, najde nové hypertextové odkazy a sleduje je pro indexování; v důsledku klikání na odkazy vedoucí mimo indexované stránky se počet indexovaných webových stránek neustále zvyšuje. Vyhledávací robot se nemůže dostat na webové stránky, které nejsou propojeny z jiných stránek, a proto obsah těchto stránek není indexován. Výsledkem je, že bez znalosti adresy URL webu nebo webové stránky Deep Web se k nim běžný uživatel nedostane.
Deep Web také zahrnuje weby, jejichž majitelé dobrovolně odmítli být indexováni vyhledávači (například pomocí souboru „robots.txt“ ), a také weby a webové stránky chráněné autorizací před prohlížením informací třetími stranami. V tomto případě bez znalosti přihlašovacího jména a (nebo) hesla k webové stránce není možné plně zobrazit její obsah nebo web používat.
Velikost hlubokého webu není známa. Existují poměrně spolehlivé odhady celkového počtu stránek vedoucích k online databázím: asi 300 000 takových stránek na celém webu v roce 2004 a asi 14 000 na RuNet v roce 2006 [3] [4] .
V roce 2005 Yahoo! udělal vážný krok k vyřešení tohoto problému. Společnost vydala vyhledávač „Yahoo! Subscriptions“, která vyhledává stránky (stále málo), k nimž mají přístup pouze registrovaní členové těchto stránek. To však stávající problém zcela nevyřešilo. Odborníci na vyhledávače se stále snaží najít technické možnosti indexování obsahu databáze a přístupu na soukromé webové stránky.
Jednou z populárních datových služeb hlubokého webu je UFOseek , původně navržená pro organizování paranormálních dat [5] .
I když není vždy možné přímo najít obsah konkrétního webového serveru, aby jej bylo možné indexovat, je stále možné na takový web přistupovat (kvůli počítačovým zranitelnostem ).
K objevování obsahu na webu používají vyhledávače webové prohledávače, které sledují hypertextové odkazy přes známá čísla virtuálních portů protokolu. Tato metoda je ideální pro objevování obsahu na World Wide Web , ale často je neúčinná při vyhledávání obsahu na hlubokém webu. Webové prohledávače například nevyhledávají dynamické stránky, které jsou výsledkem databázových dotazů , kvůli neurčitému počtu stejných dotazů. Bylo poznamenáno, že to lze (částečně) překonat poskytnutím odkazů na výsledky dotazů, ale to může nechtěně zvýšit popularitu člena hluboké sítě.
Existuje několik vyhledávačů, které mají přístup k hlubokému webu. Intute ukončilo své financování a od července 2011 je nyní dočasným archivem. Scirus skončil na konci ledna 2013.
Výzkumníci studovali, jak lze automaticky skenovat hluboký web, včetně obsahu, ke kterému lze přistupovat pouze pomocí specializovaného softwaru, jako je Tor . V roce 2001 Sriram Raghavan a Hector Garcia-Molina (Stanford Computer Science Department, Stanford University ) představili architektonický model skrytého vyhledávače, který používal klíčová slova poskytnutá uživateli nebo shromážděná z dotazovacích rozhraní k dotazování a procházení hlubokého webu.
Komerční vyhledávače začaly zkoumat alternativní metody procházení hlubokého webu. Protokol Sitemap (poprvé vyvinutý a implementovaný společností Google v roce 2005) a mod_oai jsou mechanismy, které umožňují vyhledávačům a dalším zúčastněným stranám objevovat zdroje hlubokého webu na konkrétních webových serverech. Oba mechanismy umožňují webovým serverům hostovat na nich přístupná URL, což umožňuje automatické zjišťování zdrojů, které nejsou přímo připojeny k World Wide Web . Hluboký webový navigační systém Google vypočítá zobrazení pro každý formulář HTML a přidá výsledné stránky HTML do indexu vyhledávače Google. Výsledky jsou založeny na 1000 žádostech za sekundu o obsah hlubokého webu. V tomto systému se předvýpočet reprezentace provádí pomocí tří algoritmů: