Hluboká síť

Deep Web (také známý jako „Invisible Web“, „Deep Web“, „Deep Internet“; anglicky deep web ;) je soubor webových stránek World Wide Web , které nejsou indexovány vyhledávači .

Termín vznikl z přísl. Angličtina neviditelná síť [1] . Nejvýznamnější částí deep webu je Deep Web (z angl. deep web, skrytý web ), skládající se z webových stránek dynamicky generovaných dotazy do online databází [2] .

Pojem Deep Web by neměl být zaměňován s pojmem Dark Web (z anglického dark web ), který označuje síťové segmenty, i když jsou připojeny k obecnému internetu , ale pro přístup vyžadují určité softwarové nástroje.

Podstata problému

Hluboký web obsahuje webové stránky , které nejsou propojeny s jinými hypertextovými odkazy (například slepé webové stránky dynamicky vytvářené skripty na samotných stránkách, na vyžádání, na které nevedou přímé odkazy), a také stránky , které jsou pouze přístupné registrovaným uživatelům uživatelům a webové stránky přístupné pouze s heslem.

Vyhledávače používají speciální vyhledávací roboty , které sledují hypertextové odkazy a indexují obsah webových stránek, na kterých se nacházejí, zadávají jejich obsah a hypertextové odkazy do svých databází. Po nalezení odkazů na jiné stránky na indexované webové stránce je vyhledávací robot sleduje a indexuje obsah každé z nalezených stránek, najde nové hypertextové odkazy a sleduje je pro indexování; v důsledku klikání na odkazy vedoucí mimo indexované stránky se počet indexovaných webových stránek neustále zvyšuje. Vyhledávací robot se nemůže dostat na webové stránky, které nejsou propojeny z jiných stránek, a proto obsah těchto stránek není indexován. Výsledkem je, že bez znalosti adresy URL webu nebo webové stránky Deep Web se k nim běžný uživatel nedostane.

Deep Web také zahrnuje weby, jejichž majitelé dobrovolně odmítli být indexováni vyhledávači (například pomocí souboru „robots.txt“ ), a také weby a webové stránky chráněné autorizací před prohlížením informací třetími stranami. V tomto případě bez znalosti přihlašovacího jména a (nebo) hesla k webové stránce není možné plně zobrazit její obsah nebo web používat.

Měřítko

Velikost hlubokého webu není známa. Existují poměrně spolehlivé odhady celkového počtu stránek vedoucích k online databázím: asi 300 000 takových stránek na celém webu v roce 2004 a asi 14 000 na RuNet v roce 2006 [3] [4] .

Deep Web Search

V roce 2005 Yahoo! udělal vážný krok k vyřešení tohoto problému. Společnost vydala vyhledávač „Yahoo! Subscriptions“, která vyhledává stránky (stále málo), k nimž mají přístup pouze registrovaní členové těchto stránek. To však stávající problém zcela nevyřešilo. Odborníci na vyhledávače se stále snaží najít technické možnosti indexování obsahu databáze a přístupu na soukromé webové stránky.

Jednou z populárních datových služeb hlubokého webu je UFOseek , původně navržená pro organizování paranormálních dat [5] .

Typy obsahu

I když není vždy možné přímo najít obsah konkrétního webového serveru, aby jej bylo možné indexovat, je stále možné na takový web přistupovat (kvůli počítačovým zranitelnostem ).

K objevování obsahu na webu používají vyhledávače webové prohledávače, které sledují hypertextové odkazy přes známá čísla virtuálních portů protokolu. Tato metoda je ideální pro objevování obsahu na World Wide Web , ale často je neúčinná při vyhledávání obsahu na hlubokém webu. Webové prohledávače například nevyhledávají dynamické stránky, které jsou výsledkem databázových dotazů , kvůli neurčitému počtu stejných dotazů. Bylo poznamenáno, že to lze (částečně) překonat poskytnutím odkazů na výsledky dotazů, ale to může nechtěně zvýšit popularitu člena hluboké sítě.

Existuje několik vyhledávačů, které mají přístup k hlubokému webu. Intute ukončilo své financování a od července 2011 je nyní dočasným archivem. Scirus skončil na konci ledna 2013.

Výzkumníci studovali, jak lze automaticky skenovat hluboký web, včetně obsahu, ke kterému lze přistupovat pouze pomocí specializovaného softwaru, jako je Tor . V roce 2001 Sriram Raghavan a Hector Garcia-Molina (Stanford Computer Science Department, Stanford University ) představili architektonický model skrytého vyhledávače, který používal klíčová slova poskytnutá uživateli nebo shromážděná z dotazovacích rozhraní k dotazování a procházení hlubokého webu.

Komerční vyhledávače začaly zkoumat alternativní metody procházení hlubokého webu. Protokol Sitemap (poprvé vyvinutý a implementovaný společností Google v roce 2005) a mod_oai jsou mechanismy, které umožňují vyhledávačům a dalším zúčastněným stranám objevovat zdroje hlubokého webu na konkrétních webových serverech. Oba mechanismy umožňují webovým serverům hostovat na nich přístupná URL, což umožňuje automatické zjišťování zdrojů, které nejsou přímo připojeny k World Wide Web . Hluboký webový navigační systém Google vypočítá zobrazení pro každý formulář HTML a přidá výsledné stránky HTML do indexu vyhledávače Google. Výsledky jsou založeny na 1000 žádostech za sekundu o obsah hlubokého webu. V tomto systému se předvýpočet reprezentace provádí pomocí tří algoritmů:

výběr textových vyhledávacích vstupů, které přijímají klíčová slova;
určité vstupy, které přijímají pouze hodnoty určitého typu (například data);
výběr malého počtu kombinací vstupů, které generují adresy URL vhodné pro zahrnutí do indexu vyhledávání na webu.

Viz také

Poznámky

↑ Gary Price, Chris Sherman. Neviditelný web: Odhalování informačních zdrojů, které vyhledávače nevidí. - CyberAge Books, 2001 , ISBN 0-910965-51-X .
↑ Denis Shestakov, Natalia Vorontsova (2005). " Struktura rusky mluvící části hlubokého webu (nepřístupný odkaz) ". Internetová matematika 2005 , s. 320-341.
↑ Denis Shestakov (2011). " Sampling the National Deep Web (odkaz není k dispozici) ". Sborník příspěvků z 22. mezinárodní konference o aplikacích databázových a expertních systémů (DEXA) , s. 331-340.
↑ Jak velký je internet? . Získáno 30. července 2015. Archivováno z originálu 29. června 2015. (neurčitý)
↑ Igor Raikhman, 2013 , str. 118.

Literatura

Igor Raykhman. Praxe měření médií. Audit. Hlášení. Hodnocení efektivity PR. — M .: Alpina Publisher , 2013. — 432 s. - ISBN 978-5-9614-4499-5 .