Vyhledávací systém

Vyhledávač ( angl. search engine ) - algoritmy a soubor počítačových programů , které je implementují (v širokém slova smyslu, včetně analogových systémů pro automatizované zpracování informací první generace ), poskytující uživateli možnost rychlého přístupu informace, které potřebuje, vyhledáním v rozsáhlé sbírce dostupných dat [1] . Jednou z nejznámějších aplikací vyhledávačů jsou webové služby pro vyhledávání textových nebo grafických informací na World Wide Web . Existují také systémy schopné vyhledávat souboryna FTP serverech, zboží v internetových obchodech , informace v diskusních skupinách Usenetu .

Pro vyhledání informací pomocí vyhledávače uživatel zformuluje vyhledávací dotaz [2] . Úkolem vyhledávače je najít na žádost uživatele dokumenty obsahující buď zadaná klíčová slova , nebo slova s klíčovými slovy nějakým způsobem související [3] . Vyhledávač přitom vygeneruje stránku s výsledky vyhledávání . Takové výsledky vyhledávání mohou obsahovat různé typy výsledků, například: webové stránky , obrázky , zvukové soubory . Některé vyhledávače také získávají informace z relevantních databází a adresářů zdrojů na internetu . Pro vyhledání potřebných informací je nejpohodlnější použít moderní vyhledávače, které vám umožní rychle najít potřebné informace a zajistí přesnost a úplnost vyhledávání. Při práci s těmito stroji stačí zadat klíčová slova, která co nejpřesněji odrážejí hledané informace, nebo provést složitější dotaz na klíčová slova pro upřesnění oblasti hledání. Po zadání vyhledávacího dotazu obdržíte seznam odkazů na dokumenty na internetu, běžně označované jako webové stránky nebo jednoduše stránky, které obsahují zadaná klíčová slova. Obvykle jsou odkazy doplněny útržky textu z nalezeného dokumentu, které často pomohou k okamžitému určení předmětu nalezené stránky. Kliknutím na odkaz přejdete na vybraný dokument.

Vyhledávač je lepší, čím více dokumentů relevantních k dotazu uživatele, vrátí se. Výsledky vyhledávání mohou být méně relevantní kvůli zvláštnostem algoritmů nebo kvůli lidskému faktoru . Od roku 2020 je nejpopulárnějším vyhledávačem na světě a zejména v Rusku Google. .

Podle metod vyhledávání a údržby se dělí čtyři typy vyhledávačů: systémy využívající vyhledávacích robotů , systémy řízené člověkem, hybridní systémy a metasystémy . Architektura vyhledávače obvykle zahrnuje:

vyhledávací robot, který shromažďuje informace z internetových stránek nebo z jiných dokumentů;
indexer poskytující rychlé vyhledávání nashromážděných informací;
vyhledávač - grafické uživatelské rozhraní [ .

Historie

Chronologie
Rok	Systém	událost
1993	Katalog W3	zahájení
	Aliweb	zahájení
	JumpStation	zahájení
1994	WebCrawler	zahájení
	infoseek	zahájení
	Lycos	zahájení
1995	AltaVista	zahájení
	Daum	Základna
	Otevřete textový index	zahájení
	Magellan	zahájení
	Rozrušit	zahájení
	SAPO	zahájení
	Yahoo!	zahájení
1996	Dogpile	zahájení
	Inktomi	Základna
	Tramp	Základna
	HotBot	Základna
	Zeptejte se Jeevese	Základna
1997	Northern Light	zahájení
1997	Yandex	zahájení
1998	Google	zahájení
1999	AlltheWeb	zahájení
	GenieKnows	Základna
	Naver	zahájení
	Teoma	Základna
	Vivisimo	Základna
2000	Baidu	Základna
2000	Exalead	Základna
2003	info.com	zahájení
2004	Yahoo! Vyhledávání	Konečné spuštění
	A9.com	zahájení
	sogou	zahájení
2005	Vyhledávání MSN	Konečné spuštění
	Ask.com	zahájení
	Nigma	zahájení
	GoodSearch	zahájení
	SearchMe	Základna
2006	wikiseek	Základna
	Quaero	Základna
	Živé vyhledávání	zahájení
	ChaCha	Spustit ( beta )
	Guruji.com	Spustit ( beta )
2007	wikiseek	zahájení
	Sproose	zahájení
	Vyhledávání Wikia	zahájení
	blackle.com	zahájení
2008	DuckDuckGo	zahájení
	Tooby	zahájení
	Pikolátor	zahájení
	Viewzi	zahájení
	Cuil	zahájení
	boogami	zahájení
	LeapFish	Spustit ( beta )
	Forestle	zahájení
	VADLO	zahájení
	powerset	zahájení
2009	Bing	zahájení
	KAZ.KZ	zahájení
	Yebol	Spustit ( beta )
	Mugurdy	uzavření
	skaut	zahájení
2010	Cuil	uzavření
	Blekko	Spustit ( beta )
	Viewzi	uzavření
2012	WAZZUB	zahájení
2014	Satelit	Spustit ( beta )

Na začátku vývoje internetu udržoval Tim Berners-Lee seznam webových serverů umístěných na stránkách CERNu [4] . Webů bylo stále více a ruční udržování takového seznamu bylo stále obtížnější. Webové stránky NCSA měly vyhrazenou sekci „Co je nového!“. ( anglicky What's New! ) [5] , kde byly zveřejněny odkazy na nové stránky.

Prvním počítačovým programem pro vyhledávání na internetu byl program Archie ( angl. archie - archiv bez písmene "c"). Vytvořili jej v roce 1990 Alan Emtage, Bill Heelan a J. Peter Deutsch, studenti informatiky na McGill University v Montrealu . Program stáhl seznamy všech souborů ze všech dostupných anonymních FTP serverů a vybudoval databázi, kterou bylo možné prohledávat podle názvů souborů. Archieho program však neindexoval obsah těchto souborů, protože množství dat bylo tak malé, že vše šlo snadno najít ručně.

Vývoj a šíření síťového protokolu Gopher , vytvořeného v roce 1991 Markem McCahillem na University of Minnesota , vedlo k vytvoření dvou nových vyhledávacích programů, Veronica a Jughead . Stejně jako Archie vyhledávali názvy souborů a hlavičky uložené v indexových systémech Gopheru. Veronica ( anglicky: Very Easy Rodent-Oriented Net-wide Index to Computerized Archives ) povolila vyhledávání klíčových slov ve většině názvů menu Gopher ve všech seznamech Gopher. Program Jughead ( Jonzyho Universal Gopher Hierarchy Excavation And Display ) získal informace o nabídce z určitých serverů Gopher. Ačkoli jméno vyhledávače Archie nemělo nic společného s komiksy Archie , Veronica a Jughead jsou přesto postavy v těchto komiksech.

V létě 1993 ještě neexistoval jediný systém pro vyhledávání na webu, i když řada specializovaných adresářů byla udržována ručně. Oscar Nierstrasz na univerzitě v Ženevě napsal sérii skriptů v Perlu , které tyto stránky periodicky kopírovaly a přepisovaly do standardního formátu. To se stalo základem pro W3Catalog , první webový primitivní vyhledávač, spuštěný 2. září 1993 [6] .

Pravděpodobně první webový prohledávač napsaný v Perlu byl bot „ World Wide Web Wanderer “ od Matthewa Graye z MIT v červnu 1993. Tento robot vytvořil vyhledávací index " Wandex ". Účelem robota Wanderer bylo změřit velikost World Wide Web a najít všechny webové stránky obsahující slova z dotazu. V roce 1993 se objevil druhý vyhledávač „ Aliweb “. Aliweb nepoužil prohledávač , ale místo toho čekal na upozornění od administrátorů webových stránek o přítomnosti indexového souboru v určitém formátu na jejich stránkách.

JumpStation , [7] vytvořený v prosinci 1993 Jonathanem Fletcherem prohledával a indexoval webové stránky pomocí prohledávače a používal webový formulář jako rozhraní pro formulování vyhledávacích dotazů. Byl to první internetový vyhledávací nástroj, který kombinoval tři základní funkce vyhledávače (ověření, indexování a skutečné vyhledávání). Kvůli omezeným počítačovým zdrojům té doby bylo indexování, a tedy i vyhledávání, omezeno pouze na názvy a názvy webových stránek nalezených prohledávačem.

Prvním fulltextovým indexovacím zdrojem využívajícím robot („craweler-based“) vyhledávač byl systém „WebCrawler“ , spuštěný v roce 1994. Na rozdíl od svých předchůdců umožňoval uživatelům vyhledávat jakékoli slovo na jakékoli webové stránce, což se od té doby stalo standardem pro většinu vyhledávačů. Navíc to byl první vyhledávač, který byl široce používán. V roce 1994 byl spuštěn systém „ Lycos “, který byl vyvinut na Carnegie Mellon University a stal se seriózním komerčním podnikem.

Brzy se objevilo mnoho dalších konkurenčních vyhledávačů, jako například: "Magellan" , " Excite ", "Infoseek" , "Inktomi" , "Northern Light" a " AltaVista ". Svým způsobem konkurovaly populárním online adresářům , jako je Yahoo! ". Možnosti vyhledávání v adresářích se však omezovaly na vyhledávání v samotných adresářích, nikoli v textech webových stránek. Pozdější adresáře byly sloučeny nebo dodávány s vyhledávacími roboty, aby se zlepšilo vyhledávání.

V roce 1996 chtěl Netscape uzavřít exkluzivní smlouvu s jedním z vyhledávačů, čímž se stal výchozím vyhledávačem ve webovém prohlížeči Netscape . To vyvolalo tak velký zájem, že Netscape podepsal smlouvu s pěti největšími vyhledávači (Yahoo!, Magellan, Lycos, Infoseek a Excite) najednou. Za 5 milionů USD ročně byly postupně nabízeny na vyhledávací stránce Netscape [8] [9] .

Vyhledávače se podílely na " Dot-com Bubble " pozdních devadesátých let [10] . Několik společností vstoupilo na trh velkolepým způsobem a generovalo rekordní zisky během prvních veřejných nabídek . Někteří se odklonili od trhu veřejných vyhledávačů a začali pracovat pouze s korporátním sektorem, jako je Northern Light .

Google převzal myšlenku prodeje klíčových slov v roce 1998, kdy to byla malá společnost provozující vyhledávač na goto.com . Tento krok znamenal posun pro vyhledávače od vzájemného soupeření k jednomu z nejvýnosnějších obchodních podniků na internetu [11] . Vyhledávače začaly prodávat první místa ve výsledcích vyhledávání jednotlivým firmám.

Vyhledávač Google je na předním místě od počátku 21. století [12] . Společnost dosáhla vysoké pozice díky dobrým výsledkům vyhledávání pomocí algoritmu PageRank . Algoritmus byl představen veřejnosti v článku „The Anatomy of Search Engine“, který napsali Sergey Brin a Larry Page, zakladatelé Google [13] . Tento iterativní algoritmus řadí webové stránky na základě odhadu počtu hypertextových odkazů na webovou stránku za předpokladu, že „dobré“ a „důležité“ stránky získají více odkazů než jiné. Rozhraní Google je navrženo ve spartánském stylu, kde není nic zbytečného, na rozdíl od mnoha jeho konkurentů, kteří vyhledávač zabudovali do webového portálu . Vyhledávač Google se stal tak populárním, že se objevili napodobitelé, jako je Mystery Seeker (tajný vyhledávač).

Do roku 2000 Yahoo! prováděla vyhledávání na základě systému Inktomi. Yahoo! koupil Inktomi v roce 2002 a koupil Overture v roce 2003, který vlastnil AlltheWeb a AltaVista Pak Yahoo! pracoval na bázi vyhledávače Google až do roku 2004, až nakonec spustil vlastní vyhledávač založený na všech dříve zakoupených technologiích.

Microsoft poprvé spustil Microsoft Network Search (MSN Search) na podzim roku 1998 pomocí výsledků vyhledávání z Inktomi. Velmi brzy, na začátku roku 1999, začal web zobrazovat výsledky Looksmart smíchané s výsledky Inktomi. Na krátkou dobu (v roce 1999) MSN vyhledávání používalo výsledky vyhledávání z AltaVista. V roce 2004 zahájil Microsoft přechod na vlastní vyhledávací technologii pomocí vlastního vyhledávacího robota – msnbot . Po rebrandingu společností Microsoft byl 1. června 2009 spuštěn vyhledávač Bing . 29. července 2009 Yahoo! a Microsoft podepsaly smlouvu, podle které Yahoo! Vyhledávání bylo založeno na technologii Microsoft Bing. Od roku 2015, aliance mezi Bing a Yahoo! přineslo první skutečné ovoce. Nyní má Bing 20,1 % trhu a Yahoo! 12,7 %, což podle údajů z různých zdrojů celkem zabírá 32,60 % celkového trhu vyhledávačů ve Spojených státech .

Hledat informace v ruštině

V roce 1996 bylo implementováno vyhledávání zohledňující ruskou morfologii na vyhledávači Altavista a byly spuštěny původní ruské vyhledávače Rambler a Aport . 23. září 1997 byl otevřen vyhledávač Yandex . 22. května 2014 byl společností Rostelecom otevřen národní vyhledávač Sputnik , který je v době roku 2015 v beta testování. 22. dubna 2015 byla spuštěna nová služba Sputnik. Děti speciálně pro děti se zvýšenou bezpečností.

Velkou oblibu si získaly metody shlukové analýzy a vyhledávání metadat . Z mezinárodních strojů tohoto druhu nejznámější Vivisimo 's Clusty . V roce 2005 byl s podporou Moskevské státní univerzity spuštěn v Rusku vyhledávač Nigma , který podporuje automatické shlukování . V roce 2006 byl otevřen ruský metamachine Quintura , který nabízí vizuální shlukování ve formě tag cloudu . Nigma také experimentovala [14] s vizuálním shlukováním.

Jak funguje vyhledávač

Hlavní součásti vyhledávače: vyhledávací robot , indexer , vyhledávač [15] .

Systémy zpravidla fungují na etapy. Nejprve prohledávač získá obsah, poté indexátor vygeneruje prohledávatelný index a nakonec prohledávač poskytuje funkci prohledávání indexovaných dat. Pro aktualizaci vyhledávače se tento cyklus indexování opakuje [15] .

Vyhledávače fungují tak, že ukládají informace o mnoha webových stránkách, které získávají ze stránek HTML . Vyhledávací robot neboli „crawler“ ( anglicky Crawler ) je program, který automaticky sleduje všechny odkazy nalezené na stránce a zvýrazní je. Prohledávač na základě odkazů nebo na základě předem definovaného seznamu adres vyhledává nové dokumenty, které vyhledávač ještě nezná. Vlastník webu může vyloučit určité stránky pomocí souboru robots.txt , který lze použít k zabránění indexování souborů, stránek nebo adresářů webu.

Vyhledávač analyzuje obsah každé stránky pro další indexování. Slova lze extrahovat z nadpisů, textu stránky nebo speciálních polí - meta tagů . Indexer je modul, který analyzuje stránku po jejím rozdělení na části pomocí vlastních lexikálních a morfologických algoritmů. Všechny prvky webové stránky jsou izolovány a analyzovány samostatně. Data webových stránek jsou uložena v indexové databázi pro použití v následných požadavcích. Index umožňuje rychle najít informace na žádost uživatele [16] .

Řada vyhledávačů, jako je Google, ukládá celou původní stránku nebo její část, takzvanou mezipaměť , a také různé informace o webové stránce. Jiné systémy, jako je AltaVista, ukládají každé slovo každé nalezené stránky. Použití cache pomáhá urychlit extrakci informací z již navštívených stránek [16] . Stránky uložené v mezipaměti vždy obsahují text, který uživatel zadal ve vyhledávacím dotazu. To může být užitečné, když byla webová stránka aktualizována, to znamená, že již neobsahuje text požadavku uživatele a stránka v mezipaměti je stále stará [16] . Tato situace souvisí se ztrátou odkazů ( angl. linkrot ) a uživatelsky přívětivým ( použitelnost ) přístupem Google. To zahrnuje vydávání krátkých kusů textu z mezipaměti obsahující text dotazu. Platí zásada nejmenšího překvapení , uživatel obvykle očekává, že hledaná slova uvidí v textech přijatých stránek ( Uživatelská očekávání ). Kromě zrychlení vyhledávání pomocí stránek uložených v mezipaměti mohou stránky uložené v mezipaměti obsahovat informace, které již nejsou jinde dostupné.

Vyhledávač pracuje s výstupními soubory přijatými z indexátoru. Vyhledávač přijímá požadavky uživatelů, zpracovává je pomocí indexu a vrací výsledky vyhledávání [15] .

Když uživatel zadá dotaz do vyhledávače (obvykle pomocí klíčových slov ), systém zkontroluje jeho index a vrátí seznam nejrelevantnějších webových stránek (seřazených podle nějakého kritéria), obvykle se stručnou anotací obsahující název dokumentu a někdy části textu [16] . Index vyhledávání je sestaven podle speciální techniky založené na informacích extrahovaných z webových stránek [12] . Od roku 2007 vám vyhledávač Google umožňuje vyhledávat s ohledem na čas vytvoření hledaných dokumentů (vyvolání nabídky „Nástroje pro vyhledávání“ a zadání časového rozsahu).

Většina vyhledávačů podporuje použití booleovských operátorů AND, OR, NOT v dotazech, což umožňuje zpřesnit nebo rozšířit seznam hledaných klíčových slov. V tomto případě bude systém vyhledávat slova nebo fráze přesně tak, jak byly zadány. Některé vyhledávače mají možnost přibližného vyhledávání , v tomto případě uživatelé rozšíří oblast vyhledávání zadáním vzdálenosti ke klíčovým slovům [16] . K dispozici je také konceptuální vyhledávání , které využívá statistické analýzy použití hledaných slov a frází v textech webových stránek. Tyto systémy umožňují skládat dotazy v přirozeném jazyce.

Užitečnost vyhledávače závisí na relevanci stránek, které najde. I když miliony webových stránek mohou obsahovat slovo nebo frázi, některé mohou být relevantnější, oblíbenější nebo autoritativnější než jiné. Většina vyhledávačů používá metody hodnocení , aby se „nejlepší“ výsledky dostaly na začátek seznamu. Vyhledávače rozhodují, které stránky jsou relevantnější a v jakém pořadí by se měly výsledky zobrazovat různými způsoby [16] . Metody vyhledávání, stejně jako samotný internet, se v průběhu času mění. Objevily se tak dva hlavní typy vyhledávačů: systémy předdefinovaných a hierarchicky uspořádaných klíčových slov a systémy, ve kterých je na základě textové analýzy generován invertovaný index .

Většina vyhledávačů jsou komerční podniky, které vydělávají na reklamě , v některých vyhledávačích si můžete za poplatek koupit přední pozice ve výsledcích vyhledávání na daná klíčová slova. Ty vyhledávače, které neberou peníze za pořadí výsledků, vydělávají na kontextové reklamě , přičemž reklamní sdělení odpovídají požadavku uživatele. Takové reklamy se zobrazují na stránce se seznamem výsledků vyhledávání a vyhledávače vydělávají pokaždé, když uživatel klikne na reklamní sdělení.

Typy vyhledávačů

Existují čtyři typy vyhledávačů: robotické, lidmi řízené, hybridní a metasystémy [17] .

systémy využívající vyhledávacích robotů . Skládají se ze tří částí: crawler ("bot", "robot" nebo "pavouk"), index a software vyhledávače. Prolézací modul je nutný k obcházení sítě a vytváření seznamů webových stránek. Index je velký archiv kopií webových stránek. Účelem softwaru je vyhodnocovat výsledky vyhledávání. Díky tomu, že crawler v tomto mechanismu neustále prozkoumává síť, jsou informace aktuálnější. Většina moderních vyhledávačů jsou systémy tohoto typu.
systémy řízené lidmi (adresáře zdrojů) . Tyto vyhledávače získávají seznamy webových stránek. Adresář obsahuje adresu, název a stručný popis webu. Katalog zdrojů hledá výsledky pouze z popisů stránek, které mu zaslali webmasteři. Výhodou adresářů je, že všechny zdroje jsou kontrolovány ručně, takže kvalita obsahu bude lepší ve srovnání s výsledky získanými systémem prvního typu automaticky. Má to ale i nevýhodu – aktualizace těchto katalogů se provádí ručně a může výrazně zaostávat za skutečným stavem věcí. Hodnocení stránek se nemůže změnit okamžitě. Příklady takových systémů zahrnují adresář Yahoo , dmoz a Galaxy.
hybridní systémy . Vyhledávače jako Yahoo , Google, MSN kombinují funkce systémů využívajících vyhledávací roboty a systémy řízené lidmi.
meta-systémy . Metavyhledávače kombinují a řadí výsledky několika vyhledávačů najednou. Tyto vyhledávače byly užitečné, když každý vyhledávač měl jedinečný index a vyhledávače byly méně „chytré“. Vzhledem k tomu, že vyhledávání se nyní tak zlepšilo, jejich potřeba klesla. Příklady: MetaCrawler a MSN Search.

Trh s vyhledávači

Google je nejpopulárnější vyhledávač na světě s podílem na trhu 92,16 %. Bing zaujímá druhou pozici, jeho podíl je 2,88 % [18] .

Nejoblíbenější vyhledávače na světě [19] :

Vyhledávací systém	Podíl na trhu v červenci 2014	Podíl na trhu v říjnu 2014	Podíl na trhu v září 2017	Podíl na trhu v září 2020 [20]	Podíl na trhu v prosinci 2021 [21]
Google	68,69 %	58,01 %	69,24 %	92,16 %	91,94 %
Bing	17,17 %	29,06 %	12,26 %	2,88 %	2,86 %
Baidu	6,22 %	8,01 %	6,48 %	1,14 %	1,37 %
Yahoo!	6,74 %	4,01 %	5,19 %	1,52 %	1,5 %
AOL	0,13 %	0,21 %	1,11 %
Rozrušit	0,22 %	0,00 %	0,00 %
Dotázat se	0,13 %	0,10 %	0,24 %

Asie

V zemích východní Asie a v Rusku není Google nejoblíbenějším vyhledávačem. Například v Číně je populárnější vyhledávač Soso .

V Jižní Koreji Naver , vlastní vyhledávací portál, používá asi 70 % populace [22] Yahoo! Japonsko a Yahoo! Taiwan je nejpopulárnější vyhledávač v Japonsku a Tchaj-wanu [23] .

Rusko a ruské jazykové vyhledávače

Vyhledávač Google používá v Rusku 50,3 % uživatelů, Yandex — 47,9 % [24] .

Podle údajů LiveInternet v prosinci 2017 o pokrytí ruskojazyčných vyhledávacích dotazů [25] :

Všejazyčné:
- Google (42,9 %)
- Bing (0,3 %)
- Yahoo! (0,0 %) a vyhledávače vlastněné touto společností: Inktomi , AltaVista , Alltheweb
Anglicky mluvící a mezinárodní:
- AskJeeves ( engine Teoma )
Rusky mluvící – většina „rusky mluvících“ vyhledávačů indexuje a vyhledává texty v mnoha jazycích – ukrajinština , běloruština , angličtina , tatarština a další. Liší se od „všejazyčných“ systémů, které indexují všechny dokumenty za sebou, tím, že indexují především zdroje umístěné v doménových zónách , kde dominuje ruský jazyk, nebo jinak omezují své roboty na rusky psané stránky.
- Yandex (60,4 %)
- Mail.ru (3,5 %)
- Rambler (0,2 %)

Některé z vyhledávačů používají externí vyhledávací algoritmy.

Kvantitativní data z vyhledávače Google

Počet uživatelů internetu a vyhledávačů a požadavky uživatelů na tyto systémy neustále rostou. Pro zvýšení rychlosti vyhledávání potřebných informací obsahují velké vyhledávače velké množství serverů. Servery jsou obvykle seskupeny do serverových center (datových center). Populární vyhledávače mají serverová centra rozesetá po celém světě.

V říjnu 2012 Google spustil projekt Where the Internet Lives, kde uživatelé dostávají možnost seznámit se s datovými centry společnosti [26] .

Vyhledávač Google ví o práci datových center následující [27] :

Celková kapacita všech datových center Google byla k roku 2011 odhadována na 220 MW.
Když Google v roce 2008 plánoval otevřít nový komplex tří budov v Oregonu o celkové rozloze 6,5 milionu metrů čtverečních, Harper's Magazine vypočítal, že tak velký komplex spotřebuje přes 100 MW elektřiny, což je srovnatelné se spotřebou energie město s 300 000 lidmi.
Odhadovaný počet serverů Google v roce 2012 je 1 milion.
Výdaje datových center společnosti Google byly v roce 2006 1,9 miliardy dolarů a v roce 2007 2,4 miliardy dolarů.

Velikost World Wide Web indexovaného společností Google k prosinci 2014 je přibližně 4,36 miliardy stránek [28] .

Vyhledávače, které berou v úvahu náboženská tabu

Globální rozšíření internetu a rostoucí popularita elektronických zařízení v arabském a muslimském světě, zejména v zemích Blízkého východu a na indickém subkontinentu , přispěly k rozvoji lokálních vyhledávačů, které zohledňují islámské tradice. Takové vyhledávače obsahují speciální filtry, které uživatelům pomáhají vyhnout se přístupu na zakázané stránky, jako jsou stránky s pornografií, a umožňují jim používat pouze stránky, jejichž obsah není v rozporu s islámskou vírou.

Krátce před muslimským měsícem ramadánu , v červenci 2013, byl světu představen Halalgoogling , systém, který uživatelům poskytuje pouze halal „správné“ odkazy [29] filtrováním výsledků vyhledávání obdržených z jiných vyhledávačů, jako je Google a Bing . . O dva roky dříve, v září 2011, byl spuštěn vyhledávač I'mHalal, který měl sloužit uživatelům na Blízkém východě. Tato pátrací služba však musela být podle majitele brzy uzavřena kvůli nedostatku financí [30] .

Nedostatek investic a pomalé tempo šíření technologií v muslimském světě brzdí pokrok a brání úspěchu seriózního islámského vyhledávače. Selhání obrovských investic do muslimských lifestylových webových projektů, z nichž jeden byl Muxlim , je evidentní . Obdržel miliony dolarů od investorů, jako je Rite Internet Ventures, a nyní – podle poslední zprávy od I'mHalal před jejím vypnutím – přichází s pochybnou myšlenkou, že „příští Facebook nebo Google se mohou objevit pouze na Blízkém východě pokud podpoříte naši skvělou mládež“ .

Nicméně islámští internetoví experti se už roky zabývají definováním toho, co je nebo není v souladu se šaríou , a klasifikují webové stránky jako „ halal “ nebo „ haram “. Všechny dřívější a současné islámské vyhledávače jsou pouze speciálně indexovanou sadou dat, nebo jsou to hlavní vyhledávače jako Google, Yahoo a Bing s nějakým filtrovacím systémem používaným k zabránění uživatelům v přístupu na stránky haraam, jako jsou stránky o nahotě, LGBT , hazardní hry a jakýkoli jiný předmět, který je považován za protiislámský .

Mezi dalšími nábožensky orientovanými vyhledávači jsou běžné Jewogle, židovská verze Google, a SeekFind.org, křesťanská stránka, která obsahuje filtry, které uživatelům brání od obsahu, který by mohl podkopat nebo oslabit jejich víru [31] .

Osobní výsledky a filtrační bubliny

Mnoho vyhledávačů, jako je Google a Bing, používá algoritmy k selektivnímu odhadu, jaké informace by uživatel chtěl vidět na základě jeho minulých aktivit v systému. V důsledku toho webové stránky zobrazují pouze informace, které jsou v souladu s dřívějšími zájmy uživatele. Tento efekt se nazývá „filtrační bublina“ [32] .

To vše vede k tomu, že uživatelé dostávají mnohem méně informací, které jsou v rozporu s jejich úhlem pohledu, a stávají se intelektuálně izolovanými ve své vlastní „informační bublině“. „Bublinový efekt“ tedy může mít negativní důsledky pro utváření občanského mínění [33] .

Zkreslení vyhledávače

Ačkoli jsou vyhledávače naprogramovány tak, aby hodnotily webové stránky na základě určité kombinace jejich popularity a relevance, ve skutečnosti experimentální studie ukazují, že různé politické, ekonomické a sociální faktory ovlivňují SERP [34] [35] .

Tato zaujatost může být přímým důsledkem ekonomických a obchodních procesů: společnosti, které inzerují na vyhledávači, se mohou stát populárnějšími ve výsledcích organického vyhledávání na tomto vyhledávači. Odstranění výsledků vyhledávání, které nejsou v souladu s místními zákony, je příkladem vlivu politických procesů. Google například nebude zobrazovat některé neonacistické weby ve Francii a Německu, kde je popírání holocaustu nezákonné [36] .

Zaujatost může být také důsledkem sociálních procesů, protože algoritmy vyhledávačů jsou často navrženy tak, aby vylučovaly neformátovaná hlediska ve prospěch „populárnějších“ výsledků [37] . Indexační algoritmy velkých vyhledávačů upřednostňují americké weby [35] .

Vyhledávací bomba je jedním z příkladů pokusu zmanipulovat výsledky vyhledávání z politických, sociálních nebo komerčních důvodů.

Viz také

Poznámky

↑ Systém vyhledávání / D. V. Barashev, N. S. Vasilyeva, B. A. Novikov // Velká ruská encyklopedie : [ve 35 svazcích] / kap. vyd. Yu. S. Osipov . - M .: Velká ruská encyklopedie, 2004-2017.
↑ Chu & Rosenthal, 1996 , s. 129.
↑ Tarakeswar & Kavitha, 2011 , str. 29.
↑ Servery World Wide Web .
↑ Co je nového .
↑ Oscar Nierstrasz .
↑ Archiv NCSA .
↑ Yahoo! A Netscape .
↑ Netscape, 1996 .
↑ Dynamika konkurence, 2001 .
↑ Úvod do informatiky .
↑ 1 2 Historie Google .
↑ Brin and Page , str. 3.
↑ Nigma .
↑ 1 2 3 Risvik & Michelsen, 2002 , str. 290.
↑ 1 2 3 4 5 6 Knowledge Management, 2011 .
↑ Tarakeswar & Kavitha, 2011 , str. 29.
↑ NMS .
↑ Statistika .
↑ Celosvětový podíl na trhu vyhledávačů . StatCounter Globální statistika . Staženo 21. prosince 2020. Archivováno z originálu 10. prosince 2020.
↑ Celosvětový podíl na trhu vyhledávačů . StatCounter Globální statistika . Získáno 9. ledna 2022. Archivováno z originálu 10. prosince 2020.
↑ Naver .
↑ Webový tým OII. Age of Internet Empires (anglicky) . Informační geografie . Získáno 2. března 2022. Archivováno z originálu dne 2. března 2022.
↑ Živý internet .
↑ Živý internet . Staženo 2. ledna 2018. Archivováno z originálu 19. února 2019. (neurčitý)
↑ Kde žije internet .
↑ Antula .
↑ Velikost World Wide Web .
↑ Islám .
↑ Jsem Halal . Staženo 28. 5. 2018. Archivováno z originálu 29. 5. 2018. (neurčitý)
↑ ChristianNews .
↑ Pariser, 2011 .
↑ Auralist, 2012 , str. 13.
↑ Segev, 2010 .
↑ 1 2 Zkreslení pokrytí vyhledávačů, 2004 .
↑ Náhrada Google .
↑ Shaping the Web, 2000 .

Literatura

Ashmanov I. S. , Ivanov A. A. Propagace webových stránek ve vyhledávačích. — M. : Williams , 2007. — 304 s. - ISBN 978-5-8459-1155-1 .
Baikov V.D. Internet. Hledejte informace. Propagace webových stránek. - Petrohrad. : BHV-Petersburg , 2000. - 288 s. - ISBN 5-8206-0095-9 .
Kolisnichenko D. N. Vyhledávací systémy a propagace stránek na internetu. - M . : Dialektika , 2007. - 272 s. — ISBN 978-5-8459-1269-5 .
Lande DV Hledejte znalosti na internetu. - M . : Dialektika , 2005. - 272 s. — ISBN 5-8459-0764-0 .
Lande D. V., Snarsky A. A. , Bezsudnov I. V. Internet: Navigace ve složitých sítích: modely a algoritmy . — M.: Librokom (Editorial URSS), 2009. — 264 s. — ISBN 978-5-397-00497-8 .
Chu H., Rosenthal M. Vyhledávače pro World Wide Web: Srovnávací studie a metodika hodnocení // Proceedings of the Annual Meeting of the American Society for Information Science: journal. - 1996. - Sv. 33 . - str. 127-135 .
Gandal, Neil. Dynamika konkurence na trhu internetových vyhledávačů. - 2001. - Sv. 19. - S. 1103-1117. - doi : 10.1016/S0167-7187(01)00065-0 .
Introna LD, Nissenbaum H. Formování webu: Proč na politice vyhledávačů záleží // The Information Society: An International Journal. - 2000. - Sv. 16. - doi : 10.1080/01972240050133634 .
Jawadekar, Waman S. 8. Knowledge Management: Nástroje a technologie // Knowledge Management: Text & Cases. - Nové Dillí: Tata McGraw-Hill Education Private Ltd, 2011. - S. 278. - 319 s. - ISBN 978-0-07-07-0086-4 .
Pariser E. Filtrační bublina: Co před vámi skrývá internet. - NY: Penguin Group, 2011. - 257 s. — ISBN 978-0-14-196992-3 .
Risvik KM, Michelsen R. Vyhledávače a dynamika webu (anglicky) // Computer Networks: journal. - 2002. - Sv. 39 , č. 3 . - str. 289-302 . Archivováno z originálu 29. listopadu 2014.
Segev El. Google a digitální propast: Předsudky online znalostí. — Oxford: Chandos Publishing. - 2010. - 171 s. — ISBN 978-1-84334-565-7 .
Tarakeswar MK, Kavitha MD Search Engines: A Study (anglicky) // Journal of Computer Applications (JCA): journal. - 2011. - Sv. 4 , ne. 1 . - str. 29-33 . — ISSN 0974-1925 .
Vaughan L., Thelwall M. Zkreslení pokrytí vyhledávačů: důkazy a možné příčiny // Information Processing & Management : journal. - 2004. - Sv. 40. - S. 693-707. - doi : 10.1016/S0306-4573(03)00063-3 .
Zhang, Seaghdha, Quercia, Jambor. Auralist: zavedení náhody do doporučení hudby // ACM WSDM. - 2012. - S. 13-22 . — ISSN 978-1-4503-0747-5 . - doi : 10.1145/2124295.2124300 . Archivováno z originálu 29. listopadu 2014.
Nabídky prohlížeče Push Netscape Stock Up 7,8 % // Los Angeles Times: journal. — 1996.

Odkazy

Co je nového!: únor 1994 . home.mcom.com. Staženo: 14. května 2012. (neurčitý)
Servery World Wide Web . W3.org. Staženo: 14. května 2012. (neurčitý)
Anatomie velkého hypertextového webového vyhledávače . (neurčitý)
Živé internetové statistiky . Živý internet. Staženo: 4. června 2014. (neurčitý)
Arthur, Charles. Čínské technologické společnosti se chystají ovládnout svět . The Guardian (3. června 2014). Staženo: 4. června 2014. (neurčitý)
Nahrazení Googlu alternativními vyhledávacími systémy v Číně: Dokumentace a snímky obrazovky . Berkmanovo centrum pro internet a společnost (2002). (neurčitý)
Emma Barnettová. Koogle, košer Google, spouští . The Telegraph (15. června 2009). Staženo: 9. prosince 2014.
Počet serverů Google bude 10 milionů . ITUA.info. Staženo: 28. října 2009. (neurčitý)
Velikost World Wide Web . (neurčitý)

Slovníky a encyklopedie	Skvělý norský Universalis
V bibliografických katalozích	J9U : 987007546957505171 LCCN : sh97007463 NKC : ph250788

Vyhledávače a stroje _
Všeobecné	Ask.com (Ask Jeeves, mechanismus Teoma ) Blekko Cuil (zavřeno) DuckDuckGo Exalead Gigablast Google Bing (Live Search/MSN Search) Qwant Yahoo! Vyhledávání Inktomi AltaVista (zavřeno) celý web ) Yandex.Search Aliweb Lycos
Regionální	Accoona (Čína/USA) Alleba (Filipíny) Ansearch (Austrálie/USA/Spojené království/Nový Zéland) Aport (Rusko, uzavřeno) Daum (Jižní Korea) Guruji.com (Indie) [email protected] (Rusko) Maktoob (Bl. East) META (Ukrajina, uzavřeno) Miner.hu (Maďarsko) Najdi.si (Slovinsko) Onkosh (Bl. East) Rambler-Poisk (Rusko, uzavřeno) Rediff (Indie) SAPO (Portugalsko) Search.ch (Švýcarsko) Sesam (Norsko/Švédsko) Seznam.cz (Česká republika) Sputnik (Rusko, uzavřeno) Walla! (Izrael)
vůdci	Baidu (Čína) Naver (Jižní Korea) Yahoo! Japonsko (Japonsko) Yandex.Search (Rusko)
Tematický	TinEye UniPage Lexxe Topsy FindBook.ru
Metasearch	AskNet Brainboost Clusty Dogpile exactus.ru Ecosia Rozrušit FarSEER hotbot info.com Ixquick Krozilo Máma Metacrawler MetaLib Nigma (zavřeno) Myriad vyhledávání boční krok Surfový vosk Turbo 10 webový prohledávač GlobalFileSearch
otevřeno / zdarma	DataparkSearch Egothor Gonzui Grub http://dig saranče Hledám Lucene Lemur Toolkit a vyhledávač Indri mnoGoSearch Namazu Nutch OpenFTS Sciencenet (vědecký, založený na technologii YaCy ) Vyhledávání Wikia Sfinga SWISH-E Vyhledávač teriérů Xapian YaCy Zettair VuFind
Dítě	AGAKIDS (Rusko) Ask Kids (Spojené království) Frag Finn (Německo) Kids AOL (USA) Děti Yahoo! (USA) Quintura Kids (Rusko) Rodinný Yandex (Rusko) Gogul (Rusko)

Web a webové stránky
globálně	Celosvětový web Web 1.0 Web 2.0 Web 3.0 sémantický web Neuronet
Lokálně	webová stránka Portál Strana Servis Prsten
Typy stránek a služeb	Virtuální atlas bannerová síť Knihovna Blog ( platforma ) Video hosting Wiki Web vizitky Otázka odpověď Záložky seznamovací služby prohlížečová hra Adresář zdrojů Internetový obchod mikroblog zpravodajský web Vyhledávací systém porno stránky Webmail Sociální síť Tumblelog BitTorrent tracker Hosting souborů Fórum Servis Imageboard Hosting fotografií Povídat si
Tvorba a údržba	Mistr Rozvoj Design Rozložení Programování Použitelnost Interakční zkušenost Propagace webových stránek Optimalizace pro vyhledávače (SEO) Hosting Správce systému moderátor Účet Povolení
Typy rozložení, stránek, webů	Statický Dynamický Pevný Pryž dynamicky elastické Adaptivní
Technický	webový server Prohlížeč DNS CMF CMS HTTP ( odpovědi záhlaví ) SPDY QUIC CGI HTML XHTML css PHP JavaScript DHTML cookie DOM XML AJAX JSON Blikat RSS atom informátor Mikroformát favicon.ico _ robots.txt Soubory Sitemap mapa stránek .htaccess
Marketing	Internetový marketing Internetová reklama Prapor kontextová reklama Teaser Cybersquatting
Společnost a kultura	blogosféra internetová komunita ( okres ) Síťová literatura

Vyhledávání informací na internetu
Nástroje	Vyhledávací systém Metasearch engine vyhledávač
Indexování	Hledat index Indexování ve vyhledávačích Vyhledávací robot Standardní výjimka robota
Žádost	Vyhledávací dotaz Jazyk dotazu
výsledky vyhledávání	Stránka s výsledky vyhledávání V rozsahu Relevantnost PageRank Optimalizace pro vyhledávače
jiný	Vertikální vyhledávání Vyhledávání informací sociální vyhledávání Marketing ve vyhledávání opensearch Archivace webu Offline prohlížeč WAIS