Algoritmus HITS

Algoritmus  HITS ( Hyperlink Induced Topic Search ), navržený v roce 1999 Johnem Kleinbergem , umožňuje najít internetové stránky, které odpovídají dotazu uživatele na základě informací obsažených v hypertextových odkazech [1] .

Metrika HITS se často používá k zodpovězení širokých témat a hledání komunit dokumentů ( angl.  Tightly-Knit Community ) na internetu . Myšlenka algoritmu je založena na předpokladu, že hypertextové odkazy kódují značné množství skrytých autoritních stránek [2] .

Směrodatný dokument (směrodatná stránka, autor)  je dokument odpovídající požadavku uživatele, který má větší podíl mezi dokumenty tohoto subjektu, tj. na tento dokument odkazuje větší počet dokumentů [1] .

Hub dokument (hubová stránka, zprostředkovatel)  je dokument obsahující mnoho odkazů na autoritativní dokumenty.

Stránka, na kterou odkazuje mnoho dalších bodů, musí být dobrým „autorem“. Stránka, která odkazuje na mnoho dalších, by zase měla být dobrým „prostředníkem“. Na základě toho algoritmus HITS vypočítá dvě skóre pro každou webovou stránku : skóre autority a skóre prostředníka. To znamená, že pro každou stránku se rekurzivně vypočítá její význam jako „autora“ a „prostředníka“ [3] [4] .

Algoritmus

Prvním krokem v algoritmu HITS je získání nejrelevantnějších stránek ve vyhledávacím dotazu . Tato sada se nazývá kořenová sada a lze ji získat převzetím nejoblíbenějších n stránek vrácených algoritmem textového vyhledávání. Základní sada je tvořena inkrementací kořenové sady se všemi webovými stránkami , které jsou na ni propojeny, a některými stránkami, které na ni odkazují. Webové stránky v základní sadě a všechny hypertextové odkazy mezi těmito stránkami tvoří soustředěný podgraf. Výpočty HITS se provádějí pouze na tomto podgrafu.

Skóre autoritního dokumentu a zprostředkovatele jsou vzájemně definovány ve vzájemné rekurzi . Skóre autority stránky se vypočítá jako součet skóre proxy stránek, které na danou stránku odkazují. Hodnota skóre prodejce se vypočítá jako součet skóre autoritativních stránek, na které odkazuje.

Algoritmus provádí řadu iterací , z nichž každá se skládá ze dvou hlavních kroků:

Skóre autority a skóre zprostředkování pro vrchol se vypočítá pomocí následujícího algoritmu:

Detailing

Chcete-li zahájit hodnocení, , a . Zvažte dva typy aktualizací: pravidlo aktualizace autority a aktualizaci centra. K výpočtu skóre autority/proxy se použijí opakované iterace pravidel aktualizace autority a aktualizace centra . K-krok aplikace algoritmu znamená použití prvního pravidla aktualizace autority kkrát a poté pravidla aktualizace centra.

Pravidlo aktualizace oprávnění

, dostaneme = kde n je celkový počet stránek propojených s p a i je stránka propojená s p. Skóre autority stránky se tedy vypočítá jako součet hodnot skóre zprostředkujících stránek, které na tuto stránku ukazují.

Pravidlo aktualizace hubu

, dostaneme = kde n je celkový počet stránek, na které ukazuje p a i je stránka, na kterou ukazuje p. Skóre proxy stránky se tedy vypočítá jako součet skóre autority stránek, na které odkazuje.

V závislosti na těchto hodnotách je vypočítána důležitost webových stránek pro konkrétní požadavek a následně zobrazena uživateli. Modul HITS Rank vypočítá hodnocení webové stránky offline poté, co byly staženy a uloženy do lokální databáze. [5]

Normalizace

Konečné skóre vrcholů se určí po nekonečném opakování algoritmu. Přímá a konzistentní aplikace pravidel aktualizace centra a aktualizace autority vede k odlišným hodnotám, které je třeba po každé iteraci normalizovat pomocí matice. Hodnoty získané tímto procesem tedy nakonec konvergují.

Algoritmus HITS a PageRank

Algoritmus HITS má několik důležitých rozdílů od algoritmu PageRank . [6]

Navzdory rozdílům mezi HITS a PageRank mají tyto algoritmy společné to, že autorita (váha) uzlu závisí na váze ostatních uzlů a úroveň „prostředníka“ závisí na tom, jak autoritativní jsou uzly, na které odkazuje.

Výpočet autority jednotlivých dokumentů je dnes široce používán v aplikacích, jako je určování pořadí skenování dokumentů v síti robotem IPS , řazení výsledků vyhledávání, generování tematických recenzí atd.

V současné době se rozšířily technologie pro umělé zvyšování hodnocení jednotlivých webových dokumentů nebo jejich skupin webových stránek zřizováním hypertextových odkazů, které nesouvisejí s jejich obsahem . Tyto technologie, které jsou nespolehlivou řadou SEO metod optimalizace pro vyhledávače ( Search Engine Optimization ), nazývané „black hat“ SEO, jsou založeny na přizpůsobení se stávajícím algoritmům pro hodnocení webových dokumentů podle nejpopulárnějších ( vyhledávačů ).  

Tyto technologie zase vedou k potřebě neustálého zlepšování hodnotících algoritmů ve vyhledávačích se zaměřením na obsahovou složku webových dokumentů při určování jejich hodnocení. [čtyři]

Nevýhody HITS

Při vyhodnocování algoritmu HITS bylo provedeno mnoho výzkumů a ukázalo se, že zatímco algoritmus funguje dobře pro většinu dotazů, pro některé jiné nefunguje. Důvodů je několik [7] :

Není vhodné jasně rozlišovat mezi „zprostředkovateli“ a „autory“, protože mnoho zprostředkovatelských stránek je také autory.

Dominantní umístění některých tematicky úzce souvisejících dokumentů v důsledku algoritmu HITS. V některých případech nemusí být tyto dokumenty pro žádost relevantní . V jednom případě, kdy byl vyhledávacím prvkem „Jaguar“, algoritmus HITS konvergoval k fotbalovému týmu zvanému Jaguáři.

K vyřešení tohoto problému byl navržen algoritmus PHITS [4] jako rozšíření standardního algoritmu HITS. V rámci tohoto algoritmu se předpokládá:  — soubor citujících dokumentů,  — soubor odkazů,  — soubor tříd (faktorů). Rovněž se předpokládá, že událost nastane s pravděpodobností . Podmíněné pravděpodobnosti a se používají k popisu závislostí mezi přítomností odkazu , latentním faktorem a dokumentem .

Funkce pravděpodobnosti se odhaduje :

,

Cílem algoritmu PHITS je přizpůsobit , , maximalizovat .

Poté:

– řady „autorů“; – řady „zprostředkovatelů“.

Chcete-li vypočítat hodnocení, musíte zadat počet faktorů v sadě a pak bude charakterizovat kvalitu stránky jako "autor" v kontextu tématu. Mezi nevýhody metody patří skutečnost, že iterační proces se nejčastěji nezastaví na absolutním, ale na lokálním maximu věrohodnostní funkce . V situacích, kdy v množině nalezených webových stránek není jasná dominance předmětu dotazu, však PHITS překonává algoritmus HITS.

Některé z odkazů jsou generované počítačem, ale algoritmus HITS jim stále dává stejné hodnoty.

Některé dotazy mohou vrátit irelevantní dokumenty na vysoké místo v žebříčku, což vede k chybným výsledkům algoritmu HITS.

Poznámky

  1. 1 2 Krizhanovsky, 2008 , s. 27.
  2. Metrika HITS, 2005 , str. 55.
  3. Kleinberg, 1999 .
  4. 1 2 3 Algorithm HITS, 2009 .
  5. Centrály a úřady, 2010 , s. 5.
  6. PageRank and HITS, 2010 , str. 257.
  7. Problémy s algoritmem HITS, 2011 , str. 255.

Literatura