Link analysis nebo link analysis (z anglického "link analysis") je metoda analýzy dat používaná v rámci síťové analýzy k vyhodnocení vztahů (vazeb) mezi uzly (objekty / aktéry) . Vztahy mohou být definovány pro různé typy uzlů: lidé, organizace, operace atd. Termín „analýza odkazů“ (jedna z možností překladu: „analýza vztahů“) se týká procesu analýzy celkových vztahů mezi různými objekty sítě. aby bylo možné identifikovat jeho vlastnosti .
Zpočátku byla tato metoda využívána k potírání kriminality, především podvodů a terorismu, pro účely kontrarozvědky a optimalizace nástrojů informační bezpečnosti . Později tato metoda našla uplatnění v marketingovém a lékařském výzkumu a také při optimalizaci algoritmů vyhledávačů .
Tato metoda patří do skupiny metod Data Mining . Jedná se o skupinu iterativních a interaktivních algoritmů pro detekci, analýzu a vizualizaci různých vzorců v datech. Linková analýza patří do této skupiny algoritmů a stejně jako většina metod v této skupině je implementována v následujících krocích[ styl ] [1] : Sběr dat, zpracování dat , analýza dat a vizualizace dat .
Klerks rozlišil tři [2] období ve vývoji nástrojů pro implementaci Link Analysis. První generace byla představena v roce 1975 jako Anacpapa Chart autory Harper a Harris [3] . Tato metoda je implementována následovně: Výzkumník zpracovává dostupná data, označující vztahy mezi aktéry formou interakční matice. Poté výzkumník sestaví vhodný graf pro vizualizaci dat a nakonec analyzuje výslednou síť a určí ukazatele centrality (zájmové vzory). Tato metoda je extrémně časově náročná při zvažování velkého množství dat.
Druhá generace nástrojů poskytla možnost automatizovat konstrukci grafů pro odpovídající matice interakcí, ale zadávání dat bylo stále nutné provádět ručně. Postupy analýzy dat rovněž vyžadovaly aktivní účast výzkumníka s potřebnou znalostní základnou.
Třetí generace nástrojů také poskytuje schopnost automaticky vizualizovat vztahy mezi aktéry. Navíc se objevují nástroje , které umožňují vizuálně komprimovat velké množství dat do kompaktních svazků, což zjednodušuje vizuální analýzu dat pro složité modely. Výpočet hlavních ukazatelů centrality byl rovněž prováděn automaticky.
Při sběru síťových dat, zejména při opravování přítomnosti či nepřítomnosti sociálních vazeb, se ve většině případů využívají reporty respondentů. Obvykle se taková data získávají tak, že respondent požádá, aby uvedl ty agenty, s nimiž má on nebo organizace, ke které patří, přímé kontakty. Typ (resp. typ) těchto spojů je předem specifikován a závisí na cílech studie. Když je populace omezená (počet aktérů – prvků budoucí sítě je malý), mohou být respondenti požádáni, aby jednoduše uvedli své kontakty, ale častěji se používají jiné metody. Holland a Lenhardt [4] použili:
Systematičtěji je technika sběru síťových dat znázorněna v Burtově postupu [5] , kde nejprve byla pomocí jednoho nebo více parametrů identifikována příslušnost k respondentské síti a poté byly v závislosti na datech získány další výsledky, které vysvětlovaly takovou dohoda. Byly studovány následující vlastnosti sítí:
Při studiu meziorganizačních interakcí se doporučuje neomezovat se pouze na výpovědi pouze jednoho z informátorů, problém výběru respondentů narůstá přímo úměrně s šířkou specializace dané organizace. Pro malou studii bude zcela dostačující vysoce kvalitní síťová zpráva od jednoho agenta organizace, ale takové zprávy by měly být použity ke studiu těch typů interakcí, které odrážejí pouze jednu stránku činnosti informátora. Při analýze organizací je však lepší analyzovat informace získané ze zpráv několika agentů a také podložené dokumenty organizace (dopisy, poznámky, zprávy, zápisy z jednání).
Ke sběru vysoce kvalitních síťových dat jsou zapotřebí značné zdroje. Archivní prameny jsou mnohem levnější a jednou z jejich výhod je, že umožňují retrospektivní výzkum a sledují vývoj studovaných sítí. Analýza odkazů jako nástroj pro dolování dat úzce souvisí s další oblastí analýzy dat Text mining .
Výsledkem sběru a zpracování empirických dat jsou formalizované matice interakce mezi aktéry zkoumané sítě.
Na základě přijatých dat ve formě interakční matice je sestaven odpovídající graf znázorňující vztahy aktérů v síti.
Někteří výzkumníci [6] upozorňují, že kromě vysokého rizika získání subjektivního hodnocení sítě od informátorů existuje riziko subjektivního vnímání dat, která výzkumník obdrží, a tedy i analýza stejných informací může vést k různé závěry.
Přesto existuje řada obecně uznávaných technik pro posuzování vlastností sítě a vazeb mezi jejími aktéry.
Velikost sítěHlavním ukazatelem vyjadřujícím velikost sítě je počet přímých linek zahrnutých v jednotlivých spojeních. Velikost sítě se může lišit od minimální hodnoty 1 (2 vrcholy v grafu) po maximální možnou hodnotu (g-1) , kde g je počet vrcholů grafu.
Hustota sítěObvykle je chápána jako významná síla konektivity mezi asociacemi v síti nebo (pro dichotomická měření) poměr existujících a možných spojení.
Hustotu spojení neorientovaného grafu lze vypočítat pomocí vzorce:
, kde L je počet pozorovaných odkazů v daném grafu nebo podgrafu.
Hustota spojení v orientovaném grafu se vypočítá podle vzorce:
.
S pomocí hustoty je však poměrně problematické odhalit strukturální vazby, pokud má síť podskupiny, a při změně velikosti sítě může dojít k transformaci hustoty.
Centralizace a centralizace [7] Měření stupně centralityPři tomto přístupu je důležitý počet herců, se kterými je tento herec spojen. V nejjednodušším případě jde jednoduše o počítání počtu hereckých spojení pomocí následujícího vzorce:
.
Aby bylo možné porovnat míru centrality aktéra nejen v rámci stejné sítě, ale také mezi sítěmi různých struktur, je nutné vypočítat standardizovaný odhad centrality pomocí následujícího vzorce:
.
Můžete také vypočítat stupeň centrality pro celou síť:
.
Často je nutné porovnat různé struktury a určit, která z nich poskytuje nejlepší centralizaci aktérů. K tomu existuje vzorec pro výpočet normalizovaného stupně centrality pro celou síť:
.
Hustota centralityTento přístup měří hustotu centrality – jak blízko je herec k ostatním aktérům. To znamená, že u tohoto přístupu je ústřední pozice, ze které je potřeba udělat minimální počet kroků na všechny ostatní pozice ve skupině.
Hustota centrality aktéra se měří takto:
.
Zde je uveden počet spojení mezi herci a . Maximální hodnota indexu je . Koeficient hustoty centrality normalizovaného aktéra se tedy vypočítá podle následujícího vzorce:
Normalizovaná hustota centrality sítě se vypočítá podle vzorce:
Centralita jako zprostředkování
V rámci tohoto přístupu je centralita chápána jako kontrola vztahů mezi určitými pozicemi. Je-li tedy nejkratší vzdálenost mezi aktéry n 2 a n 3 n 2 , n 1 , n 4 a n 3 , pak polohy n 1 a n 4 jsou řídící vzhledem k dvojici aktérů n 2 a n 3 .
Centralitu mediace aktérů lze vypočítat pomocí vzorce:
Zde je počet nejkratších cest, které procházejí hercem . Protože maximální počet vazeb mezi všemi vrcholy grafu je roven
.
Standardizované skóre centrality sítě lze vypočítat pomocí následujícího vzorce:
.
EkvivalenceČasto se při popisu strukturálních vlastností sítě uchýlí ke konceptu strukturální podobnosti jednotlivých aktérů. Identifikace strukturálně podobných pozic nám umožňuje zjednodušit graf kombinací aktérů podobných strukturou do nových, korporátních aktérů. V souladu s tím se k identifikaci ekvivalence mezi dvěma pozicemi obvykle používá následující vzorec navržený Burtem [8] :