Sociální graf

Aktuální verze stránky ještě nebyla zkontrolována zkušenými přispěvateli a může se výrazně lišit od verze recenzované 4. ledna 2021; kontroly vyžadují 2 úpravy .

Sociální graf  je graf , jehož uzly jsou reprezentovány sociálními objekty, jako jsou uživatelské profily s různými atributy (například: jméno, narozeniny, rodné město), komunity , mediální obsah atd., přičemž okraje jsou sociální vazby mezi nimi [ 1] [2] .

Implicitní sociální graf  je graf, který lze generovat (odvozovat, vypočítat) na základě interakcí uživatelů s jejich „přáteli“ a skupinami „přátel“ v sociální síti. V tomto grafu, na rozdíl od obvyklého sociálního grafu, není žádná explicitní indikace „přátel“, to znamená, že neexistují žádné zřejmé sociální vazby [3] .

Vlastnosti sociálního grafu jsou charakterizovány takovými metrikami, jako jsou: metriky vztahu , metriky spojení a metriky segmentace . K řešení problémů na sociálním grafu se používají speciální modely, kterými lze nahradit „skutečné“ grafy . Pomocí sociálních grafů řeší takové problémy jako: identifikace uživatele ; sociální vyhledávání ; generování doporučení k výběru „přátel“, mediálního obsahu, zpráv a podobně ; odhalování „skutečných“ spojení nebo shromažďování otevřených informací pro modelování grafů. Zpracování dat sociálních grafů je spojeno s řadou problémů , jako jsou rozdíly v sociálních sítích , blízkost sociálních dat .

Metriky

V úlohách na sociálním grafu se používá pojem metriky - ukazatele, které číselně zobrazují charakteristiky sociálních objektů, segmentů, skupin objektů a jejich vztahů. Tyto metriky se používají při provádění analýzy sociálních sítí .

Vztahy

Metriky vztahu odrážejí povahu vztahu jednoho sociálního objektu s jinými sociálními objekty.

Homofilie [4]  je míra, do jaké si uživatel vytváří vazby s podobnými lidmi. Podobnost lze určit podle pohlaví, věku, sociálního postavení, úrovně vzdělání atd. [5] .

Násobnost – počet „vícenásobných“ vztahů, ve kterých se uživatelé nacházejí [6] . Například dva uživatelé, kteří jsou přátelé a spolupracují, budou mít "násobek" 2 [7] . "Multiple" je spojeno s "sílou spojení."

Reciprocita – míra, do jaké se uživatelé vzájemně ovlivňují, vzájemně si oplácejí své činy [8] . Soukromí v síti je míra, do jaké jsou přátelé uživatele mezi sebou. Říká se tomu také „míra úplnosti relačních triád “. Předpoklad, že uživatel je v uzavření sítě, se nazývá tranzitivita . [9] . Sousedství – tendence uživatelů mít velké množství spojení s geograficky blízkými uživateli [8] .

Odkazy

Metriky odkazů odrážejí vlastnosti odkazů, a to jak pro jednotlivé sociální objekty, tak pro graf jako celek.

Most je uživatel, jehož slabé články vyplňují „strukturální díry“ a poskytují jediné spojení mezi ostatními uživateli nebo klastrmi (skupinami uživatelů). Také jím bude procházet nejkratší cesta [10] .

Centralita  – stupeň, který ukazuje „důležitost“ nebo „vliv“ konkrétního uživatele (shluku uživatelů) v rámci grafu [11] [12] . Standardní metody měření centrality jsou centralita zprostředkování , centralita blízkosti , centralita vlastního vektoru , centralita alfa a centralita stupně [13] .

Hustota je podíl přímých spojení v síti v poměru k celkovému počtu možných [14] [15] . Vzdálenost je minimální počet odkazů potřebný k vytvoření vztahu mezi dvěma odlišnými uživateli. Strukturální díry představují nedostatek spojení mezi dvěma částmi sítě.

Síla spojení je určena lineární kombinací času, blízkosti a reciprocity [10] , čím větší je hodnota pevnosti spojení, tím je pevnější. Silné vazby jsou definovány jako „homofilie“, „přilehlost“ nebo „tranzitivita“, zatímco slabé vazby jsou definovány jako „mosty“.

Segmentace

Segmentační metriky odrážejí charakteristiky sociálního grafu rozděleného do segmentů, které mají charakteristické rysy.

Klika  je skupina, ve které mají všichni uživatelé „přímé“ vazby (vrcholy jsou spojeny (spojeny) hranou) navzájem [16] . Sociální kruh je skupina, ve které není vyžadováno „přímé“ spojení mezi uživateli [17] .

Shlukovací koeficient je míra pravděpodobnosti, že jsou také spojeni dva různí uživatelé spojení s konkrétním jedincem. Vysoký koeficient shlukování indikuje vysoké uzavření skupiny, jinými slovy, skupina může být "klikou".

Soudržnost je míra, do jaké jsou uživatelé spojeni společným poutem, které tvoří sociální soudržnost . Strukturální soudržnost - označuje takovou jednotnou strukturu skupiny, že odstranění malého počtu uživatelů vede k přerušení skupiny [16] .

Modely

Některé známé grafové modely mohou nahradit „skutečné“ sociální grafy [18] .

Funkčně řízené modely mají za cíl reprodukovat statistické charakteristiky grafu, jako je rozložení mocnin a dynamické změny hustoty grafu, jako je Barabasi-Albertův model a model hořícího lesa .

Záměrně řízené modely jsou zaměřeny na emulaci procesu tvorby původního grafu, tato třída modelů zahrnuje náhodné procházení a náhodné procházky, model nejbližšího souseda.

Strukturou řízené modely zachycují statistická data ze struktury grafu, což umožňuje odpovídajícímu generátoru reprodukovat náhodné grafy se stejnými strukturálními omezeními. Mezi takové modely patří Kroneckerovy grafy , dK-grafy .

Úkoly

Identifikace uživatele - detekce profilů patřících jedné osobě ve více sociálních sítích [19] . Řešení tohoto problému umožňuje získat úplnější sociální graf, který může být užitečný v mnoha úlohách, jako je sociální vyhledávání a generování doporučení .

Vyhledávání sociálních objektů (uživatelů, jejich dat, jejich záznamů atd.) na základě analýzy množiny odkazů, které obsahují požadované objekty [20] .

Důležitým úkolem je nalezení přesných algoritmů pro generování doporučení a nabídek uživatelům, což se také používá k vytvoření grafu zájmu na základě sociálního grafu. Může se jednat o doporučení přátel (uživatelé zřídka rozdělují své kontakty do sociálních skupin, ale přesto tyto kontakty implicitně rozdělují do shluků prostřednictvím svých interakcí v rámci sociální sítě [21] ), doporučení obsahu (doporučení mediálního obsahu, komunit, zpráv atd.). .). dále [22] [ upřesněte  odkaz ] ). V systémech doporučování existují tradiční přístupy [23] [ specifikujte  odkaz ] :

Samostatnou výzvou je použití přístupu „ open source intelligence “ k identifikaci skutečných spojení mezi uživateli, tj. skutečnými přáteli, příbuznými atd. [25] .

Shromažďování informací

Konstrukce sociálního grafu na základě dat získaných jako výsledek analýzy webových služeb poskytovatelů sociálních sítí.

Pro hodnocení úkolu jsou stanovena následující kritéria [26] :

Výběr uzlů hraje při procházení důležitou roli: uzly jsou výchozím bodem procházení, je důležité vybrat správné uzly a pořadí fronty procházení, aby se předešlo špatné kvalitě stránky. Algoritmy výběru uzlů rozhodují o tom, který uzel zvolit jako další, mezi použitými algoritmy je vyhledávání do šířky , skupina chamtivých algoritmů .

Vzhledem k blízkosti sociálních dat můžete většinu sociálního grafu přeskočit, různé obtokové algoritmy ovlivňují takové uživatele různými způsoby. Různé sociální sítě mají navíc různé jedinečné vlastnosti, i když poskytují podobné služby, což také komplikuje úkol shromažďovat informace.

Problémy

Pro problém identifikace uživatelů jsou hlavním problémem rozdíly v sociálních sítích. Roli hraje především sémantika vztahů mezi sociálními objekty a sociálními grafy různých topologií [27] [ upřesněte  odkaz ] .

Hlavním problémem generování doporučení je problém studeného startu - výpočet doporučení pro nové sociální objekty (uživatele, příspěvky, mediální obsah a tak dále) [28] [ upřesněte  odkaz ] .

Hlavním problémem sběru dat pro sociální graf je blízkost sociálních sítí [29] . Za prvé, je obtížné získat sociální graf od „dodavatelů“ [30] kvůli hodnotě a právní ochraně sociálních údajů. Za druhé, velkým problémem je shromažďování milionů seznamů kontaktů, profilů, fotografií, videí a podobného obsahu pomocí scraperů . Mnoho „poskytovatelů“ sociálních médií používá model jedné stránky nebo mnoho dynamických stránek obsahujících Ajax a DHTML , což také vytváří mnoho problémů při vytváření flexibilního analyzátoru.

Poznámky

  1. Úloha identifikace uživatelů v sociálních sítích, 2012 , pp. 3.
  2. Sociální vyhledávání, 2010 , pp. 199.
  3. Navrhování přátel, 2010 , str. 2.
  4. Koncept homofilie, 2012 , pp. 168-169.
  5. Homofilie, 2001 , pp. 415-444.
  6. Pluralita, 1997 , pp. 673-693.
  7. Příklad plurality, 2003 .
  8. 1 2 Understanding Social Graphs, 2012 .
  9. Tranzitivita, 2010 , pp. 855-869.
  10. 1 2 Síla spojení, 1973 , str. 1360-1380.
  11. Centralita, 2010 , str. 32.
  12. Metrics for Basic Network Analysis, 2011 , pp. 364-367.
  13. Vertexová centralita, 2010 , pp. 245.
  14. Analýza sociálních sítí, 2006 , s. B-11-B-12.
  15. Sociální sítě: techniky a aplikace, 2010 , pp. 25.
  16. 1 2 Klikněte v analýze sociálních sítí, 2011 , str. 149.
  17. Metrics for Basic Network Analysis, 2011 , pp. 346-347.
  18. 1 2 Modely sociálních grafů, 2010 , pp. 3-4.
  19. Úloha identifikace uživatelů v sociálních sítích, 2012 , pp. 2-4.
  20. Sociální vyhledávání, 2010 , pp. 431.
  21. Navrhování přátel, 2010 , str. 2-7.
  22. Sledujte doporučení na sociálních sítích, 2012 , str. 34.
  23. Přístupy k doporučením, 2012 , pp. 8-13.
  24. Systémy doporučení založené na kolaborativním filtrování, 2002 , str. 187.
  25. OSINT, 2012 , s. 21-39.
  26. Crawling OSN, 2010 , pp. 1-7.
  27. Problémy úlohy identifikace uživatele, 2012 , pp. 13-17.
  28. Problém se studeným startem, 2012 , str. 5-11.
  29. Crawling OSN, 2010 , pp. jeden.
  30. Crawling OSN, 2010 , pp. 3.

Literatura