Koeficient podobnosti

Koeficient podobnosti (též míra podobnosti, index podobnosti) je bezrozměrný ukazatel podobnosti porovnávaných objektů. Také známý jako míra asociace, míra podobnosti atd.

V biologii se používá ke kvantifikaci stupně podobnosti biologických objektů (místa, regiony, jednotlivé fytocenózy , zoocenózy atd.). Používá se také v geografii, sociologii, rozpoznávání vzorů , vyhledávačích , srovnávací lingvistice, bioinformatice , chemoinformatice , porovnávání řetězců atd.

V širším slova smyslu hovoří o mírách blízkosti, které zahrnují: míry diverzity, míry koncentrace (homogenity), míry inkluze , míry podobnosti, míry rozdílu (včetně vzdáleností), míry kompatibility událostí, míry neslučitelnost událostí, opatření vzájemné závislosti , opatření vzájemné nezávislosti. Teorie měření blízkosti je v plenkách, a proto existuje mnoho různých představ o formalizaci vztahů blízkosti.

Většina koeficientů je normalizována a pohybuje se od 0 (žádná podobnost) do 1 (úplná podobnost). Podobnost a rozdíl se vzájemně doplňují (matematicky to lze vyjádřit takto: Podobnost = 1 − Rozdíl).

Koeficienty podobnosti lze podmíněně rozdělit do tří skupin v závislosti na tom, kolik objektů se bere v úvahu:

Unární koeficienty

Při studiu biologických objektů se široce využívají míry variability jak jednotlivých znaků, tak četnosti distribuce náhodných veličin. V nejjednodušším případě lze inventární (v rámci studovaného biosystému) diverzitu odhadnout podle druhové bohatosti nebo počtu druhů.

Nejčastěji používané míry diverzity [1] ( variační koeficient , indexy parametrické rodiny Renyi , včetně Shannonova indexu ; indexy Hillovy rodiny; indexy Margalefovy, Gleasonovy atd.). Méně často se používají koncentrační míry, které je doplňují (např. měr Kolmogorova , rožmberská disonanční míra ).

Binární kurzy

To jsou koeficienty nejpoužívanější v biologii a geografii [2] . Úplně  první koeficient podobnosti navrhl P. Jaccard v roce 1901  [ 3 ] :  a 2. místa . Následně byly navrženy různé koeficienty (míry, indexy) podobnosti v různých oblastech vědy. Nejpoužívanější (označení jsou stejná):

Alternativní zápis kontingenční tabulky je znám od R. R. Sokala ( Sokal ) a P. Sneatha ( Sneath ) [10] [11] :

Přítomnost druhu na 1. lokalitě Nedostatek výhledu na 1. místě
Přítomnost druhu na 2. stanovišti A b
Nedostatek výhledu na 2. místě C d

kde a  je počet druhů nalezených na obou lokalitách; b  je počet druhů nalezených na prvním místě odběru vzorků, avšak bez zohlednění výskytu běžných druhů; c  je počet druhů nalezených na druhém místě odběru vzorků, ale bez zohlednění výskytu běžných druhů.

Tato tabulka vytváří velký zmatek. To je často zaměňováno s podobnou statistickou křížovou tabulkou ; zápis tabulky Sokal-Sneath je zaměňován s klasickým zápisem (viz výše); téměř vždy ignorujte skutečnost, že tabulka bere v úvahu pouze pravděpodobnosti. V procesu matematické formalizace objektů a vztahů mezi nimi vznikl univerzální množinově teoretický zápis pro koeficienty podobnosti. Poprvé se takový záznam objevuje v dílech A. S. Konstantinova [12] , M. Levandovského a D. Wintera [13] . Takže koeficient podobnosti Jaccard lze zapsat takto:

nebo .

Nejjednodušší koeficient podobnosti je mírou absolutní podobnosti, což je v podstatě počet společných znaků dvou porovnávaných objektů: [14] . Při normalizaci této míry jsou hodnoty míry podobnosti mezi 0 a 1 a koeficient je známý jako „míra procentuální podobnosti“ při použití relativních jednotek měření (v procentech) a jako míra průniku v mezivýpočtech. míry relativní podobnosti (např. v zahraničí je známá jako Renkonenova míra [15] ).

V roce 1973 B. I. Semkin navrhl obecný vzorec založený na Kolmogorovově středním vzorci , který kombinuje většinu známých koeficientů podobnosti do spojitého kontinua opatření [16] [17] :

,

kde ; ; ; ; ; . Například hodnoty pro výše uvedené koeficienty jsou následující: [1,-1] (Jaccardův koeficient); [0,-1] (Sorensenův koeficient); [0,1] (Kulchinského koeficient); [0,0] (Ochiaiův koeficient); [0, ] (Shimkevich-Simpsonův koeficient); [0, ] (Brown-Blanqueův koeficient). Zobecňující vzorec umožňuje definovat třídy ekvivalentních a neekvivalentních koeficientů [18] a také zabránit vytváření nových duplicitních koeficientů.

Specifickým typem koeficientů podobnosti jsou míry inkluze . Jedná se o asymetrické míry ( a ), které ukazují míru podobnosti (zahrnutí) jednoho objektu vzhledem k druhému. Známější (symetrické) koeficienty blízkosti lze získat zprůměrováním dvou komplementárních asymetrických inkluzních mír, to znamená, že každá míra symetrické podobnosti odpovídá dvěma specifickým mírám asymetrické podobnosti. Například u míry Sørensen je toto a ) a u míry Jaccard je toto a . Obecně platí, že dvě nesymetrické míry inkluze jsou při odhadu podobnosti objektů lepší než jedna průměrná míra symetrické podobnosti.

Problematika porovnávání objektů podle váhových ukazatelů je kontroverzní a nejednoznačná. V ekologii se jedná o ukazatele, které berou v úvahu početnost . Nejkonzistentnější formalizační schémata takových typů jsou schéma B. I. Semkina založené na deskriptivních množinách a schéma A. Chao s indexy založenými na abundanci (indexy založené na abundanci) [19] . Také v zahraniční literatuře se ustálilo uvádění indexů na základě incidence (incidence-based index), tedy indexů pro booleovská data typu přítomnost / nepřítomnost (přítomnost / absence) znaku. Ve skutečnosti je lze oba označit za zvláštní případy popisných množin.

Srovnání náhodných událostí (například výskyt ) a informačních ukazatelů zůstává diskutabilní. Ve schématu formalizace proximitních vztahů od B. I. Semkina se navrhuje vyčlenit řadu analytických interpretací pro různé proximitní vztahy: vícenásobné , deskriptivní , pravděpodobnostní , informační . Formálně je příslušnost k měřítkům podobnosti určena systémem axiomů (zde E je libovolná množina):

  1. (nezápornost);
  2. (symetrie);
  3. („celek je větší než část“);
  4. (subadditivita).

Systémy axiomů pro míry podobnosti navrhli: A. Renyi [20] , Yu, A. Voronin [21] [22] , A. Tversky [23] , A. A. Vikentiev, G. S. Lbov [24] , G. V. Raushenbakh [25] , B. I. Semkin [26] [27] a další.

Soubor měřítek blízkosti je zpravidla prezentován ve formě matic typu "objekt-objekt". Jsou to např. matice podobnosti , matice vzdáleností (v širokém slova smyslu - rozdíly), matice společných pravděpodobností, matice informačních funkcí. Většina z nich může být postavena na základě: absolutních nebo relativních měr a ty zase mohou být symetrické nebo asymetrické (tyto druhé se často nazývají inkluzní míry).

Vícemístné koeficienty

Takové koeficienty se používají k porovnání řady objektů. Patří mezi ně: Alekhinova střední podobnost, Kochův index biotické disperze, Shennikovův koeficient rozptylu (disperzity), Whittakerova míra beta-diverzity , Mirkin- Rosenbergova míra homotonicity a její duální míra heterotonie a Semkinova koeficient podobnosti řady popisů. V zahraniční literatuře se měřítka tohoto typu nacházejí pod názvy: multidimenzionální koeficienty, n -rozměrné koeficienty, vícemístná podobnostní míra, vícerozměrný koeficient, vícerozměrná komunitní míra [28] [29] [30] . Nejznámější koeficient navrhl L. Koch [31] :

,

kde , tedy součet počtu znaků každého z objektů; , tedy celkový počet funkcí;  — množina n množin (objektů).

Měřicí software

Míry blízkosti se zpravidla vypočítávají v modulu shlukové analýzy programu. Nejčastěji se používá Statistica , ale v odpovídajícím modulu nejsou uvedeny míry podobnosti vůbec, pouze vzdálenosti. SPSS (PASW Statistics) navrhuje výpočet řady mír podobnosti (Ohai, Jacquard, Sokal-Sneath, Kulchinsky, symetrické míry v kostkách). Existuje obrovské množství malých programů pro výpočet míry blízkosti a následné grafické znázornění závislostí [32] [33] . Míry podobnosti jsou prezentovány extrémně zřídka a hlavně ve specializovaných programech pro biology [34] : Graphs, NTSYS, BIODIV, PAST, ai tam je jich extrémně málo (obvykle pouze Jaccardova míra a někdy Sørensenova míra). Dále můžeme zaznamenat TurboVEG a IBIS [35] , které jsou založeny na databázi se zpracovatelskými moduly a program IBIS implementuje největší počet přiblížení používaných v současnosti v biologii, geografii a dalších oborech.

Viz také

Poznámky

  1. Magurran A.E. Měření biologické rozmanitosti. - Oxford, UK.: Blackwell Publishing, 2004. - 256 s.
  2. Pesenko Yu.A. Principy a metody kvantitativní analýzy ve faunistickém výzkumu Archivní kopie ze dne 20. prosince 2014 na Wayback Machine . — M.: Nauka, 1982. — 287 s.
  3. Jaccard P. Distribuce de la flore alpine dans le Bassin des Dranses et dans quelques regiony voisines // Bull. soc. Vaudoise sci. Natur. 1901. V. 37. Bd. 140. S. 241-272.
  4. Sörensen T. Metoda stanovení skupin se stejnou amplitudou v rostlinné sociologii založená na podobnosti obsahu druhů // Kongelige Danske Videnskabernes Selskab. Biol. krifter. Bd V. č. 4. 1948. S. 1-34.
  5. Kulczinsky S. Zespoly roslin w Pienach // Bull. internovat. akad. polon. sci. Lett. Cl. sci. matematika. Příroda. Ser. B. 1927. S. 2. P. 57-203.
  6. Ochiai A. Zoogeografické studie na soleoidních rybách objevily Japonsko a jeho sousední oblasti.  (nedostupný odkaz) II // Bull. jap. soc. sci. Ryba. 1957. V. 22. č. 9. S. 526-530. (Shrnutí v angličtině. Hlavní text článku v japonštině.)
  7. Szymkiewicz D. Une příspěvek statistique a la géographie floristique // Acta Soc. Bot. Polon. 1934. T. 34. č. 3. S. 249-265.
  8. Simpson GG Holarktická fauna savců a kontinentální vztah během kenozoika // Býk. geol. sci. Amerika. 1947. V. 58. S. 613-688.
  9. Braun-Blanquet J. Pflanzensoziologie Grundzüge der Vegetationsskunde. - Berlín: Verlaq von Julius Springer, 1928. - 330 s.
  10. Sokal RR , Sneath PHA Principy numerické taxonomie Archivováno 5. března 2016 na Wayback Machine . - San Francisco: London: Freeman, 1963. - 359 s.
  11. Sneath PHA, Sokal RR Numerická taxonomie: Principy a postupy numerické klasifikace Archivováno 5. března 2016 na Wayback Machine . - San-Francisco: Freeman, 1973. - 573 s.
  12. Konstantinov A.S. Použití teorie množin v biogeografické a ekologické analýze // Usp. moderní biol. 1969. T. 67. čís. 1. C 99-108.
  13. Levandowsky M., Winter D. Vzdálenost mezi sadami Archivováno 5. března 2016 na Wayback Machine // Nature. 1971. V.234. č. 5323. S. 34-35.
  14. Kovalevskaya V. B., Pogozhev I. B. , Pogozheva (Kusurgasheva) A. P. Kvantitativní metody pro posouzení stupně blízkosti památek podle procenta masového materiálu // Sovětská archeologie. 1970. č. 3. S. 26-39.
  15. Renkonen O. Statististisch-ökologische Untersuchungen über die terrestrische Käferwelt finischen Bruchmoore // Acta zool. soc. zool.-bot. fenn. Vanamo. 1938. V. 6. fasc. 1. str. 1-231.
  16. Semkin B. I. Popisné množiny a jejich aplikace // Studium systémů. T. 1. Analýza komplexních systémů. Vladivostok: DVNTs AN SSSR, 1973, s. 83-94.
  17. Semkin B. I. Grafo -teoretické metody ve srovnávací floristice Archivní kopie z 5. března 2016 na Wayback Machine // V knize: Teoretické a metodologické problémy srovnávací floristiky: Materiály 2. workshopu srovnávací floristiky. - Neringa: 1983. - S. 149-163.
  18. Semkin B. I., Dvoychenkov V. I. O ekvivalenci měr podobnosti a rozdílu Archivní kopie ze dne 5. března 2016 na Wayback Machine // Systems Research. T. 1. Analýza komplexních systémů. Vladivostok: DVNTs AN SSSR, 1973, s. 95-104.
  19. Chao A, Chazdon RL, Colwell RK, Shen TJ. Indexy podobnosti založené na abundanci a jejich odhad, pokud jsou ve vzorcích neviditelné druhy Archivováno 4. září 2012 na Wayback Machine // Biometrie. 2006. č. 62. S.361-371.
  20. Rényi A. O opatřeních závislosti  (odkaz není k dispozici) // Acta Math. Akad. Scient. visel. 1959.V.10. č. 3-4. str. 441-451.
  21. Voronin Yu.A. Zavedení podobnostních a spojovacích opatření pro řešení geologických a geofyzikálních problémů // Dokl. Akademie věd SSSR. 1971. V. 139. č. 5. S. 64-70.
  22. Voronin Yu.A. Počátky teorie podobnosti. - Novosibirsk: Věda. Sib. oddělení, 1991. - 128 s.
  23. Tversky A. Vlastnosti podobnosti // Psychological Review. 1977. V.84. č. 4. str. 327-352.
  24. Vikentiev A. A., Lbov G. S. K metrizacím Booleovy algebry vět a informativitě odborných vyjádření // Dokl. AN. Informatika. 1998. V. 361. č. 2. S. 174-176.
  25. Raushenbakh G.V. Míry blízkosti a podobnosti // Analýza nenumerických informací o sociologickém výzkumu. M.: Nauka, 1985. S. 169-203.
  26. Semkin B. I., Gorshkov M. V. Systém axiomů symetrických funkcí dvou proměnných a míry měřící vztah podobnosti, rozdílu, kompatibility a závislosti pro komponenty biodiverzity Archivní kopie z 16. prosince 2018 na Wayback Machine // Vestnik TSEU. 2008. č. 4. S. 31-46.
  27. Semkin B. I., Gorshkov M. V. Axiomatické zavedení měřítek podobnosti, rozdílu, kompatibility a závislosti pro složky biodiverzity v multidimenzionálním případě // Bulletin of KrasGAU . 2009. č. 12. S. 18-24.
  28. ↑ Chao A., Hwang WH , Chen YC , Kuo CY Odhad počtu sdílených druhů ve dvou komunitách Sinica. 2000. č. 10. S. 227-246.  
  29. Baselga A., Jiménez-Valverde A., Niccolini G. Měření podobnosti na více místech nezávislé na bohatosti Archivováno 5. března 2016 na Wayback Machine // Biol. Lett. 2007. č. 3. S. 642-645.
  30. Diserud OH, Ødegaard F. Míra podobnosti na více místech  (odkaz není k dispozici) // Biol. Lett. 2007. č. 3. S. 20-22.
  31. Koch LF Index biotální disperze // Ekologie. 1957. V. 38. č. 1. S. 145-148.
  32. http://www.bimetrica.tomsk.ru/list/other.htm Archivováno 16. ledna 2012 na webu Wayback Machine Internet Statistical Resources
  33. http://evolution.genetics.washington.edu Archivováno 18. dubna 2022 na Wayback Machine Programs for Phylogenetic Calculation na internetovém portálu University of Washington
  34. Novakovsky A. B. Přehled softwarových nástrojů používaných pro analýzu geobotanických dat // Vegetace Ruska. 2006. č. 9. S. 86-95.
  35. Zverev A. A. Informační technologie ve výzkumu vegetačního krytu. - Tomsk: TML-Press, 2007. -304 s.