Koeficient podobnosti (též míra podobnosti, index podobnosti) je bezrozměrný ukazatel podobnosti porovnávaných objektů. Také známý jako míra asociace, míra podobnosti atd.
V biologii se používá ke kvantifikaci stupně podobnosti biologických objektů (místa, regiony, jednotlivé fytocenózy , zoocenózy atd.). Používá se také v geografii, sociologii, rozpoznávání vzorů , vyhledávačích , srovnávací lingvistice, bioinformatice , chemoinformatice , porovnávání řetězců atd.
V širším slova smyslu hovoří o mírách blízkosti, které zahrnují: míry diverzity, míry koncentrace (homogenity), míry inkluze , míry podobnosti, míry rozdílu (včetně vzdáleností), míry kompatibility událostí, míry neslučitelnost událostí, opatření vzájemné závislosti , opatření vzájemné nezávislosti. Teorie měření blízkosti je v plenkách, a proto existuje mnoho různých představ o formalizaci vztahů blízkosti.
Většina koeficientů je normalizována a pohybuje se od 0 (žádná podobnost) do 1 (úplná podobnost). Podobnost a rozdíl se vzájemně doplňují (matematicky to lze vyjádřit takto: Podobnost = 1 − Rozdíl).
Koeficienty podobnosti lze podmíněně rozdělit do tří skupin v závislosti na tom, kolik objektů se bere v úvahu:
Při studiu biologických objektů se široce využívají míry variability jak jednotlivých znaků, tak četnosti distribuce náhodných veličin. V nejjednodušším případě lze inventární (v rámci studovaného biosystému) diverzitu odhadnout podle druhové bohatosti nebo počtu druhů.
Nejčastěji používané míry diverzity [1] ( variační koeficient , indexy parametrické rodiny Renyi , včetně Shannonova indexu ; indexy Hillovy rodiny; indexy Margalefovy, Gleasonovy atd.). Méně často se používají koncentrační míry, které je doplňují (např. měr Kolmogorova , rožmberská disonanční míra ).
To jsou koeficienty nejpoužívanější v biologii a geografii [2] . Úplně první koeficient podobnosti navrhl P. Jaccard v roce 1901 [ 3 ] : a 2. místa . Následně byly navrženy různé koeficienty (míry, indexy) podobnosti v různých oblastech vědy. Nejpoužívanější (označení jsou stejná):
Alternativní zápis kontingenční tabulky je znám od R. R. Sokala ( Sokal ) a P. Sneatha ( Sneath ) [10] [11] :
Přítomnost druhu na 1. lokalitě | Nedostatek výhledu na 1. místě | |
Přítomnost druhu na 2. stanovišti | A | b |
Nedostatek výhledu na 2. místě | C | d |
kde a je počet druhů nalezených na obou lokalitách; b je počet druhů nalezených na prvním místě odběru vzorků, avšak bez zohlednění výskytu běžných druhů; c je počet druhů nalezených na druhém místě odběru vzorků, ale bez zohlednění výskytu běžných druhů.
Tato tabulka vytváří velký zmatek. To je často zaměňováno s podobnou statistickou křížovou tabulkou ; zápis tabulky Sokal-Sneath je zaměňován s klasickým zápisem (viz výše); téměř vždy ignorujte skutečnost, že tabulka bere v úvahu pouze pravděpodobnosti.
V procesu matematické formalizace objektů a vztahů mezi nimi vznikl univerzální množinově teoretický zápis pro koeficienty podobnosti. Poprvé se takový záznam objevuje v dílech A. S. Konstantinova [12] , M. Levandovského a D. Wintera [13] . Takže koeficient podobnosti Jaccard lze zapsat takto:
Nejjednodušší koeficient podobnosti je mírou absolutní podobnosti, což je v podstatě počet společných znaků dvou porovnávaných objektů: [14] . Při normalizaci této míry jsou hodnoty míry podobnosti mezi 0 a 1 a koeficient je známý jako „míra procentuální podobnosti“ při použití relativních jednotek měření (v procentech) a jako míra průniku v mezivýpočtech. míry relativní podobnosti (např. v zahraničí je známá jako Renkonenova míra [15] ).
V roce 1973 B. I. Semkin navrhl obecný vzorec založený na Kolmogorovově středním vzorci , který kombinuje většinu známých koeficientů podobnosti do spojitého kontinua opatření [16] [17] :
kde ; ; ; ; ; . Například hodnoty pro výše uvedené koeficienty jsou následující: [1,-1] (Jaccardův koeficient); [0,-1] (Sorensenův koeficient); [0,1] (Kulchinského koeficient); [0,0] (Ochiaiův koeficient); [0, ] (Shimkevich-Simpsonův koeficient); [0, ] (Brown-Blanqueův koeficient). Zobecňující vzorec umožňuje definovat třídy ekvivalentních a neekvivalentních koeficientů [18] a také zabránit vytváření nových duplicitních koeficientů.
Specifickým typem koeficientů podobnosti jsou míry inkluze . Jedná se o asymetrické míry ( a ), které ukazují míru podobnosti (zahrnutí) jednoho objektu vzhledem k druhému. Známější (symetrické) koeficienty blízkosti lze získat zprůměrováním dvou komplementárních asymetrických inkluzních mír, to znamená, že každá míra symetrické podobnosti odpovídá dvěma specifickým mírám asymetrické podobnosti. Například u míry Sørensen je toto a ) a u míry Jaccard je toto a . Obecně platí, že dvě nesymetrické míry inkluze jsou při odhadu podobnosti objektů lepší než jedna průměrná míra symetrické podobnosti.
Problematika porovnávání objektů podle váhových ukazatelů je kontroverzní a nejednoznačná. V ekologii se jedná o ukazatele, které berou v úvahu početnost . Nejkonzistentnější formalizační schémata takových typů jsou schéma B. I. Semkina založené na deskriptivních množinách a schéma A. Chao s indexy založenými na abundanci (indexy založené na abundanci) [19] . Také v zahraniční literatuře se ustálilo uvádění indexů na základě incidence (incidence-based index), tedy indexů pro booleovská data typu přítomnost / nepřítomnost (přítomnost / absence) znaku. Ve skutečnosti je lze oba označit za zvláštní případy popisných množin.
Srovnání náhodných událostí (například výskyt ) a informačních ukazatelů zůstává diskutabilní. Ve schématu formalizace proximitních vztahů od B. I. Semkina se navrhuje vyčlenit řadu analytických interpretací pro různé proximitní vztahy: vícenásobné , deskriptivní , pravděpodobnostní , informační . Formálně je příslušnost k měřítkům podobnosti určena systémem axiomů (zde E je libovolná množina):
Systémy axiomů pro míry podobnosti navrhli: A. Renyi [20] , Yu, A. Voronin [21] [22] , A. Tversky [23] , A. A. Vikentiev, G. S. Lbov [24] , G. V. Raushenbakh [25] , B. I. Semkin [26] [27] a další.
Soubor měřítek blízkosti je zpravidla prezentován ve formě matic typu "objekt-objekt". Jsou to např. matice podobnosti , matice vzdáleností (v širokém slova smyslu - rozdíly), matice společných pravděpodobností, matice informačních funkcí. Většina z nich může být postavena na základě: absolutních nebo relativních měr a ty zase mohou být symetrické nebo asymetrické (tyto druhé se často nazývají inkluzní míry).
Takové koeficienty se používají k porovnání řady objektů. Patří mezi ně: Alekhinova střední podobnost, Kochův index biotické disperze, Shennikovův koeficient rozptylu (disperzity), Whittakerova míra beta-diverzity , Mirkin- Rosenbergova míra homotonicity a její duální míra heterotonie a Semkinova koeficient podobnosti řady popisů. V zahraniční literatuře se měřítka tohoto typu nacházejí pod názvy: multidimenzionální koeficienty, n -rozměrné koeficienty, vícemístná podobnostní míra, vícerozměrný koeficient, vícerozměrná komunitní míra [28] [29] [30] . Nejznámější koeficient navrhl L. Koch [31] :
,kde , tedy součet počtu znaků každého z objektů; , tedy celkový počet funkcí; — množina n množin (objektů).
Míry blízkosti se zpravidla vypočítávají v modulu shlukové analýzy programu. Nejčastěji se používá Statistica , ale v odpovídajícím modulu nejsou uvedeny míry podobnosti vůbec, pouze vzdálenosti. SPSS (PASW Statistics) navrhuje výpočet řady mír podobnosti (Ohai, Jacquard, Sokal-Sneath, Kulchinsky, symetrické míry v kostkách). Existuje obrovské množství malých programů pro výpočet míry blízkosti a následné grafické znázornění závislostí [32] [33] . Míry podobnosti jsou prezentovány extrémně zřídka a hlavně ve specializovaných programech pro biology [34] : Graphs, NTSYS, BIODIV, PAST, ai tam je jich extrémně málo (obvykle pouze Jaccardova míra a někdy Sørensenova míra). Dále můžeme zaznamenat TurboVEG a IBIS [35] , které jsou založeny na databázi se zpracovatelskými moduly a program IBIS implementuje největší počet přiblížení používaných v současnosti v biologii, geografii a dalších oborech.