Jaccardův koeficient

Aktuální verze stránky ještě nebyla zkontrolována zkušenými přispěvateli a může se výrazně lišit od verze recenzované 21. září 2020; kontroly vyžadují 2 úpravy .

Jaccardova míra (floristický koeficient komunity, francouzský  koeficient de communaute , německy  Gemeinschaftskoeffizient ) je binární míra podobnosti , kterou navrhl Paul Jaccard v roce 1901. [1]  : , kde a  je počet druhů na prvním pokusném pozemku, b  je počet druhů na druhém pokusném pozemku, c  je počet druhů společných na 1. a 2. pozemku. Toto je první známý koeficient podobnosti . Příjmení autora koeficientu se v literatuře překládalo také jako Jacquard nebo Jacquard. Jaccardův koeficient v různých modifikacích a záznamech je aktivně využíván v ekologii, geobotanice, molekulární biologii , bioinformatice , genomice , proteinomice, informatice a dalších oblastech. Jaccardova míra je ekvivalentní (související s jednou monotónně rostoucí závislostí) Sørensenově míře a Sokal-Sneathově míře pro konečné množiny (vícenásobná interpretace):

Míra rozdílu, která je doplňkem 1 Jaccardova koeficientu podobnosti, se nazývá míra floristického kontrastu [2] [3] . V případě deskriptivních množin (deskriptivní interpretace) se v ekologii jedná o vzorky podle abundance , analogií této míry je míra Růžička [4] :

.

V konkrétním případě, kdy jsou použity komponenty booleovských vektorů, tedy komponenty, které nabývají pouze dvou hodnot 0 a 1, je míra známá jako Tanimotův koeficient nebo rozšířený Jaccardův koeficient [5] . Pokud se objekty porovnávají podle výskytu druhů (pravděpodobnostní interpretace), to znamená, že se berou v úvahu pravděpodobnosti setkání, pak analogií Jaccardovy míry bude Iversenova pravděpodobnostní míra [6] :

.

Pro informační analytickou interpretaci se používá Raiskyho míra vzájemné závislosti [7] [8] [9] :

Mírou rozdílu, která je ekvivalentní Jaccardově míře podobnosti, je vzdálenost:

Viz také

Literatura

  1. Jaccard P. Distribuce de la flore alpine dans le Bassin des Dranses et dans quelques regiony voisines // Bull. soc. Vaudoise sci. Natur. 1901. V. 37. Bd. 140. S. 241-272.
  2. Mirkin B. M., Rosenberg G. S. Výkladový slovník moderní fytocenologie. — M.: Nauka, 1983. — 134 s.
  3. Mirkin B. M., Rosenberg G. S., Naumova L. G. Slovník pojmů a termínů moderní fytocenologie. — M.: Nauka, 1989. — 223 s.
  4. Ružička MK Anwendung mathematiseh-statistiseher Methoden in der Geobotanik (sintetischa Bearbeitung von Aufnahmen) // Biologie. 1958. Roč. 13.ch. 9. S. 647-661.
  5. Tanimoto TT Interní zpráva IBM ze 17. listopadu. 1957.
  6. Iversen J. Über die Korrelationen zwischen den Pflanzenarten in einem grönlandischen Talgebiet // Vegetace. 1954. V. 5-6. str. 238-246.
  7. Raijski C. Metrický prostor diskrétních rozdělení pravděpodobnosti // Informace a kontrola. 1961. V. 4. č. 4. S. 371-377.
  8. Raijski C. Entropie a metrické prostory // C. Cherry (ed.). informační teorie. London: Butterworths, 1961, s. 41-45.
  9. Eliseeva I. I., Rukavishnikov V. O. Seskupování, korelace, rozpoznávání vzorů: (statistické metody pro klasifikaci a měření vztahů). — M.: Statistika, 1977. — 143 s.