Korelace (z latinského correlatio "poměr"), nebo korelační závislost - statistický vztah dvou nebo více náhodných proměnných (nebo proměnných, které lze za takové považovat s určitou přijatelnou mírou přesnosti), přičemž změny hodnot jedné resp. více těchto veličin je doprovázeno systematickou změnou hodnot jiné nebo jiných veličin [1] .
Matematickou mírou korelace dvou náhodných veličin je korelační poměr [2] nebo korelační koeficient (nebo ) [1] . Pokud změna jedné náhodné veličiny nevede k pravidelné změně jiné náhodné veličiny, ale vede ke změně jiné statistické charakteristiky této náhodné veličiny, pak se takový vztah nepovažuje za korelaci, ačkoliv je statistický [3] .
Poprvé byl termín korelace uveden do vědeckého oběhu francouzským paleontologem Georgesem Cuvierem v 18. století. Vyvinul „zákon korelace“ částí a orgánů živých bytostí, s jehož pomocí je možné obnovit vzhled fosilního živočicha, který má k dispozici pouze část jeho pozůstatků. Ve statistice slovo „korelace“ poprvé použil anglický biolog a statistik Francis Galton na konci 19. století [4] .
Významná korelace mezi dvěma náhodnými veličinami je vždy důkazem existence nějakého statistického vztahu v daném vzorku, tento vztah však nemusí být nutně pozorován pro jiný vzorek a mít kauzální charakter. Často lákavá jednoduchost korelační studie povzbuzuje výzkumníka k vyvozování falešných intuitivních závěrů o přítomnosti kauzálního vztahu mezi dvojicemi znaků, zatímco korelační koeficienty zakládají pouze statistické vztahy. Například při pohledu na požáry v konkrétním městě lze najít velmi vysokou korelaci mezi škodami způsobenými požárem a počtem hasičů zapojených do hašení požáru, přičemž tato korelace bude pozitivní. To však nevede k závěru, že „nárůst počtu hasičů vede k nárůstu způsobených škod“, a tím méně bude úspěšná snaha minimalizovat škody z požárů likvidací hasičských jednotek [ 5] . Korelace dvou veličin může naznačovat existenci společné příčiny, i když samotné jevy se přímo neovlivňují. Například námraza způsobuje jak nárůst zranění při pádech, tak nárůst nehod mezi vozidly. V tomto případě budou korelovat dvě veličiny (zranění v důsledku pádu chodce a nehody vozidla), i když spolu nejsou v příčinné souvislosti, ale mají pouze společnou příčinu třetí strany - náledí .
Absence korelace mezi dvěma veličinami zároveň neznamená, že mezi nimi není žádná souvislost. Závislost může mít například komplexní nelineární charakter, který korelace neodhalí.
Některé typy korelačních koeficientů mohou být kladné nebo záporné. V prvním případě se předpokládá, že můžeme určit pouze přítomnost nebo nepřítomnost spojení a ve druhém také jeho směr. Pokud se předpokládá, že hodnoty proměnných mají přísný vztah pořadí , pak negativní korelace je korelace, ve které je zvýšení jedné proměnné spojeno s poklesem jiné. V tomto případě bude korelační koeficient záporný. Pozitivní korelace za takových podmínek je taková, ve které je zvýšení jedné proměnné spojeno se zvýšením jiné proměnné. Je také možné, že neexistuje žádný statistický vztah – například pro nezávislé náhodné proměnné .
Způsob výpočtu korelačního koeficientu závisí na typu škály , na kterou se proměnné vztahují. Pro měření proměnných s intervalovými a kvantitativními stupnicemi je tedy nutné použít Pearsonův korelační koeficient (korelaci součinových momentů ). Pokud alespoň jedna z těchto dvou proměnných má ordinální stupnici nebo není normálně rozdělena , musí se použít Spearmanova nebo (tau) Kendallova hodnostní korelace. V případě, kdy je jedna ze dvou proměnných dichotomická , použije se bodová dvouřadová korelace, a pokud jsou obě proměnné dichotomické , použije se čtyřpolní korelace. Výpočet korelačního koeficientu mezi dvěma nedichotomickými proměnnými má smysl pouze tehdy, když je vztah mezi nimi lineární (jednosměrný).
Důležitou charakteristikou společného rozdělení dvou náhodných veličin je kovariance (neboli korelační moment ). Kovariance je kloubní centrální moment druhého řádu [6] . Kovariance je definována jako matematické očekávání součinu odchylek náhodných veličin [7] :
,kde je matematické očekávání (v anglicky psané literatuře se akceptuje označení od očekávané hodnoty ).
Kovarianční vlastnosti :
Protože a jsou nezávislé náhodné veličiny, jejich odchylky a jsou také nezávislé. S využitím skutečnosti, že matematické očekávání součinu nezávislých náhodných veličin se rovná součinu matematických očekávání faktorů a matematické očekávání odchylky je nulové, máme
Zaveďme náhodnou veličinu (kde je směrodatná odchylka ) a najdeme její rozptyl . Po provedení výpočtů dostaneme:
Jakákoli odchylka je nezáporná, takže
Odtud
Zavedením náhodné proměnné , podobně
Kombinací získaných nerovností máme
Nebo
Tak,
K odstranění nedostatku kovariance byl zaveden lineární korelační koeficient (neboli Pearsonův korelační koeficient ), který vyvinuli Karl Pearson , Francis Edgeworth a Raphael Weldon v 90. letech 19. století. Korelační koeficient se vypočítá podle vzorce [10] [8] :
kde , je střední hodnota vzorků.
Korelační koeficient se pohybuje od mínus jedna do plus jedna [11] .
DůkazVydělením obou částí dvojité nerovnosti dostaneme
Lineární korelační koeficient souvisí s regresním koeficientem ve tvaru následující závislosti: kde je regresní koeficient, je směrodatná odchylka odpovídajícího atributu faktoru [12] . Poměr regresního koeficientu ke směrodatné odchylce Y nezávisí na jednotkách Y. Při lineární transformaci souboru dat bude lineární korelační koeficient roven .
Používá se k identifikaci vztahu mezi kvantitativními nebo kvalitativními ukazateli, pokud je lze seřadit. Hodnoty indikátoru X jsou nastaveny ve vzestupném pořadí a přiřazeny hodnosti. Hodnoty indikátoru Y jsou seřazeny a je vypočítán Kendallův korelační koeficient :
,
kde .
je celkový počet pozorování navazujících na aktuální pozorování s velkou hodnotou pořadí Y.
je celkový počet pozorování po aktuálních pozorováních s nižším stupněm Y. (stejné pořadí se nebere v úvahu!)
Pokud se studovaná data opakují (mají stejné pořadí), pak se ve výpočtech použije upravený Kendallův korelační koeficient:
je počet příbuzných pozic v řadě X a Y, v daném pořadí.
Spearmanův koeficient hodnostní korelaceStupeň závislosti dvou náhodných proměnných (znaků) lze charakterizovat na základě analýzy získaných výsledků . Každému indikátoru je přiřazena hodnost. Řady hodnot jsou v přirozeném pořadí . Hodnost se zapisuje jako a odpovídá hodnosti dvojice, pro kterou je hodnost . Na základě získaných pořadí a jejich rozdílů se spočítají a vypočítá Spearmanův korelační koeficient :
Hodnota koeficientu se pohybuje od −1 (posloupnosti hodností jsou zcela opačné) do +1 (posloupnosti hodností jsou zcela stejné). Hodnota nula znamená, že funkce jsou nezávislé.
Korelační koeficient Fechnerova znaménkaVypočítá se počet shod a neshod znaků odchylek hodnot ukazatelů od jejich průměrné hodnoty.
C je počet párů, u kterých se znaménka odchylek hodnot od jejich průměrů shodují.
H je počet párů, u kterých se znaménka odchylek hodnot od jejich průměrů neshodují.
Vícenásobný korelační koeficient Vícenásobný hodnostní korelační koeficient (shoda)
je počet skupin, které jsou seřazeny.
je počet proměnných.
je hodnost -faktoru y -jedna.
Význam:
, pak je hypotéza o žádné souvislosti zamítnuta.
V případě příbuzných hodností:
Uvažujme náhodné proměnné X a Y s nulovými průměry a rozptyly rovnými a . Pojďme vypočítat rozptyl náhodné veličiny :
Za předpokladu, že korelační koeficient
pak se předchozí výraz přepíše do formuláře
Vzhledem k tomu, že čísla aab můžete vždy zvolit tak, že (například if , pak vezmeme libovolné a a ), pak pro tyto a a b je rozptyl , a tedy téměř jistě. To ale znamená lineární vztah mezi X a Y. Důkaz je samozřejmě zobecněn na případ X a Y s nenulovými průměry, pouze ve výše uvedených výpočtech bude nutné nahradit X za a Y za .
Korelační analýza je metoda statistického zpracování dat , která měří sílu vztahu mezi dvěma nebo více proměnnými. Korelační analýza úzce souvisí s regresní analýzou ( často se také setkáváme s termínem „ korelační-regresní analýza “, což je obecnější statistický pojem ), určuje potřebu zahrnout určité faktory do vícenásobné regresní rovnice a také vyhodnocuje výsledná regresní rovnice pro shodu identifikovaných vztahů (pomocí koeficientu determinace ) [1] [2] .
Tento způsob zpracování statistických dat je velmi populární v ekonomii , astrofyzice a společenských vědách (zejména v psychologii a sociologii ), ačkoli rozsah korelačních koeficientů je široký: kontrola kvality průmyslových výrobků, metalurgie , zemědělská chemie , hydrobiologie , biometrie a další . V různých aplikovaných odvětvích jsou akceptovány různé hranice intervalů pro posouzení těsnosti a významu spoje.
Oblíbenost metody je dána dvěma body: korelační koeficienty se dají poměrně snadno vypočítat, jejich aplikace nevyžaduje speciální matematické školení. V kombinaci se snadnou interpretací vedla snadná aplikace koeficientu k jeho širokému použití v oblasti statistické analýzy dat.
![]() | |
---|---|
V bibliografických katalozích |
|