Chi-kvadrát rozdělení

distribuce . Pearsonova distribuce
Hustota pravděpodobnosti
distribuční funkce
Označení nebo
Možnosti je počet stupňů volnosti
Dopravce
Hustota pravděpodobnosti
distribuční funkce
Očekávaná hodnota
Medián o
Móda 0 pro pokud
Disperze
Koeficient asymetrie
Kurtózní koeficient
Diferenciální entropie

Generující funkce momentů , pokud
charakteristická funkce

Rozdělení (chí-kvadrát) se stupni volnosti  - rozdělení součtu čtverců nezávislých standardních normálních náhodných veličin .

Definice

Dovolit být  společně nezávislé standardní normální náhodné proměnné, to je: . Pak náhodná veličina

má chí-kvadrát rozdělení se stupni volnosti, tj. , nebo jinak napsané:

.

Rozdělení chí-kvadrát je speciálním případem rozdělení gama a jeho hustota je:

,

kde  je rozdělení gama a funkce gama .

Distribuční funkce má následující tvar:

,

kde a označují úplné a neúplné funkce gama.

Vlastnosti rozdělení chí-kvadrát

, . distribucí na .

Vztah s jinými distribucemi

má distribuci .

.

Fisherovo rozdělení se stupni volnosti .

Variace a zobecnění

Dalším zobecněním chí-kvadrát rozdělení je tzv. necentrální chí-kvadrát rozdělení , které se vyskytuje v některých statistických problémech.

Kvantily

Kvantil je číslo (argument), na kterém je distribuční funkce rovna dané, požadované pravděpodobnosti. Zhruba řečeno, kvantil je výsledkem inverze distribuční funkce, ale existují jemnosti s nespojitými distribučními funkcemi.

Historie

Kritérium navrhl Karl Pearson v roce 1900 [1] . Jeho práce je považována za základ moderní matematické statistiky. Pearsonovi předchůdci jednoduše vynesli experimentální výsledky a tvrdili, že jsou správné. Pearson ve svém článku uvedl některé zajímavé příklady zneužívání statistik. Dokázal také, že některá pozorování na ruletě (na níž dva týdny experimentoval v Monte Carlu v roce 1892) byla tak vzdálená očekávaným frekvencím, že šance na jejich opětovné získání, za předpokladu, že ruleta je svědomitě uspořádána, se rovnají jedné z 10 29 .

Obecnou diskusi o kritériu a rozsáhlou bibliografii lze nalézt v přehledovém článku Williama J. Cochrana [2] .

Aplikace

Rozdělení chí-kvadrát má četné aplikace ve statistické inferenci, jako je použití testu chí-kvadrát a odhadování rozptylů. Používá se v problému odhadu střední hodnoty normálně rozdělené populace a problému odhadu sklonu regresní přímky kvůli její roli ve Studentově t-rozdělení . Používá se při analýze rozptylu .

Následují příklady situací, ve kterých rozdělení chí-kvadrát vzniká z normálního vzorku:

název Statistika
rozdělení chí-kvadrát
necentrální distribuce chí-kvadrát
distribuce chi
necentrální distribuce chi


Tabulka hodnot χ 2 a p

Pro libovolné číslo p mezi 0 a 1 je definována p -hodnota - pravděpodobnost získání pro daný pravděpodobnostní model rozdělení hodnot  náhodné veličiny stejné nebo extrémnější hodnoty statistiky (aritmetický průměr, medián, atd.), ve srovnání s pozorovaným, za předpokladu, že platí nulová hypotéza . V tomto případě je to distribuce . Protože hodnota distribuční funkce v bodě pro odpovídající stupně volnosti dává pravděpodobnost získání statistické hodnoty méně extrémní než tento bod, lze p -hodnotu získat odečtením hodnoty distribuční funkce od jednoty. Malá p -hodnota – pod zvolenou hladinou významnosti – znamená statistickou významnost . To bude stačit k zamítnutí nulové hypotézy. Pro rozlišení mezi významnými a nevýznamnými výsledky se běžně používá hladina 0,05.

Tabulka uvádí p -hodnoty pro odpovídající hodnoty pro prvních deset stupňů volnosti.

stupně volnosti ( df ) Hodnota [3]
jeden 0,004 0,02 0,06 0,15 0,46 1.07 1,64 2.71 3,84 6.63 10,83
2 0,10 0,21 0,45 0,71 1.39 2.41 3.22 4.61 5,99 9.21 13,82
3 0,35 0,58 1.01 1.42 2.37 3.66 4.64 6.25 7,81 11:34 16.27
čtyři 0,71 1.06 1,65 2.20 3.36 4,88 5,99 7,78 9,49 13.28 18,47
5 1.14 1.61 2.34 3,00 4.35 6.06 7.29 9.24 11.07 15.09 20.52
6 1,63 2.20 3.07 3,83 5.35 7.23 8,56 10,64 12,59 16,81 22,46
7 2.17 2,83 3,82 4.67 6.35 8.38 9,80 12.02 14.07 18,48 24.32
osm 2,73 3.49 4.59 5.53 7.34 9,52 11.03 13,36 15,51 20.09 26.12
9 3.32 4.17 5.38 6.39 8.34 10,66 12.24 14,68 16,92 21,67 27,88
deset 3,94 4,87 6.18 7.27 9,34 11,78 13,44 15,99 18:31 23.21 29,59
p -hodnota 0,95 0,90 0,80 0,70 0,50 0,30 0,20 0,10 0,05 0,01 0,001

Tyto hodnoty lze vypočítat pomocí kvantilu (funkce inverzního rozdělení) chí-kvadrát rozdělení [4] . Například kvantil pro p = 0,05 a df = 7 dává = 14,06714 ≈ 14,07 , jak je uvedeno v tabulce výše. To znamená, že pro experimentální pozorování sedmi nezávislých náhodných veličin lze při platnosti nulové hypotézy „každá proměnná je popsána normálním standardním rozdělením s mediánem 0 a směrodatnou odchylkou 1“ hodnotu získat pouze v 5 % realizací. Získání větší hodnoty lze obvykle považovat za dostatečný důvod k zamítnutí této nulové hypotézy.

Tabulka udává zaokrouhlování na setiny; přesnější tabulky pro více stupňů volnosti viz např. zde [5] .

Viz také

Poznámky

  1. Pearson K. Na kritérium, že daný systém odchylek od pravděpodobného v případě korelovaného systému proměnných je takový, že lze důvodně předpokládat, že vznikl náhodným výběrem  //  Philosophical Magazine, Series 5 - Vol. 50 , č. 302 . - S. 157-175 . - doi : 10.1080/14786440009463897 .
  2. Cochran WG The Test of Goodness of Fit  //  Annals Math. stat. - 1952. - Sv. 23 , č. 3 . - str. 315-345 .
  3. Chi-Squared Test Archived 18. listopadu 2013 na Wayback Machine Table B.2. Dr. Jacqueline S. McLaughlin na Pennsylvania State University. Tento zdroj dále cituje: RA Fisher a F. Yates , Statistické tabulky pro biologický zemědělský a lékařský výzkum, 6. vydání, tabulka IV. Dvě hodnoty byly opraveny, 7,82 na 7,81 a 4,60 na 4,61.
  4. R Výukový program: Chi-kvadrát distribuce . Datum přístupu: 19. listopadu 2019. Archivováno z originálu 16. února 2021.
  5. StatSoft: Distribuční tabulky - Chi-kvadrát rozdělení . Staženo 29. ledna 2020. Archivováno z originálu dne 26. ledna 2020.