Analýza rozptylu

Analýza rozptylu je metoda v matematické statistice zaměřená na hledání závislostí v experimentálních datech zkoumáním významnosti rozdílů v průměrných hodnotách [1] [2] . Na rozdíl od t-testu umožňuje porovnat průměry tří a více skupin. Vyvinutý R. Fisherem pro analýzu výsledků experimentálních studií. Označení ANOVA (z angl. ANalysis Of VAriance ) [3] se také vyskytuje v literatuře .

Typy ANOVA

Podstatou analýzy rozptylu je studium vlivu jedné nebo více nezávislých proměnných , obvykle označovaných jako faktory, na závisle proměnnou . Závislé proměnné jsou reprezentovány hodnotami absolutních měřítek (poměrové měřítko). Nezávislé proměnné jsou nominativní (škála jmen), to znamená, že odrážejí příslušnost ke skupině a mohou mít dvě nebo více hodnot (typ, gradace nebo úroveň). Příklady nezávislé proměnné se dvěma hodnotami by mohly být pohlaví (žena: , muž: ) nebo typ léčebné skupiny (kontrola: , experimentální: ). Gradace odpovídající nezávislým vzorkům objektů se nazývají meziskupinové a gradace odpovídající závislým vzorkům se nazývají vnitroskupinové. $X_{i}$ $X_{1}$ $X_{2}$ $X_{1}$ $X_{2}$

V závislosti na typu a počtu proměnných existují:

jednorozměrná a vícerozměrná analýza rozptylu (jedna nebo více nezávislých proměnných);
jednorozměrná a vícerozměrná analýza rozptylu (jedna nebo více závislých proměnných);
analýza rozptylu s opakovanými měřeními (pro závislé vzorky);
analýza rozptylu s konstantními faktory, náhodnými faktory a smíšenými modely s faktory obou typů;

Matematický model analýzy rozptylu

Speciálním případem základního lineárního modelu je matematický model disperzní analýzy . Nechte metody použít k měření několika parametrů , jejichž přesné hodnoty jsou . V tomto případě mohou být výsledky měření různých veličin různými metodami reprezentovány jako: $A_{j}\ (1\leq j\leq m)$ $x_{i}\ (1\leq i\leq n)$ $\mu _{i}\ (1\leq i\leq n)$

$x_{{i,j}}=\mu _{{i}}+a_{{i,j}}+e_{{i,j}}$ ,

kde:

$x_{{i,j}}$ je výsledkem měření tého parametru metodou ; $i$ $Aj}}$
$\mu _{{i}}$ je přesná hodnota -tého parametru; $i$
$a_{i,j}$ je systematická chyba při měření tého parametru ve skupině podle metody ; $i$ $Aj}}$
$e_{{i,j}}$ je náhodná chyba měření -tého parametru metodou . $i$ $Aj}}$

Pak rozptyly následujících náhodných proměnných: (kde:
$x_{{i,j}}$
$x_{{i,j}}-x_{{i,*}}-x_{{*,j}}+x_{{*,*}}$
$x_{{i,*}}$
$x_{{*,j}}$

$x_{{*,j}}={\frac {1}{n}}\součet _{{i}}x_{{i,j}},$

$x_{{i,*}}={\frac {1}{m}}\součet _{{j}}x_{{i,j}},$

$x_{{*,*}}={\frac {1}{nm}}\součet _{{i,j}}x_{{i,j}}$ )

jsou vyjádřeny jako:

$s^{{2}}={\frac {1}{nm}}\součet _{{i}}\součet _{{j}}(x_{{i,j}}-x_{{*,* }})^{{2}}$

$s_{{0}}^{2}={\frac {1}{nm}}\součet _{{i}}\součet _{{j}}(x_{{i,j}}-x_{{ i,*}}-x_{{*,j}}+x_{{*,*}})^{{2}}$

$s_{{1}}^{2}={\frac {1}{n}}\součet _{{i}}(x_{{i,*}}-x_{{*,*}})^{ {2}}$

$s_{{2}}^{2}={\frac {1}{m}}\součet _{{j}}(x_{{*,j}}-x_{{*,*}})^{ {2}}$

a uspokojit identitu:

$s^{2}=s_{{0}}^{2}+s_{{1}}^{2}+s_{{2}}^{2}$

Postup analýzy rozptylu spočívá ve stanovení poměru systematického (meziskupinového) rozptylu k náhodnému (v rámci skupiny) rozptylu v naměřených datech. Jako indikátor variability se používá součet druhých mocnin odchylky hodnot parametru od průměru: (z angl. Sum of Squares ). Lze ukázat, že celkový součet čtverců se rozkládá na meziskupinový součet čtverců a vnitroskupinový součet čtverců : $SS$ $SS_{\textrm {total))$ $SS_{\textrm {bg))$ $SS_{\textrm {wg))$

$SS_{\textrm {total}}=SS_{\textrm {bg}}+SS_{\textrm {wg}}$

Nechť přesná hodnota každého parametru je jeho matematické očekávání rovné populačnímu průměru . Při absenci systematických chyb jsou průměr skupiny a průměr populace totožné: . Pak náhodná chyba měření je rozdíl mezi výsledkem měření a průměrem skupiny: . Pokud má metoda systematický účinek, pak systematická chyba pod vlivem tohoto faktoru je rozdíl mezi průměrem skupiny a průměrem populace: . $E(X)=M$ $M_{{j}}=M$ $x_{{i,j}}$ $x_{{i,j}}-M_{j}$ $Aj}$ $M_{j}$ $M_{j}-M$

Potom lze rovnici znázornit takto: $x_{{i,j}}=\mu _{{i}}+a_{{i,j}}+e_{{i,j}}$

$x_{{i,j}}=M+(M_{j}-M)+(x_{{i,j}}-M_{j})$ nebo

$x_{{i,j}}-M=(M_{j}-M)+(x_{{i,j}}-M_{j})$ .

Pak

${\begin{aligned}\sum _{{i=1}}^{{n_{j}}}(x_{{i,j}}-M)^{2}&=\sum _{{i= 1}}^{{n_{j}}}(M_{j}-M)^{2}+\součet _{{i=1}}^{{n_{j}}}(x_{{i, j}}-M_{j})^{2},\\\end{aligned}}$

kde

$SS_{\textrm {total}}=\sum _{i=1}^{n_{j}}(x_{i,j}-M)^{2}$

$SS_{\textrm {bg}}=\sum _{i=1}^{n_{j}}(M_{j}-M)^{2}$

$SS_{\textrm {wg}}=\sum _{i=1}^{n_{j}}(x_{i,j}-M_{j})^{2}$

tudíž

$SS_{\textrm {total}}=SS_{\textrm {bg}}+SS_{\textrm {wg}}.$

Stupně volnosti se rozkládají podobným způsobem:

$df_{\textrm {total}}=df_{\textrm {bg}}+df_{\textrm {wg}},$ kde

$df_{\textrm {total}}=N-1,$

$df_{\textrm {bg}}=J-1,$

$df_{\textrm {wg}}=NJ,$

a je velikost celého vzorku a je počet skupin. $N$ $J$

Pak rozptyl každé části, označovaný v modelu analýzy rozptylu jako „střední čtverec“ nebo (z anglického Mean Square ), je poměr součtu čtverců k počtu jejich stupňů volnosti: $SLEČNA$

$MS_{\textrm {total}}={\frac {SS_{\textrm {total}}}{N-1}}$

$MS_{\textrm {bg}}={\frac {SS_{\textrm {bg}}}{J-1}}$

$MS_{\textrm {wg}}={\frac {SS_{\textrm {wg}}}{NJ}}),$

Poměr meziskupinových a vnitroskupinových rozptylů má F -distribuci ( Fischerovo rozdělení ) a je určen pomocí ( Fisherovo F -kritérium ):

$F_{df_{\textrm {bg}},df_{\textrm {wg}}}={\frac {MS_{\textrm {bg}}}{MS_{\textrm {wg}}}}.$

Principy a aplikace

Východiska analýzy rozptylu jsou

normální rozložení hodnot studovaného znaku v obecné populaci;
rovnost rozptylů ve srovnávaných populacích;
náhodný a nezávislý charakter vzorku.

Nulová hypotéza v analýze rozptylu je tvrzení o rovnosti průměrných hodnot:

$H_{0}{:}\quad \mu _{1}=\mu _{2}=\tečky =\mu _{j}.$

Když je nulová hypotéza zamítnuta, je přijata alternativní hypotéza, že ne všechny prostředky jsou stejné, to znamená, že existují alespoň dvě skupiny, které se liší v prostředcích:

$H_{1}{:}\existuje i,j\v \{1,...,j\},i\neq j:\mu _{i}\neq \mu _{j}.$

Pokud existují tři nebo více skupin, použijí se ke stanovení rozdílů mezi průměry post-hoc t - testy nebo metoda kontrastů .

Jednosměrná analýza rozptylu

Nejjednodušším případem analýzy rozptylu je jednorozměrná jednosměrná analýza pro dvě nebo více nezávislých skupin, kdy jsou všechny skupiny kombinovány podle jednoho atributu. Během analýzy je testována nulová hypotéza o rovnosti průměrů. Při analýze dvou skupin je analýza rozptylu totožná s dvouvýběrovým Studentovým t -testem pro nezávislé výběry a hodnota F - statistiky je rovna druhé mocnině příslušné t - statistiky .

K potvrzení tvrzení o rovnosti disperzí se obvykle používá Leveneův test . Pokud je hypotéza o rovnosti rozptylů zamítnuta, není hlavní analýza použitelná. Pokud jsou rozptyly stejné, pak se k posouzení poměru meziskupinové a vnitroskupinové variability použije Fisherovo F -kritérium :

$F_{df_{\textrm {bg}},df_{\textrm {wg}}}={\frac {MS_{\textrm {bg}}}{MS_{\textrm {wg}}}}.$

Pokud F -statistika překročí kritickou hodnotu, pak nelze nulovou hypotézu přijmout (zamítnout) a je učiněn závěr o nerovnosti průměrů. Při analýze průměrů obou skupin lze výsledky interpretovat ihned po aplikaci Fisherova testu .

Pokud existují tři nebo více skupin, je zapotřebí párové porovnání průměrů, aby se mezi nimi identifikovaly statisticky významné rozdíly. Apriorní analýza zahrnuje metodu kontrastů, ve které se meziskupinový součet čtverců rozdělí na součty čtverců jednotlivých kontrastů:

$SS_{\textrm {bg}}=SS_{\psi _{1}}+SS_{\psi _{2}}+...+SS_{\psi _{n)),$

tam, kde existuje kontrast mezi průměry dvou skupin, a poté pomocí Fisherova testu se zkontroluje poměr středního čtverce pro každý kontrast k průměrnému čtverci v rámci skupiny: $\psi$

$F_{1,df_{\textrm {wg}}}={\frac {MS_{\psi _{i}}}{MS_{\textrm {wg}}}}.$

A posteriori analýza zahrnuje post-hoc t testy pomocí Bonferroniho nebo Scheffeho metody, stejně jako srovnání průměrných rozdílů pomocí Tukeyho metody. Charakteristickým rysem post-hoc testů je použití vnitroskupinové střední čtverce k vyhodnocení libovolné dvojice průměrů. Bonferroniho a Scheffeho testy jsou nejkonzervativnější, protože používají nejmenší kritickou oblast na dané hladině významnosti . $MS_{\textrm {wg))$ $\alpha$

Kromě odhadu průměrů zahrnuje analýza rozptylu stanovení koeficientu determinace , který ukazuje, jaký podíl na celkové variabilitě tento faktor vysvětluje: $R^2$

$R^{2}={\frac {SS_{\textrm {bg}}}{SS_{\textrm {total}}}}.$

Vícerozměrná analýza rozptylu

Vícerozměrná analýza umožňuje testovat vliv několika faktorů na závislou proměnnou. Lineární model vícefaktorového modelu má tvar:

$x_{{i,j,k}}=\mu _{{i}}+a_{{i,j}}+b_{{i,k}}+...+(ab)_{{i, j,k}}+e_{{i,j,k}}$ , kde:

- $x_{{i,j,k}}$ je výsledkem měření tého parametru; $i$
- $\mu _{{i}}$ je průměr pro -tý parametr; $i$
- $a_{i,j}$ je systematická chyba při měření tého parametru ve skupině podle metody ; $i$ $j$ $A$
- $b_{{i,k}}$ je systematická chyba při měření tého parametru ve skupině podle metody ; $i$ $k$ $B$
- $(ab)_{{i,j,k}}$ je systematická chyba v měření tého parametru ve skupině způsobená kombinací metod a ; $i$ $j,k$ $A$ $B$
- $e_{{i,j,k}}$ je náhodná chyba měření tého parametru. $i$

Na rozdíl od jednorozměrného modelu, kde existuje jeden meziskupinový součet čtverců, model vícerozměrné analýzy zahrnuje součty čtverců pro každý faktor zvlášť a součty čtverců všech interakcí mezi nimi. Ve dvoufaktorovém modelu se tedy meziskupinový součet čtverců rozloží na součet čtverců faktoru , součet druhých mocnin faktoru a součet druhých mocnin interakce faktorů a : $A$ $B$ $A$ $B$

$SS_{\textrm {total}}=SS_{A}+SS_{B}+SS_{AB}+SS_{\textrm {wg}}.$

Třífaktorový model tedy zahrnuje součet druhých mocnin faktoru , součet druhých mocnin faktoru , součet druhých mocnin faktoru a součet druhých mocnin interakcí faktorů a , a , a , stejně jako interakce všech tří faktorů : $A$ $B$ $C$ $A$ $B$ $B$ $C$ $A$ $C$ $A, B, C$

$SS_{\textrm {total}}=SS_{A}+SS_{B}+SS_{C}+SS_{AB}+SS_{BC}+SS_{AC}+SS_{ABC}+SS_{\ textrm{wg}}.$

Stupně volnosti se rozšiřují podobným způsobem:

$df_{\textrm {total}}=df_{A}+df_{B}+df_{AB}+df_{\textrm {wg)),$ kde

$df_{\textrm {total}}=N-1,$

$df_{A}=J-1,$

$df_{B}=K-1,$

$df_{{AB}}=(J-1)(K-1),$

$df_{\textrm {wg}}=N-JK,$

a je objem celého vzorku, je počet úrovní (skupin) faktoru a je počet úrovní (skupin) faktoru . $N$ $J$ $A$ $K$ $B$

Analýza testuje několik nulových hypotéz :

hypotéza o rovnosti průměrů pod vlivem faktoru : ; $A$ $H_{0}{:}\ \mu _{1,*}=\mu _{2,*}=\tečky =\mu _{j,*}$
hypotéza o rovnosti průměrů pod vlivem faktoru : ; $B$ ${\displaystyle H_{0}{:}\ \mu _{*,1}=\mu _{*,2}=\tečky =\mu _{*,k))$
hypotéza o absenci interakce faktorů a : pro všechny a $A$ $B$ $H_{0}{:}\ (ab)_{j,k}=0$ $j$ $k.$

Každá hypotéza je testována pomocí Fisherova kritéria:

$F_{df_{A},df_{\textrm {wg}}}={\frac {MS_{A}}{MS_{\textrm {wg}}}};$

$F_{df_{B},df_{\textrm {wg}}}={\frac {MS_{B}}{MS_{\textrm {wg}}}};$

$F_{df_{AB},df_{\textrm {wg}}}={\frac {MS_{AB}}{MS_{\textrm {wg}}}}.$

Při zamítnutí nulové hypotézy o vlivu jediného faktoru se akceptuje tvrzení, že existuje hlavní účinek faktoru ( atd.). Při zamítnutí nulové hypotézy o interakci faktorů se akceptuje tvrzení, že vliv faktoru se na různých úrovních faktoru projevuje různě . Obvykle jsou v tomto případě výsledky obecné analýzy uznány jako neplatné a vliv faktoru je kontrolován samostatně na každé úrovni faktoru pomocí jednosměrné analýzy rozptylu nebo t -testu . $A$ $b,$ $A$ $B$ $A$ $B$

Poznámky

↑ Analýza rozptylu . Získáno 15. března 2011. Archivováno z originálu dne 23. května 2012. (neurčitý)
↑ Disperzní analýza - článek z Velké sovětské encyklopedie . Bolšev, L.N...
↑ A. D. Následov. Matematické metody psychologického výzkumu. Petrohrad, 2008. ISBN 5-9268-0275-X

Literatura

Scheffe G. Disperzní analýza, trans. z angličtiny. - M., 1963.
Smirnov NV, Dunin-Barkovsky IV Kurz teorie pravděpodobnosti a matematické statistiky pro technické aplikace. - 2. vyd. - M. , 1965.

Slovníky a encyklopedie	Velký Rus
V bibliografických katalozích	NKC : ph118416

Nejmenší čtverce a regresní analýza

Výpočetní statistika

Metoda nejmenších čtverců
Lineární MNC
Nelineární nejmenší čtverce
LSM s iterativním přepočtem vah

Korelace
a závislost

Pearsonův korelační koeficient
Korelace pořadí ( Spearman
Kendall )
Částečná korelace
Zkreslující faktor

Regresní analýza

Normální MNC
Metoda částečných nejmenších čtverců
Nejmenší plné čtverce
Ridge regrese

Regrese jako
statistický
model

Lineární regrese	Jednoduchá lineární regrese Normální MNC Zobecněné nejmenší čtverce Vážené nejmenší čtverce Základní lineární model
prediktivní struktura	Polynomiální regrese růstová křivka Segmentovaná regrese Lokální regrese
Vlastní regrese	nelineární Neparametrické semiparametrické udržitelného kvantil izotonický
Nestandardní chyby	Zobecněný lineární model Binomická regrese Poissonova regrese Logistická regrese

Rozklad rozptylu

Analýza rozptylu
Kovarianční analýza
Vícerozměrná analýza rozptylu

Modelová studie

C p Sléz
Postupná regrese
Výběr statistického modelu
Validace regresního modelu

Předpoklady

Průměrná a očekávaná odezva
Gauss-Markovova věta
Chyby a odchylky
Statistický test
Studentská rovnováha
Minimální střední kvadratická chyba

Plánování
experimentů

Metodika povrchu odezvy
Optimální design experimentu
Bayesovský experimentální design

Numerická
aproximace

Aplikace

Aproximace pomocí křivek
Kalibrační křivka
Savitsky-Golayův filtr
Identifikace systému
Přesouvání metodou nejmenších čtverců