Analýza rozptylu je metoda v matematické statistice zaměřená na hledání závislostí v experimentálních datech zkoumáním významnosti rozdílů v průměrných hodnotách [1] [2] . Na rozdíl od t-testu umožňuje porovnat průměry tří a více skupin. Vyvinutý R. Fisherem pro analýzu výsledků experimentálních studií. Označení ANOVA (z angl. ANalysis Of VAriance ) [3] se také vyskytuje v literatuře .
Podstatou analýzy rozptylu je studium vlivu jedné nebo více nezávislých proměnných , obvykle označovaných jako faktory, na závisle proměnnou . Závislé proměnné jsou reprezentovány hodnotami absolutních měřítek (poměrové měřítko). Nezávislé proměnné jsou nominativní (škála jmen), to znamená, že odrážejí příslušnost ke skupině a mohou mít dvě nebo více hodnot (typ, gradace nebo úroveň). Příklady nezávislé proměnné se dvěma hodnotami by mohly být pohlaví (žena: , muž: ) nebo typ léčebné skupiny (kontrola: , experimentální: ). Gradace odpovídající nezávislým vzorkům objektů se nazývají meziskupinové a gradace odpovídající závislým vzorkům se nazývají vnitroskupinové.
V závislosti na typu a počtu proměnných existují:
Speciálním případem základního lineárního modelu je matematický model disperzní analýzy . Nechte metody použít k měření několika parametrů , jejichž přesné hodnoty jsou . V tomto případě mohou být výsledky měření různých veličin různými metodami reprezentovány jako:
,
kde:
Pak rozptyly následujících náhodných proměnných: (kde:
)
jsou vyjádřeny jako:
a uspokojit identitu:
Postup analýzy rozptylu spočívá ve stanovení poměru systematického (meziskupinového) rozptylu k náhodnému (v rámci skupiny) rozptylu v naměřených datech. Jako indikátor variability se používá součet druhých mocnin odchylky hodnot parametru od průměru: (z angl. Sum of Squares ). Lze ukázat, že celkový součet čtverců se rozkládá na meziskupinový součet čtverců a vnitroskupinový součet čtverců :
Nechť přesná hodnota každého parametru je jeho matematické očekávání rovné populačnímu průměru . Při absenci systematických chyb jsou průměr skupiny a průměr populace totožné: . Pak náhodná chyba měření je rozdíl mezi výsledkem měření a průměrem skupiny: . Pokud má metoda systematický účinek, pak systematická chyba pod vlivem tohoto faktoru je rozdíl mezi průměrem skupiny a průměrem populace: .
Potom lze rovnici znázornit takto:
nebo
.
Pak
kde
tudíž
Stupně volnosti se rozkládají podobným způsobem:
kde
a je velikost celého vzorku a je počet skupin.
Pak rozptyl každé části, označovaný v modelu analýzy rozptylu jako „střední čtverec“ nebo (z anglického Mean Square ), je poměr součtu čtverců k počtu jejich stupňů volnosti:
Poměr meziskupinových a vnitroskupinových rozptylů má F -distribuci ( Fischerovo rozdělení ) a je určen pomocí ( Fisherovo F -kritérium ):
Východiska analýzy rozptylu jsou
Nulová hypotéza v analýze rozptylu je tvrzení o rovnosti průměrných hodnot:
Když je nulová hypotéza zamítnuta, je přijata alternativní hypotéza, že ne všechny prostředky jsou stejné, to znamená, že existují alespoň dvě skupiny, které se liší v prostředcích:
Pokud existují tři nebo více skupin, použijí se ke stanovení rozdílů mezi průměry post-hoc t - testy nebo metoda kontrastů .
Nejjednodušším případem analýzy rozptylu je jednorozměrná jednosměrná analýza pro dvě nebo více nezávislých skupin, kdy jsou všechny skupiny kombinovány podle jednoho atributu. Během analýzy je testována nulová hypotéza o rovnosti průměrů. Při analýze dvou skupin je analýza rozptylu totožná s dvouvýběrovým Studentovým t -testem pro nezávislé výběry a hodnota F - statistiky je rovna druhé mocnině příslušné t - statistiky .
K potvrzení tvrzení o rovnosti disperzí se obvykle používá Leveneův test . Pokud je hypotéza o rovnosti rozptylů zamítnuta, není hlavní analýza použitelná. Pokud jsou rozptyly stejné, pak se k posouzení poměru meziskupinové a vnitroskupinové variability použije Fisherovo F -kritérium :
Pokud F -statistika překročí kritickou hodnotu, pak nelze nulovou hypotézu přijmout (zamítnout) a je učiněn závěr o nerovnosti průměrů. Při analýze průměrů obou skupin lze výsledky interpretovat ihned po aplikaci Fisherova testu .
Pokud existují tři nebo více skupin, je zapotřebí párové porovnání průměrů, aby se mezi nimi identifikovaly statisticky významné rozdíly. Apriorní analýza zahrnuje metodu kontrastů, ve které se meziskupinový součet čtverců rozdělí na součty čtverců jednotlivých kontrastů:
tam, kde existuje kontrast mezi průměry dvou skupin, a poté pomocí Fisherova testu se zkontroluje poměr středního čtverce pro každý kontrast k průměrnému čtverci v rámci skupiny:
A posteriori analýza zahrnuje post-hoc t testy pomocí Bonferroniho nebo Scheffeho metody, stejně jako srovnání průměrných rozdílů pomocí Tukeyho metody. Charakteristickým rysem post-hoc testů je použití vnitroskupinové střední čtverce k vyhodnocení libovolné dvojice průměrů. Bonferroniho a Scheffeho testy jsou nejkonzervativnější, protože používají nejmenší kritickou oblast na dané hladině významnosti .
Kromě odhadu průměrů zahrnuje analýza rozptylu stanovení koeficientu determinace , který ukazuje, jaký podíl na celkové variabilitě tento faktor vysvětluje:
, kde:
Na rozdíl od jednorozměrného modelu, kde existuje jeden meziskupinový součet čtverců, model vícerozměrné analýzy zahrnuje součty čtverců pro každý faktor zvlášť a součty čtverců všech interakcí mezi nimi. Ve dvoufaktorovém modelu se tedy meziskupinový součet čtverců rozloží na součet čtverců faktoru , součet druhých mocnin faktoru a součet druhých mocnin interakce faktorů a :
Třífaktorový model tedy zahrnuje součet druhých mocnin faktoru , součet druhých mocnin faktoru , součet druhých mocnin faktoru a součet druhých mocnin interakcí faktorů a , a , a , stejně jako interakce všech tří faktorů :
Stupně volnosti se rozšiřují podobným způsobem:
kde
a je objem celého vzorku, je počet úrovní (skupin) faktoru a je počet úrovní (skupin) faktoru .
Analýza testuje několik nulových hypotéz :
Každá hypotéza je testována pomocí Fisherova kritéria:
Při zamítnutí nulové hypotézy o vlivu jediného faktoru se akceptuje tvrzení, že existuje hlavní účinek faktoru ( atd.). Při zamítnutí nulové hypotézy o interakci faktorů se akceptuje tvrzení, že vliv faktoru se na různých úrovních faktoru projevuje různě . Obvykle jsou v tomto případě výsledky obecné analýzy uznány jako neplatné a vliv faktoru je kontrolován samostatně na každé úrovni faktoru pomocí jednosměrné analýzy rozptylu nebo t -testu .
Slovníky a encyklopedie | |
---|---|
V bibliografických katalozích |
Nejmenší čtverce a regresní analýza | |||||||||
---|---|---|---|---|---|---|---|---|---|
Výpočetní statistika |
| ||||||||
Korelace a závislost |
| ||||||||
Regresní analýza |
| ||||||||
Regrese jako statistický model |
| ||||||||
Rozklad rozptylu |
| ||||||||
Modelová studie |
| ||||||||
Předpoklady |
| ||||||||
Plánování experimentů |
| ||||||||
Numerická aproximace | |||||||||
Aplikace |
|