Studentská distribuce

Studentská distribuce
Hustota pravděpodobnosti
distribuční funkce
Označení	${\mathrm {t)) (n)$
Možnosti	$n>0$ je počet stupňů volnosti
Dopravce	$x\in (-\infty ;+\infty )$
Hustota pravděpodobnosti	${\frac {\Gamma ({\frac {n+1}{2)))}{{\sqrt {n\pi }}\,\Gamma ({\frac {n}{2))) \,(1+{\frac {x^{2}}{n}})^{\frac {n+1}{2}}}}$
distribuční funkce	${\frac {1}{2}}+{x\Gamma \left({\frac {n+1}{2}}\right)}\times$ ${\frac {\,_{2}F_{1}\left({\frac {1}{2)),{\frac {n+1}{2));{\frac {3} {2));-{\frac {x^{2}}{n}}\right)}{{\sqrt {\pi n}}\,\Gamma ({\frac {n}{2}}) }}$ kde je hypergeometrická funkce ${\displaystyle _{2}F_{1))$
Očekávaná hodnota	$0$ , pokud $n>1$
Medián	$0$
Móda	$0$
Disperze	${\frac {n}{n-2))$ , pokud $n>2$
Koeficient asymetrie	$0$ , pokud $n>3$
Kurtózní koeficient	${\frac {6}{n-4))$ , pokud $n>4$
Diferenciální entropie	${\begin{matrix}{\frac {n+1}{2}}\left[\psi ({\frac {1+n}{2}})-\psi ({\frac {n}{2} })\right]\\[0.5em]+\log {\left[{\sqrt {n}}B({\frac {n}{2}},{\frac {1}{2}})\ vpravo]}\end{matrix}}$ $\psi =\Gamma '/\Gamma$ , $B$ : funkce beta
Generující funkce momentů	není určeno

Studentovo rozdělení ( -distribuce ) v teorii pravděpodobnosti je jednoparametrová rodina absolutně spojitých rozdělení . William Seeley Gosset byl první, kdo publikoval články o této distribuci pod pseudonymem „Student“. $t$

Studentovo rozdělení hraje důležitou roli ve statistické analýze a používá se například ve Studentově t -testu k posouzení statistické významnosti rozdílu mezi dvěma průměry výběrového souboru, při konstrukci intervalu spolehlivosti pro matematické očekávání normální populace s neznámou rozptylu a také v lineární regresní analýze . Studentovo t-rozdělení se také objevuje v Bayesovské analýze normálně rozdělených dat .

Graf hustoty Studentova rozdělení, stejně jako normální rozdělení, je symetrický a vypadá jako zvon, ale s "těžšími" ocasy, to znamená, že realizace náhodné veličiny se Studentovým rozdělením mají tendenci se značně lišit od matematického očekávání . To je důležité pro pochopení statistického chování určitých typů poměrů náhodných proměnných , ve kterých je odchylka ve jmenovateli velká a může vést k odlehlým hodnotám, když se jmenovatel poměru blíží nule.

Studentovo rozdělení je speciálním případem zobecněného hyperbolického rozdělení .

Historie a etymologie

Ve statistice bylo t - rozdělení poprvé získáno jako zadní rozdělení v roce 1876 Friedrichem Helmertem [1] [2] [3] a Jakobem Lurothem [4] [5] [6] .

V anglicky psané literatuře má distribuce svůj název podle článku Williama Gosseta v Pearsonově žurnálu Biometrics, publikovaném pod pseudonymem „Student“ [7] [8] .

Gosset pracoval v pivovaru Guinness v Dublinu v Irsku a své znalosti statistiky uplatnil jak v procesu vaření piva, tak na polích, aby vyvinul nejvýnosnější odrůdu ječmene. Studie byly přizpůsobeny potřebám pivovarnické společnosti a byly provedeny na malém počtu pozorování, což posloužilo jako impuls pro vývoj metod, které pracují na malých vzorcích.

Gosset musel při publikování skrýt svou identitu kvůli skutečnosti, že dříve jiný výzkumník pracující pro Guinness zveřejnil ve svých materiálech informace, které byly obchodním tajemstvím společnosti, načež Guinness zakázal svým zaměstnancům zveřejňovat jakékoli materiály, bez ohledu na informace obsažené v jim.

Gossetův článek popisuje distribuci jako „Rozdělení četnosti standardních odchylek vzorků odebraných z populace “. Proslavila se díky práci Ronalda Fishera , který distribuci nazval „Studentská distribuce“, a hodnotě – písmenu t [9] .

Definice

Dovolit být nezávislé standardní normální náhodné proměnné takové, že . Pak rozdělení náhodné veličiny , kde $Y_{0},Y_{1},\ldots ,Y_{n}$ $Y_{i}\sim {\mathcal {N))(0,1),\;i=0,\ldots ,n$ $t$

t={\frac {Y_{0}}{{\sqrt {{\frac {1}{n}}\sum \limits _{{i=1}}^{n}Y_{i}^{2} }}}},

se nazývá Studentovo rozdělení se stupni volnosti . $n$ $t\sim {\mathrm {t}} (n)$

Toto rozdělení je absolutně spojité s hustotou :

f_{t}(y)={\frac {\Gamma \left({\frac {n+1}{2}}\right)}{{\sqrt {n\pi }}\,\Gamma \left({\frac {n}{2}\right)}}\,\left(1+{\frac {y^{2}}{n}}\right)^{-{\frac {n +1 {2}}}

kde je Eulerova gama funkce . Takto: $\Gamma$

{\frac {\Gamma ({\frac {n+1}{2)))}{{\sqrt {n\pi }}\,\Gamma ({\frac {n}{2))) }}={\frac {(n-1)(n-3)\cdots 5\cdot 3}{2{\sqrt {n}}(n-2)(n-4)\cdots 4\cdot 2\ ,}},

pro dokonce

n

a odpovídajícím způsobem

{\frac {\Gamma ({\frac {n+1}{2)))}{{\sqrt {n\pi }}\,\Gamma ({\frac {n}{2))) }}={\frac {(n-1)(n-3)\cdots 4\cdot 2}{\pi {\sqrt {n}}(n-2)(n-4)\cdots 5\cdot 3 \,}},

pro liché .

n

Studentovo rozdělení hustoty lze také vyjádřit pomocí Eulerovy beta funkce : $\mathrm {B}$

f_{t}(y)={\frac {1}({\sqrt {n))\,\mathrm {B} ({\frac {1}{2)),{\frac {n} {2))))\left(1+{\frac {y^{2}}{n}}\right)^{\!-{\frac {n+1}{2}}}

Graf funkce hustoty t -rozdělení je symetrický a jeho tvar připomíná tvar zvonu jako standardní normální rozdělení, ale je nižší a širší.

Následující grafy odrážejí hustotu t -rozdělení s rostoucím počtem stupňů volnosti. Lze pozorovat , že křivka funkce hustoty se stále více podobá standardnímu normálnímu rozdělení. $n$ $n$

Hustota t-rozdělení (červená čára) pro 1, 2, 3, 5, 10 a 30 stupňů volnosti
ve srovnání se standardním normálním rozdělením (modrá čára). Předchozí grafy jsou zobrazeny zeleně.

Distribuční funkce

Distribuční funkce může být vyjádřena v podmínkách regularizované neúplné beta funkce . pro , $já$ $t>0$

F(t)=\int _{-\infty }^{t}f(u)\,du=1-{\tfrac {1}{2}}I_{x(t)}\left( {\tfrac {n}{2)),{\tfrac {1}{2}}\right),

kde [10]

x(t)={\frac {n}{t^{2}+n)).

Pro hodnotu lze získat díky symetrii rozdělení. $t<0$

Jiný vzorec je správný pro [10] : $t^{2}<n$

\int _{-\infty }^{t}f(u)\,du={\tfrac {1}{2}}+t{\frac {\Gamma \left({\tfrac {1} {2}}(n+1)\right)}{{\sqrt {\pi n}}\,\Gamma \left({\tfrac {n}{2}}\right))){}_{2 }F_{1}\left({\tfrac {1}{2)),{\tfrac {1}{2}}(n+1);{\tfrac {3}{2));-{\tfrac {t^{2}}{n}}\right)

kde 2 F 1 je speciální případ hypergeometrické funkce .

Speciální případy

Studentovo rozdělení s jedním stupněm volnosti ( ) je standardní Cauchyho rozdělení . $n=1$

Distribuční funkce:

F(t)={\tfrac {1}{2}}+{\tfrac {1}{\pi }}\arctan(t)

Hustota pravděpodobnosti:

f(t)={\frac {1}{\pi (1+t^{2})))

Studentovo rozdělení se dvěma stupni volnosti ( ): $n=2$

Distribuční funkce:

F(t)={\tfrac {1}{2}}+{\frac {t}{2{\sqrt {2+t^{2}}}}}

Hustota pravděpodobnosti: ;

f(t)={\frac {1}{\left(2+t^{2}\right)^{\frac {3}{2))))

Studentovo rozdělení se třemi stupni volnosti ( ): $n=3$

Hustota pravděpodobnosti:

{\displaystyle f(t)={\frac {6{\sqrt {3))}{\pi \left(3+t^{2}\right)^{2))))

Studentovo rozdělení s nekonečným počtem stupňů volnosti ( ): $n=\infty$

Hustota pravděpodobnosti

f(t)={\frac {1}{\sqrt {2\pi }}}e^{-{\frac {t^{2}}{2}}}

se shoduje s hustotou pravděpodobnosti standardního normálního rozdělení.

Vlastnosti studentské distribuce

Studentovo rozdělení je symetrické. Zejména pokud , pak . $t\sim {\mathrm {t}} (n)$ $-t\sim \mathrm {t} (n)$
Existují pouze okamžiky řádu a nejsou žádné okamžiky řádu . V tomto případě jsou všechny existující momenty lichého řádu rovny nule. $k<n$ $k\geq n$

{\mathbb {E}}\left[t^{k}\right]=0

, je-li lichý ;

k

\mathbb {E} \left[t^{k}\right]={\frac {1}({\sqrt {\pi }}\Gamma \left({\frac {n}{2)) \right)}}\left[\Gamma \left({\frac {k+1}{2}}\right)\Gamma \left({\frac {nk}{2}}\right)n^{\ frac {k}{2}}\right]

pokud je to sudé. Zejména,

k

Matematické očekávání , pokud . ${\mathbb {E}}[t]=0$ $n>1$
rozptyl pokud . ${\mathrm {D}}[t]={n \over n-2}$ $n>2$

Charakteristika

Studentovo rozdělení se stupni volnosti lze definovat jako rozdělení náhodné veličiny [10] [11] $k$ $T$

{\displaystyle T={\frac {Z}{\sqrt {V/k))}=Z{\sqrt {\frac {k}{V))))

kde

Z je náhodná veličina se standardním normálním rozdělením ; ${\mathcal {N}}(0,1)$
V je náhodná proměnná mající chí-kvadrát rozdělení se stupni volnosti; $k$
Z a V jsou nezávislé náhodné proměnné .

Nechť, , jsou nezávislé náhodné veličiny s normálním rozdělením , $X_{1},\ldots ,X_{n}$ ${\mathcal {N}} (\mu ,\sigma ^{2})$

${\overline {X}}_{n}={\frac {1}{n}}(X_{1}+\cdots +X_{n})$ je průměr vzorku,

S_{n}^{\;2}={\frac {1}{n-1}}\sum _{i=1}^{n}\left(X_{i}-{\overline { X}}_{n}\right)^{2}

je nestranný odhad rozptylu.

Pak náhodná veličina

V=(n-1){\frac {S_{n}^{2}}{\sigma ^{2}}}

má chí-kvadrát rozdělení se stupni volnosti [12] . $k=n-1$

Náhodná veličina má standardní normální rozdělení, protože výběrový průměr má normální rozdělení . Navíc lze ukázat, že tyto dvě náhodné proměnné (normální a chí-kvadrát ) jsou nezávislé. $Z=\left({\overline {X}}_{n}-\mu \right){\frac {\sqrt {n}}{\sigma }}$ $Z\sim {\mathcal {N}} (0,1)$ ${\overline {X}}_{n}$ ${\mathcal {N}}(\mu ,{\frac {\sigma ^{2}}{n}})$ $Z$ $PROTI$

Dosaďte výsledné hodnoty do hodnoty

T\equiv {\frac {Z}{\sqrt {V/k}}}=\left({\overline {X}}_{n}-\mu \right){\frac {\sqrt { n}}{S_{n}}}

který má Studentovo rozdělení a liší se tím, že směrodatná odchylka je nahrazena náhodnou veličinou , . Všimněte si, že neznámý rozptyl se neobjevuje v , protože byl v čitateli i ve jmenovateli. Gosset intuitivně získal hustotu pravděpodobnosti stanovenou výše, kde odpovídá ; Fischer to dokázal v roce 1925 [9] . $Z$ $\sigma$ $S_{n}$ $\sigma ^{2}$ $T$ $k$ $n-1$

Rozdělení statistiky kritéria závisí, ale nezávisí na μ nebo σ 2 , což činí rozdělení důležitým jak v teorii, tak v praxi. $T$ $k$

Jak vzniká t -rozdělení

Ukázkový rozptyl

Studentovo rozdělení vzniká v souvislosti s rozdělením výběrového rozptylu . Nechť nezávislé náhodné proměnné takové, že . Označme výběrový průměr tohoto vzorku a jeho výběrový rozptyl . Pak $X_{1},\ldots ,X_{n}$ $X_{i}\sim {\mathrm {N}} (\mu ,\sigma ^{2}),\;i=1,\ldots ,n$ ${\bar {X}}$ $S^{2}$

{\frac {{\bar {X}}-\mu }{S/{\sqrt {n}}}}\sim {\mathrm {t}} (n-1)

S tímto faktem souvisí použití Studentova t-rozdělení ve statistice pro bodový odhad , konstrukci intervalů spolehlivosti a testování hypotéz o neznámém výběrovém průměru z normálního rozdělení.

Bayesovská statistika

V bayesovské statistice se necentrální t - rozdělení vyskytuje jako okrajové rozdělení koeficientu normálního rozdělení . $m$ ${\mathcal {N}}(m,\sigma ^{2})$

Závislost neznámého rozptylu je vyjádřena pomocí:

{\begin{aligned}p(\mu \mid D,I)=&\int p(\mu ,\sigma ^{2}\mid D,I)\;d\sigma ^{2}= \int p(\mu \mid D,\sigma ^{2},I)\;p(\sigma ^{2}\mid D,I)\;d\sigma ^{2}\end{aligned}}

kde jsou data { x i } a jsou jakékoli další informace, které by mohly být použity k vytvoření modelu. $D$ $já$

Když jsou data neinformativní , Bayesův teorém implikuje

{\begin{aligned}p(\mu \mid D,\sigma ^{2},I)\sim &N({\bar {x)),{\frac {\sigma ^{2)){ n)))\end{aligned}}

{\begin{aligned}p(\sigma ^{2}\mid D,I)\sim &\operatorname {Scale-inv-\chi ^{2}} (n,s^{2})\ konec{aligned}}

normální rozdělení a škálované inverzní chí-kvadrát rozdělení, kde

s^{2}=\sum {\frac {(x_{i}-{\bar {x)))^{2}}{n-1}}

Okrajový integrál má v tomto případě tvar

{\begin{aligned}p(\mu |D,I)&\propto \int _{0}^{\infty }{\frac {1}{\sqrt {\sigma ^{2))} }\exp \left(-{\frac {1}{2\sigma ^{2}}}n(\mu -{\bar {x}})^{2}\right)\;\cdot \;\ sigma ^{-n-2}\exp(-ns^{2}/2\sigma ^{2})\;d\sigma ^{2}\\&\propto \int _{0}^{\infty }\sigma ^{-n-3}\exp \left(-{\frac {1}{2\sigma ^{2}}}\left(n(\mu -{\bar {x}})^{ 2}+ns^{2}\right)\right)\;d\sigma ^{2}\end{aligned}}

po výměně , kde , $z=A/2\sigma ^{2}$ $A=n(\mu -{\bar {x)))^{2}+ns^{2}$

dostaneme $dz=-{\frac {A}{2\sigma ^{4}}}d\sigma ^{2}$

a hodnocení $p(\mu |D,I)\propto \;A^{-{\frac {n+1}{2}}}\int _{0}^{\infty }z^{(n- 1)/2}\exp(-z)\,dz$

$\int _{0}^{\infty }z^{(n-1)/2}\exp(-z)\,dz$ nyní standardní gama integrál, který se vyhodnocuje jako konstanta

${\begin{aligned}p(\mu \mid D,I)\propto &\;A^{-{\frac {n+1}{2))}\propto &\left(1+{ \frac {n(\mu -{\bar {x}})^{2}}{ns^{2}}}\right)^{-{\frac {n+1}{2}}}\end {zarovnaný}}$

toto je nestandardizované t-rozdělení.

Pomocí náhrady získáme standardizované t-rozdělení. $t={\frac {\mu -{\bar {x}}}{s/{\sqrt {n}}}}$

Odvození výše bylo uvedeno pro případ neinformativního před pro a ; ale je zřejmé, že jakákoli předchozí pravděpodobnost vede ke směsi normálního rozdělení a škálovaného inverzního chí-kvadrát rozdělení, že necentrální t - rozdělení se škálováním a vychýlením o , parametr škálování bude ovlivněn předchozím informace a data, a nejen data, jako ve výše uvedeném příkladu. ${\displaystyle \scriptstyle {\mu ))$ $\scriptstyle {\sigma ^{2))$ ${\displaystyle \scriptstyle {P(\mu |D,I)))$ $\scriptstyle {\frac {S^{2}}{n}}$

Zobecnění Studentova rozdělení

Studentovo nestandardizované t-rozdělení

Studentovo t-rozdělení lze zobecnit na rodinu funkcí se třemi parametry, včetně faktoru posunu a faktoru měřítka , prostřednictvím vztahu $\mu$ $\sigma$

X=\mu +\sigma T

nebo

T={\frac {X-\mu }{\sigma }}

kde je klasické Studentovo rozdělení se stupni volnosti. ${\frac {x-\mu }{\sigma }}$ $n$

Hustota nestandardizovaného Studentova rozdělení je reparametrizované Pearsonovo rozdělení typu VII a je určena následujícím výrazem [13]

{\displaystyle p(x\mid n,\mu ,\sigma )={\frac {\Gamma ({\frac {n+1}{2)))}{\Gamma ({\frac {n}{2 }}){\sqrt {\pi n}}\sigma }}\left(1+{\frac {1}{n}}\left({\frac {x-\mu }{\sigma }}\right )^{2}\right)^{-{\frac {n+1}{2))))

Zde se nejedná o směrodatnou odchylku, jako u normálního rozdělení, jde obecně o jiný parametr měřítka. Nicméně, při , má hustota Pearsonova rozdělení typu VII tendenci k normální hustotě rozdělení se standardní odchylkou . $\sigma$ $n\to\infty$ $\sigma$

V Bayesovské inferenci je mezní distribuce neznámého průměru vyšší než , a odpovídá , kde $\mu$ $\sigma$ ${\displaystyle \scriptstyle {s/{\sqrt {n))))$

s^{2}=\sum {\frac {(x_{i}-{\bar {x)))^{2}}{n-1}}.

$\operatorname {E} (X)=\mu$ pro , $n>1$

${\text{var}}(X)=\sigma ^{2}{\frac {n}{n-2}}$ pro $n>2$

${\text{mode}}(X)=\mu .$

Toto rozdělení je výsledkem kombinace Gaussova rozdělení (normálního rozdělení) se středním a neznámým rozptylem, s inverzním rozdělením gama, s rozptylem s parametry a . Jinými slovy, předpokládá se, že náhodná veličina X má normální rozdělení s neznámým rozptylem distribuovaným jako inverzní gama, a pak je rozptyl eliminován. Tato vlastnost je užitečná, protože inverzní gama rozdělení je konjugovaným předkem rozptylu Gaussova rozdělení, což je důvod, proč se nestandardizované Studentovo t-rozdělení přirozeně vyskytuje v mnoha Bayesovských problémech. $\mu$ $a=n/2$ $b=n\sigma ^{2}/2$

Ekvivalentně je toto rozdělení výsledkem kombinace Gaussova rozdělení se škálovaným inverzním chí-kvadrát rozdělením s parametry a . Škálované inverzní chí-kvadrát rozdělení je přesně stejné rozdělení jako inverzní gama rozdělení, ale s jinou parametrizací, jmenovitě . $n$ $\sigma ^{2}$ $n=2a,\sigma ^{2}=b/a$

Alternativní parametrizace založená na parametru inverzního škálování λ [14] (podobný tomu, jak je míra přesnosti převrácenou hodnotou rozptylu) definovaná vztahem , ${\displaystyle \lambda ={\frac {1}{\sigma ^{2))))$

pak je hustota definována jako

p(x|n,\mu ,\lambda )={\frac {\Gamma ({\frac {n+1}{2)))}{\Gamma ({\frac {n}{2} })}}\left({\frac {\lambda }{\pi n}}\right)^{\frac {1}{2}}\left(1+{\frac {\lambda (x-\mu )^{2}}{n}}\right)^{-{\frac {n+1}{2}}}.

Vlastnosti:

$\operatorname {E} (X)=\mu$ pro , $n>1$

${\text{var}}(X)={\frac {1}{\lambda }}{\frac {n}{n-2}}$ pro $n>2$

${\text{mode}}(X)=\mu .$

Toto rozdělení je výsledkem kombinace Gaussova rozdělení se střední a neznámou mírou přesnosti (inverzní rozptyl), s rozdělením gama s parametry a . Jinými slovy, předpokládá se, že náhodná proměnná X má normální rozdělení s neznámou gama-distribuovanou mírou přesnosti. $\mu$ $a=n/2$ $b=n/(2\lambda )$

Studentská necentrální distribuce

Necentrální t-t je jedním ze způsobů, jak zobecnit standardní t-t zahrnutím dalšího faktoru posunu (parametr necentrality) . $\mu$

$(Z+\mu ){\sqrt {\frac {n}{V}}}.$

V necentrálním Studentově rozdělení se medián neshoduje s módem, tzn. není symetrický (na rozdíl od nestandardizovaného).

Toto rozdělení je důležité pro studium statistické síly Studentova t-testu.

Diskrétní studentská distribuce

Diskrétní Studentovo t rozdělení má následující distribuční funkci s r úměrnou: [15]

\prod _{j=1}^{k}{\frac {1}{(r+j+a)^{2}+b^{2}}}\quad \quad r=\ldots, -1,0,1,\ldots .

Kde a , b a k jsou parametry. Taková distribuce vzniká při jednání se systémy z jednotlivých distribucí, jako je Pearsonova distribuce . [16]

Vztah s jinými distribucemi

Studentovo t-rozdělení je Pearsonovo t-rozdělení typu VII [17] .
Studentovo rozdělení s jedním stupněm volnosti ( ) je standardní Cauchyho rozdělení : . $n=1$ ${\mathrm {t}}(1)\ekviv {\mathrm {C}}(0,1)$
Studentovo rozdělení konverguje ke standardnímu normálu v . Nechť je dána posloupnost náhodných proměnných , kde . Potom: distribucí na . $n\to\infty$ $\{t_{n}\}_{{n=1}}^{{\infty }}$ $t_{n}\sim {\mathrm {t}}(n),\;n\in {\mathbb {N}}$ $t_{n}\to {\mathcal {N}}(0,1)$ $n\to\infty$
Druhá mocnina náhodné proměnné, která má Studentovo rozdělení, má také Fisherovo rozdělení . Nechte _ Potom: . $t\sim {\mathrm {t}} (n)$ $t^{2}\sim {\mathrm {F}} (1,n)$

Zobecnění Gaussova rozdělení

Vzorek s t-rozdělením můžeme získat tak, že vezmeme poměr hodnot z normálního rozdělení a druhé odmocniny chí-kvadrát rozdělení.

kde jsou nezávislé standardní normální náhodné proměnné takové, že ${\displaystyle X_{0},X_{1},\ldots ,X_{n))$ $X_{i}\sim {\mathcal {N))(0,1),\;i=0,\ldots ,n$

$t={\frac {X_{0}}{\sqrt ({\frac {1}{n}}\sum \limits _{i=1}^{n}X_{i}^{2} }}}.$

Pokud místo normálního rozdělení, vezmeme si například Irwin-Hall , dostaneme symetrické rozdělení se 4 parametry, které zahrnuje normální, rovnoměrné, trojúhelníkové a také Studentovo a Cauchyho rozdělení; toto zobecnění je tedy flexibilnější než mnoho jiných symetrických zobecnění Gaussova rozdělení.

Aplikace studentské distribuce

Testování hypotéz

Některé statistiky mohou mít Studentovo t-rozdělení na malých velikostech vzorků, takže Studentovo t-rozdělení tvoří základ testů významnosti. Například Spearmanův test hodnostní korelace ρ je v nulovém případě (nulová korelace) dobře aproximován Studentovým t-rozdělením s velikostí vzorku větší než 20.

Vytvoření intervalu spolehlivosti

Studentovo t-t lze použít k odhadu, jak pravděpodobně bude skutečný průměr v jakémkoli daném rozsahu.

Předpokládejme, že číslo A je vybráno tak, že

$\Pr(-A<T<A)=0,9$ .

Pak T má t-rozdělení s n – 1 stupni volnosti. Na základě symetrie distribuce je to ekvivalentní tvrzení, že A vyhovuje

$\Pr(T<A)=0,95,$ nebo , pak ${\displaystyle A=t_{(0,05,n-1)))$

$\Pr \left(-A<{\frac ({\overline {X}}_{n}-\mu }{\frac {S_{n}}{\sqrt {n}}}}<A \right)=0,9,$

což je ekvivalentní

$\Pr \left({\overline {X}}_{n}-A{\frac {S_{n}}{\sqrt {n}}}<\mu <{\overline {X}}_ {n}+A{\frac {S_{n}}{\sqrt {n}}}\right)=0,9.$

tedy interval s limitem spolehlivosti v bodech je 90% interval spolehlivosti pro μ. Pokud tedy najdeme střední hodnotu souboru pozorování (normálně rozdělená), můžeme použít Studentovo t-rozdělení k určení, zda meze spolehlivosti tohoto průměru zahrnují nějakou teoreticky předpokládanou hodnotu, jako je hodnota předpovězená z nulové hypotézy. ${\overline {X}}_{n}\pm A{\frac {S_{n}}{\sqrt {n}}}$

Takový přístup se používá ve Studentově t-testu : pokud může být rozdíl mezi průměry vzorků ze dvou normálních rozdělení sám o sobě normálně rozdělen, lze Studentovo t-t použít ke zkoumání, zda lze tento rozdíl považovat s vysokou mírou za nulový. pravděpodobnosti.

Pro normálně rozdělené vzorky je jednostranný (1− a ) horní limit spolehlivosti (UCL) průměru

$\mathrm {UCL} _{1-a}={\overline {X}}_{n}+t_{a,n-1}{\frac {S_{n}}{\sqrt {n} }}$ .

Výsledný horní limit spolehlivosti bude největší průměr pro daný interval spolehlivosti a velikost vzorku. Jinými slovy, pokud je průměr souboru pozorování, pravděpodobnost, že průměr distribuce vynese, je rovna hladině významnosti 1 –a. ${\overline {X}}_{n}$ $\mathrm {UCL} _{1-n}$

Vytvoření intervalu prediktoru

Studentovo t-rozdělení lze použít k získání prediktorového intervalu pro nepozorovaný vzorek z normálního rozdělení s neznámým průměrem a rozptylem.

V Bayesovské statistice

Studentovo t-rozdělení, zejména necentrální, se často objevuje v bayesovské statistice jako výsledek asociace s normálním rozdělením.

Pokud totiž neznáme rozptyl normálně rozdělené náhodné veličiny, ale známe konjugované předchozí rozdělení, bude možné zvolit gama rozdělení tak, že výsledné hodnoty budou mít Studentovo rozdělení.

Ekvivalentní konstrukce se stejnými výsledky zahrnují konjugované škálované inverzní chí-kvadrát distribuce. Pokud se nesprávné předchozí rozdělení, úměrné , nachází nad rozptylem, objeví se také Studentovo rozdělení. K tomu dochází bez ohledu na to, zda je nebo není znám průměr normálně distribuovaného množství distribuovaného s konjugovanou předchozí distribucí. $\sigma ^{2}$

Parametrické modelování odolné vůči porušení výchozích předpokladů

Studentovo t-rozdělení se často používá jako alternativa k normálnímu rozdělení pro datový model. [18] Je to proto, že skutečná data mají poměrně často těžší konce, než by umožňovalo normální rozdělení. Klasickým přístupem je identifikace odlehlých hodnot a jejich odstranění (nebo snížení jejich hmotnosti). Není však vždy snadné definovat odlehlou hodnotu (zejména ve vysokorozměrných problémech ) a Studentovo t-rozdělení je přirozenou volbou pro poskytnutí parametrického přístupu k robustní statistice .

Lange a další zkoumali použití Studentovy distribuce pro robustní datové modelování. Bayesovský výpočet lze nalézt v Gelman et al.

Počet stupňů volnosti řídí špičatost rozdělení a koreluje s parametrem měřítka.

Některé další vlastnosti studentské distribuce

Nechť je integrál Studentovy funkce hustoty pravděpodobnosti pravděpodobnost, že hodnota t je menší než hodnota vypočítaná z pozorovacích dat. $A(t|n)$ $F(t)$

Pomocí funkce lze otestovat, zda je rozdíl mezi průměry dvou souborů dat odebraných ze stejné populace statisticky významný, toho dosáhneme výpočtem odpovídající hodnoty t a pravděpodobnosti jejího výskytu. $A(t|n)$

To se používá například ve Studentově T-testu . Pro t -rozdělení se stupni volnosti je pravděpodobnost, že t bude menší než pozorovaná hodnota, pokud by byly dvě střední hodnoty stejné. Lze ji snadno vypočítat z kumulativní distribuční funkce Studentova rozdělení: $n$ $A(t|n)$ $F_{n}(t)$

A(t|n)=F_{n}(t)-F_{n}(-t)=1-I_{\frac {n}{n+t^{2}}}\left({ \frac {n}{2)),{\frac {1}{2}}\right),

kde I x - regularizovaná neúplná beta funkce (a, b).

Při testování statistických hypotéz se tato funkce používá ke konstrukci p-hodnoty .

Vzorkování Monte Carlo

Existují různé přístupy k získávání náhodných veličin ze Studentova rozdělení. Vše závisí na tom, zda jsou vyžadovány nezávislé vzorky, nebo je lze zkonstruovat aplikací funkce inverzního rozdělení na vzorek s rovnoměrným rozdělením.

V případě nezávislého vzorku je snadné aplikovat rozšíření Box-Mullerovy metody v její polární (trigonometrické) podobě [19] . Výhodou této metody je, že platí stejně pro všechny kladné stupně volnosti , zatímco mnoho jiných metod nebude fungovat, pokud je blízko nule. [19] $n$ $n$

Hustota Studentova rozdělení řešením diferenciální rovnice

Studentovo rozdělení hustoty lze získat řešením následující diferenciální rovnice :

$\left\{{\begin{array}{l}\left(n+x^{2}\right)f'(x)+(n+1)xf(x)=0,\\f (1)={\frac {n^{n/2}(n+1)^{-{\frac {n}{2}}-{\frac {1}{2}}}}{B\left ({\frac {n}{2)),{\frac {1}{2}}\right)}}\end{array}}\right\}$

Percentily

Tabulky hodnot

Mnoho učebnic o statistice obsahuje tabulky rozdělení studentů.

V dnešní době je nejlepším způsobem, jak získat zcela přesnou kritickou hodnotu t neboli kumulativní pravděpodobnost, použití statistické funkce zabudované do tabulek (Office Excel, OpenOffice Calc atd.) nebo interaktivní webové kalkulačky. Požadované tabulkové funkce jsou TDIST a TINV.

Níže uvedená tabulka obsahuje hodnoty některých hodnot pro Studentova rozdělení s v stupni volnosti pro řadu jednostranných nebo oboustranných kritických oblastí.

Jako příklad, jak číst tuto tabulku, si vezměme čtvrtý řádek, který začíná na 4; to znamená, že v, počet stupňů volnosti, je 4 (a pokud pracujeme, jak je ukázáno výše, s n množstvími s pevným součtem, pak n = 5). Vezměme pátou hodnotu ve sloupci 95 % pro jednostranné (90 % pro oboustranné ). Hodnota je "2,132". Pravděpodobnost, že T je menší než 2,132, je tedy 95 % nebo Pr(−∞ < T < 2,132) = 0,95; to také znamená, že Pr(−2,132 < T < 2,132) = 0,9.

To lze vypočítat ze symetrie rozdělení,

Pr( T < −2,132) = 1 − Pr( T > −2,132) = 1 − 0,95 = 0,05,

dostaneme

Pr(−2,132 < T < 2,132) = 1 − 2(0,05) = 0,9.

Všimněte si , že poslední řádek také uvádí kritické body: Studentovo t-rozdělení s nekonečným počtem stupňů je normální rozdělení.

První sloupec zobrazuje počet stupňů volnosti.

jednostranný	75 %	80 %	85 %	90 %	95 %	97,5 %	99 %	99,5 %	99,75 %	99,9 %	99,95 %
bilaterální	padesáti%	60 %	70 %	80 %	90 %	95 %	98 %	99 %	99,5 %	99,8 %	99,9 %
jeden	1 000	1,376	1,963	3,078	6,314	12,71	31,82	63,66	127,3	318,3	636,6
2	0,816	1,080	1,386	1,886	2,920	4,303	6,965	9,925	14.09	22,33	31,60
3	0,765	0,978	1,250	1,638	2,353	3,182	4,541	5,841	7,453	10.21	12,92
čtyři	0,741	0,941	1,190	1,533	2,132	2,776	3,747	4,604	5,598	7,173	8,610
5	0,727	0,920	1,156	1,476	2,015	2,571	3,365	4,032	4,773	5,893	6,869
6	0,718	0,906	1,134	1,440	1,943	2,447	3,143	3,707	4,317	5.208	5,959
7	0,711	0,896	1,119	1,415	1,895	2,365	2,998	3,499	4,029	4,785	5,408
osm	0,706	0,889	1.108	1,397	1,860	2,306	2,896	3,355	3,833	4,501	5,041
9	0,703	0,883	1,100	1,383	1,833	2,262	2,821	3,250	3,690	4,297	4,781
deset	0,700	0,879	1,093	1,372	1,812	2,228	2,764	3,169	3,581	4.144	4,587
jedenáct	0,697	0,876	1,088	1,363	1,796	2.201	2,718	3.106	3,497	4,025	4,437
12	0,695	0,873	1,083	1,356	1,782	2,179	2,681	3,055	3,428	3,930	4,318
13	0,694	0,870	1,079	1,350	1,771	2,160	2,650	3,012	3,372	3,852	4,221
čtrnáct	0,692	0,868	1,076	1,345	1,761	2,145	2,624	2,977	3,326	3,787	4,140
patnáct	0,691	0,866	1,074	1,341	1,753	2,131	2,602	2,947	3,286	3,733	4,073
16	0,690	0,865	1,071	1,337	1,746	2,120	2,583	2,921	3,252	3,686	4,015
17	0,689	0,863	1,069	1,333	1,740	2.110	2,567	2,898	3,222	3,646	3,965
osmnáct	0,688	0,862	1,067	1,330	1,734	2.101	2,552	2,878	3,197	3,610	3,922
19	0,688	0,861	1,066	1,328	1,729	2,093	2,539	2,861	3,174	3,579	3,883
dvacet	0,687	0,860	1,064	1,325	1,725	2,086	2,528	2,845	3,153	3,552	3,850
21	0,686	0,859	1,063	1,323	1,721	2,080	2,518	2,831	3,135	3,527	3,819
22	0,686	0,858	1,061	1,321	1,717	2,074	2,508	2,819	3.119	3,505	3,792
23	0,685	0,858	1,060	1,319	1,714	2,069	2 500	2,807	3.104	3,485	3,767
24	0,685	0,857	1,059	1,318	1,711	2,064	2,492	2,797	3,091	3,467	3,745
25	0,684	0,856	1,058	1,316	1,708	2,060	2,485	2,787	3,078	3,450	3,725
26	0,684	0,856	1,058	1,315	1,706	2,056	2,479	2,779	3,067	3,435	3,707
27	0,684	0,855	1,057	1,314	1,703	2,052	2,473	2,771	3,057	3,421	3,690
28	0,683	0,855	1,056	1,313	1,701	2,048	2,467	2,763	3,047	3,408	3,674
29	0,683	0,854	1,055	1,311	1,699	2,045	2,462	2,756	3,038	3,396	3,659
třicet	0,683	0,854	1,055	1,310	1,697	2,042	2,457	2,750	3,030	3,385	3,646
40	0,681	0,851	1,050	1,303	1,684	2,021	2,423	2,704	2,971	3,307	3,551
padesáti	0,679	0,849	1,047	1,299	1,676	2.009	2,403	2,678	2,937	3,261	3,496
60	0,679	0,848	1,045	1,296	1,671	2 000	2,390	2,660	2,915	3,232	3,460
80	0,678	0,846	1,043	1,292	1,664	1,990	2,374	2,639	2,887	3,195	3,416
100	0,677	0,845	1,042	1,290	1,660	1,984	2,364	2,626	2,871	3,174	3,390
120	0,677	0,845	1,041	1,289	1,658	1,980	2,358	2,617	2,860	3,160	3,373
∞	0,674	0,842	1,036	1,282	1,645	1,960	2,326	2,576	2,807	3,090	3,291

Pokud například dostaneme vzorek s rozptylem vzorku 2 a průměrem vzorku 10, který byl vybrán ze sady vzorků 11 (10 stupňů volnosti), pomocí vzorce

${\overline {X}}_{n}\pm A{\frac {S_{n}}{\sqrt {n}}}.$

S 90% jistotou můžeme určit, že skutečný průměr je:

$10+1.37218{\frac {\sqrt {2}}{\sqrt {11}}}=10.58510,$

(tj. v průměru 90 % případů je horní hranice větší než skutečný průměr)

a stále s 90% jistotou najdeme skutečný průměr větší než

$10-1.37218{\frac {\sqrt {2}}{\sqrt {11}}}=9.41490.$

(V průměru v 90 % případů je spodní hranice nižší než skutečný průměr)

Takže s 80% jistotou (1-2*(1-90%) = 80%) najdeme skutečnou hodnotu v intervalu

$\left(10-1.37218{\frac {\sqrt {2}}{\sqrt {11}}},10+1.37218{\frac {\sqrt {2}}{\sqrt {11}}}\ right)=\left(9.41490,10.58510\right).$

Jinými slovy, 80 % případů je skutečný průměr pod horním limitem a nad spodním limitem.

To není ekvivalentní tvrzení, že existuje 80% šance, že skutečný průměr leží mezi určitým párem horní a dolní meze.

Generalizace

Zobecněním Studentova rozdělení je zobecněné hyperbolické rozdělení .

Poznámky

↑ Helmert, F. R. (1875). "Über die Bestimmung des wahrscheinlichen Fehlers aus einer endlichen Anzahl wahrer Beobachtungsfehler". Z Matematika. Phys. , 20, 300–3.
↑ Helmert, F. R. (1876a). „Über die Wahrscheinlichkeit der Potenzsummen der Beobachtungsfehler und uber einige damit in Zusammenhang stehende Fragen“. Z Matematika. Phys. , 21, 192–218.
↑ Helmert, F. R. (1876b). "Die Genauigkeit der Formel von Peters zur Berechnung des wahrscheinlichen Beobachtungsfehlers ředitel Beobachtungen gleicher Genauigkeit", Astron. Nachr. , 88, 113–32.
↑ Lüroth, J. Vergleichung von zwei Werten des wahrscheinlichen Fehlers (německy) // Astron. Nachr. : prodejna. - 1876. - Bd. 87 , č. 14 . - S. 209-220 . - doi : 10.1002/asna.18760871402 . - .
↑ Pfanzagl, J.; Sheynin, O. Předchůdce t -distribuce (Studie z historie pravděpodobnosti a statistiky XLIV) (anglicky) // Biometrika : journal. - 1996. - Sv. 83 , č. 4 . - S. 891-898 . - doi : 10.1093/biomet/83.4.891 .
↑ Sheynin, O. Helmertova práce v teorii chyb // Arch . Hist. Exact Sci. : deník. - 1995. - Sv. 49 . - S. 73-104 . - doi : 10.1007/BF00374700 .
↑ "Student" [ William Sealy Gosset ]. Pravděpodobná chyba průměru (anglicky) // Biometrika : journal. - 1908. - březen ( roč. 6 , č. 1 ). - str. 1-25 . - doi : 10.1093/biomet/6.1.1 .
↑ "Student" (William Sealy Gosset), originální papír Biometrika jako sken Archivováno 5. března 2016 na Wayback Machine
↑ 1 2 Ronald Fisher. Aplikace „Student's“ distribuce // metron . - 1925. - Sv. 5 . - S. 90-104 . Archivováno z originálu 5. března 2016.
↑ 1 2 3 Johnson, NL, Kotz, S., Balakrishnan, N. kapitola 28 // Continuous Univariate Distributions, Volume 2, 2nd Edition .. - 1995. - ISBN 0-471-58494-0 .
↑ Hogg & Craig (1978, sekce 4.4 a 4.8.)
↑ W. G. Cochran. Distribuce kvadratických forem v normálním systému s aplikacemi pro analýzu kovariance // Mathematical Proceedings of the Cambridge Philosophical Society. - 1. 4. 1934. - T. 30 , č. 02 . - S. 178-191 . — ISSN 1469-8064 . - doi : 10.1017/S0305004100016595 .
↑ Simon Jackman. Bayesovská analýza pro společenské vědy . — Wiley. - 2009. - S. 507 .
↑ Bishop CM Rozpoznávání vzorů a strojové učení. — Springer . — 2006.
↑ Ord, JK (1972) Families of Frequency Distributions , Griffin. ISBN 0-85264-137-0 (tabulka 5.1)
↑ Ord, JK (1972) Families of Frequency Distributions , Griffin. ISBN 0-85264-137-0 (kapitola 5)
↑ Koroljuk, 1985 , str. 134.
↑ Kenneth L. Lange, Roderick J. A. Little, Jeremy M. G. Taylor. Robustní statistické modelování pomocí t Distribuce // Journal of the American Statistical Association . — 12.12.1989. - T. 84 , č.p. 408 . - S. 881-896 . — ISSN 0162-1459 . - doi : 10.1080/01621459.1989.10478852 .
↑ 1 2 Ralph W. Bailey. Polární generování náhodných variací s t-rozdělením // Matematika výpočtů. — 1994-01-01. - T. 62 , č.p. 206 . - S. 779-781 . - doi : 10.2307/2153537 . Archivováno z originálu 3. dubna 2016.

Literatura

Koroljuk V. S. , Portenko N. I. , Skorokhod A. V. , Turbin A. F. Příručka teorie pravděpodobnosti a matematické statistiky. - M. : Nauka, 1985. - 640 s.

Slovníky a encyklopedie	Velký Rus Britannica (online)

Rozdělení pravděpodobnosti
Oddělený	Bernoulli Binomický Geometrický hypergeometrické Logaritmické Negativní binom jed Diskrétní uniforma Multinomický
Absolutně kontinuální	Beta Weibulla gama- hyperexponenciální Gompertz Kolmogorov Cauchy Laplace lognormální normální (gaussovský) Logistické Nakagami Pareto Pearson polokruhový kontinuální uniforma Rýže Rayleigh Student Tracey - Vidoma Rybář Chí-kvadrát Exponenciální Rozptyl-gama Vícerozměrný normální spona