Studentská distribuce | |
---|---|
Označení | |
Možnosti | je počet stupňů volnosti |
Dopravce | |
Hustota pravděpodobnosti | |
distribuční funkce | kde je hypergeometrická funkce |
Očekávaná hodnota | , pokud |
Medián | |
Móda | |
Disperze | , pokud |
Koeficient asymetrie | , pokud |
Kurtózní koeficient | , pokud |
Diferenciální entropie |
|
Generující funkce momentů | není určeno |
Studentovo rozdělení ( -distribuce ) v teorii pravděpodobnosti je jednoparametrová rodina absolutně spojitých rozdělení . William Seeley Gosset byl první, kdo publikoval články o této distribuci pod pseudonymem „Student“.
Studentovo rozdělení hraje důležitou roli ve statistické analýze a používá se například ve Studentově t -testu k posouzení statistické významnosti rozdílu mezi dvěma průměry výběrového souboru, při konstrukci intervalu spolehlivosti pro matematické očekávání normální populace s neznámou rozptylu a také v lineární regresní analýze . Studentovo t-rozdělení se také objevuje v Bayesovské analýze normálně rozdělených dat .
Graf hustoty Studentova rozdělení, stejně jako normální rozdělení, je symetrický a vypadá jako zvon, ale s "těžšími" ocasy, to znamená, že realizace náhodné veličiny se Studentovým rozdělením mají tendenci se značně lišit od matematického očekávání . To je důležité pro pochopení statistického chování určitých typů poměrů náhodných proměnných , ve kterých je odchylka ve jmenovateli velká a může vést k odlehlým hodnotám, když se jmenovatel poměru blíží nule.
Studentovo rozdělení je speciálním případem zobecněného hyperbolického rozdělení .
Ve statistice bylo t - rozdělení poprvé získáno jako zadní rozdělení v roce 1876 Friedrichem Helmertem [1] [2] [3] a Jakobem Lurothem [4] [5] [6] .
V anglicky psané literatuře má distribuce svůj název podle článku Williama Gosseta v Pearsonově žurnálu Biometrics, publikovaném pod pseudonymem „Student“ [7] [8] .
Gosset pracoval v pivovaru Guinness v Dublinu v Irsku a své znalosti statistiky uplatnil jak v procesu vaření piva, tak na polích, aby vyvinul nejvýnosnější odrůdu ječmene. Studie byly přizpůsobeny potřebám pivovarnické společnosti a byly provedeny na malém počtu pozorování, což posloužilo jako impuls pro vývoj metod, které pracují na malých vzorcích.
Gosset musel při publikování skrýt svou identitu kvůli skutečnosti, že dříve jiný výzkumník pracující pro Guinness zveřejnil ve svých materiálech informace, které byly obchodním tajemstvím společnosti, načež Guinness zakázal svým zaměstnancům zveřejňovat jakékoli materiály, bez ohledu na informace obsažené v jim.
Gossetův článek popisuje distribuci jako „Rozdělení četnosti standardních odchylek vzorků odebraných z populace “. Proslavila se díky práci Ronalda Fishera , který distribuci nazval „Studentská distribuce“, a hodnotě – písmenu t [9] .
Dovolit být nezávislé standardní normální náhodné proměnné takové, že . Pak rozdělení náhodné veličiny , kde
se nazývá Studentovo rozdělení se stupni volnosti .
Toto rozdělení je absolutně spojité s hustotou :
,kde je Eulerova gama funkce . Takto:
pro dokoncea odpovídajícím způsobem
pro liché .Studentovo rozdělení hustoty lze také vyjádřit pomocí Eulerovy beta funkce :
.Graf funkce hustoty t -rozdělení je symetrický a jeho tvar připomíná tvar zvonu jako standardní normální rozdělení, ale je nižší a širší.
Následující grafy odrážejí hustotu t -rozdělení s rostoucím počtem stupňů volnosti. Lze pozorovat , že křivka funkce hustoty se stále více podobá standardnímu normálnímu rozdělení.
Distribuční funkce může být vyjádřena v podmínkách regularizované neúplné beta funkce . pro ,
kde [10]Pro hodnotu lze získat díky symetrii rozdělení.
Jiný vzorec je správný pro [10] :
,kde 2 F 1 je speciální případ hypergeometrické funkce .
se shoduje s hustotou pravděpodobnosti standardního normálního rozdělení.
Studentovo rozdělení se stupni volnosti lze definovat jako rozdělení náhodné veličiny [10] [11]
,kde
Nechť, , jsou nezávislé náhodné veličiny s normálním rozdělením ,
je průměr vzorku,
je nestranný odhad rozptylu.Pak náhodná veličina
má chí-kvadrát rozdělení se stupni volnosti [12] .
Náhodná veličina má standardní normální rozdělení, protože výběrový průměr má normální rozdělení . Navíc lze ukázat, že tyto dvě náhodné proměnné (normální a chí-kvadrát ) jsou nezávislé.
Dosaďte výsledné hodnoty do hodnoty
,který má Studentovo rozdělení a liší se tím, že směrodatná odchylka je nahrazena náhodnou veličinou , . Všimněte si, že neznámý rozptyl se neobjevuje v , protože byl v čitateli i ve jmenovateli. Gosset intuitivně získal hustotu pravděpodobnosti stanovenou výše, kde odpovídá ; Fischer to dokázal v roce 1925 [9] .
Rozdělení statistiky kritéria závisí, ale nezávisí na μ nebo σ 2 , což činí rozdělení důležitým jak v teorii, tak v praxi.
Studentovo rozdělení vzniká v souvislosti s rozdělením výběrového rozptylu . Nechť nezávislé náhodné proměnné takové, že . Označme výběrový průměr tohoto vzorku a jeho výběrový rozptyl . Pak
.S tímto faktem souvisí použití Studentova t-rozdělení ve statistice pro bodový odhad , konstrukci intervalů spolehlivosti a testování hypotéz o neznámém výběrovém průměru z normálního rozdělení.
V bayesovské statistice se necentrální t - rozdělení vyskytuje jako okrajové rozdělení koeficientu normálního rozdělení .
Závislost neznámého rozptylu je vyjádřena pomocí:
kde jsou data { x i } a jsou jakékoli další informace, které by mohly být použity k vytvoření modelu.
Když jsou data neinformativní , Bayesův teorém implikuje
normální rozdělení a škálované inverzní chí-kvadrát rozdělení, kde
.Okrajový integrál má v tomto případě tvar
po výměně , kde ,
dostaneme
a hodnocení
nyní standardní gama integrál, který se vyhodnocuje jako konstanta
toto je nestandardizované t-rozdělení.
Pomocí náhrady získáme standardizované t-rozdělení.
Odvození výše bylo uvedeno pro případ neinformativního před pro a ; ale je zřejmé, že jakákoli předchozí pravděpodobnost vede ke směsi normálního rozdělení a škálovaného inverzního chí-kvadrát rozdělení, že necentrální t - rozdělení se škálováním a vychýlením o , parametr škálování bude ovlivněn předchozím informace a data, a nejen data, jako ve výše uvedeném příkladu.
Studentovo t-rozdělení lze zobecnit na rodinu funkcí se třemi parametry, včetně faktoru posunu a faktoru měřítka , prostřednictvím vztahu
nebo
,kde je klasické Studentovo rozdělení se stupni volnosti.
Hustota nestandardizovaného Studentova rozdělení je reparametrizované Pearsonovo rozdělení typu VII a je určena následujícím výrazem [13]
Zde se nejedná o směrodatnou odchylku, jako u normálního rozdělení, jde obecně o jiný parametr měřítka. Nicméně, při , má hustota Pearsonova rozdělení typu VII tendenci k normální hustotě rozdělení se standardní odchylkou .
V Bayesovské inferenci je mezní distribuce neznámého průměru vyšší než , a odpovídá , kde
pro ,
pro
Toto rozdělení je výsledkem kombinace Gaussova rozdělení (normálního rozdělení) se středním a neznámým rozptylem, s inverzním rozdělením gama, s rozptylem s parametry a . Jinými slovy, předpokládá se, že náhodná veličina X má normální rozdělení s neznámým rozptylem distribuovaným jako inverzní gama, a pak je rozptyl eliminován. Tato vlastnost je užitečná, protože inverzní gama rozdělení je konjugovaným předkem rozptylu Gaussova rozdělení, což je důvod, proč se nestandardizované Studentovo t-rozdělení přirozeně vyskytuje v mnoha Bayesovských problémech.
Ekvivalentně je toto rozdělení výsledkem kombinace Gaussova rozdělení se škálovaným inverzním chí-kvadrát rozdělením s parametry a . Škálované inverzní chí-kvadrát rozdělení je přesně stejné rozdělení jako inverzní gama rozdělení, ale s jinou parametrizací, jmenovitě .
Alternativní parametrizace založená na parametru inverzního škálování λ [14] (podobný tomu, jak je míra přesnosti převrácenou hodnotou rozptylu) definovaná vztahem ,
pak je hustota definována jako
Vlastnosti:
pro ,
pro
Toto rozdělení je výsledkem kombinace Gaussova rozdělení se střední a neznámou mírou přesnosti (inverzní rozptyl), s rozdělením gama s parametry a . Jinými slovy, předpokládá se, že náhodná proměnná X má normální rozdělení s neznámou gama-distribuovanou mírou přesnosti.
Necentrální t-t je jedním ze způsobů, jak zobecnit standardní t-t zahrnutím dalšího faktoru posunu (parametr necentrality) .
V necentrálním Studentově rozdělení se medián neshoduje s módem, tzn. není symetrický (na rozdíl od nestandardizovaného).
Toto rozdělení je důležité pro studium statistické síly Studentova t-testu.
Diskrétní Studentovo t rozdělení má následující distribuční funkci s r úměrnou: [15]
Kde a , b a k jsou parametry. Taková distribuce vzniká při jednání se systémy z jednotlivých distribucí, jako je Pearsonova distribuce . [16]
Vzorek s t-rozdělením můžeme získat tak, že vezmeme poměr hodnot z normálního rozdělení a druhé odmocniny chí-kvadrát rozdělení.
kde jsou nezávislé standardní normální náhodné proměnné takové, že
Pokud místo normálního rozdělení, vezmeme si například Irwin-Hall , dostaneme symetrické rozdělení se 4 parametry, které zahrnuje normální, rovnoměrné, trojúhelníkové a také Studentovo a Cauchyho rozdělení; toto zobecnění je tedy flexibilnější než mnoho jiných symetrických zobecnění Gaussova rozdělení.
Některé statistiky mohou mít Studentovo t-rozdělení na malých velikostech vzorků, takže Studentovo t-rozdělení tvoří základ testů významnosti. Například Spearmanův test hodnostní korelace ρ je v nulovém případě (nulová korelace) dobře aproximován Studentovým t-rozdělením s velikostí vzorku větší než 20.
Studentovo t-t lze použít k odhadu, jak pravděpodobně bude skutečný průměr v jakémkoli daném rozsahu.
Předpokládejme, že číslo A je vybráno tak, že
.
Pak T má t-rozdělení s n – 1 stupni volnosti. Na základě symetrie distribuce je to ekvivalentní tvrzení, že A vyhovuje
nebo , pak
což je ekvivalentní
tedy interval s limitem spolehlivosti v bodech je 90% interval spolehlivosti pro μ. Pokud tedy najdeme střední hodnotu souboru pozorování (normálně rozdělená), můžeme použít Studentovo t-rozdělení k určení, zda meze spolehlivosti tohoto průměru zahrnují nějakou teoreticky předpokládanou hodnotu, jako je hodnota předpovězená z nulové hypotézy.
Takový přístup se používá ve Studentově t-testu : pokud může být rozdíl mezi průměry vzorků ze dvou normálních rozdělení sám o sobě normálně rozdělen, lze Studentovo t-t použít ke zkoumání, zda lze tento rozdíl považovat s vysokou mírou za nulový. pravděpodobnosti.
Pro normálně rozdělené vzorky je jednostranný (1− a ) horní limit spolehlivosti (UCL) průměru
.
Výsledný horní limit spolehlivosti bude největší průměr pro daný interval spolehlivosti a velikost vzorku. Jinými slovy, pokud je průměr souboru pozorování, pravděpodobnost, že průměr distribuce vynese, je rovna hladině významnosti 1 –a.
Studentovo t-rozdělení lze použít k získání prediktorového intervalu pro nepozorovaný vzorek z normálního rozdělení s neznámým průměrem a rozptylem.
Studentovo t-rozdělení, zejména necentrální, se často objevuje v bayesovské statistice jako výsledek asociace s normálním rozdělením.
Pokud totiž neznáme rozptyl normálně rozdělené náhodné veličiny, ale známe konjugované předchozí rozdělení, bude možné zvolit gama rozdělení tak, že výsledné hodnoty budou mít Studentovo rozdělení.
Ekvivalentní konstrukce se stejnými výsledky zahrnují konjugované škálované inverzní chí-kvadrát distribuce. Pokud se nesprávné předchozí rozdělení, úměrné , nachází nad rozptylem, objeví se také Studentovo rozdělení. K tomu dochází bez ohledu na to, zda je nebo není znám průměr normálně distribuovaného množství distribuovaného s konjugovanou předchozí distribucí.
Studentovo t-rozdělení se často používá jako alternativa k normálnímu rozdělení pro datový model. [18] Je to proto, že skutečná data mají poměrně často těžší konce, než by umožňovalo normální rozdělení. Klasickým přístupem je identifikace odlehlých hodnot a jejich odstranění (nebo snížení jejich hmotnosti). Není však vždy snadné definovat odlehlou hodnotu (zejména ve vysokorozměrných problémech ) a Studentovo t-rozdělení je přirozenou volbou pro poskytnutí parametrického přístupu k robustní statistice .
Lange a další zkoumali použití Studentovy distribuce pro robustní datové modelování. Bayesovský výpočet lze nalézt v Gelman et al.
Počet stupňů volnosti řídí špičatost rozdělení a koreluje s parametrem měřítka.
Nechť je integrál Studentovy funkce hustoty pravděpodobnosti pravděpodobnost, že hodnota t je menší než hodnota vypočítaná z pozorovacích dat.
Pomocí funkce lze otestovat, zda je rozdíl mezi průměry dvou souborů dat odebraných ze stejné populace statisticky významný, toho dosáhneme výpočtem odpovídající hodnoty t a pravděpodobnosti jejího výskytu.
To se používá například ve Studentově T-testu . Pro t -rozdělení se stupni volnosti je pravděpodobnost, že t bude menší než pozorovaná hodnota, pokud by byly dvě střední hodnoty stejné. Lze ji snadno vypočítat z kumulativní distribuční funkce Studentova rozdělení:
kde I x - regularizovaná neúplná beta funkce (a, b).
Při testování statistických hypotéz se tato funkce používá ke konstrukci p-hodnoty .
Existují různé přístupy k získávání náhodných veličin ze Studentova rozdělení. Vše závisí na tom, zda jsou vyžadovány nezávislé vzorky, nebo je lze zkonstruovat aplikací funkce inverzního rozdělení na vzorek s rovnoměrným rozdělením.
V případě nezávislého vzorku je snadné aplikovat rozšíření Box-Mullerovy metody v její polární (trigonometrické) podobě [19] . Výhodou této metody je, že platí stejně pro všechny kladné stupně volnosti , zatímco mnoho jiných metod nebude fungovat, pokud je blízko nule. [19]
Studentovo rozdělení hustoty lze získat řešením následující diferenciální rovnice :
Mnoho učebnic o statistice obsahuje tabulky rozdělení studentů.
V dnešní době je nejlepším způsobem, jak získat zcela přesnou kritickou hodnotu t neboli kumulativní pravděpodobnost, použití statistické funkce zabudované do tabulek (Office Excel, OpenOffice Calc atd.) nebo interaktivní webové kalkulačky. Požadované tabulkové funkce jsou TDIST a TINV.
Níže uvedená tabulka obsahuje hodnoty některých hodnot pro Studentova rozdělení s v stupni volnosti pro řadu jednostranných nebo oboustranných kritických oblastí.
Jako příklad, jak číst tuto tabulku, si vezměme čtvrtý řádek, který začíná na 4; to znamená, že v, počet stupňů volnosti, je 4 (a pokud pracujeme, jak je ukázáno výše, s n množstvími s pevným součtem, pak n = 5). Vezměme pátou hodnotu ve sloupci 95 % pro jednostranné (90 % pro oboustranné ). Hodnota je "2,132". Pravděpodobnost, že T je menší než 2,132, je tedy 95 % nebo Pr(−∞ < T < 2,132) = 0,95; to také znamená, že Pr(−2,132 < T < 2,132) = 0,9.
To lze vypočítat ze symetrie rozdělení,
Pr( T < −2,132) = 1 − Pr( T > −2,132) = 1 − 0,95 = 0,05,dostaneme
Pr(−2,132 < T < 2,132) = 1 − 2(0,05) = 0,9.Všimněte si , že poslední řádek také uvádí kritické body: Studentovo t-rozdělení s nekonečným počtem stupňů je normální rozdělení.
První sloupec zobrazuje počet stupňů volnosti.
jednostranný | 75 % | 80 % | 85 % | 90 % | 95 % | 97,5 % | 99 % | 99,5 % | 99,75 % | 99,9 % | 99,95 % |
---|---|---|---|---|---|---|---|---|---|---|---|
bilaterální | padesáti% | 60 % | 70 % | 80 % | 90 % | 95 % | 98 % | 99 % | 99,5 % | 99,8 % | 99,9 % |
jeden | 1 000 | 1,376 | 1,963 | 3,078 | 6,314 | 12,71 | 31,82 | 63,66 | 127,3 | 318,3 | 636,6 |
2 | 0,816 | 1,080 | 1,386 | 1,886 | 2,920 | 4,303 | 6,965 | 9,925 | 14.09 | 22,33 | 31,60 |
3 | 0,765 | 0,978 | 1,250 | 1,638 | 2,353 | 3,182 | 4,541 | 5,841 | 7,453 | 10.21 | 12,92 |
čtyři | 0,741 | 0,941 | 1,190 | 1,533 | 2,132 | 2,776 | 3,747 | 4,604 | 5,598 | 7,173 | 8,610 |
5 | 0,727 | 0,920 | 1,156 | 1,476 | 2,015 | 2,571 | 3,365 | 4,032 | 4,773 | 5,893 | 6,869 |
6 | 0,718 | 0,906 | 1,134 | 1,440 | 1,943 | 2,447 | 3,143 | 3,707 | 4,317 | 5.208 | 5,959 |
7 | 0,711 | 0,896 | 1,119 | 1,415 | 1,895 | 2,365 | 2,998 | 3,499 | 4,029 | 4,785 | 5,408 |
osm | 0,706 | 0,889 | 1.108 | 1,397 | 1,860 | 2,306 | 2,896 | 3,355 | 3,833 | 4,501 | 5,041 |
9 | 0,703 | 0,883 | 1,100 | 1,383 | 1,833 | 2,262 | 2,821 | 3,250 | 3,690 | 4,297 | 4,781 |
deset | 0,700 | 0,879 | 1,093 | 1,372 | 1,812 | 2,228 | 2,764 | 3,169 | 3,581 | 4.144 | 4,587 |
jedenáct | 0,697 | 0,876 | 1,088 | 1,363 | 1,796 | 2.201 | 2,718 | 3.106 | 3,497 | 4,025 | 4,437 |
12 | 0,695 | 0,873 | 1,083 | 1,356 | 1,782 | 2,179 | 2,681 | 3,055 | 3,428 | 3,930 | 4,318 |
13 | 0,694 | 0,870 | 1,079 | 1,350 | 1,771 | 2,160 | 2,650 | 3,012 | 3,372 | 3,852 | 4,221 |
čtrnáct | 0,692 | 0,868 | 1,076 | 1,345 | 1,761 | 2,145 | 2,624 | 2,977 | 3,326 | 3,787 | 4,140 |
patnáct | 0,691 | 0,866 | 1,074 | 1,341 | 1,753 | 2,131 | 2,602 | 2,947 | 3,286 | 3,733 | 4,073 |
16 | 0,690 | 0,865 | 1,071 | 1,337 | 1,746 | 2,120 | 2,583 | 2,921 | 3,252 | 3,686 | 4,015 |
17 | 0,689 | 0,863 | 1,069 | 1,333 | 1,740 | 2.110 | 2,567 | 2,898 | 3,222 | 3,646 | 3,965 |
osmnáct | 0,688 | 0,862 | 1,067 | 1,330 | 1,734 | 2.101 | 2,552 | 2,878 | 3,197 | 3,610 | 3,922 |
19 | 0,688 | 0,861 | 1,066 | 1,328 | 1,729 | 2,093 | 2,539 | 2,861 | 3,174 | 3,579 | 3,883 |
dvacet | 0,687 | 0,860 | 1,064 | 1,325 | 1,725 | 2,086 | 2,528 | 2,845 | 3,153 | 3,552 | 3,850 |
21 | 0,686 | 0,859 | 1,063 | 1,323 | 1,721 | 2,080 | 2,518 | 2,831 | 3,135 | 3,527 | 3,819 |
22 | 0,686 | 0,858 | 1,061 | 1,321 | 1,717 | 2,074 | 2,508 | 2,819 | 3.119 | 3,505 | 3,792 |
23 | 0,685 | 0,858 | 1,060 | 1,319 | 1,714 | 2,069 | 2 500 | 2,807 | 3.104 | 3,485 | 3,767 |
24 | 0,685 | 0,857 | 1,059 | 1,318 | 1,711 | 2,064 | 2,492 | 2,797 | 3,091 | 3,467 | 3,745 |
25 | 0,684 | 0,856 | 1,058 | 1,316 | 1,708 | 2,060 | 2,485 | 2,787 | 3,078 | 3,450 | 3,725 |
26 | 0,684 | 0,856 | 1,058 | 1,315 | 1,706 | 2,056 | 2,479 | 2,779 | 3,067 | 3,435 | 3,707 |
27 | 0,684 | 0,855 | 1,057 | 1,314 | 1,703 | 2,052 | 2,473 | 2,771 | 3,057 | 3,421 | 3,690 |
28 | 0,683 | 0,855 | 1,056 | 1,313 | 1,701 | 2,048 | 2,467 | 2,763 | 3,047 | 3,408 | 3,674 |
29 | 0,683 | 0,854 | 1,055 | 1,311 | 1,699 | 2,045 | 2,462 | 2,756 | 3,038 | 3,396 | 3,659 |
třicet | 0,683 | 0,854 | 1,055 | 1,310 | 1,697 | 2,042 | 2,457 | 2,750 | 3,030 | 3,385 | 3,646 |
40 | 0,681 | 0,851 | 1,050 | 1,303 | 1,684 | 2,021 | 2,423 | 2,704 | 2,971 | 3,307 | 3,551 |
padesáti | 0,679 | 0,849 | 1,047 | 1,299 | 1,676 | 2.009 | 2,403 | 2,678 | 2,937 | 3,261 | 3,496 |
60 | 0,679 | 0,848 | 1,045 | 1,296 | 1,671 | 2 000 | 2,390 | 2,660 | 2,915 | 3,232 | 3,460 |
80 | 0,678 | 0,846 | 1,043 | 1,292 | 1,664 | 1,990 | 2,374 | 2,639 | 2,887 | 3,195 | 3,416 |
100 | 0,677 | 0,845 | 1,042 | 1,290 | 1,660 | 1,984 | 2,364 | 2,626 | 2,871 | 3,174 | 3,390 |
120 | 0,677 | 0,845 | 1,041 | 1,289 | 1,658 | 1,980 | 2,358 | 2,617 | 2,860 | 3,160 | 3,373 |
∞ | 0,674 | 0,842 | 1,036 | 1,282 | 1,645 | 1,960 | 2,326 | 2,576 | 2,807 | 3,090 | 3,291 |
Pokud například dostaneme vzorek s rozptylem vzorku 2 a průměrem vzorku 10, který byl vybrán ze sady vzorků 11 (10 stupňů volnosti), pomocí vzorce
S 90% jistotou můžeme určit, že skutečný průměr je:
(tj. v průměru 90 % případů je horní hranice větší než skutečný průměr)
a stále s 90% jistotou najdeme skutečný průměr větší než
(V průměru v 90 % případů je spodní hranice nižší než skutečný průměr)
Takže s 80% jistotou (1-2*(1-90%) = 80%) najdeme skutečnou hodnotu v intervalu
Jinými slovy, 80 % případů je skutečný průměr pod horním limitem a nad spodním limitem.
To není ekvivalentní tvrzení, že existuje 80% šance, že skutečný průměr leží mezi určitým párem horní a dolní meze.
Zobecněním Studentova rozdělení je zobecněné hyperbolické rozdělení .
Slovníky a encyklopedie |
---|
Rozdělení pravděpodobnosti | |
---|---|
Oddělený | |
Absolutně kontinuální |