Variační koeficient

Aktuální verze stránky ještě nebyla zkontrolována zkušenými přispěvateli a může se výrazně lišit od verze recenzované 13. listopadu 2009; kontroly vyžadují 12 úprav .

Nezaměňovat s koeficientem determinace.

V teorii pravděpodobnosti a statistikách je variační koeficient , také známý jako relativní směrodatná odchylka , standardní mírou rozptylu pravděpodobnosti nebo distribuce frekvence. Často se vyjadřuje v procentech a je definován jako poměr směrodatné odchylky σ k průměru μ. CV nebo RSD jsou široce používány v analytické chemii k vyjádření přesnosti a opakovatelnosti analýzy. Často se také používají ve strojírenství a fyzice, ve výzkumu zajišťování kvality. Kromě toho CV používají ekonomové a investoři do ekonomických modelů.

Definice

Variační koeficient je definován jako poměr směrodatné odchylky σ k průměru μ: c v = [1] . Ukazuje míru variability ve vztahu k výběrovému průměru. Variační koeficient by se měl vypočítávat pouze pro data naměřená na poměrové stupnici, tj. na stupnici, která má významnou nulu a umožňuje tedy relativní srovnání dvou měření. Variační koeficient nemusí mít pro data intervalové stupnice žádný význam . Například většina teplotních stupnic (např. Celsia, Fahrenheita atd.) jsou intervalové stupnice s libovolnými nulami, takže vypočítaný variační koeficient se bude lišit v závislosti na použité stupnici. Na druhou stranu Kelvinova teplota má výraznou nulu, úplnou absenci tepelné energie, a je tedy poměrovou stupnicí. Jednoduše řečeno, dává smysl říci, že 20 kelvinů je dvakrát tak horkých než 10 kelvinů, ale pouze na této stupnici se skutečnou absolutní nulou. Ačkoli lze směrodatnou odchylku měřit v Kelvinech, stupních Celsia nebo Fahrenheita, vypočítaná hodnota platí pouze pro tuto stupnici. Pro výpočet skutečného variačního koeficientu lze použít pouze Kelvinovu stupnici.

Měření, která jsou lognormálně rozložená , vykazují stacionární CV; naopak RCC se mění v závislosti na očekávané hodnotě měření.

Robustnější možností je kvartilový koeficient rozptylu , polovina mezikvartilového rozmezí dělená průměrem kvartilů. Ve většině případů se CV počítá pro jednu nezávislou proměnnou (například jeden tovární výrobek) s více opakovanými měřeními závislé proměnné (například chyba ve výrobním procesu). Data, která jsou lineární nebo dokonce logaritmicky nelineární a zahrnují spojitý rozsah pro nezávislou proměnnou s řídkými měřeními každé hodnoty (např. bodový graf), mohou být přístupná pro jediný výpočet LR pomocí přístupu odhadu maximální pravděpodobnosti .

Příklady

Soubor dat [100, 100, 100] má konstantní hodnoty. Jeho výběrová směrodatná odchylka je 0 a jeho průměr je 100, což dává variační koeficient:

0/100 = 0

Větší variabilitu má soubor dat [90, 100, 110]. Jeho výběrová směrodatná odchylka je 10 a jeho průměr je 100, což dává variační koeficient:

10/100 = 0,1

Soubor dat [1, 5, 6, 8, 10, 40, 65, 88] má ještě větší variabilitu. Jeho výběrová směrodatná odchylka je 32,9 a jeho průměr je 27,9, což dává variační koeficient:

32,9 / 27,9 = 1,18

Příklady zneužití

Porovnání variačních koeficientů mezi parametry pomocí relativních jednotek může vést k rozdílům, které nemusí být reálné. Pokud porovnáme stejnou sadu teplot ve stupních Celsia a Fahrenheita (obě relativní jednotky, kde Kelvin a Rankin jsou jejich příslušné absolutní hodnoty):

Celsia: [0, 10, 20, 30, 40]

Fahrenheit: [32, 50, 68, 86, 104]

Standardní odchylky jsou 15,81 a 28,46. CV první sady je 15,81 / 20 = 79 %.

Pro druhou sadu (při stejných teplotách) je to 28,46/68 = 42 %.

Pokud jsou například datové sady naměřené teploty ze dvou různých senzorů (senzor Celsia a senzor Fahrenheita) a chcete vědět, který senzor je lepší výběrem senzoru s nejmenší odchylkou, budete uvedeni v omyl, pokud používají CV. Problém je v tom, že jste vydělili relativní částku, nikoli absolutní.

Porovnání stejného souboru dat, nyní v absolutních jednotkách:

Podle Kelvina: [273,15, 283,15, 293,15, 303,15, 313,15]

Podle Rankina: [491,67, 509,67, 527,67, 545,67, 563,67]

Vzorové směrodatné odchylky jsou stále 15,81 a 28,46, protože směrodatná odchylka není ovlivněna konstantním vychýlením. Variační koeficienty jsou však nyní 5,39 %.

Z matematického hlediska není variační koeficient zcela lineární. To znamená, že pro náhodnou veličinu X je variační koeficient aX + b roven variačnímu koeficientu X pouze tehdy, když b = 0 . Ve výše uvedeném příkladu lze stupně Celsia převést pouze na stupně Fahrenheita pomocí lineární transformace ve tvaru ax + b s b ≠ 0, zatímco stupně Kelvina lze převést na stupně Rankine pomocí lineární transformační osy.

Hodnocení

Pokud je k dispozici pouze vzorek dat ze základního souboru, lze CV souboru odhadnout pomocí poměru výběrové směrodatné odchylky s k průměru vzorku x :

c v =

Ale tento odhad, aplikovaný na malý nebo střední vzorek, bývá příliš nepřesný: je to zkreslený odhad . Pro normálně distribuovaná data je nestranný odhad pro vzorek o velikosti n:

Lognormální data

V mnoha aplikacích lze předpokládat, že data jsou distribuována log-normálně (indikováno přítomností šikmosti ve vzorku dat). V takových případech se přesnější odhad získá z vlastností lognormálního rozdělení , které je definováno jako:

kde  je výběrová směrodatná odchylka dat po transformaci přirozeného logaritmu .

Srovnání se směrodatnou odchylkou

Výhody

Variační koeficient je užitečný, protože směrodatná odchylka dat musí být vždy chápána v kontextu střední hodnoty dat. Naproti tomu skutečná hodnota CV nezávisí na měrné jednotce, jde tedy o bezrozměrné číslo. Chcete-li porovnat soubory dat s různými jednotkami měření nebo velmi odlišnými průměry, použijte namísto standardní odchylky variační koeficient.

Nevýhody

  1. Když se průměr blíží nule, variační koeficient se bude blížit nekonečnu a je proto citlivý na malé změny v průměru. To se často stává, pokud hodnoty nepocházejí z poměrové stupnice.
  2. Na rozdíl od standardní odchylky ji nelze přímo použít ke konstrukci intervalů spolehlivosti pro průměr.

Aplikace

Variační koeficient je také běžný v aplikovaných oblastech pravděpodobnosti, jako je teorie obnovy , teorie řazení do fronty a teorie spolehlivosti . V těchto oblastech je exponenciální rozdělení často důležitější než normální rozdělení . Směrodatná odchylka exponenciálního rozdělení je rovna jeho střední hodnotě, takže variační koeficient je 1. Distribuce s CV < 1 (například Erlangovo rozdělení ) jsou považována za mající nízký rozptyl, zatímco rozdělení s CV > 1 (např. , hyperexponenciální distribuce ) jsou považovány za mající vysoký rozptyl . Některé vzorce v těchto polích jsou vyjádřeny pomocí čtvercového variačního koeficientu, často označovaného zkratkou KCV. CV v podstatě nahrazuje termín standardní odchylka směrodatnou odchylkou. Zatímco mnoho přírodních procesů vykazuje korelaci mezi střední hodnotou a velikostí kolísání kolem ní, přesná snímací zařízení musí být navržena tak, aby variační koeficient byl blízký nule, tj. poskytoval konstantní absolutní chybu v celém jejich provozním rozsahu.

V pojistně-matematických výpočtech je CV známé jako sjednocené riziko .

Při průmyslovém zpracování pevných látek je CV zvláště důležité pro měření stupně homogenity práškové směsi. Porovnání vypočteného CV se specifikací určí, zda bylo dosaženo dostatečného promíchání.

Jako měřítko ekonomické nerovnosti

Variační koeficient splňuje požadavky na měření ekonomické nerovnosti . Pokud x (s prvky x i ) je seznam hodnot ekonomického ukazatele (například bohatství) a x i je bohatství agenta i, jsou splněny následující požadavky:

1. Anonymita — c v nezávisí na řazení seznamu x. Vyplývá to ze skutečnosti, že rozptyl a průměr nezávisí na řazení seznamu x.

2. c v (x)=c v (αx), kde α je reálné číslo .

3. Jestliže {x, x} je seznam x připojený k sobě, pak c v ({x, x})=c v (x).

4. Pigou-Daltonův princip transferu: když je bohatství převedeno od bohatšího agenta i na chudšího agenta j (tj. x i > x j ), aniž by se změnilo jejich postavení, pak c v klesá a naopak.

c v má svou minimální hodnotu rovnou nule pro úplnou rovnost (všechna x i jsou stejná). Nejpozoruhodnější nevýhodou je, že není ohraničena shora, takže ji nelze normalizovat tak, aby byla v pevném rozsahu (jako je Giniho koeficient , který je ohraničený mezi 0 a 1). Na rozdíl od Giniho koeficientu se však hodí lépe k analýze.

Distribuce

Vzhledem k tomu, že záporné a malé kladné hodnoty průměru vzorku se vyskytují se zanedbatelnou frekvencí, distribuci pravděpodobnosti variačního koeficientu pro vzorek velikosti n ukázali Hendrix a Roby :

kde symbol ∑ značí, že sčítání je ukončeno pouze sudými hodnotami n−1-i , to znamená, že pokud je n liché, součet přes sudé hodnoty i, a pokud je n sudý , součet pouze přes liché hodnoty i.

To je užitečné při sestavování statistických hypotéz nebo intervalů spolehlivosti. Statistický závěr pro variační koeficient v normálně rozdělených datech je často založen na McKayově chí-kvadrát aproximaci variačního koeficientu .

Podobné obrázky

Standardizované momenty jsou podobné poměry,  , kde  se jedná o k-té momenty o průměru, které jsou rovněž bezrozměrné a měřítko invariantní. Poměr rozptylu ke střední hodnotě  , je další podobný poměr, který však není bezrozměrný. Další vztahy viz normalizace .

Mezi další relevantní poměry patří:

1. výkon ,

2. Standardizovaný moment ,

3. Index rozptylu ,

4. Fano faktor ,

5. Standardní chyba

Viz také