Statistika

Aktuální verze stránky ještě nebyla zkontrolována zkušenými přispěvateli a může se výrazně lišit od verze recenzované 1. října 2021; kontroly vyžadují 14 úprav .
Věda
Statistika
 Mediální soubory na Wikimedia Commons

Statistika  je vědní obor, věda, která nastiňuje obecné problémy shromažďování, měření, sledování, analýzy hromadných statistických (kvantitativních nebo kvalitativních) dat a jejich porovnávání; studium kvantitativní stránky masových společenských jevů v číselné podobě [1] .

Statistik je statistik .

Slovo „statistika“ pochází z latinského status  – stav věcí [2] . Termín „statistika“ zavedl do vědy německý vědec Gottfried Achenwall v roce 1746, který navrhl nahradit název kurzu „ Statistika “, vyučovaného na německých univerzitách, termínem „Statistika“, čímž položil základ pro rozvoj statistiky jako vědní a akademický obor. Navzdory tomu byly statistické záznamy vedeny mnohem dříve: ve starověké Číně se prováděla sčítání lidu , porovnával se vojenský potenciál států , zaznamenával se majetek občanů ve starověkém Římě a podobně [3] . Statistika vyvíjí speciální metodiku pro studium a zpracování materiálů: hromadná statistická pozorování, metoda seskupování, průměry , indexy, bilanční metoda, metoda grafických obrázků, shluková , diskriminační , faktorová a komponentní analýza, optimalizace a další metody pro analyzovat statistická data.

Vývoj představ o statistice

Počátek statistické praxe se datuje přibližně do doby vzniku státu. Za první publikovanou statistickou informaci lze považovat hliněné tabulky sumerského království ( III-II tisíciletí př.nl ) .

Statistika byla zprvu chápána jako popis ekonomického a politického stavu státu nebo jeho části. Například definice odkazuje na rok 1792: „statistika popisuje stav státu v současné době nebo v nějakém známém okamžiku v minulosti“. A v současnosti do této definice dobře zapadá činnost státních statistických služeb [4] .

Postupně se však výraz „statistika“ začal používat více. Podle Napoleona Bonaparte „statistiky jsou rozpočtem věcí“ [5] . Statistické metody se tak ukázaly být užitečné nejen pro administrativní řízení, ale také pro aplikaci na úrovni jednotlivého podniku. Podle znění z roku 1833 je „účelem statistiky podávat fakta v co nejstručnější podobě“ [6] . Ve 2. polovině 19. - počátkem 20. století vznikla vědní disciplína  - matematická statistika , která je součástí matematiky.

Ve 20. století je statistika často považována především za samostatnou vědní disciplínu. Statistika je soubor metod a principů, podle kterých se provádí sběr, analýza, porovnávání, prezentace a interpretace číselných dat. V roce 1954 dal akademik Akademie věd Ukrajinské SSR B. V. Gnedenko následující definici: „Statistika se skládá ze tří částí:

  1. shromažďování statistických informací, tj. informací charakterizujících jednotlivé jednotky jakýchkoli hromadných agregátů;
  2. statistické studium získaných údajů, které spočívá v objasnění těch vzorců, které lze stanovit na základě údajů z hromadného pozorování;
  3. vývoj metod statistického pozorování a analýzy statistických dat“. Poslední částí je ve skutečnosti obsah matematické statistiky [7] .

Termín "statistika" se používá ještě ve dvou významech. Za prvé, v každodenním životě je „statistika“ často chápána jako soubor kvantitativních dat o jevu nebo procesu. Za druhé, statistika je funkcí výsledků pozorování používaných k hodnocení charakteristik a parametrů rozdělení a testování hypotéz.

Stručná historie statistických metod

Typické příklady rané aplikace statistických metod jsou popsány v Bibli, ve Starém zákoně . Tam je uveden zejména počet válečníků v různých kmenech. Z matematického hlediska se záležitost zredukovala na počítání počtu zásahů hodnot pozorovaných znaků v určitých gradacích.

Ihned po vzniku teorie pravděpodobnosti ( Pascal , Fermat , 17. století) se při zpracování statistických dat začaly používat pravděpodobnostní modely. Například byla studována frekvence narození chlapců a dívek, zjištěn rozdíl mezi pravděpodobností narození chlapce od 0,5, byly analyzovány důvody toho, že v pařížských útulcích tato pravděpodobnost není stejná jako v samotné Paříži. , a tak dále.

Německý matematik Carl Gauss v roce 1794 (podle jiných zdrojů - v roce 1795) formalizoval jednu z metod moderní matematické statistiky - metodu nejmenších čtverců [8] . V 19. století významně přispěl k rozvoji praktické statistiky Belgičan Quetelet , který na základě rozboru velkého množství reálných dat prokázal stabilitu relativních statistických ukazatelů, jako je podíl sebevražd mezi všechna úmrtí [9] .

První třetina 20. století byla ve znamení parametrické statistiky. Byly studovány metody založené na analýze dat z parametrických rodin rozdělení popsaných křivkami Pearsonovy rodiny . Nejoblíbenější bylo normální rozdělení . K testování hypotéz byla použita Pearsonova , Studentova a Fisherova kritéria . Byla navržena metoda maximální věrohodnosti , analýza rozptylu , byly formulovány hlavní myšlenky plánování experimentu.

Teorie analýzy dat vyvinutá v první třetině 20. století se nazývá parametrická statistika, protože jejím hlavním předmětem studia jsou vzorky z distribucí popsaných jedním nebo malým počtem parametrů. Nejobecnější je rodina Pearsonových křivek definovaná čtyřmi parametry. Zpravidla nelze uvést žádné pádné důvody, proč by rozdělení výsledků konkrétních pozorování mělo být zahrnuto do té či oné parametrické rodiny. Výjimky jsou dobře známé: jestliže pravděpodobnostní model počítá se sčítáním nezávislých náhodných proměnných , pak je přirozené popsat součet normálním rozdělením; pokud model uvažuje součin takových veličin, pak je výsledek zjevně aproximován logaritmicky normálním rozdělením a tak dále.

Typy seskupení

Statistické seskupování je chápáno jako rozdělení populace do skupin (intervalů změny parametrů), které jsou v každém ohledu homogenní. Počet takových intervalů (skupin) se vypočítá pomocí Sturgesova vzorce :

,

kde k je počet intervalů, n je počet pozorování.

Existují tři typy seskupení: analytické, typologické, strukturální.

Analytické seskupení – umožňuje identifikovat vztah mezi seskupeními. Typologické seskupení je rozdělení studované populace do homogenních skupin. Strukturální seskupení – ve kterém je homogenní populace rozdělena do skupin, podle určitého atributu.

Typické skupiny: maximálně homogenní uvnitř a heterogenní vně. Seskupení jsou primární a sekundární. Primární seskupení se získávají v průběhu statistických pozorování. A sekundární se provádějí na základě primárního.

Statistické metody

Statistické metody - metody pro analýzu statistických dat. Existují metody aplikované statistiky , které lze aplikovat ve všech oblastech vědeckého výzkumu a všech odvětvích národního hospodářství, a další statistické metody, jejichž použitelnost je omezena na určitou oblast. Jedná se o metody jako je statistická kontrola přejímky, statistická kontrola technologických procesů, spolehlivost a testování a návrh experimentů.

Klasifikace statistických metod

Statistické metody analýzy dat se používají téměř ve všech oblastech lidské činnosti. Používají se vždy, když je potřeba získat a doložit jakékoli soudy o skupině (objektech nebo subjektech) s určitou vnitřní heterogenitou.

Je vhodné rozlišovat tři typy vědeckých a aplikovaných činností v oblasti statistických metod analýzy dat (podle míry specifičnosti metod spojených s ponorem do konkrétních problémů):

a) vývoj a výzkum metod pro obecné použití bez zohlednění specifik aplikační oblasti;

b) vývoj a výzkum statistických modelů reálných jevů a procesů v souladu s potřebami konkrétní oblasti činnosti;

c) využití statistických metod a modelů pro statistickou analýzu konkrétních dat při řešení aplikovaných problémů, např. pro účely provádění výběrových šetření .

Použitá statistika

Aplikovaná statistika  je věda o tom, jak zpracovávat data libovolné povahy. Matematickým základem aplikované statistiky a statistických metod analýzy je teorie pravděpodobnosti a matematická statistika .

Popis typu dat a mechanismu jejich generování je začátkem každého statistického výzkumu. K popisu dat se používají jak deterministické, tak pravděpodobnostní metody. Pomocí deterministických metod je možné analyzovat pouze ta data, která má výzkumník k dispozici. Sloužily například k získání tabulek vypočítaných oficiálními orgány státní statistiky na základě statistických výkazů předložených podniky a organizacemi. Získané výsledky je možné přenést do širšího souboru, použít je pro predikci a řízení pouze na základě pravděpodobnostně-statistického modelování. Proto se do matematické statistiky často zařazují pouze metody založené na teorii pravděpodobnosti.

V nejjednodušší situaci jsou statistická data hodnotami některých vlastností charakteristických pro studované objekty. Hodnoty mohou být kvantitativní nebo představovat označení kategorie, do které lze objekt přiřadit. V druhém případě hovoříme o kvalitativním znaku.

Při měření více kvantitativními nebo kvalitativními charakteristikami získáme vektor jako statistická data o objektu. Lze to považovat za nový druh dat. V tomto případě se vzorek skládá ze sady vektorů. Pokud jsou některé souřadnice čísla a některé kvalitativní (kategorizovaná) data, pak mluvíme o vektoru heterogenních dat.

Jedním prvkem vzorku, tedy jednou dimenzí, může být funkce jako celek. Například popis dynamiky indikátoru, to znamená jeho změny v čase, je elektrokardiogram pacienta nebo amplituda úderů hřídele motoru. Nebo časová řada , která popisuje dynamiku výkonnosti konkrétní společnosti. Pak se vzorek skládá ze sady funkcí.

Prvky vzorku mohou být i jiné matematické objekty. Například binární relace. Při pohovorech s odborníky tedy často využívají řazení (hodnocení) objektů expertizy - vzorky produktů, investiční projekty, možnosti manažerských rozhodnutí . V závislosti na předpisech odborné studie mohou být prvky vzorku různé typy binárních relací (řazení, dělení , tolerance ), množiny , fuzzy množiny atd.

Matematická povaha prvků vzorku v různých problémech aplikované statistiky může být velmi odlišná. Lze však rozlišit dvě třídy statistik – numerickou a nenumerickou. Podle toho se aplikovaná statistika dělí na dvě části – numerickou statistiku a nenumerickou statistiku.

Numerické statistiky jsou čísla, vektory, funkce. Lze je sčítat, násobit koeficienty. Proto mají v numerické statistice různé součty velký význam. Matematickým aparátem pro analýzu součtů prvků náhodného výběru jsou (klasické) zákony velkých čísel a centrální limitní věty.

Nenumerická statistická data jsou kategorizovaná data, vektory heterogenních znaků, binární relace, množiny, fuzzy množiny atd. Nelze je sčítat a násobit koeficienty. Nemá tedy smysl mluvit o součtech nenumerických statistik. Jsou to prvky nenumerických matematických prostorů (množin). Matematický aparát pro analýzu nenumerických statistických dat je založen na použití vzdáleností mezi prvky (stejně jako míry blízkosti, rozdílové indikátory) v takových prostorech. Pomocí vzdáleností se určují empirické a teoretické průměry, dokazují se zákony velkých čísel, konstruují se neparametrické odhady hustoty rozdělení pravděpodobnosti , řeší se problémy diagnostiky a shlukové analýzy atd. [2]

Aplikovaný výzkum využívá různé typy statistických dat. Je to dáno zejména způsoby jejich získávání. Pokud například testování některých technických zařízení pokračuje do určitého okamžiku, pak dostáváme tzv. cenzurovaná data, skládající se ze sady čísel – doby provozu řady zařízení před poruchou a informace, která zbytek zařízení na konci testu nadále fungoval. Cenzurovaná data se často používají při posuzování a kontrole spolehlivosti technických zařízení.

Vztah statistiky k jiným oborům

Statistika je multidisciplinární, protože využívá metody a principy vypůjčené z jiných oborů. Znalosti v oblasti sociologie a ekonomické teorie tedy slouží jako teoretický základ pro formování statistické vědy. V rámci těchto disciplín jsou studovány zákonitosti společenských jevů. Statistika pomáhá posoudit rozsah jevu a také vyvinout systém metod pro analýzu a studium. Statistika nepochybně souvisí s matematikou, protože k identifikaci vzorů, hodnocení a analýze předmětu studia je zapotřebí řada matematických operací, metod a zákonů a systematizace výsledků se odráží ve formě grafů a tabulek.

Statistická analýza specifických dat

Perspektivy rozvoje

Teorie statistických metod je zaměřena na řešení reálných problémů. Proto se v ní neustále objevují nové formulace matematických problémů statistické analýzy dat, jsou vyvíjeny a odůvodňovány nové metody. Odůvodnění se často provádí matematickými prostředky, tedy dokazováním vět. Důležitou roli hraje metodologická složka – jak přesně stanovit úkoly, jaké předpoklady přijmout pro účely dalšího matematického studia. Role moderních informačních technologií , zejména počítačových experimentů, je velká.

Naléhavým úkolem je analyzovat historii statistických metod za účelem identifikace vývojových trendů a jejich aplikace pro prognózování.

Výpočetní statistika

Rozvoj výpočetní techniky ve druhé polovině 20. století měl významný vliv na statistiku. Dříve byly statistické modely reprezentovány převážně lineárními modely . Nárůst rychlosti počítače a vývoj odpovídajících numerických algoritmů způsobil zvýšený zájem o nelineární modely, jako jsou umělé neuronové sítě , a vedl k vývoji komplexních statistických modelů, jako je zobecněný lineární model a hierarchický model .

Výpočetní metody založené na převzorkování jako permutačním kritériu a bootstrapping se rozšířily , spolu s metodami, jako je Gibbsovo vzorkování , učinily použití bayesovských algoritmů dostupnější. V současné době existuje řada statistických softwarů pro obecné i specializované účely.

Nesprávná interpretace statistických studií

Panuje názor, že data statistických studií jsou stále více záměrně zkreslována nebo dezinterpretována, přičemž jsou vybírána pouze ta data, která jsou pro konkrétního výzkumníka příznivá [10] . Zneužití statistik může být náhodné nebo úmyslné. Jak lhát se statistikou Darrell Huff (1954) uvádí řadu úvah o použití a nesprávném použití statistik. Někteří autoři také revidují statistické metody používané v určitých oblastech (např. Warne, Lazo, Ramos a Ritter (2012)) [11] . Mezi způsoby, jak se vyhnout nesprávné interpretaci statistik, patří použití správného návrhu a vyloučení zkreslení ve výzkumu [12] . Ke zneužívání dochází, když jsou takové závěry „nařízeny“ určitými strukturami, které záměrně či nevědomě vedou k selekci zkreslených dat nebo vzorků [13] . Histogramy, jako nejsnáze použitelný a pochopitelný (vnímatelný) typ diagramu, lze přitom vytvářet buď pomocí běžných počítačových programů, nebo jednoduše kreslit [12] . Většina lidí se nesnaží hledat chyby nebo se sami mýlí, a proto chyby nevidí. Aby byla statistická data pravdivá, musí být tedy podle autorů „neučesaná“ (tedy spolehlivá data by neměla vypadat dokonale) [13] . Aby byla výsledná statistika věrohodná a přesná, musí být vzorek reprezentativní pro celek [14] .

Catchphrase

Nejznámější (a jedna z nejlepších [15] ) kritik aplikované statistiky je "Existují tři druhy podvodu: lži, zatracené lži a statistiky", Ing.  Existují tři druhy lží: lži, zatracené lži a statistiky ) se tradičně připisují britskému premiérovi Benjaminu Disraelimu poté, co připsal Marka Twaina v publikaci „ Kapitola mé autobiografie “ ( časopis North American Review 5. července 1907) [ 16] : „Čísla jsou klamná,“ napsal, „byl jsem o tom přesvědčen z vlastní zkušenosti; Disraeli o tom správně mluvil: "Existují tři druhy lží: lži, do očí bijící lži a statistiky." Tato fráze se však v dílech Disraeli nenachází, její původ je diskutabilní. V roce 1964 C. White ( eng.  Colin White ) [15] navrhl autorství Francoise Magendieho (1783-1855), který řekl frázi francouzsky: fr.  Ainsi l'altération de la vérité qui se manifeste déjà sous la form progressive du mensonge et du parjure, nous offre-t-elle au superlatif, la statistique („Modifikace pravdy, která se projevuje ve srovnávací míře nepravdy a křivá přísaha, má také superlativ , statistika“). Whiteovými slovy „svět tuto frázi potřeboval a pár lidí by mohlo být hrdých, že ji vymysleli“.

Viz také

Poznámky

  1. Malá sovětská encyklopedie . - M . : Sovětská encyklopedie, 1960. - T. 8. - S. 1090.
  2. 1 2 Raizberg B. A., Lozovsky L. Sh., Starodubtseva E. B. Moderní ekonomický slovník. 5. vyd., revidováno. a doplňkové — M.: INFRA-M, 2007. — 495 s. — (Knihovna slovníků "INFRA-M")
  3. Přednáška o statistice - Předmět a metoda statistiky . Získáno 22. srpna 2009. Archivováno z originálu 12. září 2009.
  4. Nikitina E. P., Freidlina V. D., Yarkho A. V. Sbírka definic pojmu „statistika“. - Moskva: MGU, 1972.
  5. Chuprov A. A. Otázky statistiky. - M .: Gosstatizdat TsSU SSSR, 1960.
  6. Nikitina E. P., Freidlina V. D., Yarkho A. Sbírka definic pojmu „statistika“
  7. Gnedenko B.V. Esej o historii teorie pravděpodobnosti. — Moskva: URSS, 2001.
  8. Klein F. Přednášky o vývoji matematiky v 19. století. Díl I. - Moskva, Leningrad: Spojené vědeckotechnické nakladatelství NKTP SSSR, 1937.
  9. Ploshko B. G. , Eliseeva I. I. Historie statistiky: Učebnice. - Moskva, Leningrad: Finance a statistika, 1990.
  10. Huff, Darrell, How to Lie With Statistics, W. W. Norton & Company, Inc. New York, NY, 1954. ISBN 0-393-31072-8
  11. Warne, R. Lazo, M., Ramos, T. a Ritter, N. (2012). Statistické metody používané v časopisech pro nadané vzdělávání, 2006-2010. Čtvrtletník pro nadané dítě, 56(3) 134-149. doi:10.1177/0016986212444122
  12. 1 2 Encyklopedie archeologie  (neopr.) . — Reference Credo: Oxford: Elsevier Science, 2008.
  13. 1 2 Cohen, Jerome B. Misuse of Statistics  //  Journal of the American Statistical Association  : journal. - JSTOR, 1938. - prosinec ( roč. 33 , č. 204 ). - str. 657-674 .
  14. Freund, JF Moderní elementární statistika  (neurčitá)  // Reference Credo. — 1988.
  15. 1 2 Bílá, 1964 .
  16. Mark Twain. Kapitoly z mé autobiografie . Severoamerická recenze . Projekt Gutenberg (7. září 1906). Získáno 23. května 2007. Archivováno z originálu 7. dubna 2012.

Literatura

Odkazy