Vzorek nebo soubor vzorků je část obecného souboru prvků, která je pokryta experimentem (pozorování, průzkum).
Vlastnosti vzorku:
Posloupnost nezávislých náhodných veličin odpovídajících všem možným výsledkům statistických experimentů a majících stejný zákon rozdělení pravděpodobnosti s náhodnou veličinou se nazývá velikost vzorku generovaná náhodnou veličinou [1] . Jestliže je diskrétní náhodná proměnná , pak vzorek objemu je jakákoli podmnožina objektů obecné populace objemu , vybraná se stejnou pravděpodobností ze všech takových podmnožin [1] .
Velikost vzorku je počet případů zahrnutých ve vzorku.
Vzorky lze podmíněně rozdělit na velké a malé, protože v matematické statistice se používají různé přístupy v závislosti na velikosti vzorku. Předpokládá se, že vzorky větší než 30 lze klasifikovat jako velké [2] .
Při porovnávání dvou (nebo více) vzorků je důležitým parametrem jejich závislost. Pokud je možné ustavit homomorfní pár (tedy když jeden případ ze vzorku X odpovídá jednomu a pouze jeden případ ze vzorku Y a naopak) pro každý případ ve dvou vzorcích (a tento základ vztahu je pro znak důležitý měřené ve vzorcích), takové vzorky se nazývají závislé . Příklady závislých výběrů:
Pokud mezi vzorky takový vztah neexistuje, pak se tyto vzorky považují za nezávislé , například:
V souladu s tím mají závislé vzorky vždy stejnou velikost, zatímco velikost nezávislých vzorků se může lišit.
Vzorky jsou porovnávány pomocí různých statistických kritérií :
Vzorek lze považovat za reprezentativní nebo nereprezentativní. Vzorek bude reprezentativní při zkoumání velké skupiny lidí, pokud v rámci této skupiny budou zástupci různých podskupin, jedině tak lze vyvodit správné závěry.
Ve Spojených státech je jedním z nejslavnějších historických příkladů nereprezentativního vzorkování případ, ke kterému došlo během prezidentských voleb v roce 1936 [3] . Litrery Digest, který úspěšně předpovídal události několika předchozích voleb, špatně odhadl své předpovědi, když rozeslal deset milionů zkušebních hlasovacích lístků svým předplatitelům a také lidem vybraným z telefonních seznamů celé země a lidem z registrací aut. Ve 25 % vrácených hlasovacích lístků (téměř 2,5 milionu) byly hlasy rozděleny takto:
Jak je známo, Roosevelt vyhrál skutečné volby s více než 60 % hlasů. Chybou Litreary Digest bylo toto: ve snaze zvýšit reprezentativnost vzorku – protože věděli, že většina jejich předplatitelů se považuje za republikány – rozšířili vzorek o lidi vybrané z telefonních seznamů a registračních seznamů. Nebrali však v úvahu dobovou realitu a ve skutečnosti rekrutovali ještě více republikánů: během Velké hospodářské krize si telefony a auta mohla dovolit většinou střední a vyšší třída (tedy většina republikánů, nikoli demokratů) .
Existuje několik hlavních typů skupinového stavebního plánu [4] :
Vzorky jsou rozděleny do dvou typů:
Použití takového vzorku je založeno na předpokladu, že každý respondent bude stejně pravděpodobně zařazen do vzorku. Na základě seznamu běžné populace jsou sestaveny kartičky s počty respondentů. Vloží se do balíčku, zamíchají a náhodně se z nich vyjme karta, zapíše se číslo a pak se vrátí zpět. Dále se postup opakuje tolikrát, kolikrát potřebujeme velikost vzorku. Mínus: opakování výběrových jednotek.
Postup pro konstrukci jednoduchého náhodného vzorku zahrnuje následující kroky:
1) je nutné získat kompletní seznam příslušníků běžné populace a tento seznam očíslovat. Takový seznam, odvolání, se nazývá vzorkovací rámec;
2) určit očekávanou velikost vzorku, tedy očekávaný počet respondentů;
3) extrahujte z tabulky náhodných čísel tolik čísel, kolik potřebujeme jednotek vzorku. Pokud má vzorek zahrnovat 100 osob, vybere se 100 náhodných čísel z tabulky. Tato náhodná čísla mohou být generována počítačovým programem.
4) vyberte ze základního seznamu ta pozorování, jejichž čísla odpovídají zapsaným náhodným číslům
1) je často obtížné vytvořit rámec výběru, který by umožňoval jednoduchý náhodný výběr.
2) výsledkem aplikace jednoduchého náhodného vzorku může být velká populace, nebo populace rozložená na velké geografické oblasti, což výrazně prodlužuje čas a náklady na sběr dat.
3) výsledky aplikace jednoduchého náhodného výběru se často vyznačují nízkou přesností a větší směrodatnou chybou než výsledky aplikace jiných pravděpodobnostních metod.
4) v důsledku aplikace SRS může vzniknout nereprezentativní vzorek. Přestože vzorky získané jednoduchým náhodným výběrem v průměru dostatečně reprezentují obecnou populaci, některé z nich extrémně nesprávně reprezentují studovanou populaci. Pravděpodobnost je zvláště vysoká u malého vzorku.
Jednoduché načtení bez opakovaného přehráváníPostup sestavení vzorku je stejný, pouze karty s čísly respondentů se nevracejí zpět do balíčku.
Výběr v takovém vzorku se neprovádí podle principů náhody, ale podle subjektivních kritérií - dostupnost, typičnost, rovné zastoupení atd.
Výběr skupin pro jejich účast v psychologickém experimentu se provádí pomocí různých strategií, které jsou potřebné k zajištění co nejvyšší shody s vnitřní a vnější validitou [5] .
Randomizace neboli náhodný výběr se používá k vytvoření jednoduchých náhodných vzorků. Použití takového vzorku je založeno na předpokladu, že každý člen populace bude stejně pravděpodobně zahrnut do vzorku. Chcete-li například vytvořit náhodný vzorek 100 vysokoškoláků , můžete do klobouku vložit papíry se jmény všech vysokoškoláků a poté z něj vytáhnout 100 papírků – to bude náhodný výběr (Goodwin J., s. 147)…
párový výběr je strategie pro konstrukci skupin vzorků, ve které jsou skupiny subjektů tvořeny subjekty, které jsou ekvivalentní z hlediska vedlejších parametrů významných pro experiment. Tato strategie je účinná pro experimenty využívající experimentální a kontrolní skupiny s nejlepší možností - přitahování dvojčat ( mono- a dizygotických ).
Stratometrický výběr - randomizace s výběrem vrstev (nebo shluků ). Při této metodě výběru se obecná populace rozdělí na skupiny (vrstvy), které mají určité charakteristiky ( pohlaví , věk , politické preference, vzdělání , úroveň příjmu atd.), a vyberou se subjekty s odpovídajícími charakteristikami.
Přibližné modelování – sestavení omezených vzorků a zobecnění závěrů o tomto vzorku na větší populaci. Například při účasti na studii studentů 2. ročníku VŠ jsou data této studie rozšířena na "osoby ve věku 17 až 21 let". Přípustnost takových zobecnění je extrémně omezená.
Přibližné modelování je vytvoření modelu, který pro jasně definovanou třídu systémů (procesů) popisuje její chování (nebo požadované jevy) s přijatelnou přesností.