Spolehlivost je jedním z kritérií kvality testu , jeho stabilita ve vztahu k chybám měření. Existují dva typy spolehlivosti – spolehlivost jako stabilita a spolehlivost jako vnitřní konzistence .
Stabilita výsledků testu nebo retest spolehlivost ( anglicky test-retest reliability ) - možnost získat stejné výsledky od subjektů v různých případech.
Stabilita se určuje opakovaným testováním (opakovaným testem) :
V této metodě se navrhuje provést několik měření s určitým časovým obdobím (od týdne do roku) se stejným testem. Pokud je korelace mezi výsledky různých měření vysoká, pak je test docela spolehlivý. Nejméně uspokojivá hodnota spolehlivosti opakovaného testu je 0,76. Spolehlivost ne všech testů však může být touto metodou testována, protože posuzovaná kvalita, jev nebo účinek může být sám o sobě nestabilní (například naše nálada, která se může měnit od jednoho měření k druhému). Další nevýhodou opakovaného testování je návykový efekt. Subjekty již tento test znají a mohou si dokonce zapamatovat většinu svých odpovědí z předchozího vyplňování.
V souvislosti s výše uvedeným je využíváno studium spolehlivosti psychodiagnostických metod pomocí paralelních forem, ve kterých jsou konstruovány ekvivalentní nebo paralelní soubory úloh. V tomto případě subjekty provádějí zcela jiný test za podobných podmínek. Je však obtížné prokázat, že tyto dvě formy jsou skutečně rovnocenné. Navzdory tomu jsou v praxi paralelní formy testů užitečné pro stanovení spolehlivosti testů.
Vnitřní konzistence ( anglicky internal konzistence ) je dána vztahem každého konkrétního prvku testu k celkovému výsledku, tím, jak moc si každý prvek odporuje s ostatními, tím, jak moc každá jednotlivá otázka měří znaménko, ke kterému celý test směřuje. Nejčastěji jsou testy navrženy tak, aby měly vysokou míru vnitřní konzistence, a to z toho důvodu, že pokud je jedna proměnná měřena částí testu, pak v jiných částech, pokud nejsou konzistentní s první, stejnou proměnnou nelze měřit. Aby byl test platný, musí být konzistentní.
Existuje však i opačný úhel pohledu. Cattell říká, že vysoká vnitřní konzistence je ve skutečnosti opakem platnosti: každá otázka by měla pokrývat menší oblast nebo mít užší význam než měřené kritérium. Pokud jsou všechny otázky vysoce konzistentní, jsou vysoce korelované, a proto spolehlivý test změří pouze relativně „úzkou“ proměnnou s malými odchylkami. Podle Cattellových úvah existuje maximální validita, když všechny testované položky spolu nekorelují a každá z nich má pozitivní korelaci s kritériem. Takový test by však měl nízkou spolehlivost vnitřní konzistence.
Chcete-li zkontrolovat vnitřní konzistenci, použijte:
Tato metoda spočívá v rozdělení/rozdělení testu na dvě stejné části (například sudé a liché otázky, první a druhá polovina) a následně nalezení vzájemného vztahu mezi nimi. Pokud je korelace vysoká, lze test považovat za spolehlivý.
OIE spočívá v použití dvou vzájemně srovnatelných testovacích forem pro velký vzorek (například formy L a M pro měření Stanford-Binetovy inteligenční škály). Výsledky z obou forem se porovnají a vypočítá se korelace. Pokud je korelační koeficient vysoký, pak je test spolehlivý. Nevýhodou této metody je, že zahrnuje tak dlouhý a pracný proces jako vytvoření dvou ekvivalentních forem.
Tato metoda navržená Lee Cronbachem porovnává rozptyl každého prvku s celkovým rozptylem celé stupnice. Pokud je rozptyl skóre testů menší než rozptyl skóre pro každou jednotlivou otázku, pak je cílem každé jednotlivé otázky prozkoumat stejný společný základ. Produkují hodnotu, kterou lze považovat za pravdivou. Pokud takovou hodnotu nelze zjistit, to znamená, že se při zodpovězení otázek získá náhodné rozložení, test není spolehlivý a Cronbachovo alfa se bude rovnat 0. Pokud všechny otázky měří stejný atribut, pak je test spolehlivý a Cronbachova alfa se v tomto případě bude rovnat jedné.
Cronbachův výpočetCronbach je definován jako
,
kde je počet položek na škále, je rozptyl celkového skóre testu a je rozptyl prvku .
Alternativní způsob výpočtu je následující:
kde N je počet položek ve škále, je průměrný rozptyl pro vzorek, je průměr všech kovariancí mezi složkami vzorku.
V současné době se Cronbach počítá pomocí SPSS , STATISTICA a dalších moderních statistických balíčků, případně pomocí Microsoft Excel.
Cronbachův významCronbachova alfa se bude obecně zvyšovat s tím, jak vzrůstají vzájemné korelace proměnných, a je proto považována za ukazatel vnitřní konzistence při posuzování validity výsledků testu. Protože maximální vzájemné korelace mezi proměnnými napříč všemi položkami jsou přítomny, pokud je měřena stejná věc, Cronbachovo alfa nepřímo ukazuje, do jaké míry všechny položky měří stejnou věc. Alfa je tedy nejvhodnější použít, když jsou všechny položky zaměřeny na měření stejného jevu, vlastnosti, jevu. Je však třeba poznamenat, že vysoká hodnota koeficientu naznačuje přítomnost společného základu pro sadu otázek, ale neznamená, že za nimi stojí pouze jeden faktor - jednorozměrnost škály by měla být potvrzena doplňkové metody. Když se měří heterogenní struktura, Cronbachovo alfa bude často nízké. Alfa tedy není vhodná pro hodnocení spolehlivosti záměrně heterogenních přístrojů (např. pro původní MMPI má v tomto případě smysl provádět měření pro každou stupnici zvlášť).
Předpokládá se, že profesionálně navržené testy by měly mít vnitřní konzistenci alespoň 0,70 [1] .
Koeficient alfa lze použít i k řešení jiných typů problémů. Lze jím tedy měřit míru konzistence expertů hodnotících konkrétní objekt, stabilitu dat při vícenásobném měření atp.
Cronbachův teoretický základNa Cronbachovu alfa metodu lze nahlížet jako na rozšíření Cuder-Richardson-20 , což je ekvivalent pro práci s dichotomiemi nebo proměnnými, které nabývají pouze dvou hodnot (například pravdivé/nepravdivé odpovědi).
Cronbachovo alfa kritérium teoreticky souvisí se Spearman-Brownovým předpovědním vzorcem . A oba tyto vzorce vycházejí z klasické teorie testu (nepřístupný odkaz) , která spočívá v tom, že spolehlivost výsledků testu lze vyjádřit jako poměr rozptylů skutečného a celkového skóre (chyba a skutečné skóre) .
Spolehlivost ukazuje, že výsledky prováděné studie se blíží pravdě, a validita ukazuje, že výsledky se skutečně týkají jevu, který výzkumník studuje. Platná studie je automaticky spolehlivá, ale opačně tomu tak nemusí být. Spolehlivá studie nemusí být platná.
Paul Kline. "Referenční příručka k návrhu testu", Kyjev, 1994.