Analýza položek (testových položek) [1] zahrnuje soubor statistických metod pro zkoumání vhodnosti jednotlivých testových položek, jejichž hodnoty byly získány např. písemným průzkumem v závislosti na účelu studie. . Cílem je vytvořit kvalitativní škálu (škála zde znamená nástroj pro měření některých proměnných) pro testování a zlepšování testovaných položek. Předmětem analýzy položek je tedy studium užitečnosti jednotlivých prvků pro konkrétní test. Analýza úloh je klíčovým nástrojem pro navrhování testovacích případů a hodnocení jejich spolehlivosti (jako kritérium). Rozhodující pro hodnocení je rozhodnutí, že celý test (tedy všechny jeho prvky) je zaměřen na prozkoumání přesně toho, co se původně mělo měřit.
Pojem analýza úkolů není v literatuře přesně definován. Slouží k empirickému stanovení psychometrických kritérií pro jednotlivé položky testu. Většina definic se vztahuje ke klasické analýze úloh při návrhu testu: • Analýza rozdělení četností • Výpočet statistických parametrů o Obtížnost úloh o Diskriminační síla (rozlišovací schopnost) úloh o Homogenita (homogenita) úloh • Rozměrovost (dimenzionálnost). Analýza se provádí podle algoritmu, jehož účelem je rozvinout měřící schopnost faktoru, pro který byl test vytvořen. Analýza položek se používá k výběru a revizi položek, jejich správnému umístění do testu a případně k vývoji paralelních testů.
Kontrolní hodnoty lze zobrazit graficky (např. jako sloupcový graf). To poskytuje první obecnou představu o rozdělení frekvencí . Hlavním zájmem je zde šíření hodnot a odpověď na otázku, zda rozdělení hrubých hodnot následuje normální rozdělení. Protože mnoho postupů statistické analýzy předpokládá normální rozdělení, vhodné rozdělení je žádoucí.
Obtížnost úloh je charakterizována indexem, který odpovídá podílu lidí, kteří úlohu správně vyřešili (Bortz & Döring, 2005). Dříve se tento ukazatel nazýval Index popularity. Účelem indexu obtížnosti je rozlišit úkoly s vysokou obtížností od těch, které jsou jednodušší. Nevhodné jsou úlohy, u kterých všechny předměty odpovídají správně, nebo úlohy, na které odpověď nikdo nenašel. Index obtížnosti se musí nutně nacházet mezi těmito extrémními případy. V testech by úroveň obtížnosti měla pokrývat celý možný rozsah charakteristiky měřené testem.
Obtížnost testových položek s odpovědí ve dvou krocích (například pravda / nepravda) se vypočítá takto:
, kde
Nr = počet subjektů, které odpověděly správně, N = počet subjektů, p = obtížnost položky (pouze položky ve dvou krocích!) Toto poskytuje řešení pro nejjednodušší případ. Pokud subjekty úkol nevyřešily nebo existuje podezření, že některé úkoly byly provedeny „nahodile“, je třeba se spolehnout na jiná alternativní řešení. (vgl. Fisseni, 1997, 41-42).
Výpočet obtížnosti úloh s vícestupňovými (alternativními) odpověďmi: Případ, kdy p není definováno. Možná řešení tohoto problému: • Vytvořte dichotomii nastavených hodnot (například 0 a 1), v tomto případě se počítá obtížnost úlohy s dvoukrokovou odpovědí. • Výpočet střední hodnoty a rozptylu (střední hodnota je ekvivalentní p, je však třeba vzít v úvahu i rozptyl).
• = Index pro otázky s víceúrovňovými odpověďmi:
Zjednodušený vzorec:
Pro přesnější výpočet nabízejí různí autoři různé metody (vgl. Fisseni, 2004, 43-45). Rozdíl v obtížnosti obou úloh lze zkontrolovat pomocí multidisciplinární tabulky. Tyto vzorce lze použít pouze pro úroveň testu, to znamená, když testování není vyžadováno a / nebo když subjekty byly schopny zvládnout všechny úkoly. (vgl. Lienert, 1989).
Výpočtem diskriminační síly můžete vidět, jak moc každá položka ovlivňuje celkový výsledek testu (Bortz & Döring, 2005). Proto vysoké skóre diskriminační síly znamená, že položka je schopna rozlišit položky z hlediska celkového testu (tj. jednotlivce s vysokými hodnotami vlastnosti od osob s nízkými hodnotami). Diskriminační síla má koeficient. Jedná se o korelační koeficient mezi jednou položkou a celkovým skóre testu. Koeficient se vypočítá pro každý jednotlivý úkol a závisí na měřítku úrovně kontroly. Pokud má rozložení testovacích hodnot formu normálního rozdělení, pak je diskriminační síla ( ) určena korelací mezi hodnotou jednoho úkolu i a celkovou hodnotou testu t:
Je-li = 0, pak úkoly dosahují stejně nízké a vysoké hodnoty vlastnosti. Pokud je skóre korelace negativní, pak je položka považována za nepoužitelnou. A priori je žádoucí co nejvyšší rozlišitelnost úloh, zejména pro úroveň testů. Diskriminační síla každé úlohy závisí na složitosti, rozměru a homogenitě testu, jakož i na jeho pozici v testu a spolehlivosti kritéria. (Kritérium může obsahovat testovací hodnotu, navíc lze použít externí kritérium. Působí pak jako koeficient) Vysoká účinnost diskriminační síly je možná při průměrné složitosti úlohy (vgl. Lienert, 1989).
Homogenita ukazuje, jak úzce spolu souvisí testované položky. Při vysoké homogenitě se výzkumné úkoly zaměřují na měření stejného jevu (Bortz & Döring, 2005). Všechny testované položky mají korelační páry, jejichž výsledkem je korelační koeficient ( ), který (vypočtený pomocí Fisher Z-transformace) popisuje průměrné skóre homogenity testu ( ). Počet korelací závisí na obtížnosti úkolů. Čím větší je rozdíl v úkolech podle kritéria obtížnosti, tím menší je vzájemná korelace, která zase ovlivňuje spolehlivost testu. Položky testu (subtest) tedy nemají korelaci z hlediska obtížnosti (heterogenní test), nebo položky tuto korelaci mají (homogenní test) (vgl. Lienert, 1989).
Rozměrnost testu indikuje pouze jednu z jeho funkcí (jednorozměrný test) nebo několik funkcí testu či subtestů (multivariační test) (Bortz & Döring 2005). Empiricky lze dimenzionalitu určit pomocí faktorové analýzy.