Lineární diskriminační analýza

Aktuální verze stránky ještě nebyla zkontrolována zkušenými přispěvateli a může se výrazně lišit od verze recenzované 10. ledna 2022; ověření vyžaduje 1 úpravu .

Lineární diskriminační analýza ( LDA , angl.  Linear Discriminant Analysis , LDA ), normální diskriminační analýza ( ang.  Normal Discriminant Analysis , NDA) nebo analýza diskriminační funkce ( angl.  Discriminant Function Analysis ) je zobecněním Fisherova lineárního diskriminantu , metody používané v statistiky , rozpoznávání vzorů a strojové učení pro hledání lineární kombinace funkcíA, které popisuje nebo odděluje dvě nebo více tříd nebo událostí. Výsledná kombinace může být použita jako lineární klasifikátor nebo častěji pro redukci rozměrů před klasifikací .

LDA úzce souvisí s analýzou rozptylu ( analyzovat odchylku =ANOVA) a regresní analýzou , které se také snaží vyjádřit jednu závisle proměnnou jako lineární kombinaci jiných znaků nebo měření [1] [2] . Analýza rozptylu však používá kvalitativní nezávislé proměnné a spojitou závislou proměnnou , zatímco diskriminační analýza má spojité nezávislé proměnné a kvalitativní závislou proměnnou ( tj. označení třídy) [3] . Logistická regrese a probitová regrese jsou podobnější LDA než analýza rozptylu, protože také vysvětlují kvalitativní proměnnou ve smyslu spojitých vysvětlujících proměnných. Tyto jiné metody jsou preferovány v aplikacích, kde není důvod předpokládat, že nezávislé proměnné jsou normálně distribuovány, což je základní předpoklad metody LDA.  

LDA také úzce souvisí s hlavní analýzou komponent ( PCA) a faktorovou analýzou v tom, že hledají lineární kombinace proměnných, které nejlépe vysvětlují data [ 4] .  LDA se explicitně snaží modelovat rozdíl mezi datovými třídami. Na druhé straně PCA nebere v úvahu žádné rozdíly ve třídách a faktorová analýza vytváří kombinace funkcí spíše na základě rozdílů než podobností. Diskriminační analýza se od faktorové analýzy liší také tím, že nejde o nezávislou techniku ​​– aby fungovala, je třeba rozlišovat mezi nezávislými proměnnými a závislými proměnnými (druhé se také nazývají kriteriální proměnné).

LDA funguje, když měření nezávislých proměnných pro každé pozorování jsou spojitá. Při práci s kvalitativními nezávislými proměnnými je ekvivalentní technikou diskriminační korespondenční analýza [5] [6] .

Diskriminační analýza se používá, když jsou skupiny a priori známé (na rozdíl od shlukové analýzy ). Každý případ musí mít hodnotu v jednom nebo více měřeních kvantitativní predikce a hodnotu ve skupinovém měření [7] . Jednoduše řečeno, diskriminační funkční analýza je klasifikace, která rozděluje objekty do skupin, tříd nebo kategorií určitého typu.

Historie

Původní dichotomickou diskriminační analýzu vyvinul Sir Ronald Fisher v roce 1936 [8] . Liší se od ANOVA nebo multivariační ANOVA , které se používají k predikci jedné (ANOVA) nebo více (multivariantní ANOVA) spojitých závislých proměnných z jedné nebo více kvalitativních nezávislých proměnných. Analýza diskriminační funkce je užitečná pro určení, zda je soubor proměnných efektivní při předpovídání příslušnosti ke kategorii [9] .

LDA pro dvě třídy

Zvažte sadu pozorování (nazývaných také funkce, atributy, proměnné nebo dimenze) pro každou instanci objektu nebo události se známou třídou . Tato sada vzorků se nazývá trénovací sada . Úkolem klasifikace je pak najít dobrý prediktor pro třídu libovolného zástupce stejného rozdělení (ne nutně z trénovací množiny) pouze na základě pozorování [10] .

LDA přistupuje k problému s předpokladem, že podmíněná pravděpodobnostní rozdělení a jsou normálně rozdělena s průměrem a kovariančními parametry , resp. Za těchto předpokladů Bayesovské optimální řešení předpovídá, že bod patří do druhé třídy, pokud poměr pravděpodobnosti překročí nějakou (prahovou) hodnotu T, takže:

Bez dalších předpokladů se klasifikátor nazývá QDA . 

Místo toho LDA vytváří další zjednodušující předpoklad , že je homoskedastický ( to znamená, že kovarianční třídy jsou identické, takže ) a že kovariance mají plnou hodnost. V tomto případě je vyloučeno několik členů:

, protože je hermitovský a rozhodovací kritérium popsané výše se stává prahovou hodnotou pro skalární součin

pro nějakou prahovou konstantu c , kde

To znamená, že kritérium pro zadání třídy je funkcí pouze této lineární kombinace známých pozorování.

Často je užitečné vidět tento závěr z hlediska geometrie: kritériem pro vstup , který má být obsažen ve třídě , je funkce projekce bodu ve vícerozměrném prostoru na vektor (uvažujeme pouze směr vektoru). Jinými slovy, pozorování patří do , pokud se odpovídající nachází na určité straně nadroviny kolmé k . Poloha roviny je určena prahovou hodnotou c.

Předpoklady

Předpoklady diskriminační analýzy jsou stejné jako u vícerozměrné analýzy rozptylu. Analýza je vysoce citlivá na odlehlé hodnoty a velikost nejmenší skupiny by měla být větší než počet prediktorových (nezávislých) proměnných [7] .

Předpokládá se, že diskriminační analýza je relativně stabilní s ohledem na malá porušení těchto předpokladů [11] . Bylo ukázáno, že diskriminační analýza může zůstat věrohodná, když jsou použity dichotomické náhodné proměnné (kdy je často porušena multivariační normalita) [12] .

Diskriminační funkce

Diskriminační analýza funguje tak, že vytvoří jednu nebo více lineárních kombinací prediktorů, čímž pro každý prvek vytvoří novou latentní proměnnou . Tyto rysy se nazývají diskriminační rysy . Počet možných znaků je buď Ng -1, kde Ng = počet skupin, nebo p (počet prediktorů), podle toho, která hodnota je menší. První vytvořený prvek maximalizuje rozdíl mezi skupinami pro tento prvek. Druhá funkce maximalizuje rozdíl oproti této funkci, ale nesmí korelovat s předchozí funkcí. Proces pokračuje vytvořením sekvence prvků s požadavkem, aby nový prvek nekoreloval se všemi předchozími.

Daná skupina s ukázkovými prostorovými sadami , tam je diskriminační pravidlo takový to jestliže , pak . Diskriminační analýza pak najde "dobré" oblasti souborů , aby se minimalizovala chyba klasifikace, což vede k vysokému procentu klasifikace [13] .

Za každou funkcí následuje diskriminační skóre, které určuje, jak dobře předpovídá členství ve skupině.

Diskriminační pravidla

Vlastní čísla

Vlastní hodnota v diskriminační analýze je vlastní hodnotou pro každou funkci[ Co je to vlastní hodnota funkce? ] . Ukazuje, jak funkce odděluje skupiny. Čím větší je vlastní hodnota, tím lépe funkce sdílí [7] . Zde je však třeba být opatrný, protože vlastní čísla nemají horní hranici [9] [7] . Vlastní hodnotu lze považovat za poměr SS mezi a SS uvnitř jako v ANOVA, kdy je závislá proměnná diskriminační funkce a skupiny jsou úrovně IV [9] . To znamená, že největší vlastní hodnota je spojena s první funkcí, druhá největší je spojena s druhou a tak dále.

Velikost efektu

Někteří navrhují používat vlastní čísla jako měřítko velikosti efektu , ale obecně to není podporováno [9] . Místo toho je vhodnější použít jako měřítko účinku kanonickou korelaci . Je podobný vlastní hodnotě, ale je druhou odmocninou poměru SS mezi a SS celkem . Je rovna korelaci mezi skupinami a funkcí [9] .

Dalším oblíbeným měřítkem velikosti účinku je procentuální rozptyl .[ upřesnit ] pro každou funkci. Lze jej vypočítat pomocí vzorce: , kde je vlastní hodnota funkce a je součtem všech vlastních hodnot. Hodnota nám říká, jak přesná je předpověď daná konkrétní funkcí ve srovnání s jinými funkcemi [9] .

Procento správné klasifikace lze analyzovat jako velikost účinku [9] .

Kanonická diskriminační analýza pro k tříd

Kanonická diskriminační analýza ( CDA ) najde osy ( k − 1 kanonické souřadnice , kde k  je počet tříd), které nejlépe oddělují kategorie .  Tyto lineární funkce nekorelují a v důsledku toho určují optimální k − 1rozměrný prostor prostřednictvím n - rozměrného datového mraku, který nejlépe odděluje k skupin. Viz " LDA s více třídami " níže.

Fisherův lineární diskriminant

Termíny Fisherův lineární diskriminant a LDA se často používají zaměnitelně, ačkoliv Fisherův původní článek [1] ve skutečnosti popisuje mírně odlišný diskriminant, který nevytváří stejné předpoklady jako LDA, jako je normální rozdělení tříd nebo rovnost třídní kovariance .

Předpokládejme, že dvě třídy pozorování mají průměry a kovariance . Pak bude mít lineární kombinace prvků střední hodnoty a odchylky pro . Fisher definoval oddělení mezi těmito dvěma distribucemi jako poměr rozptylu mezi třídami a rozptylu uvnitř tříd:

Tato míra je v jistém smyslu mírou poměru signálu k šumu pro označení třídy. Dá se ukázat, že maximální separace bude kdy

Pokud platí předpoklady LDA, výše uvedená rovnost je ekvivalentní LDA.

Všimněte si, že vektor je normála diskriminační nadroviny . Například ve dvourozměrném problému je čára, která nejlépe odděluje dvě skupiny, kolmá na .

Obecně se datové body, které sdílejí, promítají do . Prahová hodnota, která nejlépe odděluje data, je pak vybrána na základě jednorozměrného rozdělení. Pro výběr prahu neexistuje žádné obecné pravidlo. Pokud však projekce bodů z obou tříd vykazují zhruba stejné rozložení, je dobrou volbou nadrovina mezi projekcemi dvou prostředků a . V tomto případě lze parametr c v prahové podmínce nalézt explicitně:

.

Metoda Otsu souvisí s Fisherovým lineárním diskriminantem a byla vytvořena za účelem binarizace histogramu pixelů v monochromatickém obrázku optimálním výběrem prahu černá/bílá, který minimalizuje rozdíly uvnitř třídy a maximalizuje rozdíly mezi třídami.

LDA s více třídami

V případě, že existují více než dvě třídy, lze analýzu použitou při získávání Fisherova diskriminantu rozšířit tak, aby se získal podprostor , který obsahuje všechny varianty tříd [14] [16] . Toto zobecnění má na svědomí K. R. Rao [17] . Předpokládejme, že každá z tříd C má střední hodnotu a stejnou kovarianci . Potom může být rozptyl třídního rozptylu definován jako výběrová kovariance středních tříd

,

kde je průměr průměrů za třídy. Oddělovač třídy ve směru v tomto případě bude dán hodnotou

To znamená , že když je vlastní vektor , bude hodnota větvení rovna odpovídající vlastní hodnotě .

Je-li diagonalizovatelný, bude rozptyl mezi prvky obsažen v podprostoru rozprostřeném vlastními vektory odpovídajícími největším vlastním číslům C − 1 (protože pořadí je nejvýše C − 1). Tyto vlastní vektory se používají hlavně při výběru prvků, jako v PCA. Vlastní vektory odpovídající menším vlastním číslům jsou velmi citlivé na přesný výběr trénovacích dat a často je nutné použít regularizaci , jak je popsáno v další části.

Je-li požadována klasifikace, existuje mnoho alternativních přístupů, které lze použít místo redukce rozměrů . Třídy lze například rozdělit a pro klasifikaci každé části použít standardní diskriminant Fisher nebo LDA. Běžným příkladem tohoto přístupu je „jeden proti zbytku“, kdy body jedné třídy zapadají do jedné skupiny a vše ostatní zapadá do jiné skupiny, pak se použije LDA. To poskytuje klasifikátory C, jejichž výsledky jsou kombinovány. Další běžnou metodou je párová klasifikace, kdy se pro každou dvojici tříd vytvoří nový klasifikátor (což dává celkem C ( C − 1)/2 klasifikátorů) a jednotlivé klasifikátory se spojí, aby vznikla konečná klasifikace.

Algoritmus přírůstkového LDA

Typická implementace techniky LDA vyžaduje, aby byly všechny vzorky dostupné najednou. Existují však situace, kdy není k dispozici celá datová sada a vstup je přijímán jako stream. V tomto případě je žádoucí, aby bylo možné aktualizovat vypočítané vlastnosti LDA pohledem na nové vzorky, aniž by bylo nutné spouštět celý algoritmus na úplné sadě dat , aby bylo možné extrahovat vlastnosti LDA . Například v mnoha aplikacích v reálném čase, jako je mobilní robotika nebo rozpoznávání obličejů, je důležité aktualizovat extrahované funkce LDA, jakmile bude k dispozici nové pozorování. Technika extrakce prvků LDA, která dokáže aktualizovat vlastnosti LDA jednoduše zpracováním nových vzorků, se nazývá inkrementální algoritmus LDA a tato myšlenka byla intenzivně studována v posledních dvou desetiletích [18] . Catterjee a Roychaudhary navrhli inkrementální samoorganizující se algoritmus LDA pro aktualizaci funkcí LDA [19] . V jiném článku Demir a Ozmehmet navrhli on-line místní výukové algoritmy pro postupnou aktualizaci funkcí LDA pomocí opravy chyb a Hebbových pravidel učení [20] . Nedávno Aliyari, Rujic a Moghaddam vyvinuli rychlý přírůstkový algoritmus pro aktualizaci funkcí LDA pozorováním nových vzorků [18] .

Praktická aplikace

V praxi jsou třídní průměry a kovariance neznámé. Lze je však vyhodnotit z tréninkové sady. Místo přesné hodnoty u obou rovností lze použít buď metodu maximální věrohodnosti , nebo metodu posteriorního maximálního odhadu . Ačkoli odhady kovariance mohou být v určitém smyslu považovány za optimální, neznamená to, že diskriminant získaný dosazením těchto hodnot je v jakémkoli smyslu optimální, i když je předpoklad normálního rozdělení tříd správný.

Další obtíž při aplikaci LDA a Fisherovy diskriminační metody na reálná data nastává, když počet měření v každém vzorku (tedy rozměr každého datového vektoru) dosáhne počtu vzorků v každé třídě [4] . V tomto případě odhady kovariance nemají plné pořadí a nelze je převrátit. Existuje několik způsobů, jak to obejít. Jedním ze způsobů je použití pseudoinverzní matice místo obvyklé inverzní matice ve výše uvedených vzorcích. Lepší numerické stability však lze dosáhnout promítnutím problému do podprostoru překlenutého [21] . Další strategií pro řešení malých velikostí vzorků je použití kompresního odhadu kovarianční matice, kterou lze matematicky znázornit jako

kde je matice identity a je parametr intenzity komprese nebo regularizace . To vede k představě pravidelné diskriminační analýzy [22] nebo diskriminační analýzy s kontrakcí [23] .

Také v mnoha praktických případech nejsou lineární diskriminanty vhodné. LDA a Fisherův diskriminant lze rozšířit pro použití v nelineární klasifikaci pomocí kernel triku . Zde jsou původní pozorování efektivně mapována do vícerozměrného nelineárního prostoru. Lineární klasifikace v tomto nelineárním prostoru je pak ekvivalentní nelineární klasifikaci v původním prostoru. Nejčastěji používaným příkladem tohoto přístupu je Fisherův jaderný diskriminant .

LDA lze zobecnit na multidiskriminační analýzu , ve které se c stává kvalitativní proměnnou s N možnými stavy namísto dvou. Podobně, pokud jsou hustoty distribuce pro třídy normální a mají stejnou kovarianci, jsou dostatečné statistiky pro hodnoty N projekcí, což je podprostor překlenutý N průměry afinně promítnutými inverzní kovarianční maticí. Tyto projekce lze nalézt řešením zobecněného problému vlastních hodnot , kde čitatelem je kovarianční matice vytvořená zpracováním prostředků jako vzorků a jmenovatelem je společná kovarianční matice. Viz „ LDA s více třídami “ výše.

Aplikace

Kromě příkladů uvedených níže má LDA aplikace v polohování a správě produktů .

Prognóza bankrotu

Při předpovídání bankrotu na základě účetních sazeb a dalších finančních proměnných byla lineární diskriminační analýza první statistickou metodou používanou k systematickému vysvětlení, které firmy selžou nebo přežijí. Navzdory omezením, včetně dobře známé nesprávnosti předpokladu normálního rozdělení LDA pro účetní sazby , zůstává model Edwarda Altmana z roku 1968 vedoucím modelem v praktických aplikacích.

Rozpoznávání obličeje

V počítačovém systému rozpoznávání obličejů je každý obličej reprezentován velkým počtem hodnot pixelů. Lineární diskriminační analýza se zde používá hlavně pro snížení počtu prvků na lépe zvládnutelný počet před pokusem o klasifikaci. Každý z nových rozměrů je lineární kombinací hodnot pixelů tvořících vzor. Lineární kombinace získané pomocí Fisherova lineárního diskriminantu se nazývají Fisherovy tváře , zatímco kombinace získané pomocí analýzy hlavních komponent se nazývají vlastní tváře [24] .

Marketing

V marketingu se diskriminační analýza často používá k určení faktorů, které odlišují různé typy uživatelů a/nebo produktů na základě průzkumů nebo jiných forem sběru dat. V dnešní době se pro tyto účely obvykle používá logistická regrese nebo jiné metody. Použití diskriminační analýzy v marketingu lze popsat jako následující kroky:

  1. Formulujeme problém a sbíráme data. Definujeme vlastnosti spotřebitelských vlastností, které spotřebitelé používají k hodnocení v této kategorii. Pro sběr dat od vzorku potenciálních spotřebitelů používáme techniku ​​kvantitativního marketingového výzkumu (jako je průzkum ) ohledně jejich hodnocení všech atributů produktu. Fázi sběru dat obvykle provádějí odborníci na marketingový výzkum. Otázky sociálního průzkumu požadují od respondentů, aby hodnotili produkt na škále 1 až 5 (nebo 1 až 7 nebo 1 až 10) na základě sady ukazatelů vybraných výzkumníky. Vyberte si z pěti až dvaceti indikátorů. Mohou zahrnovat vlastnosti, jako je snadnost použití, hmotnost, přesnost, odolnost, barevný rozsah, cena nebo velikost. Vybrané ukazatele se budou lišit v závislosti na zkoumaném produktu. Stejné otázky jsou kladeny na všechny zkoumané produkty. Údaje o produktech jsou kódovány a zadávány do statistických programů jako R , SPSS nebo SAS . (Tento krok je stejný jako krok ve faktorové analýze).
  2. Vyhodnotíme koeficienty diskriminační funkce a určíme statistickou významnost a validitu. Zvolíme vhodnou metodu diskriminační analýzy. Přímá metoda využívá vyhodnocení diskriminační funkce, takže všechny prediktory jsou vyhodnocovány současně. Postupná metoda zavádí prediktory postupně. Metoda dvou skupin by se měla použít, když má závislá proměnná dvě kategorie nebo stavy. Vícerozměrná diskriminační metoda se používá, když má závislá proměnná tři nebo více kategorických stavů. Pro testování významnosti můžete použít Wilksovu lambdu v SPSS nebo "F stat" v SAS. Nejběžnější metodou testování platnosti je rozdělení vzorku na hodnotící nebo analytický vzorek a validační nebo odložený vzorek. Vyhodnocovací vzorek se používá ke konstrukci diskriminační funkce. Testovací vzorek slouží k sestavení klasifikační matice, která obsahuje počet správně klasifikovaných a nesprávně klasifikovaných případů. Procento správně klasifikovaných případů se nazývá míra úspěšnosti .
  3. Výsledek vyneseme do dvourozměrného grafu, určíme rozměry a výsledek interpretujeme. Statistický program pomáhá zobrazovat výsledky. Graf zobrazí každý produkt (obvykle ve 2D prostoru). Vzdálenost mezi produkty ukazuje, jak se liší. Rozměry by měly být označeny výzkumníkem. To vyžaduje subjektivní rozhodnutí a jsou často velmi kontroverzní. Viz Vytváření percepční mapy .

Biomedicínský výzkum

Hlavní aplikací diskriminační analýzy v medicíně je posouzení závažnosti stavu pacienta a prognózy průběhu onemocnění. Například při retrospektivní analýze jsou pacienti rozděleni do skupin podle závažnosti onemocnění – mírná, středně těžká a těžká forma. Výsledky klinických a laboratorních analýz jsou poté zkoumány, aby byly nalezeny proměnné, které jsou ve studijních skupinách dostatečně odlišné. Na základě těchto proměnných jsou budovány diskriminační funkce, které pomáhají v budoucnu objektivně klasifikovat průběh onemocnění u pacientů, zda bude mírný, středně těžký nebo těžký.

V biologii se podobné principy používají ke klasifikaci a definování skupin různých biologických objektů, například k určení fágového typu Salmonella enteritis na základě Fourierovy transformace infračerveného spektra [25] , k určení zdroje Escherichia coli pomocí studium jeho faktorů virulence [26] atd.

Geosciences

Tato metoda může být použita k oddělení zón hydrotermální alterace. Například, když jsou k dispozici různá data z různých zón, může diskriminační analýza najít vzory v datech a efektivně je klasifikovat [27] .

Srovnání s logistickou regresí

Diskriminační funkční analýza je velmi podobná logistické regresi a obě metody lze použít k zodpovězení některých otázek výzkumníků [9] . Logistická regrese nemá tolik předpokladů jako diskriminační analýza. Pokud jsou však splněny předpoklady diskriminační analýzy, je výkonnější než logistická regrese [28] . Na rozdíl od logistické regrese lze diskriminační analýzu použít pro malé velikosti vzorků. Ukázalo se, že když jsou velikosti vzorků stejné a existuje homogenita rozptylu/kovariance, je diskriminační analýza přesnější [7] . Vzhledem k tomu všemu je logistická regrese volena častěji, protože předpoklady diskriminační analýzy jsou málokdy splněny [8] [7] .

Viz také

Poznámky

  1. 12 Fisher , 1936 , str. 179–188.
  2. McLachlan, 2004 .
  3. Wetcher-Hendricks, 2011 , str. 288.
  4. 1 2 Martinez, Kak, 2001 , str. 228–233.
  5. Abdi, 2007 , str. 270–275.
  6. Perriere, Thioulouse, 2003 , str. 99–105.
  7. 1 2 3 4 5 6 7 8 9 10 ÇOKLUK, BÜYÜKÖZTÜRK, 2008 , s. 73-92.
  8. 1 2 Cohen, Cohen, West, Aiken, 2003 .
  9. 1 2 3 4 5 6 7 8 9 10 11 Green, Salkind, Akey, 2008 .
  10. Venables, Ripley, 2002 , str. 338.
  11. Lachenbruch, 1975 .
  12. Klecka, 1980 .
  13. Hardle, Simar, 2007 , str. 289–303.
  14. 12 Garson , 2012 .
  15. 1 2 3 Hardle, Simar, 2007 , str. 289-303.
  16. Archivovaná kopie (downlink) . Získáno 4. března 2008. Archivováno z originálu dne 12. března 2008.   .
  17. Rao, 1948 , str. 159–203.
  18. 1 2 Ghassabeh, Rudzicz, Moghaddam, 2015 , str. 1999–2012
  19. Chatterjee, Roychowdhury, 1997 , s. 663–678.
  20. Demir, Ozmehmet, 2005 , str. 421–431.
  21. Yu, Yang, 2001 , str. 2067–2069.
  22. Friedman, 1989 , str. 165–17.
  23. Ahdesmäki, Strimmer, 2010 , str. 503–519.
  24. Termín vlastní tváře se používá k označení vlastních vektorů a vlastních čísel , které se používají při rozpoznávání obličejů metodou hlavní komponenty .
  25. Preisner, Guiomar, Machado, Menezes, Lopes, 2010 , str. 3538–3544.
  26. David, Lynne, Han, Foley, 2010 , str. 7509–7513.
  27. Tahmasebi, Hezarkani, Mortazavi, 2010 , str. 564–576.
  28. Hastie, Tibshirani, Friedman, 2009 , str. 128.

Literatura

Čtení pro další čtení

Odkazy