Metoda hlavní součásti

Analýza hlavních komponent (PCA ) je jedním z  hlavních způsobů, jak snížit objem dat a ztratit nejmenší množství informací . Vynalezen Karlem Pearsonem v roce 1901 . Používá se v mnoha oblastech, včetně ekonometrie , bioinformatiky , zpracování obrazu , komprese dat , společenských věd .

Výpočet hlavních složek lze zredukovat na výpočet singulárního rozkladu datové matice nebo na výpočet vlastních vektorů a vlastních hodnot kovarianční matice původních dat . Někdy se metoda hlavní složky nazývá Karhunen-Loeveova transformace [ 1] nebo Hotellingova transformace .  

Formální vyjádření problému

Problém analýzy hlavních součástí má alespoň čtyři základní verze:

První tři verze pracují na konečných souborech dat. Jsou ekvivalentní a nepoužívají žádnou hypotézu o generování statistických dat. Čtvrtá verze pracuje s náhodnými proměnnými . Konečné množiny se zde objevují jako vzorky z daného rozdělení a řešení prvních tří problémů - jako aproximace k expanzi podle Karhunen-Loeveovy věty ( "pravá Karhunen-Loeveova transformace" ). To vyvolává další a ne zcela triviální otázku o přesnosti této aproximace.

Aproximace dat lineárními varietami

Analýza hlavních komponent začala problémem nejlepší aproximace konečné množiny bodů čarami a rovinami ( Pearson , 1901). Vzhledem k tomu, že je dána konečná množina vektorů , pro každý ze všech všech - dimenzionálních lineárních variet v najděte takovou , že součet čtvercových odchylek od je minimální:

,

kde  je euklidovská vzdálenost od bodu k lineární varietě. Libovolnou -rozměrnou lineární varietu v lze definovat jako sadu lineárních kombinací , kde parametry probíhají přes skutečnou čáru a je  to ortonormální sada vektorů.

,

kde je euklidovská norma,  je euklidovský skalární součin nebo v souřadnicové formě:

.

Řešení aproximačního problému pro je dáno množinou vnořených lineárních variet , . Tyto lineární variety jsou definovány ortonormální sadou vektorů (vektory hlavních složek) a vektorem . Vektor je hledán jako řešení problému minimalizace pro :

,

to znamená

.

Toto je ukázkový průměr : .

Fréchet si v roce 1948 všiml, že variační definice průměru (jako bod, který minimalizuje součet čtverců vzdáleností k datovým bodům) je velmi vhodná pro konstrukci statistiky v libovolném metrickém prostoru , a vytvořil zobecnění klasické statistiky pro obecné prostory (zobecněné nejmenší čtverce ).

Vektory hlavních komponent lze nalézt jako řešení optimalizačních problémů stejného typu :

  1. Data jsou centralizována (odečtením průměru): . Nyní ;
  2. První hlavní složka je nalezena jako řešení problému: . pokud řešení není jedinečné, vybere se jedno z nich.
  3. Projekce na první hlavní komponent se odečte od dat: ;
  4. Druhá hlavní složka se nachází jako řešení problému: . Pokud řešení není jedinečné, vybere se jedno z nich.

Dále proces pokračuje, to znamená, že v kroku se odečte projekce na -tou hlavní složku (v tomto okamžiku již byly odečteny projekce na předchozí hlavní složky):

;

a v kroku je definována -tá hlavní komponenta jako řešení problému:

(pokud řešení není jedinečné, vybere se jedno z nich).

V každém přípravném kroku se odečte projekce na předchozí hlavní komponentu. Nalezené vektory jsou ortonormální jednoduše jako výsledek řešení popsaného optimalizačního problému, ale aby se předešlo tomu, že chyby výpočtu naruší vzájemnou ortogonalitu vektorů hlavních složek, mohou být zahrnuty do podmínek optimalizačního problému.

Nejednoznačnost v definici, vedle triviální libovůle ve výběru znaménka ( a řešení stejného problému), může být významnější a pocházet například z podmínek datové symetrie. Poslední hlavní komponentou  je jednotkový vektor ortogonální ke všem předchozím .

Hledat ortogonální projekce s největším rozptylem

Dostaneme vycentrovanou množinu datových vektorů ( aritmetický průměr je nula). Úkolem je najít takovou ortogonální transformaci do nového souřadnicového systému , pro kterou by byly splněny následující podmínky:

Vzorový rozptyl dat ve směru daném normalizovaným vektorem je

(protože data jsou vycentrovaná, je zde výběrový rozptyl stejný jako střední čtvercová odchylka od nuly).

Řešení úlohy nejlepší aproximace dává stejnou množinu hlavních složek jako hledání ortogonálních projekcí s největším rozptylem, a to z velmi prostého důvodu: první člen nezávisí na .

Hledat ortogonální projekce s největší rms vzdáleností mezi body

Další ekvivalentní formulace vyplývá ze zřejmé identity, která platí pro všechny vektory :

Na levé straně této identity je střední kvadratická vzdálenost mezi body a v hranatých závorkách vpravo je výběrový rozptyl. V metodě hlavních komponent se tedy hledají podprostory, v projekci, na které je střední kvadratická vzdálenost mezi body maximální (nebo, což je stejné, její zkreslení v důsledku promítání je minimální) [ 2] . Taková reformulace umožňuje konstruovat zobecnění s vážením různých párových vzdáleností (a nejen bodů).

Zrušení korelací mezi souřadnicemi

Pro danou -rozměrnou náhodnou proměnnou najděte takový ortonormální základ, , ve kterém je koeficient kovariance mezi různými souřadnicemi roven nule. Po transformaci na tento základ

pro .

Zde  je kovarianční koeficient, kde  je matematické očekávání .

Diagonalizace kovarianční matice

Všechny problémy hlavních komponent vedou k problému diagonalizace kovarianční matice nebo vzorové kovarianční matice. Je to empirická nebo vzorová kovarianční matice

Kovarianční matice vícerozměrné náhodné proměnné , to je

Hlavní složkové vektory pro nejlépe sedící a nejvíce rozptylové problémy ortogonální projekce jsou ortonormální množina vlastních vektorů empirické kovarianční matice , uspořádaných v sestupném pořadí vlastních hodnot.Tyto vektory slouží jako odhady pro vlastní vektory kovarianční matice . Na základě vlastních vektorů kovarianční matice je přirozeně diagonální a v tomto základě je koeficient kovariance mezi různými souřadnicemi roven nule.

Pokud je spektrum kovarianční matice degenerované, zvolí se libovolný ortonormální základ vlastních vektorů. Vždy existuje a vlastní hodnoty kovarianční matice jsou vždy reálné a nezáporné.

Singulární dekompozice datové matice

Myšlenka rozkladu singulární hodnoty

Matematickým obsahem metody hlavních komponent je spektrální rozklad kovarianční matice , tedy reprezentace datového prostoru jako součtu vzájemně ortogonálních vlastních podprostorů a samotné matice  jako lineární kombinace ortogonálních projekcí na tyto podprostory s koeficienty. . Pokud  je matice složena z řádkových vektorů (dimenze ) centrovaných dat, pak problém spektrálního rozkladu kovarianční matice přechází v problém singulárního rozkladu datové matice .

Číslo se nazývá singulární hodnota matice tehdy a jen tehdy, když existují pravé a levé singulární vektory : takový -rozměrný řádkový vektor a -rozměrný sloupcový vektor (oba jednotkové délky), že platí dvě rovnosti:

Nechť  je hodnost matice dat. Dekompozice singulární hodnoty datové matice  je její reprezentace ve formě

kde  je singulární hodnota,  je odpovídající pravý singulární sloupcový vektor a  je odpovídající levý singulární řádkový vektor ( ). Pravé singulární sloupcové vektory zapojené do tohoto rozkladu jsou hlavní složkové vektory a vlastní vektory empirické kovarianční matice , odpovídající kladným vlastním číslům .

Ačkoli se formálně problémy singulárního rozkladu datové matice a spektrálního rozkladu kovarianční matice shodují, algoritmy pro výpočet singulární hodnoty přímo, bez výpočtu kovarianční matice a jejího spektra, jsou efektivnější a stabilnější [3] .

Teorii singulární hodnoty vytvořil James Joseph Sylvester v roce 1889 a je uvedena ve všech podrobných příručkách o teorii matic [4] .

Jednoduchý iterativní algoritmus rozkladu singulárních hodnot

Hlavním postupem je najít nejlepší aproximaci libovolné matice maticí tvaru (kde  je -rozměrný vektor a  je -rozměrný vektor) metodou nejmenších čtverců:

Řešení tohoto problému je dáno postupnými iteracemi pomocí explicitních vzorců. U pevného vektoru jsou hodnoty , které tvoří minimum pro formulář , jednoznačně a explicitně určeny z rovností  :

Podobně pro pevný vektor jsou určeny následující hodnoty :

Jako počáteční aproximaci vektoru vezmeme náhodný vektor o jednotkové délce, vypočítáme vektor , pak vypočítáme vektor pro tento vektor atd. Každý krok snižuje hodnotu . Jako zastavovací kritérium se používá malá hodnota relativního poklesu hodnoty minimalizovaného funkcionálu na iterační krok ( ) nebo malá hodnota samotné .

Výsledkem je, že pro matici je nejlepší aproximace získána maticí tvaru (zde horní index označuje číslo aproximace). Dále se výsledná matice odečte od matice a pro získanou matici odchylek se opět hledá nejlepší aproximace stejného typu a tak dále, dokud se například norma nestane dostatečně malou. V důsledku toho jsme získali iterační postup pro rozklad matice jako součtu matic úrovně 1, tedy . Předpokládáme a normalizujeme vektory : Výsledkem je aproximace singulárních čísel a singulárních vektorů (vpravo a vlevo - ).

Mezi výhody tohoto algoritmu patří mimořádná jednoduchost a schopnost přenášet jej téměř beze změn na data s mezerami [5] , stejně jako na vážená data.

Existují různé modifikace základního algoritmu, které zlepšují přesnost a stabilitu. Například vektory hlavních komponent pro různé by měly být ortogonální „konstrukčně“, avšak při velkém počtu iterací (velký rozměr, mnoho komponent) se malé odchylky od ortogonality hromadí a může být vyžadována speciální korekce . každý krok zajišťuje jeho ortogonalitu k dříve nalezeným hlavním komponentám.

Pro čtvercové symetrické kladně-definitivní matice se popsaný algoritmus mění v přímou iterační metodu pro hledání vlastních vektorů (viz článek Vlastní vektory, hodnoty a prostory ).

Singulární dekompozice tenzorů a metoda hlavní složky tenzoru

Datový vektor má často dodatečnou strukturu obdélníkové tabulky (například plochý obrázek) nebo dokonce vícerozměrné tabulky – tedy tenzor : , . V tomto případě je také efektivní použít rozklad singulární hodnoty. Definice, základní vzorce a algoritmy jsou přenášeny prakticky beze změn: místo datové matice máme hodnotu -index , kde první index je číslo datového bodu (tensoru).

Hlavním postupem je najít nejlepší aproximaci tenzoru tenzorem tvaru (kde  je -rozměrný vektor (  je počet datových bodů),  je rozměrový vektor na ) metodou nejmenších čtverců:

Řešení tohoto problému je dáno postupnými iteracemi pomocí explicitních vzorců. Jsou-li uvedeny všechny faktorové vektory kromě jednoho , pak tento zbývající je určen explicitně z dostatečných minimálních podmínek.

Náhodné vektory jednotkové délky se berou jako počáteční aproximace vektorů ( ), vypočítáme vektor , pak se pro tento vektor a tyto vektory vypočítá vektor atd. (cyklujte indexy). Každý krok snižuje hodnotu . Algoritmus evidentně konverguje. Jako zastavovací kritérium se používá maličkost relativního poklesu hodnoty funkcionálu , která má být minimalizována na cyklus , nebo maličkost samotné hodnoty . Dále se výsledná aproximace odečte od tenzoru a znovu se hledá nejlepší aproximace stejného typu pro zbytek a tak dále, dokud se například norma dalšího zbytku dostatečně nezmenší.

Tento vícesložkový rozklad singulárních hodnot (tensorová metoda hlavních složek) se úspěšně používá při zpracování obrázků, videosignálů a v širším měřítku všech dat, která mají tabulkovou nebo tenzorovou strukturu.

Transformační matice na hlavní komponenty

Matice transformace dat na hlavní komponenty se skládá z vektorů hlavních komponent uspořádaných v sestupném pořadí vlastních čísel:

( znamená transponovat),

a

To znamená, že matice je ortogonální .

Většina datových variací bude soustředěna do prvních souřadnic, což vám umožní přesunout se do nižšího dimenzionálního prostoru.

Zbytkový rozptyl

Nechte data vycentrovat, . Když jsou datové vektory nahrazeny jejich projekcí na první hlavní komponenty, je zavedena průměrná druhá mocnina chyby na jeden datový vektor:

kde jsou vlastní hodnoty empirické kovarianční matice uspořádané v sestupném pořadí s přihlédnutím k multiplicitě.

Tato veličina se nazývá reziduální rozptyl . Hodnota

se nazývá vysvětlený rozptyl . Jejich součet se rovná výběrovému rozptylu. Odpovídající kvadratická relativní chyba je poměr zbytkového rozptylu k výběrovému rozptylu (tj. podíl nevysvětleného rozptylu ):

Relativní chyba vyhodnocuje použitelnost metody hlavní komponenty s projekcí na první komponenty.

Poznámka : ve většině výpočetních algoritmů jsou vlastní čísla s odpovídajícími vlastními vektory - hlavní složky se počítají v pořadí "od největšího  po nejmenší". Pro výpočet stačí vypočítat první vlastní čísla a stopu empirické kovarianční matice ( součet diagonálních prvků , tedy rozptylů podél os). Pak

Výběr hlavní komponenty podle Kaiserova pravidla

Cílový přístup k odhadu počtu hlavních složek požadovaným podílem vysvětleného rozptylu je formálně vždy použitelný, ale implicitně předpokládá, že neexistuje žádné rozdělení na „signál“ a „šum“ a jakákoliv předem stanovená přesnost má smysl. Proto je často produktivnější jiná heuristika , založená na hypotéze přítomnosti „signálu“ (poměrně malý rozměr, relativně velká amplituda) a „šumu“ (velký rozměr, relativně malá amplituda). Z tohoto pohledu metoda hlavních složek funguje jako filtr: signál je obsažen především v projekci na první hlavní složky a ve zbývajících složkách je podíl šumu mnohem vyšší.

Otázka: jak odhadnout počet nezbytných hlavních komponent, když poměr signálu k šumu není znám předem?

Nejjednodušší a nejstarší metodou pro výběr hlavních komponent je Kaiserovo pravidlo : důležité  jsou ty hlavní komponenty, pro které

to znamená, že překračuje střední hodnotu (střední výběrový rozptyl souřadnic datového vektoru). Kaiserovo pravidlo funguje dobře v jednoduchých případech, kdy existuje několik hlavních komponent s , které jsou mnohem větší než průměr a zbytek vlastních čísel je menší než on. Ve složitějších případech může poskytnout příliš mnoho významných hlavních složek. Pokud jsou data normalizována na jednotkový výběrový rozptyl podél os, pak Kaiserovo pravidlo nabývá obzvláště jednoduché formy: významné jsou pouze ty hlavní složky, pro které

Odhad počtu hlavních komponent pomocí pravidla zlomené hole

Jedním z nejpopulárnějších heuristických přístupů k odhadu počtu požadovaných hlavních komponent je model Broken stick [ 6 ] .  Množina vlastních hodnot normalizovaná na jednotkový součet ( , ) je porovnána s rozložením délek úlomků hůlky o jednotkové délce, přerušené v tom náhodně zvoleném bodě (body zlomu jsou vybírány nezávisle a jsou rovnoměrně rozloženy podél délka hole). Nechť ( ) jsou délky získaných kusů třtiny, číslované v sestupném pořadí podle délky: . Není těžké najít matematické očekávání :

Podle pravidla zlomené hole je vlastní vektor (v sestupném pořadí vlastních hodnot ) uložen v seznamu hlavních komponent, pokud

Na Obr. je uveden příklad pro 5-rozměrný případ:

=(1+1/2+1/3+1/4+1/5)/5; =(1/2+1/3+1/4+1/5)/5; =(1/3+1/4+1/5)/5; =(1/4+1/5)/5; =(1/5)/5.

Například vybrané

=0,5; =0,3; =0,1; =0,06; =0,04.

Podle pravidla zlomené hůlky by v tomto příkladu měly zůstat 2 hlavní součásti:

Podle uživatelů má pravidlo zlomené rákosky tendenci podceňovat počet významných hlavních komponent.

Odhad počtu hlavních komponent z čísla podmínky

Jak pravidlo Kaisera, tak pravidlo zlomené hole jsou poměrně citlivé na přítomnost irelevantních atributů. To lze snadno demonstrovat zdvojením atributů. Mirkes et al [7] navrhli jednoduchý test stability rozměrového odhadu: pokud jednoduše duplikujete atributy v databázi, pak by se rozměrový odhad neměl zvyšovat. Ani Kaiserovo pravidlo, ani pravidlo zlomené hole tímto testem neprošlo, protože „ocas“ komponenty s malými vlastními hodnotami posunuje odhad a úměrně zvětšuje rozměr. Tento nedostatek nemá odhad podle čísla stavu. [7] [8] Číslo podmínky korelační matice je poměr jejího maximálního vlastního čísla k minimu : . Velká hodnota znamená špatně podmíněný a multikolineární . Pro určení počtu zbývajících složek se vybere určitá hodnota prahu multikolinearity a ty složky, pro které . Ve zbývajících složkách tedy neexistuje žádná multikolinearita. Dimenze dat se odhaduje jako počet vlastních hodnot kovarianční matice, která přesahuje pevný zlomek ( ) její největší vlastní hodnoty. Volba prahu je určena specifiky problému. Četné numerické experimenty ukazují, že výběr sahá od nízké po "střední" multikolinearitu v zadržených komponentách a je přijatelný pro mnoho problémů se zpracováním dat. [7] [9]

Normalizace

Normalizace po redukci na hlavní komponenty

Po promítnutí na první hlavní komponenty s je vhodné normalizovat na jednotkový (vzorkový) rozptyl podél os. Rozptyl podél tý hlavní složky je roven ), takže pro normalizaci je nutné příslušnou souřadnici vydělit . Tato transformace není ortogonální a nezachovává bodový součin. Po normalizaci se kovarianční matice datové projekce stane jednotnou, projekce do libovolných dvou ortogonálních směrů se stanou nezávislými veličinami a jakákoli ortonormální báze se stane základem hlavních komponent (připomeňme, že souřadnicová normalizace mění poměr ortogonality vektorů). Mapování z počátečního datového prostoru do prvních hlavních komponent spolu s normalizací je dáno maticí

.

Právě tato transformace se nejčastěji nazývá transformace Karhunen-Loeve. Zde  jsou sloupcové vektory a horní index znamená transponovat.

Normalizace na výpočet hlavních komponent

Upozornění : Nezaměňujte normalizaci provedenou po transformaci na hlavní složky s normalizací a "bezrozměrností" při předzpracování dat , prováděné před výpočtem hlavních složek. Přednormalizace je potřebná pro rozumnou volbu metriky, ve které se bude počítat nejlepší aproximace dat, případně se budou hledat směry největšího rozptylu (který je ekvivalentní). Pokud jsou data například trojrozměrné vektory „metrů, litrů a kilogramů“, pak při použití standardní euklidovské vzdálenosti bude rozdíl 1 metr v první souřadnici přispívat stejným způsobem jako rozdíl 1 litr ve druhé souřadnici. , nebo 1 kg ve třetím . Obvykle systémy jednotek, ve kterých jsou prezentována původní data, přesně neodrážejí naše představy o přirozených měřítcích podél os a provádí se „ bezrozměrná “: každá souřadnice je rozdělena do určitého měřítka určeného daty, účely jejich zpracování a procesy měření a sběru dat.

Existují tři výrazně odlišné standardní přístupy k takové normalizaci: k jednotkovému rozptylu podél os (měřítka podél os se rovnají směrodatným odchylkám - po této transformaci se kovarianční matice shoduje s maticí korelačních koeficientů ), ke stejné přesnosti měření (měřítko podél osy je úměrné přesnosti měření dané hodnoty) a na stejných požadavcích v problému (měřítko podél osy je určeno požadovanou přesností předpovědi dané hodnoty nebo jejím přípustným zkreslením - úrovní tolerance). Volba předzpracování je ovlivněna smysluplným sdělením problému a také podmínkami sběru dat (např. pokud je sběr dat zásadně neúplný a data budou stále přijímána, pak není racionální volit striktně normalizaci jednotkovou odchylkou, i když to odpovídá smyslu problému, protože se jedná o renormalizaci všech dat po obdržení nové části; rozumnější je zvolit nějakou stupnici, která zhruba odhaduje směrodatnou odchylku, a pak ji neměnit) .

Přednormalizace na jednotkové odchylky podél os je zničena rotací souřadnicového systému, pokud osy nejsou hlavní komponenty, a normalizace během předběžného zpracování dat nenahrazuje normalizaci po redukci na hlavní komponenty.

Mechanická analogie a analýza hlavních komponent pro vážená data

Pokud každému datovému vektoru přiřadíme jednotkovou hmotnost, pak se empirická kovarianční matice bude shodovat s tenzorem setrvačnosti tohoto systému bodových hmotností (děleno celkovou hmotností ) a problém hlavních složek se bude shodovat s problémem přinést tenzor setrvačnosti k hlavním osám. Další volnost ve výběru hodnot hmotnosti lze využít k zohlednění důležitosti datových bodů nebo spolehlivosti jejich hodnot (vyšší hmotnosti jsou přiřazeny důležitým datům nebo datům ze spolehlivějších zdrojů). Pokud je datovému vektoru dána hmotnost , pak místo empirické kovarianční matice dostaneme

Všechny další operace pro redukci na hlavní složky se provádějí stejným způsobem jako v hlavní verzi metody: prohledává se ortonormální vlastní báze , vlastní čísla jsou seřazeny v sestupném pořadí, vážená průměrná chyba aproximace dat pomocí odhadnou se první složky (součtem vlastních čísel ), provede se normalizace a tak dále.

Obecnějším způsobem vážení je maximalizace váženého součtu párových vzdáleností [10] mezi projekcemi. Pro každé dva datové body se zadá váha ; a . Místo empirické kovarianční matice používáme

Pro , symetrická matice je kladně určitá, protože kvadratická forma je kladná:

Dále hledáme ortonormální vlastní bázi , uspořádáme ji sestupně podle vlastních čísel, odhadneme váženou průměrnou chybu aproximace dat podle prvních složek atd. - přesně stejným způsobem jako v hlavním algoritmu.

Tato metoda se používá v přítomnosti tříd: pro různé třídy je váha zvolena tak, aby byla větší než pro body stejné třídy. Výsledkem je, že při projekci na vážené hlavní komponenty se různé třídy „vzdálí“ o větší vzdálenost.

Další aplikací je snížení vlivu velkých odchylek, takzvaných odlehlých hodnot (en.:outlier), které mohou zkreslit obraz kvůli použití střední odmocniny vzdálenosti: pokud vyberete , pak vliv velkých odchylek bude snížena. Popsaná modifikace metody hlavní komponenty je tedy robustnější než klasická.

Speciální terminologie

Ve statistice se při použití metody hlavních komponent používá několik speciálních termínů.

Meze použitelnosti a omezení účinnosti metody

Metoda hlavní složky je vždy použitelná. Běžné tvrzení, že se vztahuje pouze na normálně rozdělená data (nebo na rozdělení, která se blíží normálu), je mylná: v původní Pearsonově formulaci je problém aproximovat konečný soubor dat a neexistuje ani hypotéza o jejich statistickém generování. , nemluvě o distribuci .

Metoda však ne vždy účinně snižuje rozměrnost za daných omezení přesnosti . Přímky a roviny ne vždy poskytují dobrou aproximaci. Data mohou například sledovat určitou křivku s dobrou přesností a tuto křivku může být obtížné v datovém prostoru najít. V tomto případě bude metoda hlavních komponent pro přijatelnou přesnost vyžadovat několik komponent (místo jedné) nebo nebude poskytovat snížení rozměrů s přijatelnou přesností. Pro práci s takovými „křivkami“ hlavních komponent byla vynalezena metoda hlavních variet [12] a různé verze nelineární metody hlavních komponent [13] [14] . Více problémů může přinést komplexní data topologie. K jejich aproximaci byly také vynalezeny různé metody, jako jsou samoorganizující se Kohonenovy mapy , nervový plyn [15] nebo topologické gramatiky [11] . Pokud jsou data statisticky generována s rozdělením, které je velmi odlišné od normálního, pak je pro aproximaci rozdělení užitečné přejít od hlavních složek k nezávislým složkám [16] , které již nejsou v původním bodovém součinu ortogonální. Nakonec pro izotropní rozdělení (i normální) získáme místo rozptylového elipsoidu kouli a aproximačními metodami není možné zmenšit rozměr.

Příklady použití

Vizualizace dat

Vizualizace dat je prezentace ve vizuální podobě experimentálních dat nebo výsledků teoretické studie.

První volbou při vizualizaci souboru dat je ortogonální projekce do roviny prvních dvou hlavních komponent (nebo 3D prostor prvních tří hlavních komponent). Projekční rovina je v podstatě plochá dvourozměrná "obrazovka", umístěná tak, aby poskytovala "obraz" dat s nejmenším zkreslením. Taková projekce bude optimální (mezi všemi ortogonálními projekcemi na různých dvourozměrných obrazovkách) ve třech ohledech:

  1. Minimální součet čtverců vzdáleností od datových bodů k projekcím na rovinu prvních hlavních komponent, to znamená, že obrazovka je umístěna co nejblíže k mračnu bodů.
  2. Minimální součet zkreslení kvadrátů vzdáleností mezi všemi dvojicemi bodů z datového mraku po promítnutí bodů do roviny.
  3. Minimální součet čtverců zkreslení vzdálenosti mezi všemi datovými body a jejich "těžištěm".

Vizualizace dat je jednou z nejpoužívanějších aplikací analýzy hlavních komponent a jejích nelineárních zobecnění [2] .

Komprese obrazu a videa

Pro snížení prostorové redundance pixelů při kódování obrázků a videí se používá lineární transformace bloků pixelů. Následná kvantizace získaných koeficientů a bezztrátové kódování umožňují získat významné kompresní koeficienty. Použití PCA transformace jako lineární transformace je pro některé datové typy optimální z hlediska velikosti přijímaných dat se stejným zkreslením [17] . V současné době není tato metoda aktivně využívána, především z důvodu vysoké výpočetní náročnosti. Komprese dat lze také dosáhnout vyřazením posledních transformačních koeficientů.

Redukce šumu v obrazech

Hlavní podstatou metody [18]  je, že při odstraňování šumu z bloku pixelů reprezentujte okolí tohoto bloku jako množinu bodů ve vícerozměrném prostoru, aplikujte na něj PCA a ponechte pouze první složky transformace. . Předpokládá se, že první komponenty obsahují hlavní užitečné informace, zatímco zbývající komponenty obsahují zbytečný šum. Aplikací inverzní transformace po zmenšení základny hlavních složek získáme obraz bez šumu.

Indexování videa

Hlavní myšlenkou je reprezentovat každý snímek videa několika hodnotami pomocí PCA, které budou později použity při vytváření databáze a dotazů do ní. Takto výrazné snížení dat umožňuje výrazně zvýšit rychlost práce a odolnost vůči řadě zkreslení ve videu.

Bioinformatika

Analýza hlavních komponent se v bioinformatice intenzivně používá k redukci popisu, extrakci smysluplných informací, vizualizaci dat atd. Jedním z běžných případů použití je korespondenční analýza [19] [20] [21] . Na obrázcích (obr. A, B) je genetický text [22] prezentován jako soubor bodů v 64rozměrném prostoru tripletových frekvencí. Každá tečka odpovídá fragmentu DNA v posuvném okně o délce 300 nukleotidů (DNA walk). Tento fragment je rozdělen na nepřekrývající se triplety, počínaje první pozicí. Relativní frekvence těchto tripletů ve fragmentu tvoří 64-rozměrný vektor. Na Obr. Je prezentována projekce na první 2 hlavní složky genomu bakterie Streptomyces coelicolor. Na Obr. B ukazuje projekci na první 3 hlavní komponenty. Odstíny červené a hnědé zvýrazňují fragmenty kódujících sekvencí v dopředném řetězci DNA a odstíny zelené zvýrazňují fragmenty kódujících sekvencí v reverzním řetězci DNA. Fragmenty patřící nekódující části jsou označeny černě. Analýza hlavních komponent většiny známých bakteriálních genomů je prezentována na specializovaném webu [23] .

Chemometrie

Metoda hlavní složky je jednou z hlavních metod v chemometrii . Umožňuje rozdělit matici počátečních dat X na dvě části: „smysluplnou“ a „šumovou“.

Psychodiagnostika

Psychodiagnostika je jednou z nejrozvinutějších oblastí aplikace metody hlavních komponent [24] . Strategie využití je založena na hypotéze, že experimentální data jsou sebeinformativní , což znamená, že diagnostický model lze vytvořit aproximací geometrické struktury množiny objektů v prostoru výchozích znaků. Dobrý lineární diagnostický model lze sestavit, když je významná část počátečních funkcí vnitřně konzistentní. Pokud tato vnitřní konzistence odráží požadovaný psychologický konstrukt , pak jsou parametry lineárního diagnostického modelu (vlastní váhy) dány metodou hlavních komponent.

Ekonometrie

Analýza hlavních komponent je jedním z klíčových nástrojů ekonometrie , používá se k vizualizaci dat, zajišťuje stručnost modelů, zjednodušuje výpočty a interpretaci a komprimuje objem uložených informací. Metoda poskytuje maximální informační obsah a minimální zkreslení geometrické struktury zdrojových dat.

Sociologie

V sociologii je metoda nezbytná pro řešení prvních dvou hlavních úkolů [25] :

  1. analýza dat (popis výsledků průzkumů nebo jiných studií prezentovaný ve formě polí číselných údajů);
  2. popis sociálních jevů (konstrukce modelů jevů včetně matematických modelů).

Politologie

V politologii byla metoda hlavní komponenty hlavním nástrojem projektu Politický atlas modernity [26] pro lineární a nelineární analýzu hodnocení 192 zemí světa podle pěti speciálně vyvinutých integrálních indexů (životní úroveň, mezinárodní vliv, hrozby, státnost a demokracie). Pro kartografii výsledků této analýzy byl vyvinut speciální geoinformační systém , který kombinuje geografický prostor s prostorem příznaků. Datové mapy politického atlasu byly také vytvořeny pomocí 2D hlavních variet v 5D prostoru země jako pozadí. Rozdíl mezi datovou mapou a geografickou mapou je v tom, že na geografické mapě jsou poblíž objekty, které mají podobné zeměpisné souřadnice, zatímco na datové mapě jsou poblíž objekty (země) s podobnými rysy (indexy).

Snížení rozměru dynamických modelů

Prokletí dimenzionality ztěžuje modelování složitých systémů. Nezbytnou podmínkou úspěchu simulace je zmenšení rozměru modelu. K dosažení tohoto cíle byla vytvořena rozsáhlá matematická technologie. V těchto problémech se také používá analýza hlavních komponent (často nazývaná  správná ortogonální dekompozice ( PO ) ). Například při popisu dynamiky turbulence patří dynamické proměnné – rychlostní pole – do nekonečněrozměrného prostoru (nebo, pokud je pole reprezentováno svými hodnotami na dostatečně jemné mřížce, do konečněrozměrného prostoru vysoké dimenze). Můžete vzít velkou sbírku okamžitých hodnot polí a aplikovat analýzu hlavních komponent na tuto sadu vícerozměrných „datových vektorů“. Tyto hlavní komponenty se také nazývají empirické vlastní vektory . V některých případech ( strukturální turbulence ) metoda poskytuje působivé snížení rozměrů [27] . Další aplikace této techniky redukce dynamického modelu jsou extrémně rozmanité, od teoretických základů chemického inženýrství po oceánologii a klimatologii .  

Senzorické hodnocení potravin

Metoda hlavních složek našla uplatnění při senzorickém (organoleptickém) hodnocení vlastností potravinářských výrobků [28] . Principal Component Analysis (PCA) umožňuje klasifikovat potravinářské produkty v případech, kdy se k charakterizaci jejich vlastností používá současně velké množství deskriptorů, například při hodnocení vlastností vína, [29] marmelády, [30] extrudovaných potravin, [31] sýr, [32] a další.

Alternativy a zobecnění

Metoda hlavních komponent je nejběžnějším přístupem k redukci dimenzionality , existují však i jiné metody, zejména metoda nezávislých komponent , vícerozměrné škálování , stejně jako četná nelineární zobecnění: metoda hlavních křivek a variet, metoda elastických map , hledání nejlepší projekce ( angl.  Projection Pursuit ), metody úzkých neuronových sítí , samoorganizující se Kohonenovy mapy .

Viz také

Poznámky

  1. Ve skutečnosti je tato metoda empirickou implementací Karhunen-Loeveovy věty , podle níž lze jakýkoli náhodný proces reprezentovat jako nekonečnou řadu ortogonálních funkcí . V ruskojazyčné vědecké literatuře je také běžné hláskování „ Karunen-Loevova transformace “ , což odpovídá anglickému čtení finského příjmení.
  2. 1 2 Zinoviev A. Yu. , Vizualizace vícerozměrných dat Archivní kopie ze 6. března 2019 ve Wayback Machine , Krasnojarsk, Ed. KSTU, 2000.
  3. Bau III, D., Trefethen, LN , Numerická lineární algebra Archivováno 7. dubna 2022 na Wayback Machine , Philadelphia: Society for Industrial and Applied Mathematics, 1997. (Přednáška 31) ISBN 978-0-89871-361-9
  4. F. R. Gantmakher , Teorie matic. - M .: Nauka, 1966. - 576 stran.
  5. Rossiev A. A. ,: Iterativní modelování neúplných dat pomocí nízkorozměrných variet Archivováno 6. března 2019 ve Wayback Machine , nakladatelství sibiřské pobočky Ruské akademie věd, 2005.
  6. Cangelosi R. , Goriely A. , Retence komponent v analýze hlavních komponent s aplikací na cDNA microarray data Archivováno 9. března 2008 na Wayback Machine , Biology Direct 2007, 2:2. Také na webu PCA Archived 16. března 2019 na Wayback Machine .
  7. 1 2 3 Mirkes, Evgeny M.; Allohibi, Ježa; Gorban, Alexandr. "Zlomkové normy a kvazinonormy nepomáhají překonat prokletí dimenzionality" Entropie 22, 2020 no. 10:1105. https://doi.org/10.3390/e22101105
  8. Fukunaga, K.; Olsen, D. R. Algoritmus pro hledání vnitřní dimenzionality dat. IEEE Trans. Počítat. 1971, C-20, 176-183 https://doi.org/10.1109/TC.1971.223208
  9. Dormann CF, Elith J., Bacher S., Buchmann C., Carl G., Carré G., Marquéz JR, Gruber B., Lafourcade B., Leitão PJ, Münkemüller T. Kolinearita : přehled metod k řešení to a simulační studie hodnotící jejich výkon. Ekografie 36(1), 27-46 (2013). https://doi.org/10.1111/j.1600-0587.2012.07348.x
  10. Koren Y., Carmel L., Robustní lineární redukce rozměrů, IEEE Transactions on Visualization and Computer Graphics, 10 (4) (2004), 459-470. Také na webu PCA Archived 16. března 2019 na Wayback Machine
  11. 1 2 Popis metody lze nalézt v článku: Gorban AN , Sumner NR a Zinovyev AY , Topologické gramatiky pro aproximaci dat, Applied Mathematics Letters, Volume 20, Issue 4 (2007), 382-386; nebo Gorban AN , Sumner NR a Zinovyev AY , Beyond The Concept of Manifolds: Principal Trees, Metro Maps a Elastic Cubic Complexes Archived 6. března 2019 at Wayback Machine In: Gorban AN et al (Eds.), LNCSE 58, Springer, 2007 ISBN 978-3-540-73749-0 ; a také v arXiv
  12. Studium hlavních variet začalo touto prací. Disertace T. Hastie : Hastie T. , Principal Curves and Surfaces přístupné 10/03/2022 Archivováno 10. března 2022 na Wayback Machine , Ph.D Dissertation, Stanford Linear Accelerator Center, Stanford University, Stanford, Kalifornie, USA, listopad 1984 ArchivovánoTaké na webu PCA 6. března 2019 na Wayback Machine
  13. Scholz M., Fraunholz M., Selbig J. , Nelineární analýza hlavních komponent: Modely a aplikace neuronových sítí archivované 6. března 2019 na Wayback Machine , In: Gorban AN et al (Eds.), LNCSE 58, Springer, 2007 ISBN 978-3-540-73749-0
  14. Yin H. Learning Nonlinear Principal Manifolds by Self-Organising Maps Archived 6. března 2019 at the Wayback Machine , In: Gorban AN et al (Eds.), LNCSE 58, Springer, 2007 ISBN 978-3-540-73749-
  15. Martinetz, TM, Berkovich, SG a Schulten KJ , Neuronová plynová síť pro vektorovou kvantizaci a její aplikace na predikci časových řad. Archivováno 16. července 2019 na Wayback Machine IEEE Transactions on Neural Networks, 4 (1993) #4, 558-569 . Z webu PCA Archivováno 16. března 2019 na Wayback Machine
  16. Hyvdrinen A, Karhunen J. a Oja E. , Nezávislá analýza složek, svazek v řadě Wiley o adaptivních a učících se systémech pro zpracování signálu, komunikaci a řízení. — John Wiley & Sons, Inc., 2001. — XVI+481 s. ISBN 0-471-40540-X
  17. Rao, K., Yip P. (eds.), The Transform and Data Compression Handbook, CRC Press, Baton Rouge, 2001.
  18. Muresan DD, Parks TW , Adaptive Principal Components and Image Denoising Archived 16. července 2019 na Wayback Machine , v: Image Processing, 2003, Proceedings 2003 IEEE International Conference on Image Processing (ICIP), 14.–17. září. 2003, v. 1, pp. I-101-104. Z webu PCA Archivováno 16. března 2019 na Wayback Machine
  19. anglicky.  Korespondenční analýza
  20. Benzécri, J.-P. , L'Analyse des Donnees. Svazek II. L'Analyse des Correspondences, Dunod, Paříž, Francie, 1973.
  21. Tekaia F. , Použití korespondenční analýzy při zkoumání genomu Archivováno 12. srpna 2007 na Wayback Machine .
  22. Viz článek Překlad (biologie)
  23. Zinovyev A. , Сluster structure in genomic word frequency distributions Archived 10 March 2019 at Wayback Machine ; a také v arXiv: PCA a K-Means dešifrovat genom Archivováno 24. července 2019 na Wayback Machine .
  24. Duke V. A., Počítačová psychodiagnostika, Petrohrad, 1994; viz jednotlivé sekce na webu Psi Factor Archivováno 28. dubna 2019 na Wayback Machine
  25. Guts A. K., Frolova Yu. V. , Matematické metody v sociologii Archivní kopie ze dne 21. ledna 2022 na Wayback Machine , Řada: Synergetika: od minulosti k budoucnosti. - Nakladatelství "URSS", 2007. - 216 s.
  26. Politický atlas modernity: Zkušenost vícerozměrné statistické analýzy politických systémů moderních států. Archivní kopie ze dne 21. ledna 2022 ve Wayback Machine  - M .: MGIMO-University Publishing House, 2007. - 272 s.
  27. Berkooz G, Holmes Ph., and. Lumley J. L , Správný ortogonální rozklad v analýze turbulentních toků, Archivováno 16. července 2019 na Wayback Machine Annu. Rev. FluidMech. 25 (1993), 539-575. První publikací pro analýzu turbulence je Lumley, JL , The structure of nehomogenní turbulence. In Atmospheric Turbulence and Wave Propagation, ed. A. M. Yaglom, VI Tatarski, str. 166-178. Moskva, Nauka, 1967 (s ilustracemi a mapami. (AN SSSR. Meziresortní geofyzikální výbor. Ústav fyziky atmosféry). Je zajímavé, že autoři těchto prací sledují historii svého přístupu k dílům Kosambiho (1943), Loev (1945), Karhunen (1946), Pugachev (1953) a Obukhov (1954), aniž by věnovali pozornost práci Pearsona a 40 let předchozí historie metody.
  28. Harry T. Lawless, Hildegarde Heymann. Data Relationships and Multivariate Applications  (anglicky)  // Food Science Text Series. — New York, NY: Springer New York, 2010. — S. 433–449 . - ISBN 9781441964878 , 9781441964885 . - doi : 10.1007/978-1-4419-6488-5_18 . Archivováno z originálu 9. června 2018.
  29. Korelace mezi těkavým složením a senzorickými vlastnostmi ve španělských vínech Albariño  //  Microchemical Journal. — 2010-07-01. — Sv. 95 , iss. 2 . — S. 240–246 . — ISSN 0026-265X . - doi : 10.1016/j.microc.2009.12.007 .
  30. Nataliya V Zhilinskaya, Varuzhan A Sarkisyan, Valentina M Vorobieva, Irina S Vorobieva, Alla A Kochetkova, Elena A Smirnova, Irina V Glazkova. Vývoj marmelády pro pacienty s diabetem 2. typu: Senzorické charakteristiky a přijatelnost  (anglicky)  // Food Science and Technology International: periodikum. - 2018. - 7. června. — ISSN 10820132 .
  31. Profil textury a korelace mezi senzorickými a instrumentálními analýzami extrudovaných snacků  //  Journal of Food Engineering. — 2014-01-01. — Sv. 121 . — S. 9–14 . — ISSN 0260-8774 . - doi : 10.1016/j.jfoodeng.2013.08.007 . Archivováno z originálu 17. června 2022.
  32. Charakterizace senzorických vlastností a postavení nového sýra se sníženým obsahem tuku na trhu  //  Innovative Food Science & Emerging Technologies. — 2014-01-01. — Sv. 21 . — S. 169–178 . — ISSN 1466-8564 . - doi : 10.1016/j.ifset.2013.10.003 .

Literatura

klasická díla Základní průvodce Současné recenze Vzdělávací software

Odkazy