Mahalanobisova vzdálenost

Mahalanobisova vzdálenost je míra vzdálenosti mezi vektory náhodných proměnných, zobecňující koncept euklidovské vzdálenosti.

Navrhl to indický statistik Mahalanobis v roce 1936 [1] . Pomocí Mahalanobisovy vzdálenosti lze určit podobnost neznámého a známého vzorku . Od euklidovské vzdálenosti se liší tím, že bere v úvahu korelace mezi proměnnými a je měřítko invariantní.

Definice

Formálně je Mahalanobisova vzdálenost od vícerozměrného vektoru k množině se střední hodnotou a kovarianční maticí definována následovně [2] :

Mahalanobisova vzdálenost může být také definována jako míra nepodobnosti mezi dvěma náhodnými vektory a z jediného rozdělení pravděpodobnosti s kovarianční maticí  :

Pokud je kovarianční matice maticí identity, pak se Mahalanobisova vzdálenost rovná euklidovské vzdálenosti. Pokud je kovarianční matice diagonální (ale ne nutně jednotná), pak se výsledná vzdálenost nazývá normalizovaná euklidovská vzdálenost :

Zde je standardní odchylka od ve vzorku.

Intuitivní vysvětlení

Zvažte problém určení pravděpodobnosti, že nějaký bod v N-rozměrném euklidovském prostoru patří do množiny, která je dána množinou bodů, které do této množiny rozhodně patří. Najděte těžiště sady. Intuitivně, čím blíže je daný bod k těžišti, tím je pravděpodobnější, že bude patřit do množiny.

Je však také vhodné zvážit velikost plochy, po které jsou body množiny rozptýleny, abychom pochopili, jak významná je vzdálenost mezi daným bodem a těžištěm. Nejjednodušší přístup je vypočítat směrodatnou odchylku nastavených bodů od těžiště. Pokud je vzdálenost mezi daným bodem a těžištěm menší než směrodatná odchylka, pak můžeme usoudit, že pravděpodobnost, že bod patří do množiny, je vysoká. Čím je bod vzdálenější, tím je pravděpodobnější, že v sadě není.

Tento intuitivní přístup lze definovat matematicky jako vzdálenost mezi daným bodem a množinou pomocí vzorce . Dosazením této hodnoty do normálního rozdělení můžete zjistit pravděpodobnost, že bod patří do množiny.

Nevýhodou tohoto přístupu je použití předpokladu, že body množiny jsou sféricky rozmístěny kolem těžiště (tedy rovnoměrně ve všech rozměrech). Pokud rozdělení zjevně není kulové (například elipsoidní), pak by bylo přirozené vzít v úvahu v pravděpodobnosti členství nejen vzdálenost k těžišti, ale také směr k němu. Ve směru krátké osy elipsoidu musí být daný bod blíže k těžišti, aby patřil do množiny, ve směru dlouhé osy může být dále.

Abychom to napsali matematicky, elipsoid, který nejlépe reprezentuje rozdělení pravděpodobnosti množiny, může být dán kovarianční maticí množiny. Mahalanobisova vzdálenost je jednoduše vzdálenost mezi daným bodem a těžištěm dělená šířkou elipsoidu ve směru daného bodu.

Aplikace

Mahalanobisova vzdálenost byla formulována během práce na identifikaci podobnosti lebek na základě měření v roce 1927 [3] .

Mahalanobisova vzdálenost je široce používána ve shlukové analýze a klasifikačních metodách . Úzce souvisí s Hotellingovým T -squared rozdělením používaným  při vícerozměrném statistickém testování a Fisherovou lineární diskriminační analýzou používanou při strojovém učení pod dohledem [4] .

Chcete-li použít Mahalanobisovu vzdálenost v problému určení, zda daný bod patří do jedné z N tříd, musíte najít kovarianční matice všech tříd. Obvykle se to provádí na základě známých vzorků z každé třídy. Poté je nutné vypočítat Mahalanobisovu vzdálenost od daného bodu ke každé třídě a vybrat třídu, pro kterou je tato vzdálenost minimální. Pomocí pravděpodobnostní interpretace lze prokázat, že je ekvivalentní výběru třídy metodou maximální věrohodnosti .

Mahalanobisova vzdálenost se také používá k nalezení odlehlých hodnot, například v problému konstrukce lineární regrese. Bod, který má největší Mahalanobisovu vzdálenost ke zbytku množiny daných bodů, je považován za bod s největším významem, protože má největší vliv na zakřivení a na koeficienty regresní rovnice. Kromě toho se Mahalanobisova vzdálenost používá v problému určování vícerozměrných odlehlých hodnot a při práci s modely aktivních tvarů .

Poznámky

  1. Mahalanobis, Prasanta Chandra. O zobecněné vzdálenosti ve statistice  (neopr.)  // Proceedings of the National Institute of Sciences of India. - 1936. - V. 2 , č. 1 . - S. 49-55 . Archivováno z originálu 29. května 2013.
  2. De Maesschalck, R.; D. Jouan-Rimbaud, D. L. Massart (2000) The Mahalanobis distance. Chemometrie a inteligentní laboratorní systémy 50:1–18
  3. Mahalanobis, PC (1927). Analýza rasové směsi v Bengálsku. J. Proč. Asiatic Soc. z Bengálska. 23:301-333.
  4. McLachlan, Geoffry J (1992) Diskriminační analýza a statistické rozpoznávání vzorů. Wiley Interscience. ISBN 0471691151 s. 12