K-mediánová metoda

Metoda -medián [1] [2] je variací metody -averages  používané ve statistice a strojovém učení pro problémy s klastrováním , kde se k určení těžiště klastru počítá místo průměru medián . Tento přístup odpovídá minimalizaci chyby ve všech shlucích v metrice s 1 normou namísto metriky se 2 normami používané v metodě standardních průměrů.

Úkolem stanovení -mediánů je najít taková centra, aby jimi tvořené shluky byly co nej "kompaktnější". Formálně, dané datové body , středy by měly být zvoleny tak, aby se minimalizoval součet vzdáleností od každého k nejbližšímu .

Metoda někdy funguje lépe než metoda -means, kde je součet čtverců vzdáleností minimalizován. Kritérium součtu vzdáleností je široce používáno pro dopravní problémy [3] .

Další alternativou je metoda -medoids , ve které se hledá optimální medoid a nikoli medián shluku (medián je jedním z datových bodů, zatímco mediány být nemusí).

Odkazy

  1. A. K. Jain a R. C. Dubes, Algorithms for Clustering Data: Prentice-Hall, 1981.
  2. PS Bradley, OL Mangasarian a WN Street, "Clustering via Concave Minimization," v Advances in Neural Information Processing Systems, sv. 9, MC Mozer, MI Jordan a T. Petsche, Eds. Cambridge, MA: MIT Press, 1997, pp. 368-374.
  3. Archivovaná kopie . Získáno 24. října 2010. Archivováno z originálu dne 3. dubna 2022.