K-means++

k -means++ je vylepšená verze shlukovacího algoritmu k -means . Podstatou vylepšení je najít více „dobrých“ počátečních hodnot těžišť clusteru. Původní k-means nespecifikuje, jak se tento krok algoritmu provádí, a proto je nestabilní. Algoritmus byl navržen v roce 2007 Davidem Arthurem a Sergejem Vassilvitským. Existují také další podobné metody objevené jinými vědci nezávisle.

Inicializace

Vyberte první těžiště náhodně (mezi všemi body)
Pro každý bod najděte hodnotu druhé mocniny vzdálenosti k nejbližšímu těžišti (z těch již vybraných) dx²
Vyberte z těchto bodů další těžiště tak, aby pravděpodobnost výběru bodu byla úměrná druhé mocnině vzdálenosti pro něj vypočítané.To
lze provést následovně. V kroku 2 musíte spočítat součet Sum(dx²) souběžně s výpočtem dx². Po sečtení součtu najděte hodnotu Rnd=random(0.0,1.0)*Sum. Rnd bude náhodně ukazovat na číslo z intervalu [0; Součet) a my musíme pouze určit, kterému bodu to odpovídá. Chcete-li to provést, musíte znovu začít počítat součet S (dx²), dokud součet nepřekročí Rnd. Jakmile k tomu dojde, sčítání se zastaví a můžeme vzít aktuální bod jako těžiště.
Při výběru každého dalšího těžiště není nutné dbát na to, aby se nekrylo s některým z bodů již zvolených jako těžiště, protože pravděpodobnost opětovného výběru určitého bodu je 0.
Opakujte kroky 2 a 3, dokud nenajdete všechna požadovaná těžiště.

Dále je proveden hlavní algoritmus k -means .

Implementace

Implementace jazyka Java je součástí populární knihovny Apache [1] .

Poznámky

↑ Commons Math: The Apache Commons Mathematics Library . Datum přístupu: 20. září 2013. Archivováno z originálu 6. října 2014. (neurčitý)

Strojové učení a dolování dat
Úkoly	Klasifikační problém Učení bez učitele Učení za pomoci učitele Regresní analýza AutoML Pravidla asociace Extrakce funkcí Trénink vlastností Žebříčkový trénink Gramatické odvozování Online učení
Učení s učitelem	metoda k-nejbližšího souseda Naivní Bayesův klasifikátor rozhodovací strom Podpora vektorového stroje Lineární regrese Logistická regrese perceptron Soubory modelů Pytlování posilování náhodný les Relevantní vektorová metoda
shluková analýza	metoda k-means Metoda fuzzy shlukování Hierarchické shlukování EM algoritmus BŘÍZA LÉK DBSCAN OPTIKA Střední posun
Redukce rozměrů	Faktorová analýza Metoda hlavní součásti CCA ICA LDA Nezáporná expanze matice t-SNE
Strukturální prognózy	Graf pravděpodobnosti modelu Bayesovská síť Skrytý Markovův model CRF
Detekce anomálií	metoda k-nejbližšího souseda Místní úroveň emisí
Grafové pravděpodobnostní modely	Bayesovská síť Markovská síť Skrytý Markovův model
Neuronové sítě	Limitovaný Boltzmannův stroj samoorganizující se mapa Aktivační funkce Sigmoid softmax Radiální základní funkce Metoda zpětného šíření Hluboké učení Vícevrstvý perceptron Rekurentní neuronová síť dlouhodobá krátkodobá paměť Řízený rekurentní blok Konvoluční neuronová síť U-síť Autokodér
Posílení učení	Markovský proces Bellmanova rovnice Chamtivý algoritmus Q-learning SARSA Časový rozdíl (TD)
Teorie	Vapnik-Chervonenkis teorie Dilema zkreslení Teorie počítačového učení Empirická minimalizace rizika Occam se učí PAC učení Statistická teorie učení
Časopisy a konference	NeurIPS ICML ML JMLR ArXiv:cs.LG