Algoritmus -nejbližší sousedé ( k-NN) je metrický algoritmus pro automatickou klasifikaci nebo regresi objektů .
V případě použití metody pro klasifikaci je objekt přiřazen do třídy, která je nejběžnější mezi sousedy tohoto prvku, jejichž třídy jsou již známé. V případě použití metody pro regresi je objektu přiřazena průměrná hodnota objektů, které jsou mu nejblíže, jejichž hodnoty jsou již známé.
Algoritmus lze aplikovat na vzorky s velkým počtem atributů (multidimenzionální). Chcete-li to provést, před aplikací musíte definovat funkci vzdálenosti ; klasickou verzí takové funkce je euklidovská metrika [1] [2] .
Různé atributy mohou mít různé rozsahy reprezentovaných hodnot ve vzorku (například atribut A je reprezentován v rozsahu od 0,1 do 0,5 a atribut B je zastoupen v rozsahu od 1000 do 5000), pak hodnoty vzdálenosti mohou být vysoce závislé na atributech s větším rozsahem. Data proto obvykle podléhají normalizaci. Při shlukové analýze existují dva hlavní způsoby normalizace dat: minimální normalizace a Z-normalizace.
Minimax normalizace se provádí následovně:
,v tomto případě budou všechny hodnoty ležet v rozsahu od 0 do 1; diskrétní binární hodnoty jsou definovány jako 0 a 1.
Z-normalizace:
kde je standardní odchylka ; v tomto případě bude většina hodnot spadat do rozsahu .
Některé významné atributy mohou být důležitější než jiné, takže každému atributu lze přiřadit určitou váhu (například vypočítanou pomocí testovacího vzorku a optimalizace chyby rozptylu). Každému atributu tedy bude přiřazena váha , takže hodnota atributu bude spadat do rozsahu (pro normalizované hodnoty pomocí metody minimax). Pokud je například atributu přiřazena váha 2,7, bude jeho normalizovaná vážená hodnota ležet v rozsahu
U vážené metody se bere v úvahu nejen počet určitých tříd, které spadaly do oblasti, ale také jejich vzdálenost od nové hodnoty.
Pro každou třídu je určeno skóre blízkosti:
,kde je vzdálenost od nové hodnoty k objektu .
Která třída má vyšší hodnotu blízkosti, je tato třída přiřazena k novému objektu.
Pomocí této metody můžete vypočítat hodnotu jednoho z atributů klasifikovaného objektu na základě vzdáleností od objektů, které spadly do oblasti, a odpovídajících hodnot stejného atributu pro objekty:
,kde je -tý objekt, který spadl do oblasti, je hodnota atributu daného objektu , je nový objekt a je -tý atribut nového objektu.
Strojové učení a dolování dat | |
---|---|
Úkoly | |
Učení s učitelem | |
shluková analýza | |
Redukce rozměrů | |
Strukturální prognózy | |
Detekce anomálií | |
Grafové pravděpodobnostní modely | |
Neuronové sítě | |
Posílení učení |
|
Teorie | |
Časopisy a konference |
|