Logistická regrese

Aktuální verze stránky ještě nebyla zkontrolována zkušenými přispěvateli a může se výrazně lišit od verze recenzované 8. února 2022; ověření vyžaduje 1 úpravu .

Logistická regrese nebo logit model ( anglicky logit model ) je statistický model používaný k předpovídání pravděpodobnosti události, která nastane jejím porovnáním s logistickou křivkou . Tato regrese dává odpověď jako pravděpodobnost binární události (1 nebo 0).

Popis

Logistická regrese se používá k predikci pravděpodobnosti výskytu události na základě hodnot sady funkcí. K tomu je zavedena tzv. závislá proměnná , která nabývá pouze jedné ze dvou hodnot – zpravidla jsou to čísla 0 (událost nenastala) a 1 (událost nastala) a množina nezávislé proměnné (také nazývané znaménka, prediktory nebo regresory) - reálné , na základě jejichž hodnot je třeba vypočítat pravděpodobnost přijetí jedné nebo druhé hodnoty závislé proměnné. Stejně jako v případě lineární regrese je pro usnadnění zápisu zavedena fiktivní funkce $y$ $x_{1},x_{2},...,x_{n}$ $x_{0}=1.$

Předpokládá se, že pravděpodobnost výskytu události je: $y=1$

{\mathbb {P}}\{y=1\mid x\}=f(z),

kde a jsou sloupcové vektory hodnot nezávislých proměnných a parametrů (regresní koeficienty) - reálná čísla a je takzvaná logistická funkce (někdy také nazývaná sigmoidní nebo logitová funkce): ${\displaystyle z=\theta ^{T}x=\theta _{0}+\theta _{1}x_{1}+\ldots +\theta _{n}x_{n))$ $X$ $\theta$ ${\displaystyle 1,x_{1},\tečky ,x_{n))$ ${\displaystyle \theta _{0},...,\theta _{n))$ $f(z)$

f(z)={\frac {1}{1+e^{{-z))))

Protože nabývá pouze hodnot 0 a 1, pravděpodobnost získání hodnoty 0 je: $y$

{\mathbb {P}}\{y=0\mid x\}=1-f(z)=1-f(\theta ^{T}x).

Pro stručnost lze distribuční funkci pro dané zapsat v následujícím tvaru: $y$ $X$

{\mathbb {P}}\{y\mid x\}=f(\theta ^{T}x)^{y}(1-f(\theta ^{T}x))^{{1-y }},\quad y\in \{0,1\}.

Ve skutečnosti se jedná o Bernoulliho rozdělení s parametrem rovným . $f(\theta ^{T}x)$

Výběr parametrů

Pro výběr parametrů je nutné vytvořit trénovací vzorek skládající se ze sad hodnot nezávislých proměnných a odpovídajících hodnot závislé proměnné . Formálně se jedná o množinu dvojic , kde je vektor hodnot nezávislých proměnných a je jim odpovídající hodnota . Každý takový pár se nazývá tréninkový příklad. ${\displaystyle \theta _{0},...,\theta _{n))$ $y$ $(x^{(1)},y^{(1)}),...,(x^{(m)},y^{(m)})$ $x^{{(i)}}\in {\mathbb {R}}^{n}$ $y^{{(i)}}\in \{0,1\}$ $y$

Obvykle se používá metoda maximální věrohodnosti , podle které se volí parametry maximalizující hodnotu věrohodnostní funkce na trénovacím vzorku: $\theta$

{\hat {\theta }}=\jméno operátora {argmax}_{{\theta }}L(\theta )=\jméno operátora {argmax}_({\theta }}\prod _{{i=1}}^ {{m}}{\mathbb {P}}\{y=y^{{(i)}}\mid x=x^{{(i)}}\}.

Maximalizace funkce pravděpodobnosti je ekvivalentní maximalizaci jejího logaritmu :

\ln L(\theta )=\sum _{i=1}^{m}\log \mathbb {P} \{y=y^{(i)}\mid x=x^{(i) )}\}=\součet _{i=1}^{m}{\Velký [}y^{(i)}\ln f(\theta ^{T}x^{(i)})+(1 -y^{(i)})\ln(1-f(\theta ^{T}x^{(i)})){\Velký ]}

, kde

\theta ^{T}x^{(i)}=\theta _{0}+\theta _{1}x_{1}^{(i)}+\tečky +\theta _{n} x_{n}^{(i)}.

Pro maximalizaci této funkce lze například použít metodu sestupu gradientu . Spočívá v provedení následujících iterací, počínaje nějakou počáteční hodnotou parametru : $\theta$

\theta :=\theta +\alpha \nabla \ln L(\theta )=\theta +\alpha \sum _{{i=1}}^{{m}}(y^{{(i)}} -f(\theta ^{T}x^{{(i)}}))x^{{(i)}},\alpha >0.

V praxi se také používá Newtonova metoda a stochastický gradientní sestup .

Regularizace

Pro zlepšení zobecňující schopnosti výsledného modelu, tedy snížení efektu overfittingu , se v praxi často zvažuje logistická regrese s regularizací .

Regularizace spočívá ve skutečnosti, že parametrový vektor je zpracován jako náhodný vektor s nějakou danou apriorní hustotou distribuce . K trénování modelu se místo metody maximální věrohodnosti používá metoda maximalizace aposteriorního odhadu , to znamená, že se hledají parametry , které maximalizují hodnotu: $\theta$ $p(\theta)$ $\theta$

\prod _{{i=1}}^{m}{\mathbb {P}}\{y^{{(i)}}\mid x^{{(i)}},\theta \}\cdot p(\theta).

Předchozí rozdělení je často vícerozměrné normální rozdělení s nulovým průměrem s kovarianční maticí odpovídající apriornímu přesvědčení, že všechny regresní koeficienty by měly být malá čísla, v ideálním případě by mnoho málo významných koeficientů mělo být nulové. Dosazením hustoty tohoto předchozího rozdělení do výše uvedeného vzorce a logaritmováním získáme následující optimalizační problém: ${\mathcal {N}}(0,\sigma ^{2}I)$ $\sigma ^{2}I$

\sum \limits _{{i=1}}^{m}\log {\mathbb {P}}\{y^{{(i)}}\mid x^{{(i))),\theta \}-\lambda \|\theta \|^{2}\,\to {\mbox{max)),

kde je parametr regularizace. Tato metoda je známá jako L2-regularizovaná logistická regrese, protože cílová funkce zahrnuje L2-normu parametrového vektoru pro regularizaci. $\lambda ={\mbox{const}}/{\sigma ^{2}}$

Pokud místo L2-normy použijeme L1-norm , což je ekvivalentní použití Laplaceova rozdělení jako a priori místo normálního, pak dostaneme další běžnou verzi metody - L1-regularized logistickou regresi:

\sum _{{i=1}}^{m}\log {\mathbb {P}}\{y^{{(i)}}\mid x^{{(i))),\theta \} -\lambda \|\theta \|_{1}\,\to {\mbox{max}}.

Aplikace

Tento model se často používá k řešení klasifikačních problémů - do třídy lze přiřadit objekt , pokud je pravděpodobnost předpovězena modelem , a jinak do třídy . Výsledná klasifikační pravidla jsou lineární klasifikátory . $X$ $y=1$ ${\mathbb {P}}\{y=1\mid x\}>0{,}5$ $y=0$

Související metody

Probitová regrese je velmi podobná logistické regresi , liší se od ní pouze jinou volbou funkce . Softmax regrese zobecňuje logistickou regresi na případ vícetřídní klasifikace, to znamená, když závislá proměnná nabývá více než dvou hodnot. Všechny tyto modely jsou zase zástupci široké třídy statistických modelů - zobecněných lineárních modelů . $f(z)$ $y$

Viz také

Literatura

Andrew Ng. Poznámky k přednášce Stanford CS229

Nejmenší čtverce a regresní analýza

Výpočetní statistika

Metoda nejmenších čtverců
Lineární MNC
Nelineární nejmenší čtverce
LSM s iterativním přepočtem vah

Korelace
a závislost

Pearsonův korelační koeficient
Korelace pořadí ( Spearman
Kendall )
Částečná korelace
Zkreslující faktor

Regresní analýza

Normální MNC
Metoda částečných nejmenších čtverců
Nejmenší plné čtverce
Ridge regrese

Regrese jako
statistický
model

Lineární regrese	Jednoduchá lineární regrese Normální MNC Zobecněné nejmenší čtverce Vážené nejmenší čtverce Základní lineární model
prediktivní struktura	Polynomiální regrese růstová křivka Segmentovaná regrese Lokální regrese
Vlastní regrese	nelineární Neparametrické semiparametrické udržitelného kvantil izotonický
Nestandardní chyby	Zobecněný lineární model Binomická regrese Poissonova regrese Logistická regrese

Rozklad rozptylu

Analýza rozptylu
Kovarianční analýza
Vícerozměrná analýza rozptylu

Modelová studie

C p Sléz
Postupná regrese
Výběr statistického modelu
Validace regresního modelu

Předpoklady

Průměrná a očekávaná odezva
Gauss-Markovova věta
Chyby a odchylky
Statistický test
Studentská rovnováha
Minimální střední kvadratická chyba

Plánování
experimentů

Metodika povrchu odezvy
Optimální design experimentu
Bayesovský experimentální design

Numerická
aproximace

Aplikace

Aproximace pomocí křivek
Kalibrační křivka
Savitsky-Golayův filtr
Identifikace systému
Přesouvání metodou nejmenších čtverců

Strojové učení a dolování dat
Úkoly	Klasifikační problém Učení bez učitele Učení za pomoci učitele Regresní analýza AutoML Pravidla asociace Extrakce funkcí Trénink vlastností Žebříčkový trénink Gramatické odvozování Online učení
Učení s učitelem	metoda k-nejbližšího souseda Naivní Bayesův klasifikátor rozhodovací strom Podpora vektorového stroje Lineární regrese Logistická regrese perceptron Soubory modelů Pytlování posilování náhodný les Relevantní vektorová metoda
shluková analýza	metoda k-means Metoda fuzzy shlukování Hierarchické shlukování EM algoritmus BŘÍZA LÉK DBSCAN OPTIKA Střední posun
Redukce rozměrů	Faktorová analýza Metoda hlavní součásti CCA ICA LDA Nezáporná expanze matice t-SNE
Strukturální prognózy	Graf pravděpodobnosti modelu Bayesovská síť Skrytý Markovův model CRF
Detekce anomálií	metoda k-nejbližšího souseda Místní úroveň emisí
Grafové pravděpodobnostní modely	Bayesovská síť Markovská síť Skrytý Markovův model
Neuronové sítě	Limitovaný Boltzmannův stroj samoorganizující se mapa Aktivační funkce Sigmoid softmax Radiální základní funkce Metoda zpětného šíření Hluboké učení Vícevrstvý perceptron Rekurentní neuronová síť dlouhodobá krátkodobá paměť Řízený rekurentní blok Konvoluční neuronová síť U-síť Autokodér
Posílení učení	Markovský proces Bellmanova rovnice Chamtivý algoritmus Q-learning SARSA Časový rozdíl (TD)
Teorie	Vapnik-Chervonenkis teorie Dilema zkreslení Teorie počítačového učení Empirická minimalizace rizika Occam se učí PAC učení Statistická teorie učení
Časopisy a konference	NeurIPS ICML ML JMLR ArXiv:cs.LG