Rekvalifikace

Overfitting ( overfitting , re- ve významu „too“, anglicky  overfitting ) ve strojovém učení a statistice  je fenoménem, ​​kdy sestrojený model dobře vysvětluje příklady z trénovací množiny, ale relativně špatně funguje na příkladech, které se nezúčastnily trénování ( na příkladech ze zkušebních vzorků).

To je způsobeno skutečností, že při sestavování modelu („v procesu učení“) jsou v tréninkovém vzorku nalezeny některé náhodné vzorce, které v obecné populaci chybí .

Jinými slovy, model si pamatuje obrovské množství všech možných příkladů, místo aby se učil všímat si funkcí.

I když trénovaný model nemá nadměrné množství parametrů, lze očekávat, že jeho výkon na nových datech bude nižší než na datech použitých pro trénování [1] . Zejména se sníží hodnota koeficientu determinace oproti původním tréninkovým datům.

Způsoby řešení nadměrného vybavení závisí na metodě modelování a způsobu sestavení modelu. Pokud se například staví rozhodovací strom , mohou být některé jeho větve během procesu výstavby odříznuty.

Metody prevence nadměrného vybavení

Aby se zabránilo nadměrné montáži, je třeba použít další metody, například:

což může naznačit, kdy další trénink již nevede k lepším odhadům parametrů. Tyto metody jsou založeny na explicitním omezení složitosti modelů nebo testování schopnosti modelu zobecnit hodnocením jeho výkonu na sadě dat, která nebyla použita pro trénování a je považována za přiblížení ke skutečným datům, ke kterým bude model aplikován.

Viz také

Poznámky

  1. Everitt BS (2002) Cambridgeský statistický slovník, CUP. ISBN 0-521-81099-X (položka pro "Smrštění")