Overfitting ( overfitting , re- ve významu „too“, anglicky overfitting ) ve strojovém učení a statistice je fenoménem, kdy sestrojený model dobře vysvětluje příklady z trénovací množiny, ale relativně špatně funguje na příkladech, které se nezúčastnily trénování ( na příkladech ze zkušebních vzorků).
To je způsobeno skutečností, že při sestavování modelu („v procesu učení“) jsou v tréninkovém vzorku nalezeny některé náhodné vzorce, které v obecné populaci chybí .
Jinými slovy, model si pamatuje obrovské množství všech možných příkladů, místo aby se učil všímat si funkcí.
I když trénovaný model nemá nadměrné množství parametrů, lze očekávat, že jeho výkon na nových datech bude nižší než na datech použitých pro trénování [1] . Zejména se sníží hodnota koeficientu determinace oproti původním tréninkovým datům.
Způsoby řešení nadměrného vybavení závisí na metodě modelování a způsobu sestavení modelu. Pokud se například staví rozhodovací strom , mohou být některé jeho větve během procesu výstavby odříznuty.
Aby se zabránilo nadměrné montáži, je třeba použít další metody, například:
což může naznačit, kdy další trénink již nevede k lepším odhadům parametrů. Tyto metody jsou založeny na explicitním omezení složitosti modelů nebo testování schopnosti modelu zobecnit hodnocením jeho výkonu na sadě dat, která nebyla použita pro trénování a je považována za přiblížení ke skutečným datům, ke kterým bude model aplikován.