Obrazová pyramida je třída víceúrovňových hierarchických datových struktur navržených pro použití v aplikovaných problémech strojového vidění , komprese informací , analýzy bitmapové textury atd. Takové struktury obsahují na každé úrovni hierarchie zmenšenou verzi předchozího obrazu, každý z nichž se rekurzivně vypočítává na základě předchozích vrstev aplikací stejného typu operace (například vyhlazování ) [1] . Zároveň je každé úrovni hierarchie přiřazen parametr měřítka relevantní pro řešený problém, který popisuje požadované vlastnosti obrazu [2] .
Vznik zájmu specialistů o matematické zpracování obrazů v hierarchických pyramidách je spojen s potřebou řešit některé aplikované problémy za podmínek a priori neznámého měřítka požadovaných vlastností či znaků. Vzhledem k tomu, že tato charakteristická velikost není definována, možným způsobem, jak ji vyřešit, je rozložit původní obrázek do hierarchického systému, ve kterém je každá vrstva reprezentována svým vlastním měřítkem, artikulujícím samostatným rozsahem prvků. Obdobně je uspořádán systém zpracování videoinformací pro biologické objekty [2] .
Podoba prvních hierarchických pyramid se datuje koncem 70. let 20. století [3] , výběr jejich názvu diktovala čistě vnější vizuální asociace [4] . V 80. letech 20. století začalo aktivní využívání hierarchických pyramid v problémech míchání obrazů a hledání korespondence mezi prvky a strukturami různých měřítek. Současně byla dokončena tvorba souvislých verzí pyramidálních struktur pro zpracování prostorového měřítka. Koncem 80. let však musely tradiční pyramidy uvolnit místo kvůli aktivnímu zavádění vlnkových transformací [5] .
Obrazovou pyramidu lze ve svém jádru chápat jako soubor pohledů uspořádaných ve vertikální hierarchii, jak se zmenšuje. Původní obrázek s vysokým rozlišením je obvykle umístěn na základně pyramidy a jak se pohybujete nahoru, měřítko a rozlišení se snižují. V důsledku toho je nejhrubší přiblížení s nízkou kvalitou a informačním obsahem nahoře [6] [7] .
Zpravidla se za účelem vygenerování pyramidy pro usnadnění její reprezentace původní obrázek přepočítá na rozměry, které jsou násobky mocniny 2 [1] . Pokud byla původní data ve formě pole pixelů , pak je tento zápis ekvivalentní , kde [6] . V této podobě hraje parametr roli výška pyramidy, vyjádřená v počtu zobrazení původního obrázku (vrstev) [8] .
První vrstvu (aproximaci) pyramidy lze získat sekvenčním průměrováním sousedních pixelů, což povede k poli . Použití tohoto postupu rekurzivně vytvoří sadu obrázků s exponenciálně se zmenšujícími velikostmi. Pixely meziobrázků zároveň obsahují informace o čtvercových blocích pixelů podkladových vrstev s vyšším rozlišením [9] . Potom bude libovolně zvolená mezivrstva obsahovat pixely, kde 0 ≤ j < n , a celkový počet pixelů v pyramidě obsahující vrstvy [6] :
Mezilehlé uzly pyramidy nemusí být váženým průměrem intenzity ze spodních vrstev. Místo intenzity mohou ukládat jiné typy informací, například deskriptory textur nebo parametry geometrických prvků (čáry, křivky atd.) [10]
Nejviditelnější užitečnou vlastností pyramid ve více měřítcích je schopnost snížit výpočetní náklady různých algoritmů pomocí aplikace principu „ rozděl a panuj “. Rovněž za výhody znázornění dvourozměrného obrazu ve formě pyramidy se považuje korelace jeho lokálních prvků a vlastností s globálními. To vám umožňuje vytvářet stromové datové struktury pro vícerozměrnou analýzu, včetně místních a globálních informací. Například propojení hodnot jednotlivých pixelů s vlastnostmi oblastí, které je obklopují [11] .
Gaussovy pyramidy a Laplaciovy pyramidy jsou považovány za klasické typy pyramidálních hierarchií . Pro své dobře prozkoumané vlastnosti jsou široce používány v řadě praktických aplikací [12] .
Gaussova pyramida se skládá z vrstev, z nichž každá je získána z předchozí vyhlazením symetrickým Gaussiánem ( dolní propust ) a následným vzorkováním. Součet těchto vrstev se nazývá hrubé měřítko obrazu. Oblastí použití Gaussových pyramid je obvykle problém vyhledávání obrázků podle měřítka a prostorového porovnávání různých obrázků [13] [14] .
Laplaciánské pyramidy se vypočítávají postupným vyhlazováním a decimováním počátečních dat. Každá úroveň pyramidy je zároveň zdokonalením předchozích a odpovídá samostatnému frekvenčnímu pásmu ( pásmová propust ). Na rozdíl od Gaussových pyramid umožňuje tento datový typ vyšší stupeň komprese informací [15] [16] . Kromě toho lze původní obraz snadno obnovit na základě superpozice mezivrstev, což umožňuje neukládat jej do paměti [17] .