Počítačové vidění

Aktuální verze stránky ještě nebyla zkontrolována zkušenými přispěvateli a může se výrazně lišit od verze recenzované 29. července 2019; kontroly vyžadují 5 úprav .

Počítačové vidění (jinak technické vidění ) je teorie a technologie pro vytváření strojů, které dokážou detekovat, sledovat a klasifikovat objekty.

Počítačové vidění jako vědní disciplína odkazuje na teorii a technologii vytváření umělých systémů, které získávají informace z obrázků. Video data mohou mít mnoho forem, jako je například videosekvence, obrázky z různých kamer nebo 3D data, jako například ze zařízení Kinect nebo lékařského skeneru.

Počítačové vidění jako technologická disciplína se snaží aplikovat teorie a modely počítačového vidění na budování systémů počítačového vidění . Příklady použití takových systémů mohou být:

Systémy řízení procesů ( průmyslové roboty , autonomní vozidla ).
Video monitorovací systémy .
Systémy pro organizaci informací (například pro indexování databází obrázků).
Systémy pro modelování objektů nebo prostředí (analýza lékařských snímků, topografické modelování).
Interakční systémy (například vstupní zařízení pro systém interakce člověk-stroj).
Systémy rozšířené reality .
Počítačová fotografie , například pro mobilní zařízení s fotoaparáty.

Počítačové vidění lze také popsat jako doplněk (ale ne nutně opak) biologického vidění. V biologii se studuje vizuální vnímání lidí a různých zvířat, v důsledku čehož se vytvářejí modely fungování takových systémů z hlediska fyziologických procesů. Počítačové vidění na druhé straně studuje a popisuje systémy počítačového vidění, které jsou implementovány v hardwaru nebo softwaru. Interdisciplinární výměna mezi biologickým a počítačovým viděním se ukázala být pro oba vědní obory velmi produktivní.

Mezi podsekce počítačového vidění patří přehrávání akcí, detekce událostí, sledování, rozpoznávání vzorů, obnova obrazu a několik dalších.

Aktuální pozice

Obor počítačového vidění lze charakterizovat jako mladý, rozmanitý a dynamicky se rozvíjející. A i když existují dřívější práce, lze říci, že až koncem 70. let začalo intenzivní studium tohoto problému, kdy počítače dokázaly řídit zpracování velkých souborů dat, jako jsou obrázky. Tyto studie však obvykle začaly v jiných oblastech, a proto neexistuje žádná standardní formulace problému počítačového vidění. Také, a co je důležitější, neexistuje žádná standardní formulace toho, jak by se měl problém počítačového vidění řešit. Místo toho existuje mnoho metod pro řešení různých dobře definovaných problémů s počítačovým viděním, kde jsou metody často specifické pro daný problém a lze je zřídka zobecnit na širokou škálu aplikací. Mnoho metod a aplikací je stále v základním výzkumu, ale stále více metod se používá v komerčních produktech, kde často tvoří součást většího systému, který může řešit složité problémy (například v lékařském zobrazování nebo měření a kvalitě kontrola ve výrobních procesech). Ve většině praktických aplikací počítačového vidění jsou počítače předem naprogramovány k provádění konkrétních úkolů, ale metody založené na znalostech se stávají obecnějšími.

Důležitou součástí v oblasti umělé inteligence je automatické plánování nebo rozhodování v systémech, které mohou provádět mechanické akce, jako je pohyb robota nějakým prostředím. Tento typ zpracování obvykle vyžaduje vstup ze systémů počítačového vidění, které fungují jako video senzor a poskytují informace na vysoké úrovni o prostředí a robotu. Další oblasti, které jsou někdy popisovány jako součást umělé inteligence a které se používají ve vztahu k počítačovému vidění, jsou metody rozpoznávání vzorů a učení. V důsledku toho je počítačové vidění někdy vnímáno jako součást oblasti umělé inteligence nebo informatiky obecně.

Další oblastí související s počítačovým viděním je zpracování signálu . Mnoho metod pro zpracování jednorozměrných signálů, obvykle časových signálů, lze přirozeně rozšířit na zpracování dvourozměrných nebo vícerozměrných signálů v počítačovém vidění. Vzhledem ke zvláštní povaze obrazů je však v oblasti počítačového vidění vyvinuto mnoho metod, které nemají v oblasti jednorozměrného zpracování signálů obdoby. Zvláštní vlastností těchto metod je jejich nelinearita, která spolu s multidimenzionálností signálu činí odpovídající podpole ve zpracování signálu součástí pole počítačového vidění.

Kromě zmíněných přístupů k problému počítačového vidění lze řadu zkoumaných problémů studovat z čistě matematického hlediska. Mnoho metod je například založeno na statistice , optimalizačních metodách nebo geometrii . A konečně, hodně práce se dělá v oblasti praktických aplikací počítačového vidění – jak lze stávající metody implementovat do softwaru a hardwaru, případně jak je upravit za účelem dosažení vysoké rychlosti bez výrazného nárůstu spotřebovaných zdrojů.

Související oblasti

Počítačové vidění , zpracování obrazu a strojové vidění jsou úzce související oblasti. Stále ale není přesně určeno, zda jde o úseky jednoho, širšího. Při podrobném rozboru se může zdát, že jde jen o různé názvy pro stejnou oblast. Aby nedošlo k záměně, je zvykem rozlišovat je jako oblasti zaměřené na určitý předmět studia. Níže je uveden popis některých z nejdůležitějších:

Zpracování obrazu neboli analýza obrazu je zaměřena především na práci s dvourozměrnými obrazy, tedy na to, jak přeměnit jeden obraz na jiný. Například operace zvýraznění kontrastu na pixel, operace zvýraznění hran, operace odstranění šumu nebo geometrické transformace, jako jsou afinní transformace . Tyto operace předpokládají, že zpracování/analýza obrazu funguje nezávisle na obsahu samotných obrazů.

Počítačové vidění se zaměřuje na zpracování 3D scén promítaných na jeden nebo více obrazů. Například obnovení struktury nebo jiných informací o trojrozměrné scéně z jednoho nebo více obrázků. Počítačové vidění často závisí na více či méně komplexních předpokladech o tom, co je na snímcích znázorněno.

Strojové vidění se zaměřuje především na průmyslové aplikace, jako jsou autonomní roboty a systémy vizuální kontroly a měření. To znamená, že technologie obrazových snímačů a teorie řízení jsou spojeny se zpracováním video dat pro řízení robota a zpracování dat v reálném čase se provádí v hardwaru nebo softwaru.

Existuje také obor s názvem Vizualizace , který byl původně spojen s procesem vytváření obrázků, ale někdy se zabýval zpracováním a analýzou. Například radiografie pracuje s analýzou lékařských aplikačních videodat.

A konečně, rozpoznávání vzorů je obor, který používá různé metody k extrakci informací z video dat, především na základě statistického přístupu. Významná část této oblasti je věnována praktické aplikaci těchto metod.

Příklady aplikací počítačového vidění

Jednou z nejdůležitějších aplikací je zpracování obrazu v medicíně. Tato oblast je charakteristická získáváním informací z videodat pro lékařskou diagnostiku pacientů. Ve většině případů se videodata získávají pomocí mikroskopie , radiografie , angiografie , ultrazvuku a tomografie . Příkladem informací, které lze z takových videodat získat, je detekce nádorů , aterosklerózy nebo jiných maligních změn. Dalším příkladem může být měření velikosti orgánů, průtoku krve atd. Tato aplikační oblast rovněž přispívá k lékařskému výzkumu tím, že poskytuje nové informace například o stavbě mozku nebo kvalitě lékařského ošetření.

Další aplikační oblastí počítačového vidění je průmysl. Zde se získávají informace za účelem podpory výrobního procesu. Příkladem může být kontrola kvality, kdy jsou součásti nebo konečný produkt automaticky kontrolovány na vady. Dalším příkladem je měření polohy a orientace dílů zvednutých ramenem robota.

Vojenské aplikace jsou možná největší oblastí počítačového vidění. Jasnými příklady jsou detekce nepřátelských vojáků a vozidel a ovládání raket . Nejpokročilejší systémy řízení rakety vysílají střelu do dané oblasti místo na konkrétní cíl a výběr cíle se provádí, když střela dosáhne dané oblasti na základě přijatých videodat. Moderní vojenský koncept, jako je „bojové povědomí“ znamená, že různé senzory, včetně obrazových senzorů, poskytují velký soubor informací o bojišti, které lze použít pro strategická rozhodnutí. V tomto případě se pro snížení složitosti nebo zvýšení spolehlivosti přijímaných informací používá automatické zpracování dat.

Jednou z nových oblastí použití jsou autonomní vozidla, včetně podvodních, pozemních (roboty, auta), vzduchu. Úroveň autonomie se liší od plně autonomních (bezpilotních) vozidel až po vozidla, kde systémy založené na počítačovém vidění podporují řidiče nebo pilota v různých situacích. Plně autonomní vozidla využívají počítačové vidění k navigaci, tedy k získávání informací o své poloze, k vytvoření mapy prostředí, k detekci překážek. Mohou být také použity pro specifické úkoly, jako je detekce lesních požárů. Příklady takových systémů jsou systémy varování před překážkami vozidel a systémy autonomního přistání letadel. Některé automobilky předvedly systémy autonomního řízení, ale tato technologie ještě nedospěla do bodu, kdy by se dala vyrábět sériově.

Mezi další aplikace patří:

Podpora pro vytváření video efektů pro film a televizi
Pozorování

Typické úlohy počítačového vidění

Každá z výše popsaných oblastí aplikace počítačového vidění je spojena s řadou úkolů; více či méně dobře definované problémy měření nebo zpracování lze řešit pomocí různých metod. Některé příklady typických úloh počítačového vidění jsou uvedeny níže.

Rozpoznávání

Klasickým úkolem v počítačovém vidění, zpracování obrazu a strojovém vidění je určení, zda video data obsahují nějaký charakteristický objekt, vlastnost nebo aktivitu. Tento úkol může člověk spolehlivě a snadno vyřešit, ale dosud nebyl uspokojivě vyřešen v počítačovém vidění v obecném případě: náhodné objekty v náhodných situacích.

Existující metody řešení tohoto problému jsou účinné pouze pro určité objekty, jako jsou jednoduché geometrické objekty (například mnohostěny), lidské tváře, tištěné nebo ručně psané znaky, auta a pouze za určitých podmínek, obvykle určitého osvětlení, pozadí a polohy objekt vzhledem ke kameře.

V literatuře byla popsána řada problémů s rozpoznáváním:

Rozpoznávání: Lze rozpoznat jeden nebo více předdefinovaných nebo naučených objektů nebo tříd objektů, obvykle spolu s jejich dvourozměrnou pozicí v obrazu nebo trojrozměrnou pozicí ve scéně.
Identifikace: Je rozpoznána jednotlivá instance objektu. Příklady: identifikace konkrétní lidské tváře nebo otisku prstu nebo auta.
Detekce: Video data jsou kontrolována na konkrétní stav. Například detekce možných abnormálních buněk nebo tkání na lékařských snímcích. Detekce založená na relativně jednoduchých a rychlých výpočtech se někdy používá k nalezení malých oblastí v analyzovaném snímku, které jsou pak analyzovány pomocí technik náročnějších na zdroje, aby se získala správná interpretace.

Existuje několik specializovaných úkolů založených na rozpoznávání, například:

Vyhledávání obrázků podle obsahu: Vyhledání všech obrázků ve velké sadě obrázků, které mají specifický obsah. Obsah lze definovat různými způsoby, například z hlediska podobnosti s konkrétním obrázkem (najdi všechny obrázky, které jsou podobné danému obrázku), nebo z hlediska kritérií vyhledávání na vysoké úrovni zadaných jako textová data (najdi mě všechny obrázky, které ukazují mnoho domů vyrobených v zimě a kde nejsou žádná auta).
Odhad polohy: Určení polohy nebo orientace konkrétního objektu vzhledem ke kameře. Příkladem použití této techniky může být pomoc robotickému rameni při odstraňování předmětů z dopravního pásu na montážní lince.
Optické rozpoznávání znaků : Rozpoznávání znaků v obrázcích tištěného nebo ručně psaného textu, obvykle k převodu do textového formátu nejvhodnějšího pro úpravy nebo indexování (jako je ASCII ).
- Optické rozpoznávání dopravních značek

Pohyb

Několik úloh odhadu pohybu, ve kterých se zpracovávají sekvence obrázků (videodata) za účelem nalezení odhadu rychlosti každého bodu v obrázku nebo 3D scéně. Příklady takových úkolů jsou:

Určení pohybu 3D kamery
Sledování, to znamená sledování pohybu objektu (například aut nebo lidí)

Restaurování scény

Jsou dány dva nebo více obrázků scény nebo video dat. Restaurování scény má za úkol znovu vytvořit trojrozměrný model scény. V nejjednodušším případě může být modelem množina bodů v trojrozměrném prostoru. Sofistikovanější metody reprodukují kompletní 3D model.

Obnova obrazu

Úkolem obnovy obrazu je odstranit šum (šum snímače, rozmazání pohybu atd.). Nejjednodušším přístupem k řešení tohoto problému jsou různé typy filtrů, jako jsou dolní nebo střední propusti. Složitější metody používají reprezentace toho, jak by měly určité části obrázku vypadat, a na základě toho je měnit.

Vyšší úrovně odstranění šumu je dosaženo tím, že se nejprve analyzují video data na přítomnost různých struktur, jako jsou čáry nebo hrany, a poté se na základě těchto dat řídí proces filtrování.

Systémy počítačového vidění

Implementace systémů počítačového vidění velmi závisí na jejich aplikaci, hardwarové platformě a požadavcích na výkon. Některé systémy jsou autonomní a řeší specifické problémy detekce a měření, zatímco jiné systémy jsou podsystémy větších systémů, které již mohou obsahovat podsystémy pro řízení mechanických manipulátorů (robotů), informační databáze (vyhledávání podobných obrázků), rozhraní člověk-stroj (počítačové hry) atd. Existují však funkce, které jsou společné mnoha systémům počítačového vidění.

Pořizování snímků: Digitální snímky jsou získávány z jednoho nebo více obrazových snímačů, mezi které kromě různých typů fotosenzitivních kamer patří snímače vzdálenosti, radary, ultrazvukové kamery atd. V závislosti na typu snímače může být výslednými daty běžný 2D obraz , 3D obrázek nebo sekvenční obrázky. Hodnoty pixelů obvykle odpovídají intenzitě světla v jednom nebo více spektrálních pásmech (barevné nebo šedé obrázky), ale mohou souviset s různými fyzikálními měřeními, jako je hloubka, absorpce nebo odraz zvuku nebo elektromagnetických vln nebo nukleární magnetická rezonance.
Předzpracování: Před použitím metod počítačového vidění na video data za účelem získání určitého množství informací musí být video data zpracována tak, aby splňovala určité podmínky v závislosti na použité metodě. Příklady:
- Převzorkování, abyste se ujistili, že souřadnicový systém obrazu je správný
- Odstranění šumu pro odstranění zkreslení snímače
- Vylepšený kontrast, aby bylo možné najít správné informace
- Měřítko pro lepší rozlišení struktur v obraze
Extrakce detailů: Z obrazových dat jsou extrahovány detaily obrazu různé úrovně složitosti. Typické příklady takových detailů jsou:
- Čáry, okraje a okraje
- Lokalizované body zájmu, jako jsou rohy, kuličky nebo tečky: Složitější detaily se mohou týkat struktury, tvaru nebo pohybu.
Detekce / Segmentace: v určité fázi zpracování se rozhoduje o tom, které body nebo oblasti snímku jsou důležité pro další zpracování. Příklady:
- Výběr konkrétního souboru bodů zájmu
- Segmentace jedné nebo více oblastí obrazu, které obsahují charakteristický objekt
Zpracování na vysoké úrovni: V tomto kroku jsou vstupními daty obvykle malá sada dat, jako je sada bodů nebo oblast obrázku, která má obsahovat určitý objekt. Příklady:
- Kontrola, zda data splňují podmínky v závislosti na metodě a aplikaci
- Odhad charakteristických parametrů, jako je poloha nebo velikost objektu
- Zařazení detekovaného objektu do různých kategorií

Software

OpenCV Knihovna počítačového vidění s otevřeným zdrojovým kódem.
PCL Knihovna s otevřeným zdrojovým kódem pro práci s 3D mračny bodů.

Viz také

Literatura

L. Shapiro, J. Stockman. Počítačové vidění = Počítačové vidění. - M .: Binom. Vědomostní laboratoř, 2006. - 752 s. — ISBN 5-94774-384-1 .
David Forsyth, Jean Pons. Počítačové vidění. Moderní přístup = počítačová vize: moderní přístup. - M .: "Williams" , 2004. - 928 s. — ISBN 5-8459-0542-7 .
A.A. Lukyanitsa, A.G. Shishkin. Digitální zpracování video obrazu. - M. : "I-ES-ES Press", 2009. - 518 s. - ISBN 978-5-9901899-1-1 .
Zheltov S.Yu. a další Zpracování a analýza obrazu v úlohách strojového vidění. - M. : Fizmatkniga, 2010. - 672 s. - ISBN 978-5-89155-201-2 .

Virtuální a smíšená realita
Koncepty	virtualita Virtuální kino rozšířená realita Rozšířená virtualita Reálný život PA model virtuální kontinuum umělá realita Simulovaná realita Pervasive Computing virtuální svět Udržitelný stav světa Multimodální interakce teleprezence Ponoření Metaverse
Imerzní technologie	skládání Kalibrace fotoaparátu Hmatový oblek Oblek pro virtuální realitu náhlavní displej Optický head-up displej helma pro virtuální realitu Head-up displej Simulace a vykreslování založené na obrázcích Počítačová grafika v reálném čase Virtuální monitor sítnice nositelný počítač Stereoskopie počítačové stereo vidění počítačové vidění Klíčování vizuální skořápka prostorovou televizi Všesměrový běžecký pás Definice skrytého povrchu Windows smíšená realita Holografie video hologram
Sledování	Zachycování pohybu Sledovací systém Typy Optický inerciální Magnetický Zařízení VR rukavice VirtuSphere Virtuix Omni Gametrack PlayStation Move Skokový pohyb Kinect Sixense TrueMotion Wii Remote
Ponořovací zařízení	Osobní: EyeTap Fibrum Google Cardboard Google Glass homido HTC Vive Intel Project Alloy Microsoft HoloLens Oculus Rift Samsung Gear VR PlayStation VR Prostorová vesta Pokoje: AlloSphere JESKYNĚ TreadPort Historie: Sensorama Virtuální kluk 3D systém Famicom Damoklův meč Sega VR virtualita
Aplikace	všudypřítomná hra ARToolKit OpenXR interaktivní umění virtuální graffiti