VIII.Percepcja i widzenie komputerowe

Ch�� budowy sztucznych i inteligentnych system�w prowadzi do oczekiwania, �e b�d� dzia�a� w naszych typowych �rodowiskach. Dlatego oczekiwania dotycz�ce ich zdolno�ci percepcyjnych s� wysokie. Percepcja odnosi si� do procesu u�wiadamiania sobie element�w �rodowiska poprzez doznania fizyczne, kt�re mog� obejmowa� wk�ad sensoryczny z oczu, uszu, nosa, j�zyka lub sk�ry. Skupimy si� na percepcji wzrokowej, kt�ra jest dominuj�cym zmys�em u ludzi i by�a u�ywana od pierwszych dni budowy sztucznych maszyn. Dwa wczesne przyk�ady to Shakey, robot mobilny z dalmierzem i kamer� umo�liwiaj�c� mu rozumowanie swoich dzia�a� w pomieszczeniu z kilkoma obiektami, oraz FREDDY, robot sta�y z lornetkowym systemem wizyjnym kontroluj�cym dwa palce r�ki. Celem komputerowej wizji jest zrozumienie sceny lub funkcji w obrazach realnego �wiata. Wa�nymi �rodkami do osi�gni�cia tego celu s� techniki przetwarzania obrazu i rozpoznawania wzor�w. Analiz� obraz�w komplikuje fakt, �e jeden i ten sam obiekt mo�e przedstawia� aparatowi wiele r�nych wygl�d�w w zale�no�ci od o�wietlenia rzucanego na obiekt, k�ta, z kt�rego jest ogl�dany, rzucanych cieni, u�ywanej kamery, czy cz�ci obiektu s� zatkane i tak dalej. Niemniej jednak dzisiejsza wizja komputerowa jest wystarczaj�co zaawansowana, aby wykrywa� okre�lone obiekty i kategorie obiekt�w w r�nych warunkach, aby umo�liwi� pojazdowi autonomicznemu jazd� z umiarkowanymi pr�dko�ciami na otwartych drogach, kierowa� robotem mobilnym przez zestaw biur i obserwowa� i zrozumie� ludzkie dzia�ania. Celem tej sekcji jest podkre�lenie najnowocze�niejszych metod wizyjnych, kt�re okaza�y si� skuteczne i kt�re doprowadzi�y do rozwoju wspomnianych wy�ej mo�liwo�ci. Po kr�tkiej dyskusji na temat bardziej og�lnych zagadnie� podsumowujemy prac� podzielon� na cztery kluczowe tematy: rozpoznawanie i kategoryzacj� obiekt�w, �ledzenie i serwomechanizm wizualny, rozumienie ludzkich zachowa� i rozumienie scen kontekstowych. Ko�czymy krytyczn� ocen� tego, co osi�gn�o widzenie komputerowe i jakie wyzwania pozostaj�

Paradygmaty i zasady widzenia komputerowego

Widzenie komputerowe to niejednorodna dziedzina obejmuj�ca szerokie spektrum metod oraz perspektyw naukowych. Zaczyna si� to od fizycznego zrozumienia, jak powstaje obraz lub co mo�na zasadniczo zobaczy�. Zanim �wiat�o zostanie zebrane w g�sty dwuwymiarowy uk�ad na czujniku, za�amuje si�, odbija, rozprasza lub absorbuje w odniesieniu do sceny. Obraz powstaje przez pomiar nat�enia promieni �wietlnych przez ka�dy element matrycy - zwany pikselem. Gdyby kto� zna� o�wietlenie dla ka�dego mo�liwego promienia �wiat�a w scenie, ka�dy mo�liwy obraz z kamery m�g�by zosta� obliczony przed pomiarem. To odwzorowanie mi�dzy punktem widzenia a jego o�wietleniem jest formalnie opisane przez tak zwan� funkcj� plenoptyczn�. Grafika komputerowa ma na celu przybli�enie tej funkcji poprzez rendering znanej sceny z danymi �r�d�ami �wiat�a. W pierwszej perspektywie widzenie komputerowe ma na celu obliczenie odwrotnej funkcji grafiki komputerowej, to znaczy odtworzenie punktu widzenia i le��cej u jego podstaw sceny z danego obrazu, pary obraz�w lub sekwencji obraz�w. Widzenie komputerowe jest tutaj rozumiane jako problem pomiarowy, kt�ry jest szeroko leczony za pomoc� fotogrametrii, kalibracji fotometrycznej, a tak�e technik rekonstrukcji i rejestracji. to dla ka�dego mo�liwego punktu widzenia i k�ta widzenia. Drug� perspektyw� wizji komputerowej jest na�ladowanie wizji biologicznej aby uzyska� g��bsze zrozumienie proces�w, reprezentacji i architektur. Tutaj staje si� coraz bardziej oczywiste, �e podstawowe pytania i otwarte problemy w widzeniu komputerowym znajduj� si� w czo��wce bada� poznawczych. Nie mo�na ich rozwi�za� w oderwaniu, lecz dotycz� one fundamentalnych podstaw samego poznania. Trzecia perspektywa postrzega wizj� komputerow� jako dyscyplin� in�yniersk�, kt�rej celem jest rozwi�zanie praktycznych zada� zwi�zanych z widzeniem. Z jednej strony ta perspektywa wymaga wydajnych rozwi�za� algorytmicznych, ale z drugiej strony zadaje dalsze pytanie, jak budowa� komputerowe systemy wizyjne. W tej dziedzinie dominuje heurystyka i wiedza z do�wiadczenia. Systematyczne podej�cia metodologiczne s� rzadkie, g��wnie specyficzne dla aplikacji i obecnie brakuje g��bokiego zrozumienia problemu widzenia jako takiego. Tak wi�c wszystkie trzy perspektywy nie mog� by� rozdzielone i g��boko na siebie wp�ywaj�, co - wraz z ogromnym post�pem technicznym - sprawi�o, �e wizja komputerowa sta�a si� bardzo dynamicznym polem w ci�gu ostatnich pi��dziesi�ciu lat. W celu rozwi�zania okre�lonych zada� zwi�zanych z wizj� komputerow� nale�y podj�� r�ne decyzje projektowe. Niekt�re z nich zosta�y wskazane poni�ej. Jaka wiedza jest potrzebna? Aby zrozumie� tre�� obrazu, odpowiednie cz�ci nale�y powi�za� z poj�ciami znacz�cymi semantycznie. W przypadku sceny pokoju konferencyjnego baza wiedzy mo�e obejmowa� to, �e sk�ada si� z du�ego sto�u i kilku ustawionych wok� niego krzese�, �e st� ma blat i tak dalej. Baza wiedzy rozk�ada kompleks sceny pokoju konferencyjnego w prostsze elementy, takie jak blat sto�u, kt�re odpowiadaj� p�askiej powierzchni lub jednorodnemu obszarowi, kt�ry mo�na bezpo�rednio wyodr�bni� z obrazu. Dlatego algorytm mo�e rozpocz�� si� od wyszukiwania obrazu w poszukiwaniu jednorodnych region�w, co jest koncepcj� niskiego poziomu w odniesieniu do sygna�u. Nast�pnie s� one sukcesywnie ��czone (kieruj�c si� baz� wiedzy), aby tworzy� koncepcje wy�szego poziomu. Podej�cie to jest zwykle okre�lane jako "oddolne". Inny algorytm mo�e zacz�� si� od koncepcji tabeli i szuka� konkretnie konfiguracji cz�ci (przewidywanych przez baz� wiedzy), kt�re spe�niaj� wymagania tej koncepcji. Te cz�ci z kolei mog� aktywowa� detektor sto�owy zastosowany do obrazu. Takie podej�cie jest zwykle okre�lane jako "z g�ry na d�". Oba podej�cia do bazy wiedzy pomog�y w przeprowadzeniu znacznej liczby bada� nad wizj� komputerow� w latach 70. i 80. XX wieku . Jak przedstawi� geometri� sceny? Wa�na jest geometria sceny ,po�rednia reprezentacja w procesie interpretacji obrazu. Mo�na sobie z tym poradzi� w 2D lub 3D. Scena jest przedstawiona jako zwyk�y obraz 2D) i obraz g��boko�ci. Te ostatnie mo�na obliczy� na podstawie par obraz�w stereo lub bezpo�rednio zmierzy�, na przyk�ad za pomoc� czujnik�w czasu lotu, kt�re mierz� odleg�o�� na ka�dym pikselu poprzez modulowanie i odbieranie wi�zki �wiat�a podczerwonego. Poniewa� reprezentacja we wsp�rz�dnych pikseli jest nadal zale�na od widoku, jest r�wnie� nazywana Szkicem 2 ?D. W nast�pnym kroku prymitywy geometryczne 3D s� dopasowywane do sceny, a ka�de dopasowanie definiuje transformacj� geometryczn�. Poniewa� obecnie znana jest wzgl�dna pozycja 3D i orientacja 3D mi�dzy tymi prymitywami, uzyskano reprezentacj� niezale�n� od widoku i skoncentrowan� na obiekcie. Takie podej�cie zosta�o pierwotnie zasugerowane przez Davida Marra, kt�ry r�wnie� przyjrza� si� koncepcjom ludzkiej wizji znanym w swoim czasie. Jednak w wielu przypadkach ekstrakcja geometrii 3D jest zbyt delikatna. Rzeczywiste kszta�ty obiekt�w 3D s� cz�sto z�o�one, niesztywne i pasuj� do procedury ,cz�sto ko�cz� si� lokalnymi minimami i b��dnym po�o�eniem i orientacj� obiektu ("poz�"). W rezultacie bardziej stabilne reprezentacje geometryczne mo�na r�wnie� wyodr�bni� z obraz�w 2D. W takim przypadku obrazy s� analizowane pod k�tem nieci�g�o�ci przestrzennych na poziomie szaro�ci lub powierzchni koloru. Reprezentacje skupiaj� si� na jednorodnych �atach obrazu (regiony) lub na kraw�dziach (linie graniczne). Oba stanowi� podstaw� do dalszych proces�w interpretacyjnych. Wydobycie takich prymityw�w geometrycznych jest problemem cyfrowego przetwarzania obrazu. Jakie s� odpowiednie funkcje? Aby dopasowa� reprezentacj� geometryczn� lub obrazow� do koncepcji semantycznej, takiej jak "st�", "krzes�o" lub "sala konferencyjna", nale�y okre�li� funkcj� decyzyjn�, kt�ra decyduje o cz�onkostwie w klasie lub przeciw niej. Jest to problem klasyfikacji, kt�ry jest intensywnie rozwi�zywany w dziedzinie rozpoznawania wzor�w.. Wz�r jest reprezentowany przez wektor cech definiuj�cy punkt w przestrzeni o du�ych wymiarach. Bior�c pod uwag�, �e klasy niekt�rych punkt�w w tej przestrzeni s� znane (np. Zestaw obraz�w szkoleniowych opatrzonych adnotacjami r�cznie), mo�na nauczy� si� funkcji decyzyjnej dziel�cej przestrze� na te klasy. Na rysunku 8.5 podano prosty przyk�ad. Obraz jest podzielony na sze�� cz�ci i dla ka�dego podobrazu obliczany jest histogram kolor�w. Po��czone histogramy zapewniaj� wektor cech, kt�ry mo�na wykorzysta� na przyk�ad do klasyfikacji okre�lonych sal konferencyjnych .Pytanie o dobre cechy jest od dawna tematem dyskusji. Przez lata pojawi�o si� kilka wynalazk�w, kt�re wywar�y g��boki wp�yw na t� dziedzin�. W latach 90. XX wieku Swain i Ballard zaproponowali wykorzystanie lokalnych statystyk obiekt�w (takich jak histogramy kolor�w), Turk i Pentland zastosowali technik� opart� na wektorach w�asnych do zestaw�w obraz�w ludzkich twarzy (zwanych wtedy twarzami w�asnymi). P�niej, w 2000 roku, Viola i Jones zrewolucjonizowali wykrywanie twarzy, wynajduj�c automatyczny proces wyboru cech oparty na ogromnej liczbie bardzo prostych cech zwi�zanych z falkami Haara (cechy oparte na binarnym wyborze w��czania / wy��czania s�siaduj�cych cz�ci obrazu). Kolejnym prze�omem by�a Scale Invariant Feature Transform (SIFT) Davida Lowe'a, kt�ra przesun�a rozpoznawanie obiekt�w na nowy poziom. Tutaj idee lokalnych statystyk gradientu s� ��czone z niezwykle stabilnym wykrywaniem sta�ych punkt�w na obiekcie - tzw. punkty procentowe. Jak kontrolowa� proces akwizycji? Wizja biologiczna nie jest pasywnym procesem interpretacyjnym, podobnie jak autonomiczne sztuczne systemy. Ruch agenta w �wiecie rzeczywistym w zasadzie determinuje problem percepcji, kt�ry musi rozwi�za�. Wizja jest rozumiana jako aktywny proces, kt�ry obejmuje kontrol� nad czujnikiem i jest �ci�le powi�zany z pomy�lnym wykonaniem decyzji lub dzia�ania. Ma to pewne konsekwencje dla projektowania komputerowych system�w wizyjnych, kt�re odnotowano ju� na pocz�tku lat 90.. Po pierwsze, zamiast modelowa� izolowany proces interpretacji obrazu, system musi zawsze dzia�a� i musi kontrolowa� swoje zachowanie za pomoc� strumienia obraz�w. Po drugie, og�lnym celem przetwarzania wizualnego nie jest zrozumienie obrazu. Zamiast tego system wizyjny musi dzia�a� jako filtr, kt�ry wyodr�bnia informacje istotne dla jego zadania. Po trzecie, system musi zareagowa� w ustalonym czasie, aby by� przydatny w bie��cym zadaniu, takim jak nawigacja i omijanie przeszk�d w robocie. Po czwarte, zamiast przetwarza� pe�ny obraz, system musi skupi� si� na regionie zainteresowania (ROI), aby osi�gn�� cele w zakresie wydajno�ci. Pierwszy ma na celu pe�n� interpretacj� obrazu, drugi wyci�ga istotne informacje do wyboru akcji i przewidywania stanu.

Rozpoznawanie i kategoryzacja obiekt�w

Rozpoznawanie obiekt�w mo�e by� postrzegane jako wyzwanie dla okre�lenia "gdzie" i "co" obiekt�w na scenie. Zaproponowano wiele r�nych technik, a wszystkie maj� swoje zalety i wady. Bior�c pod uwag� scenariusz aplikacji, nale�y starannie wybra� odpowiedni� technik� rozpoznawania obiekt�w, kt�ra spe�nia przewidywany zestaw ogranicze�. Techniki r�ni� si� tak�e dok�adnym problemem, kt�ry rozwi�zuj�. Wiele technik rozpoznawania to detektory obiekt�w, kt�re zadaj� pytanie tak / nie dotycz�ce obecno�ci klasy obiekt�w. Obraz jest zwykle skanowany przez model szablonu; oznacza to, �e okno jest przesuwane nad obrazem i dla ka�dej pozycji obliczana jest tak zwana odpowied� filtru poprzez dopasowanie szablonu do podobrazu zdefiniowanego przez okno. Ka�da inna parametryzacja obiektu (skala obiektu, obr�t itp.) Wymaga osobnego skanu. Bardziej wyrafinowane podej�cia skutecznie wykonuj� wiele przej�� w r�nych skalach i stosuj� filtry wyuczone z du�ych zestaw�w oznaczonych obraz�w. Dobrym przyk�adem jest wykrywacz twarzy Violi i Jonesa wspomniany w poprzedniej sekcji. W tym przypadku filtr sk�ada si� z zestawu dodatnich i ujemnych ca�ek na prostok�tnych obszarach obrazu wyuczonych wcze�niej. Techniki oparte na segmentacji najpierw wyodr�bniaj� geometryczny opis obiektu, grupuj�c razem piksele, kt�re definiuj� rozszerzenie obiektu na obrazie. Jest to typowy proces oddolny, jak om�wiono wcze�niej. W drugim etapie techniki te obliczaj� niezmienny zestaw funkcji. W�a�ciwo�� niezmienniczo�ci oznacza, �e funkcje zachowuj� te same lub podobne warto�ci przy r�nych przekszta�ceniach obrazu, takich jak skalowanie, obracanie lub zmiana o�wietlenia. Nast�pnie funkcje s� u�ywane do rozpoznania klasy obiektu lub wyodr�bnienia zestawu podstawowych operacji podstawowych, z kt�rych obiekty s� zbudowane. Nowoczesne techniki przeplataj� lub ��cz� oba etapy, aby poradzi� sobie z problemami przeszacowania (w kt�rych cz�ci s� podzielone na ma�e kawa�ki) i niedosegmentacji (w kt�rych cz�ci s� zgrupowane razem z obszarami t�a). Metody wyr�wnywania wykorzystuj� "parametryczne" modele obiekt�w, kt�re s� dopasowane do danych obrazu. Algorytm musi wyszukiwa� parametry, takie jak skalowanie, obr�t lub translacja, kt�re optymalnie dopasuj� model do odpowiednich funkcji obrazu. Przybli�one rozwi�zanie mo�na r�wnie� znale�� w procesie odwrotny, tj. cechy obrazu (np. naro�niki, kontury lub inne charakterystyczne punkty obrazu) g�osuj� na rozwi�zania parametr�w, kt�re s� kompatybilne z wykryt� cech� (proces wymaga u�ycia schematu g�osowania lub algorytmu, kt�ry uzyskuje jedno wyj�cie z wielu �r�d�a danych). W tym przypadku przestrze� parametr�w jest dyskretnie dyskretna. Technik� t� cz�sto okre�la si� jako uog�lnion� transformat� Hougha, a wariant rozpoznawania obiekt�w zosta� zastosowany przez Davida Lowe'a wspomnianego w ostatniej cz�ci. Wszystkie trzy podej�cia dostarczaj� r�nych informacji o obiektach na obrazach i zak�adaj�, �e dost�pne s� r�ne rodzaje wiedzy wst�pnej.

Modelowanie 2D

Wi�kszo�� obiekt�w w prawdziwym �wiecie jest z natury tr�jwymiarowa. Niemniej jednak wiele technik rozpoznawania obiekt�w odnosi si� do reprezentacji 2D ze znacznym sukcesem. Jest tego kilka przyczyn. (1) �atwa dost�pno��: informacje o obrazie 2D otrzymujemy prawie za darmo przy u�yciu standardowego sprz�tu kamery. (2) Szybkie obliczenia: operacje mo�na obliczy� bezpo�rednio z danych pikseli obrazu i nie wymagaj� one wyszukiwania skomplikowanych prymityw�w geometrycznych. (3) Prosta akwizycja modeli wykrywania: Modele u�ywane do automatycznego wykrywania obiekt�w s� zwykle uczone z przyk�adowych obraz�w. (4) Odporno�� na zak��cenia: Funkcje s� obliczane bezpo�rednio na podstawie warto�ci pikseli. Kontrastuje to z wydobywaniem bardziej abstrakcyjnych prymityw�w (obszary, kontury, prymitywy kszta�tu 3D), kt�re zazwyczaj wi�� si� z problemami z segmentacj�, a zatem s� bardziej podatne na b��dy w odniesieniu do ba�aganu i szumu. (5) Ponadto wiele interesuj�cych obiekt�w ma do�� charakterystyczne widoki 2D - na przyk�ad strony tytu�owe, znaki drogowe, widoki z boku motocykli lub samochod�w, widoki z przodu twarzy. Cena, jak� nale�y zap�aci� za ignorowanie w�a�ciwo�ci 3D obiekt�w, to zazwyczaj modele o zbyt du�ym lub zbyt ograniczonym dost�pie, poniewa� istnieje wiele wariant�w perspektyw , z kt�rymi nie mo�na systematycznie sobie radzi�. Typowym przypadkiem niewystarczaj�cego podej�cia s� modele work-of-feature. Podobnie jak modele histogram�w wspomniane wcze�niej, te obliczane statystyki funkcji dotycz� regionu obrazu lub ca�ego obrazu. W ten spos�b po�o�enie element�w jest ca�kowicie utracone, a obrotu obiektu i dok�adnej pozycji nie mo�na rozr�ni�. Zatem na przyk�ad, je�li oczy, nos i usta twarzy by�y do g�ry nogami lub ca�kowicie zmieszane, urz�dzenie rozpoznaj�ce nadal nieprawid�owo wykrywa twarz. Z drugiej strony modele z ograniczeniami wymagaj� wielu reprezentacji, aby poradzi� sobie z r�nymi konfiguracjami cz�ci lub obrotami obiekt�w. (Dobrymi przyk�adami s� wspomniane wcze�niej metody oparte na szablonie.) Dlatego je�li na przyk�ad twarz zostanie obr�cona o 90 stopni, urz�dzenie rozpoznaj�ce nigdy jej nie wykryje. Jako dodatkow� cen� do zap�aty musimy poradzi� sobie z trudniejszym problemem segmentacji - czyli z wydobyciem obiektu z jego t�a. Zazwyczaj t�o jest dalej, wi�c informacje 3D zapewniaj� znacznie silniejsz� wskaz�wk� ni� warto�ci luminancji obraz�w 2D. Dominuj�c� klas� technik rozpoznawania obiekt�w 2D s� podej�cia oparte na wygl�dzie. Zamiast u�ywa� niezmiennej reprezentacji zorientowanej obiektowo reprezentacji, reprezentuj� one r�ne aspekty obiektu. Kompaktowe reprezentacje s� dostarczane przez wykresy aspektowe, kt�re ��cz� r�ne wygl�dy 2D w wydajnej strukturze danych. Po drugie, podej�cia oparte na wygl�dzie upuszczaj� po�redni poziom reprezentacji geometrycznej, obliczaj�c cechy bezpo�rednio z warto�ci pikseli. Ma to pewne konsekwencje dla rodzaju klas obiekt�w, kt�re mo�na rozr�ni�, oraz wariant�w wewn�trz klasy, kt�re mo�na uwzgl�dni�. Jak dot�d omawiane metody dotycz� zmian obrotu, o�wietlenia, ha�asu i niewielkich zniekszta�ce� kszta�tu obiektu. Zak�adaj� g��wnie, �e obiekty s� sta�e, w przybli�eniu sztywne, maj� podobne tekstury lub kolory i s� w niewielkim stopniu zas�oni�te. Dalsze warianty s� uwzgl�dniane w lokalnych podej�ciach deskryptor�w. Tutaj g��wn� ide� jest wykrycie istotnych punkt�w na obrazie, kt�re zapewniaj� cz�ciowe opis funkcji zamiast pe�nego modelu wygl�du. Podej�cia te zwr�ci�y uwag� w pierwszej dekadzie XXI wieku i osi�gn�y niespotykany wcze�niej wyst�p. Opieraj�c si� na lokalnych deskryptorach (typowe przyk�ady to funkcje SIFT lub SURF, kt�re analizuj� rozk�ad gradient�w obrazu wok� punktu obrazu), metody te s� w stanie poradzi� sobie z okluzj� i lokalnymi wariacjami wyst�puj�cymi w rzeczywistych warunkach

Modelowanie 3D

Obrazy kolorowe lub intensywne 2D nie koduj� bezpo�rednio informacji o g��boko�ci ani kszta�cie. W zwi�zku z tym rozpoznawanie i lokalizacja obiekt�w jest trudnym problemem i og�lnie �le przedstawionym. Aby rozwi�za� te problemy, kszta�t 3D obiekt�w mo�na odzyska� bezpo�rednio z g��bi lub zakresu obraz�w. G��boko�� obraz�w mo�na uzyska� r�nymi metodami, od skanowania za pomoc� czujnika laserowego, podej�cie do �wiat�a strukturalnego, do system�w stereo wykorzystuj�cych dwie kamery, co jest metod� stosowan� przez ludzkie widzenie. Tanim przyk�adem strukturyzowanego aparatu �wietlnego jest kolorowa i g��boka kamera Kinect. G��wnym pytaniem w widzeniu komputerowym jest spos�b modelowania lub reprezentowania obiektu w taki spos�b, aby mo�na go by�o wykry� na podstawie g��bokich danych. Jednym ze sposob�w jest parsowanie kszta�t�w na cz�ci sk�adowe i zdefiniowanie ich relacji przestrzennych. W widzeniu komputerowym cz�ci s� przydatne z dw�ch powod�w. Po pierwsze, wiele obiekt�w jest przegubowych, a oparty na cz�ciach opis pozwala nam oddzieli� kszta�ty cz�ci od ich relacji przestrzennych. Po drugie, nie wszystkie cz�ci obiekt�w s� widoczne, ale cz�ci s� cz�sto wystarczaj�ce do rozpoznania obiektu; na przyk�ad kubek mo�na rozpozna� po korpusie lub uchwycie. Kluczowym aspektem reprezentacji opartych na cz�ciach jest ich liczba parametr�w. W ostatnim dziesi�cioleciu dokonano wielu prac opisuj�cych dane dotycz�ce g��boko�ci za pomoc� rotacyjnych symetrycznych prymityw�w (kula, walec, sto�ek, torus). Uog�lnione cylindry mo�na utworzy�, przesuwaj�c kontur 2D wzd�u� dowolnej krzywej przestrzennej. Poniewa� kontur mo�e si� zmienia� wzd�u� krzywej (osi), definicje osi i krzywej zamiatania s� potrzebne do zdefiniowania uog�lnionego walca, kt�ry wymaga du�ej liczby parametr�w. Cz�sto cytowanym systemem wczesnego widzenia, w kt�rym zastosowano cylindry uog�lnione, jest system ACRONYM do wykrywania samolot�w. Jednak dopasowanie wielu parametr�w jest skomplikowane i ograniczy�o stosowanie tej metody. Jedna z najlepiej zbadanych metod modelowania 3D polega na odzyskiwaniu nadkwadrat�w - kszta�t�w geometrycznych okre�lonych przez wzory, w tym arbitralnych mocy do tworzenia kszta�t�w przypominaj�cych sze�ciany, cylindry i sto�ki, o zaokr�glonych lub ostrych naro�ach. Sta�y si� one popularne, poniewa� ma�y zestaw parametr�w mo�e opisywa� du�� r�norodno�� r�nych podstawowych kszta�t�w. Solina i in. by� pionierem prac nad odzyskiwaniem pojedynczych nadkwadrat i wykaza�, �e odzyskiwanie nadkwadrat�w z obraz�w zasi�gu jest wra�liwe na szum i warto�ci odstaj�ce, w szczeg�lno�ci z pojedynczych widok�w podanych w aplikacjach takich jak robotyka. Jaklic i wsp�pracownicy podsumowuj� paradygmat odzyskiwania i wyboru do segmentowania sceny z prostymi obiektami geometrycznymi bez okluzji. Ta metoda pe�nego wyszukiwania z otwartym czasem przetwarzania nieodpowiednim dla wi�kszo�ci aplikacji, takich jak robotyka. Ostatnio obrazy z czujnik�w g��boko�ci, takich jak Kinect lub z system�w stereo, s� cz�ciej wykorzystywane do uzyskiwania danych 3D. Poniewa� dane na og� nie s� tak dobre jak ze skan�w laserowych, stosuje si� metody statystyczne, a nie bezpo�rednie metody kszta�towania. Przyk�adem jest wykrycie krzese�. Otwartymi problemami w tym obszarze s� sposoby radzenia sobie z rzadkimi danymi wynikaj�cymi ze skan�w sceny w jednym widoku, radzenia sobie z typowym laserem i kamerowania cieni i okluzji w zagraconych scenach oraz radzenia sobie z niepewno�ci� obraz�w stereo.

�ledzenie i wizualny serwomechanizm

Innym typowym zadaniem wykonywanym przez ludzi jest wykrywanie i �ledzenie ruchu obiekt�w. Podczas chwytania obiektu obserwuje si� ruch wzgl�dny. Podczas chodzenia monitorowany jest ruch otoczenia. Technika wizualnego �ledzenia obiektu i okre�lania jego po�o�enia jest stosowana szczeg�lnie w zadaniach nadzoru i robotyki. W tym pierwszym szacuje si�, �e �cie�ki samochod�w lub os�b odzyskuj� bie��ce dzia�ania i odpowiednio reaguj�. W robotyce celem jest �ledzenie wzgl�dnej pozycji robota mobilnego i jego otoczenia lub skierowanie robota do obiektu. Ci�g�e sterowanie zwrotne po�o�enia robota jest nazywane wizualnym serwomechanizmem. Pierwsze sukcesy w zakresie autonomicznej jazdy samochodem i prowadzenia pojazdu powietrznego wskazuj� na zastosowanie wizualnego serwomechanizmu. Jednak nadal istniej� dwie g��wne przeszkody w dalszym korzystaniu ze scenariuszy w �wiecie rzeczywistym. Po pierwsze, wymagany jest wydajny cykl �ledzenia. Wizja i kontrola musz� by� po��czone, aby zapewni� dobr� dynamik�. Potrzebne s� szybkie ruchy, aby uzasadni� u�ycie serwomechanizmu wizualnego w rzeczywistych aplikacjach robotycznych. Po drugie, musi istnie� niezawodne wykrywanie obiekt�w docelowych. Wizja musi by� solidna i niezawodna. Percepcja musi by� w stanie oceni� stan obiekt�w i robota, umo�liwiaj�c robotowi reagowanie na zmiany i upewnienie si�, �e porusza si� bezpiecznie w swoim otoczeniu. Problem z cyklem �ledzenia spotka� si� z du�ym zainteresowaniem w literaturze , ale niezawodne wizualne wykrywanie cel�w jest r�wnie wa�ne, a ostatnio zacz�o otrzymywa� coraz wi�cej uwagi. W poni�szych sekcjach podsumowano stan techniki w odniesieniu do tych dw�ch kryteri�w.

Cykl �ledzenia

Celem serwomechanizmu wizualnego jest uwzgl�dnienie ca�ego systemu i jego interfejs�w. Podstawowa p�tla sterowania jest przedstawiona na rysunku

Zawiera trzy g��wne bloki: system wizyjny, sterownik i mechanizm (robot lub pojazd). System wizyjny okre�la bie��c� lokalizacj� celu (obiektu b�d�cego przedmiotem zainteresowania) na obrazie. Kontroler przekszta�ca lokalizacj� na obrazie na pozycj� w przestrzeni lub bezpo�rednio w warto�ci polece�. System powtarza to z cz�stotliwo�ci� cyklu. W ka�dym cyklu okre�lana jest nowa lokalizacja, a tak�e mo�na u�y� r�nicy lokalizacji w celu uzyskania polecenia steruj�cego. Robot lub pojazd zwykle u�ywa osobnego kontrolera do sterowania silnikami na poziomie osi i k�. Celem jest zbudowanie systemu �ledzenia, aby cel nie zosta� utracony. Jeden limit �ledzenia jest okre�lony przez pole widzenia kamery. St�d tak jest przydatne do badania �ledzenia najwy�szej mo�liwej pr�dko�ci docelowej (lub przyspieszenia). W�a�ciw� w�a�ciwo�ci� jest op�nienie (lub op�nienie) sprz�enia zwrotnego generowanego przez system wizyjny. Dwa g��wne czynniki, kt�rymi nale�y si� zaj��, to (1) op�nienie lub op�nienia w jednym cyklu oraz (2) cz�� lub okno obrazu, kt�ry jest faktycznie przetwarzany. Op�nienia gromadz� si� w kamerze. Obecnie aparaty wytwarzaj� obrazy z cz�stotliwo�ci� 25 lub 30 Hz lub obraz�w na sekund�. Dodatkowe op�nienia wynikaj� z czasu przes�ania danych obrazu do kontrolera. Najwi�kszym op�nieniem jest czas potrzebny do przetworzenia obrazu. Cho� wydaje si� intuicyjne, �e op�nienia op�niaj� �ledzenie, drugi czynnik, przetwarzanie obrazu, cz�sto nie jest przestrzegany. Je�li zostanie obliczony pe�ny obraz, mo�e to potrwa� znacznie d�u�ej ni� czas kadru w aparacie, co w konsekwencji spowoduje utrat� zdj��. Je�li zostanie u�yte ma�e okno, na przyk�ad wok� miejsca, w kt�rym cel by� widziany na ostatnim obrazie, mo�liwe jest wykorzystanie ka�dego obrazu. Optymalne osi�ga si�, gdy rozmiar okna jest tak dobrany, �e przetwarzanie jest tak szybkie, jak pozyskiwanie obraz�w, a przetwarzanie obrazu dzia�a z t� sam� cz�stotliwo�ci� 25 lub 30 Hz. Oznacza to, �e optymalne jest dzia�anie systemu �ledzenia z op�nieniem dw�ch cykli liczby klatek na sekund� dla kamer: jeden do przesy�ania obrazu z aparatu do komputera, a drugi do przetwarzania obrazu. Aby zrekompensowa� to op�nienie, filtry (takie jak filtr Kalmana) przewiduj�, gdzie b�dzie cel (Chaumette i Hutchinson). Warto zauwa�y�, �e ludzkie oko bardzo r�ni si� od aparatu. Aparaty maj� jednolity uk�ad pikseli w jednej rozdzielczo�ci lub odst�pie mi�dzy pikselami. Ludzka siatk�wka wykazuje teselacj� w wariancie kosmicznym z fove� o wysokiej rozdzielczo�ci po�rodku i szerokim polem widzenia (oko�o 180 stopni) przy logarytmicznie malej�cej rozdzielczo�ci. W efekcie cz�owiek ca�y czas przetwarza ca�y obraz (Vincze 2005). Ludzie mog� reagowa� na ruch na peryferiach, podczas gdy rozpoznawanie dzia�a tylko w fovei, kt�ra jest obr�cona do celu i �ledzi go.

Solidne wykrywanie celu

Niezawodno�� ledzenia ma zasadnicze znaczenie dla zapewnienia ci�g�o�ci dzia�ania w aplikacjach. Stwierdzenie, �e metoda �ledzenia jest niezawodna, oznacza, �e zmniejsza si� ona p�ynnie, gdy dane wej�ciowe s� ha�a�liwe i zawieraj� warto�ci odstaj�ce. Powszechnym mianownikiem technik poprawy niezawodno�ci jest wykorzystanie nadmiarowo�ci za pomoc� wielu kamer, wielu rozdzielczo�ci, ogranicze� czasowych nieod��cznie zwi�zanych ze �ledzeniem, modelami oraz integracji kilku wskaz�wek lub funkcji. Minimalna forma redundancji jest nieod��czna w systemie wizyjnym stereo wykorzystuj�cym dwie nieruchome kamery i szukaj�cym celu na obu obrazach. Obecnie systemy obliczaj�ce g��bi� obrazu z dw�ch obraz�w stereo s� dost�pne w handlu (np. Videre Design). Niemniej jednak problem korespondencji (znalezienie tego samego punktu sceny na obu obrazach) pozostaje, a udane zastosowania stereo s� rzadkie. Problem korespondencji widzenia wizyjnego jest redukowany przez u�ycie trzech lub wi�cej kamer, jak w TRICLOPS (Point-Gray Research). Systemy wspomagaj�ce do kierowania samochodami przy du�ych pr�dko�ciach wykorzystuj� dwie lub trzy kamery o r�nych polach widzenia. Pomys� ��czenia informacji z r�nych poziom�w rozdzielczo�ci zosta� wykorzystany w podej�ciu do przestrzeni skali lub piramidy obrazowej, w kt�rej oryginalny obraz jest kilkakrotnie zmniejszany. Sp�jno�� jest agregowana na mniejszych obrazach, aby uzyska� miar� niezawodno�ci, na przyk�ad wykrywania kraw�dzi. Ostatnio funkcje punkt�w procentowych (obiekty, kt�re maj� maksymalne gradienty) wykorzystuj� to do wybrania najsolidniejszej lokalnej skali punktu gradientu, na przyk�ad SIFT. Jednak u�ycie piramid obrazowych nie zosta�o wystarczaj�co wykorzystane. Nadmiarowo�� serii obraz�w mo�na wykorzysta�, bior�c pod uwag� sp�jno�� czasow� wykrytych funkcji, zwan� tak�e powi�zaniem danych czasowych. Aby poradzi� sobie z niepewno�ci� lokalizowania obiektu docelowego na obrazie, powszechnie stosowane s� standardowe metody teorii sterowania, takie jak filtrowanie i przewidywanie (patrz wy�ej) w celu poprawy niezawodno�ci. Obecnie najcz�stszym podej�ciem do radzenia sobie z t� niepewno�ci� jest Kalman lub filtrowanie cz�stek, gdzie kilka hipotez pomaga w adaptacji do niepewno�ci ruchu mechanizmu i pomiar. Podej�cie dynamicznej wizji) wykorzysta�o czasow� ewolucj� cech geometrycznych, takich jak linie, do zbudowania modelu postrzeganego �wiata. Fizyczne w�a�ciwo�ci obiekt�w, takie jak pewna bezw�adno��, s� wykorzystywane do przewidywania przysz�ych pozycji obiektu na nast�pnych obrazach. �ledzenie s�u�y nast�pnie do potwierdzenia lub aktualizacji trybu ruchu. Innym podej�ciem jest wizja modelowa . Model jest zwykle reprezentacj� CAD celu (komputerowego wspomagania projektowania), kt�ra jest u�ywana do przewidywania po�o�enia obiektu (modelu) na nast�pnym obrazie. Roboty mobilne przechowuj� (lub buduj�) reprezentacj� obiekt�w, takich jak �ciany, filary lub skrzynki, do cel�w nawigacji lub chwytania obiekt�w. U ludzi integracja wskaz�wek lub cech, takich jak tekstura, kolor, cieniowanie itp. Zosta�a zidentyfikowana jako prawdopodobne �r�d�o doskona�ej zdolno�ci radzenia sobie ze zmieniaj�cymi si� warunkami. Podsumowuj�c, istnieje wiele podej�� do �ledzenia. Wi�kszo�� z nich jest solidna lub szybka. Podczas gdy �ledzenie oparte na regionach lub punktach zainteresowania jest bardziej niezawodne w �rodowiskach teksturowanych, schematy �ledzenia oparte na kraw�dziach zapewniaj� najlepszy wk�ad do wizualnego serwomechanizmu w robotyce lub w systemach rzeczywisto�ci rozszerzonej, w kt�rych dodatkowe informacje s� wizualizowane na rzeczywistych obrazach. Przy sta�ym wzro�cie mocy obliczeniowej prace nad integracj� pami�ci p�jd� dalej. Wiele mo�na uzyska� dzi�ki wykorzystaniu wi�kszej wiedzy na temat zadania i dziedziny, modeli obiekt�w i funkcji obiekt�w, a tak�e dzi�ki wskaz�wkom, takim jak poziomy rozdzielczo�ci, sp�jno�� czasowa i r�ne funkcje obrazu.

Zrozumienie ludzkiego zachowania

Nadz�r wzrokowy

Inteligentne pokoje, interfejsy cz�owiek-maszyna oraz aplikacje bezpiecze�stwa i ochrony wymagaj� umiej�tno�ci rozpoznawania dzia�a� ludzi. To pole jest znane jako nadz�r wizualny. Zazwyczaj systemy nadzoru dzia�aj� z kamer stacjonarnych, co pozwala na u�ycie technika odejmowania t�a w celu wykrycia zmian na obrazie. Odejmowanie t�a wykorzystuje obrazy statyczne do uzyskania modelu sta�ej sceny t�a, kt�ra upraszcza zadanie wydobywania ruchomych obiekt�w pierwszego planu (pojazd�w, os�b itp.) G��wnym zadaniem jest radzenie sobie ze zmiennym o�wietleniem, kt�re zmienia wygl�d obrazu i mo�e ukrywa� zmiany spowodowane poruszaj�cymi si� obiektami na pierwszym planie. Ta forma wykrywania zmian powoduje, �e obszary obrazu s� u�ywane jako wskazania obiekt�w. W nast�pnym kroku te plamy s� �ledzone w sekwencji obraz�w, w kt�rej stosowane s� metody asocjacji danych, aby znale�� stale poruszaj�ce si� obiekty i wykry� wygenerowane b��dne obszary. Preferowane metody modelowania konsekwentnie poruszaj�cego si� obiektu to Ukryte Modele Markowa i sieci bayesowskie. Systemy nadzoru cz�sto dzia�aj� w dw�ch fazach: fazie uczenia si� i fazie dzia�ania. W fazie uczenia system jest inicjowany na scenie, a modele s� dostosowywane lub uczone na podstawie obserwacji. Modele te zawieraj� dane o normalnych czynno�ciach, takich jak pasy samochod�w, punkty wjazdu lub typowe gesty cz�owieka. W fazie wykonawczej strumienie danych s� por�wnywane z danymi modelu, aby uzyska� interpretacje i reakcje. Obecnie systemy mog� wykrywa� i rozpoznawa� zachowanie kilku os�b a� do wi�kszych grup ludzi. W scenach drogowych przetwarzanie odbywa si� g��wnie oddolnie, podczas gdy nowsze systemy wykorzystuj� wiedz� domenow� w odg�rny spos�b. Przyk�adem jest zastosowanie modeli obiektowych i oczekiwanych modeli aktywno�ci do monitorowania aktywno�ci na fartuchach lotniskowych). W dziedzinie robotyki badano relacj� obiekt-cz�owiek w podej�ciach takich jak Programowanie przez Demonstracj� (PbD), gdzie zadaniem jest interpretacja polece� u�ytkownika w celu nauczenia robota . W trybie PbD u�ytkownik albo fizycznie prowadzi rami� robota przez ruch, albo system wizyjny przechwytuje ruch ludzkiego ramienia i przenosi go na rami� robota. W ostatnich pracach czynno�ci r�ki i przedmiot�w s� interpretowane i przechowywane przy u�yciu wyra�e� j�zyka naturalnego w planie aktywno�ci - zwi�z�e przedstawienie scenariusza okre�laj�cego odpowiednie obiekty i spos�b ich dzia�ania. Wraz ze spadkiem koszt�w kamer obecny kierunek prac dotyczy sieci kamer monitoruj�cych du�e obszary. Szczeg�owe modele ludzi i ich typowe czynno�ci daj� lepsz� interpretacj� gest�w w mniej ograniczonych warunkach

Interakcja cz�owiek-maszyna

Przej�cie od technik obserwacji wzrokowej do opartego na wizji interaktywnego interfejsu cz�owiek-komputer wydaje si� ma�ym krokiem. Otwiera pe�n� gam� nowych aplikacji, w kt�rych komputery, monitory i urz�dzenia wej�ciowe, takie jak klawiatura i mysz, znikaj� w codziennym �rodowisku. Na przyk�ad prosty gest i spojrzenie r�ki mo�e przenie�� kolekcj� zdj�� z aparatu na du�y ekran telewizora w salonie, zmieniaj�c ludzkie cia�o w kontekstowy pilot zdalnego sterowania. Jakkolwiek atrakcyjny mo�e by� ten krok, jego realizacja napotyka kilka problem�w technicznych i koncepcyjnych: (1) Reaktywno��: System musi reagowa� na aktywno�� u�ytkownika w odpowiednio kr�tkim czasie. W przeciwnym razie u�ytkownik jest rozproszony, sfrustrowany i zagubiony w odniesieniu do stanu komunikacyjnego. Opracowano odpowiednie techniki rozpoznawania twarzy, wykrywania wzroku i rozpoznawania gest�w oraz okre�laj� dziedzin� aktywnych bada�. (2) Wytrzyma�o��: Wysokie wsp�czynniki wykrywalno�ci fa�szywie dodatnich spowodowa�yby niepo��dane dzia�anie systemu przez u�ytkownika i koliduje z ich oczekiwaniami. Jest to szczeg�lnie problematyczne, poniewa� nie wszystkie zachowania u�ytkownik�w s� kierowane do systemu. Wa�n� koncepcj� jest wsp�lna uwaga - stan, w kt�rym obaj partnerzy komunikacyjni zwracaj� uwag� na to samo i s� �wiadomi swojej uwagi. Na przyk�ad w interakcji cz�owiek-robot robot musi wykry�, kiedy u�ytkownik jest skierowany w jego stron�. W tym samym czasie g�owa i oczy robota b�d� �ledzi� twarz u�ytkownika, aby wzmocni� ustanowion� komunikacj�. (3) Niezawodno��: dzia�ania u�ytkownika cz�ciowo pomini�te przez system mog� uszkodzi� dane wej�ciowe ca�ego u�ytkownika do systemu. Dlatego musi istnie� spos�b ustalenia, czy dane wej�ciowe s� dobrze uformowane albo nie. Jest to trudny problem w nauce i rozpoznawaniu, poniewa� ludzie zazwyczaj wykonuj� zadania o du�ej zmienno�ci i nie s� �wiadomi ogranicze� systemu. Jednym z interesuj�cych kierunk�w bada� jest zrozumienie, w jaki spos�b ludzie komunikuj� oczekiwania w dialogu, na przyk�ad zadaj�c pytanie tak / nie lub stosuj�c inne konwencje, kt�re ograniczaj� mo�liwe odpowiedzi. (4) Sytuacja: interpretacja wi�kszo�ci ludzkich zachowa� zale�y od kontekstu. Dlatego wiele system�w zaprojektowano z my�l� o bardzo specyficznym scenariuszu lub domenie aplikacji. W celum przezwyci�enia tych ogranicze� wa�nym poj�ciem jest �wiadomo�� kontekstu - koncepcja wprowadzona w spo�eczno�ci komputer�w mobilnych (Schilit, Adams i Want 1994). W przypadku wizji komputerowej zastosowano j� do pomieszcze� spostrzegawczych, na przyk�ad Crowley i inni. Tam dzia�ania cz�owieka s� obserwowane przez wiele kamer i s� podzielone na kategorie pod wzgl�dem r�nych kontekst�w i sytuacji. W wyniku wy�ej om�wionych punkt�w badania nad opart� na wizji interakcj� cz�owiek-maszyna zawsze musz� uwzgl�dnia� kompletne systemy wraz z ich partnerami interakcji, co czyni je wysoce interdyscyplinarnym zadaniem. Wi�kszo�� system�w w tym obszarze �ci�le ogranicza ustawienia komunikacyjne. Wczesn� prac� wykona� Bolt i jego koledzy w swoim systemie "Put-That-There". U�ytkownik by� w stanie tworzy� i przenosi� elementy geometryczne na ekranie za pomoc� gest�w i polece� g�osowych. Dzisiejsze systemy obejmuj� szeroki zakres technik i aplikacji. SafetyEYE opracowany w badaniach przemys�owych ocenia promie� dzia�ania przemys�owego robota produkcyjnego i zatrzymuje go w przypadku interferencji cz�owiek-maszyna. MIT Kidsroom zapewnia interaktywn� przestrze� zabaw narracyjnych dla dzieci (Bobick i in. 1999). Opiera si� na wizualnych technikach rozpoznawania akcji po��czonych z kontrol� obraz�w, wideo, �wiat�a, muzyki, d�wi�ku i narracji. Crowley i inni opisuj� interaktywn� Magiczn� tablic� opart� na �ledzeniu palc�w i oknie percepcyjnym, kt�re przewija si�, wykrywaj�c ruchy g�owy. W ostatnich latach �ledzenie cia�a sta�o si� popularnym tematem komercyjnym dla konsol do gier, takich jak Sony PlayStation i Microsoft Xbox. Inn� uwag� zwr�cono na system VAMPIRE , kt�ry zapewnia� pomoc ludziom w codziennych zadaniach, prowadz�c ich krok po kroku przez przepis. Zosta�o to zademonstrowane w scenariuszu mieszania napoj�w i wykorzystano techniki rozpoznawania obiekt�w, �ledzenia, lokalizacji i rozpoznawania akcji w celu uzyskania pomocy u�ytkownika w oparciu o techniki rzeczywisto�ci rozszerzonej. Przeprowadzono wiele prac w celu po��czenia mostu w komunikacji mi�dzy lud�mi a robotami us�ugowymi zaprojektowanymi tak, by zachowywa� si� jak towarzysz w domu. Przyk�adami s� PR2 z Willow Garage, Care-O-Bot 3 z Fraunhofer IPA, Cosero z University of Bonn lub ToBI z Bielefeld. Pierwszy z nich mo�e z�o�y� pranie lub wypi� nap�j z lod�wki. Inni brali udzia� w konkursie RoboCup @ Home, kt�ry obejmuje szereg test�w por�wnawczych, od os�b �ledz�cych i wprowadzaj�cych go�ci do sprz�tania i pobierania napoj�w. W por�wnaniu z komunikacj� cz�owiek-cz�owiek (HHC), interakcja cz�owiek-maszyna jest wci�� krucha i jest w powijakach. Dzisiejsze badania koncentruj� si� na na�ladowaniu niekt�rych aspekt�w HHC w celu rozwi�zania czterech opisanych wyzwa�.

Zrozumienie kontekstu sceny

Wi�kszo�� podej�� do widzenia komputerowego nie interpretuje ca�ych obraz�w, ale ich wybrane cz�ci. Ich celem jest wydobycie obiekt�w pierwszego planu z ba�aganu w tle. Nast�pnie ka�dy obiekt jest klasyfikowany osobno. T�o jest ignorowane i postrzegane jako nieistotne rozpraszaj�ce dane lub po prostu jako szum. Kontekstowe zrozumienie sceny przyjmuje przeciwstawne za�o�enie, �e obiekt�w pierwszego planu nie mo�na automatycznie wyodr�bni� lub przynajmniej nie zapewniaj� one wystarczaj�cych informacji do klasyfikacji. Przetwarza zignorowane wcze�niej dane - ba�agan w tle i informacje relacyjne - w celu ustalenia mo�liwych interpretacji obiekt�w na pierwszym planie. Zatem techniki te maj� na celu w��czenie kontekstu sceny do procesu klasyfikacji. Pionierskie prace zosta�y przeprowadzone przez Strata i Fischlera, kt�rzy definiuj� zestawy kontekst�w, kt�re reguluj� wywo�ywanie krok�w przetwarzania systemu. Identyfikuj� cztery r�ne rodzaje kryteri�w, kt�re obejmuj� zestawy kontekst�w: (1) konteksty globalne - atrybuty ca�ej sceny, takie jak dzie� lub krajobraz; (2) lokalizacja - przestrzenna konfiguracja sceny, taka jak dotykanie ziemi lub zbie�no�� z innymi typami obiekt�w; (3) wygl�d s�siednich obiekt�w, takich jak podobie�stwo lewego i prawego oka twarzy; oraz (4) funkcjonalno�� - rola obiektu w scenie, taka jak obs�uga innego obiektu lub mostkowanie strumienia. Z kontrolnego punktu widzenia Strat i Fischler stosuj� trzy rodzaje operacji kontekstowych do kierowania procesem interpretacji sceny: generowanie hipotez, walidacja hipotez i porz�dkowanie hipotez. Podczas poszukiwania hipotez (generacji) konstruowane s� sp�jne grupy uznanych byt�w, kt�re reprezentuj� cz�ciowe interpretacje sceny. G��wn� wad� tego rodzaju podej�cia jest ogromne zadanie in�ynierii wiedzy w kodowaniu wiedzy kontekstowej systemu. Jednak og�lne typy wprowadzonych kontekst�w i r�ne rodzaje zaprojektowanych zasad kontroli s� nadal aktualne w obecnym stanie techniki. P�niejsze prace dostosowa�y modele probabilistyczne do interpretacji kontekstualnej, kt�re systematycznie ujmuj� relacje i niepewno��. Poni�sze przyk�ady ilustruj� najnowsze trendy dotycz�ce wprowadzonych wcze�niej og�lnych typ�w kontekst�w. Konteksty globalne s�u�� do klasyfikowania miejsc semantycznych (np. ulica, miasto, pla�a lub kategorie pomieszcze� wewn�trznych, takich jak kuchnia). W ten spos�b obliczana jest holistyczna reprezentacja obrazu - tzw. Istota obrazu. Kategoria semantyczna zawiera oczekiwania dotycz�ce cz�sto wyst�puj�cych obiekt�w (takich jak te zwykle spotykane w kuchni). Lokalizacja jest modelowana przez Hoiema i wsp�pracownik�w, kt�rzy odnosz� detekcje obiekt�w do og�lnego kontekstu sceny 3D i oceniaj� skal� i lokalizacj� w odniesieniu do szacowanej geometrii sceny. Funkcjonalno�� wykorzystuj� Moore, Essa i Hayes, kt�rzy ��cz� ludzkie dzia�ania i przedmioty za pomoc� modelu probabilistycznego. Wprowadzaj� koncepcj� przestrzeni obiektowych, kt�re ��cz� oba rodzaje informacji w przestrzeni i czasie. Wreszcie konteksty j�zykowe odnosz� si� do dodatkowych informacji podawanych przez r�wnoleg�y tekst lub mow�. Tego rodzaju dane bimodalne cz�sto pojawiaj� si� w katalogach, gazetach, czasopismach, stronach internetowych, wiadomo�ciach telewizyjnych, filmach lub dialogach interakcji cz�owiek-maszyna. Informacje s�owne obejmuj� przede wszystkim wszystkie trzy typy informacji kontekstowych. Podpis pod zdj�ciem m�wi�cy o "ruchu ulicznym" w Nowym Jorku mo�e da� wskaz�wk�, �e obraz przedstawia scen� miejsk�. Inne opisy s�owne, na przyk�ad, �e dwie osoby stoj� obok siebie, zapewniaj� lokalne ograniczenia dla analizy obrazu. Konteksty funkcjonalne mog� pochodzi� z czasownik�w, chocia� ta metoda nie by�a szeroko stosowana.

Podsumowanie i wnioski

Agenci, ludzcy lub sztuczni, musz� postrzega� swoje �rodowisko, aby m�c w nim funkcjonowa� i przetrwa�. Percepcja wzrokowa jest najsilniejszym ludzkim zmys�em, a praca w dziedzinie widzenia komputerowego ma na celu zapewnienie wymaganych mo�liwo�ci. W tym rozdziale podsumowano g��wne osi�gni�cia, zaczynaj�c od przegl�du trend�w i perspektyw, a nast�pnie podkre�laj�c g��wne obszary zastosowania. Obecnie maszyny mog� uczy� si�, a nast�pnie rozpoznawa� obiekty z obraz�w 2D zawieraj�cych do oko�o 1000 obiekt�w, a liczba ta stale ro�nie. Jest jednak ograniczony do baz danych obraz�w, w kt�rych rozmiar obiekt�w lub typowe sceny s� podobne. W otwartych �rodowiskach, takich jak zadania wyszukiwania w domach, r�nice w o�wietleniu, punkcie widzenia lub okluzji nadal stanowi� wyzwanie. Podczas korzystania z obraz�w 3D, na przyk�ad ze skanerami laserowymi lub obrazami g��bi, kszta�t obiekt�w mo�na uzyska� i wykorzysta� do sterowania procesami przemys�owymi, takimi jak chwytanie robot�w lub malowanie natryskowe. Mo�na wykonywa� �ledzenie obiekt�w lub punkt�w zainteresowania w d�u�szych sekwencjach wideo w czasie rzeczywistym przy wystarczaj�cej teksturze. Ustanowiono zasady wykorzystania informacji o obrazie oraz skutecznego przewidywania i wyszukiwania w kolejnych obrazach, a tak�e dost�pne wizualne metody serwomechanizmu do sterowania ramionami robota. Wydajno�� i niezawodno�� w czasie rzeczywistym osi�gni�te dzi�ki dzisiejszym komputerowym technikom wizyjnym do �ledzenia r�ki, �ledzenia cia�a i cia�a, rozpoznawania twarzy i tak dalej, prowadz� do nowej jako�ci opartej na wizji interakcji cz�owiek-maszyna. Om�wili�my kilka wyzwa� w tej nowej dziedzinie, kt�ra ��czy obszary wizji komputerowej (CV) i interakcji cz�owiek-komputer (HCI). W ci�gu ostatnich lat powsta�o kilka nowych serii warsztat�w, takich jak CV4HCI i CV zorientowane na cz�owieka. Oczekujemy, �e to ma��e�stwo zapewni dalsze owocne wp�ywy w terenie, bior�c pod uwag� dwie perspektywy: jak zaprojektowa� systemy CV dla u�ytkownik�w i jak skutecznie w��czy� u�ytkownika w wizualn� p�tl� przetwarzania. Jednym z wyzwa� by�a lokalizacja: bior�c pod uwag� jak�kolwiek sytuacj� podczas interakcji, kiedy i jak� informacj� u�ytkownik powinien si� przejmowa�? To samo pytanie mo�na zada� dla systemu wizyjnego. Nie wszystkie informacje s� wa�ne i nie wszystkie wyniki wykrywania s� prawid�owe. Poj�cie kontekstu zapewnia poj�cie globalnej sp�jno�ci z jednej strony, a ramy znaczenia z drugiej strony. Nawet przy do�� wyrafinowanych i wydajnych technikach rozpoznawania kontekst zachowa swoj� rol�, gdy m�wimy o komputerowych systemach wizyjnych, kt�re musz� dzia�a� w rzeczywistych �rodowiskach. Systemy wizyjne musz� ��czy� techniki do cel�w aplikacji. To jest sedno CV jako dyscypliny in�ynierskiej. Jednak przez lata udowodniono, �e trudno jest zdefiniowa� og�lne architektury integruj�ce wszystkie komponenty potrzebne do r�nych aplikacji. Niekt�re pproache pokaza�y swoj� przydatno�� w udanych projektach europejskich obejmuj�cych wielu partner�w (np. ActIPret, VAMPIRE lub CogX). Rzeczywisty post�p jest trudny do osi�gni�cia po stronie teoretycznej i musi by� udowodniony praktyczn� realizacj� system�w (Kragic i Vincze 2009). Chocia� wyniki te wskazuj� post�p w tej dziedzinie, czeka nas kilka wyzwa�. Na przyk�ad praca nad rozpoznawaniem klas obiekt�w jest obecnie ograniczona do kilku istotnych klas, takich jak ko�a lub samoloty; zdolno�� wykrywania punkt�w chwytania na dowolnych obiektach musi zosta� rozszerzona z lokalizacji p�askich do pe�nych obiekt�w 3D; i nie mo�na jeszcze wydedukowa� funkcji obiektu z obrazowania jego kszta�tu. Niemniej jednak istnieje nadzieja, �e widzenie komputerowe b�dzie coraz bardziej integrowane z innymi metodami sztucznej inteligencji w celu tworzenia bardziej kompletnych system�w.

Postawy filozoficzneArtificial Intelligence Experts

VIII.Percepcja i widzenie komputerowe