J�zyki naturalne i sceny naturalne

Widzieli�my wa�n� rol� danych i technik uczenia maszynowego w destylacji i wykorzystaniu tych danych. Je�li jeden pojedynczy temat zacz�� ostatnio ��czy� kilka r�nych podej�� do sztucznej inteligencji, od logicznych reprezentacji i rozumowania w Cyc, po decyzje i oszacowania przez sieci neuronowe, jest to ich zale�no�� od ogromnych ilo�ci danych. Wyj�cie poza problemy z zabawkami i proste �amig��wki w �wiecie rzeczywistym problemy wymagaj� rzeczywistych danych. Tu zbadamy, w jaki spos�b najnowsze systemy przetwarzania j�zyka naturalnego i wizji komputerowej wykorzystuj� dane reprezentatywne dla danych wej�ciowych, z kt�rymi musz� sobie radzi�.

Przetwarzanie j�zyka naturalnego

Rosn�ce zapotrzebowanie na systemy potrafi�ce radzi� sobie z j�zykami pisanymi i m�wionymi, wraz z nowymi osi�gni�ciami technicznymi, du�ymi bazami danych i zwi�kszon� moc� obliczeniow�, doprowadzi�y do ulepszenia system�w do wykonywania takich zada�, jak podsumowywanie fragment�w tekstu, odpowiadanie na zapytania, i t�umaczenia j�zyk�w. W tej sekcji opisz� niekt�re zmiany techniczne w NLP w ci�gu ostatnich dw�ch lub trzech dekad. Cho� s� imponuj�ce, nie pozwoli�y nam jeszcze u�wiadomi� sobie nadziei Terry′ego Winograda w 1971 r., �e "Porozmawiamy z [systemami komputerowymi], tak jak rozmawiamy z asystentem naukowym, bibliotekarzem lub sekretark�, i przeprowadz� nasze polecenia i przeka� nam informacje, o kt�re prosimy ". Wiele os�b twierdzi, �e problemem zwi�zanym z realizacj� takich system�w jest "kompletna sztuczna inteligencja", w tym sensie, �e musz� one by� na og� tak inteligentne jak ludzie, by� w stanie rozumowa� i rozwi�zywa� problemy, a ludzie robi� te rzeczy. W ka�dym razie jest prawdopodobne, �e takie systemy, gdy je mamy, b�d� wykorzystywa� cz�� lub ca�o�� technologii

Gramatyki i algorytmy parsowania

Wcze�niej opisano niekt�re podstawowe idee teorii j�zykoznawstwa. Na przyk�ad wspomniano, �e zdania mo�na analizowa� pod k�tem ich struktury sk�adniowej przy u�yciu gramatyk bezkontekstowych (CFG). Wspomniano r�wnie� o bardziej z�o�onych gramatykach, takich jak gramatyki sko�czonych klauzul (DCG), gramatyki systemowe, gramatyki sieci przej�ciowej i DIAGRAM. Systemy wykorzystuj�ce gramatyk� do analizy zda� w j�zyku naturalnym musz� u�ywa� algorytm�w parsowania do wyszukiwania w�r�d kandyduj�cych "drzew parsuj�cych" w celu znalezienia jednego lub wi�cej ni� jednego zdania wej�ciowego. W przypadku realistycznych gramatyk, kt�re "akceptuj�" te ci�gi s��w, kt�re uwa�amy za legalne zdania i odrzucaj� te ci�gi, kt�re uwa�amy za nonsensy, cz�sto zdarza si�, �e istnieje wiele mo�liwych analiz, z kt�rych ka�da ma inne znaczenie. Wyb�r jednego z "najlepszych" drzew parsowania spo�r�d nich wszystkich nast�pnie zale�y od analiz semantycznych i pragmatycznych, kt�re uwzgl�dniaj� kontekst, w kt�rym wyst�puje zdanie, i zdrow� wiedz� �wiata. Jako humorystyczny przyk�ad tego, jak mo�na wpa�� w k�opoty, nie bior�c pod uwag� zdrowego rozs�dku, Daniel Jurafsky i James Martin cytuj� zdanie z filmu Animal Crackers z 1930 r .: Groucho Marks m�wi: "Pewnego ranka zastrzeli�em s�onia w mojej pi�amie Nie wiem, jak dosta� si� do mojej pi�amy." Prace nad przetwarzaniem j�zyka naturalnego trwaj� w celu poznania nowych i bardziej z�o�onych gramatyk, algorytm�w parsowania i technik przetwarzania semantycznego. Nowsze gramatyki potrafi� skuteczniej radzi� sobie z wi�kszymi podzbiorami j�zyka angielskiego, a wiele z nich obs�uguje j�zyki inne ni� angielski. Niekt�re przyk�ady to leksykalne gramatyki funkcjonalne (LFG), gramatyki przylegaj�ce do drzew (TAG), gramatyki zale�no�ci, gramatyki struktury fraz kierowanych g�owami (HPSG) 4, gramatyka rz�dowa i wi��ca oraz gramatyki kategorialne. Wprowadzono r�wnie� wiele ulepsze� w algorytmach parsowania. W przypadku u�ycia z realistycznymi gramatykami pierwsze wyszukiwanie szeroko�ci (metod� "od do�u do g�ry" lub "z g�ry na d�") szybko wyczerpuje miejsce do przechowywania. G��boko�� cofania - pierwsze wyszukiwanie, cho� bardziej oszcz�dne w stosunku do pami�ci, wi��e si� z ryzykiem, �e trzeba b�dzie wykona� wi�kszo�� z wyszukiwania, je�li wyszukiwanie ma problemy i musi cofn�� si� do wcze�niejszych cz�ci zdania. Aby unikn�� konieczno�ci ponownej analizy cz�ci zdania po rozwini�ciu, opracowano parsery wykorzystuj�ce wykresy i inne konstrukcje, w kt�rych mo�na przechowywa�, w celu ewentualnego ponownego u�ycia, ju� obliczone parsy segment�w zda�. Martin Kay opracowa� pierwszy parser wykres�w. Inne parsery wykorzystuj�ce struktury podobne do wykres�w to parser Earleya (opracowany przez Jaya Earleya) i algorytm Cocke {Younger - Kasami (CYK). Nowoczesne parsery u�ywaj� jednej lub drugiej wersji programowania dynamicznego, techniki o kt�rej wspomnia�em wcze�niej. Umo�liwia zapisywanie wynik�w po�rednich. Wymieniam te przyk�ady gramatyk i parser�w, nie pr�buj�c opis�w (kt�re s� do�� techniczne), aby zilustrowa� zakres i g��bi� aktywno�ci w tych aspektach NLP. Badania i aplikacje w zakresie przetwarzania j�zyka naturalnego przynios�y znaczne korzy�ci dzi�ki posiadaniu du�ych plik�w tekstowych. Takie pliki zawieraj� miliony zda� i istniej� w wielu j�zykach. Obejmuj� artyku�y w gazetach, teksty literackie i inne materia�y. Du�e pliki zda� nazywane s� cia�ami (liczba mnoga korpusu, co oznacza cia�o). Zdania z tych plik�w mog� by� analizowane i opatrzone adnotacjami przez ludzi, czasami wspomagane algorytmami parsowania, a analizy mog� by� przechowywane wraz z powi�zanymi zdaniami w strukturach zwanych "bankami drzew". Wybitnymi przyk�adami s� te opracowane na University of Pennsylvania, zwane "Penn Treebanks". Banki drzew wraz z ich adnotacjami mog� by� u�yte do wywo�ania silniejszych gramatyk obejmuj�cych zawarte w nich zdania. Jak zwykle, im wi�kszy jest bank drzew, tym lepsza jest indukowana gramatyka. W tym procesie wykorzystywane s� techniki uczenia maszynowego oparte na statystykach, co prowadzi mnie do nast�pnego tematu

Statystyczny NLP

A. Bezkontekstowe regu�y z prawdopodobie�stwami

Jak wspomnia�em wcze�niej, gramatyka powinna rozr�nia� zdania, kt�re s� akceptowane w j�zyku, od zda�, kt�re nie s�. Ale, jak zauwa�aj� Christopher Manning i Hinrich Schze, "po prostu nie jest mo�liwe dok�adne i pe�ne scharakteryzowanie dobrze sformu�owanych wypowiedzi, kt�re czyni� je czysto od wszystkich innych sekwencji s��w, kt�re s� uwa�ane za wypowiedzi �le sformu�owane. Jest tak, poniewa� ludzie zawsze rozci�gaj� i naginaj� "regu�y", aby zaspokoi� swoje potrzeby komunikacyjne ". Fakt ten zosta� zauwa�ony do�� wcze�nie w nauce j�zyka. W swojej ksi��ce z 1921 roku lingwista i antropolog Edward Sapir napisa�: "Niestety lub na szcz�cie �aden j�zyk nie jest sp�jny tyranicznie. Wszystkie gramatyki przeciekaj�". Sapir mia� oczywi�cie na my�li, �e ka�da gramatyka, bez wzgl�du na to, jak z�o�ona, zaakceptuje niekt�re zdania, kt�rych ludzie nie mog� zaakceptowa�, i odrzuci niekt�re, kt�re ludzie b�d� akceptowa�. Eugene Charniak, jeden z pierwszych badaczy AI, kt�ry rozpozna� t� trudno��, zaproponowa�, aby analizy sk�adniowe by�y kwalifikowane przez prawdopodobie�stwa. Niekt�re zdania s� "prawdopodobnie" ok, a niekt�re prawdopodobnie nie, a pomi�dzy nimi s� wszystkie gradacje. Bezpo�redni� zalet� takiego podej�cia jest to, �e prawdopodobie�stwo analizy mo�e zosta� u�yte do wyboru spo�r�d alternatywnych analiz dla dwuznacznych zda�. Rozwa�my na przyk�ad dwa alternatywne sposoby odczytania zdania w stylu Groucho "John zastrzeli� s�onie w pi�amie":

• John (b�d�c w pi�amie) strzela� do s�oni
• John strzela� do s�oni (kt�re by�y w pi�amie).

Ka�da z tych interpretacji zdania ma inne drzewo analizy. Czy istnieje spos�b, aby uzna� jeden z nich za bardziej prawdopodobny od drugiego? W 1969 r. teoretyk automat�w Taylor L. Booth zaproponowa� odmian� gramatyk bezkontekstowych, kt�ra przypisuje prawdopodobie�stwa regu�om stosowanym do definiowania gramatyki. Takie gramatyki nazywane s� "probabilistycznymi gramatykami bezkontekstowymi" (PCFG). Wykorzystam nast�puj�c� bardzo prost� (i do�� niekompletn�) gramatyk�, aby zilustrowa� ten pomys�:

Liczba w nawiasach nast�puj�cych po regule reprezentuje prawdopodobie�stwo tej regu�y. Tak wi�c, na przyk�ad, zgodnie z t� gramatyk�, prawdopodobie�stwo wynosi 0,18, �e fraza rzeczownikowa w zdaniu jest s�owem "s�onie". Poniewa� fraza rzeczownikowa musi by� czym�, suma wszystkich prawdopodobie�stw rzeczownikowych wynosi 1,0

B. Prawdopodobie�stwa parsowania drzew

Zak�adaj�c, �e prawdopodobie�stwa tych regu� s� niezale�ne (bardzo niew�a�ciwe za�o�enie dla realistycznych gramatyk), mo�emy obliczy� prawdopodobie�stwo parsowania drzewa, bior�c iloczyn prawdopodobie�stwa wszystkich regu� zastosowanych w drzewie. Dwa drzewa parsowania dla tego zdania pokazano na rysunku

Ta po prawej, w kt�rej to John jest w pi�amie podczas strzelania, wydaje si� by� bardziej odpowiednia w wi�kszo�ci ustawie� innych ni�, by� mo�e, bajki. Liczby indeksuj�ce ka�dy termin gramatyczny w drzewach s� prawdopodobie�stwami odpowiednich regu�. Drzewo analizy po lewej stronie ma prawdopodobie�stwo

Prob _lewy = 1: 0 x 0: 1 x 0: 7 x 1: 0 x 0: 4 x 0:18 x 1: 0 x 1: 0 0:18 = 0: 0009072:

Drzewo analizy po prawej stronie ma prawdopodobie�stwo

Prob _prawy = 1: 0 x 0: 1 x 0: 3 x 0: 7 x 1: 0 x 0:18 x 1: 0 x 1: 0 x 0:18 = 0: 0006804:

Preferowany by�by zatem ten po lewej. (C�, nie chcia�bym m�wi� o strzelaniu do s�oni. Mia�em na my�li s�onie z kresk�wek, kt�re mia�y na sobie pi�am�.) Innym wa�nym aspektem PCFG jest to, �e mo�na je wykorzysta� do przewidywania og�lnego prawdopodobie�stwa zdania. To znaczy, jak prawdopodobne jest zdanie: "John zastrzeli� s�onie w pi�amie"? Mo�emy obliczy� to prawdopodobie�stwo, po prostu dodaj�c prawdopodobie�stwa wszystkich mo�liwych par�w tego zdania. W tym przypadku dodajemy dwa prawdopodobie�stwa, aby uzyska� 0: 0015876. Prawdopodobie�stwa w tym przyk�adzie zosta�y opracowane wy��cznie w celach ilustracyjnych i nie nale�y ich traktowa� powa�nie. Bardziej realistyczne warto�ci prawdopodobie�stwa by�yby oparte na znacznie wi�kszej gramatyce i korpusie zda�, co prowadzi do nast�pnego tematu.

C. Nauka PCFG

Jak uzyska� warto�ci prawdopodobie�stwa regu� w PCFG? W szczeg�lno�ci, w jaki spos�b mo�na uzyska� warto�ci, kt�re odpowiednio modeluj� rzeczywiste zdania? Bank drzew z adnotacjami zapewnia spos�b uzyskania warto�ci odpowiednich dla zda� w banku drzew, poniewa� ka�de z jego zda� ma powi�zane drzewo analizy. Drzewa parsowania u�ywaj� regu� w ca�ej formie l → r, gdzie l jest lew� stron� regu�y (np. VP), a r jest praw� stron� regu�y (np. VP NP). Aby uzyska� warto�� prawdopodobie�stwa dla regu�y l → r, zliczamy, ile razy ta sama regu�a wyst�puje w banku drzew i dzielimy t� liczb� przez liczb� wyst�pie� l. Tak otrzymany PCFG mo�na nast�pnie wykorzysta� aby analizowa� nowe zdania. PCFG mo�na r�wnie� wygenerowa� bez banku drzew, je�li ma si� zwyk�y (nieprobabilistyczny) bez kontekstowy analizator sk�adni, kt�ry mo�na zastosowa� do zbioru zda�. Jednak w odr�nieniu od banku drzew, ka�de zdanie w korpusie b�dzie mia�o wiele pars�w, a niekt�re z nich zawieraj� wiele. Jak licz�c wyst�powanie regu�, w jaki spos�b mo�emy unikn�� przewa�ania regu� w tych zdaniach wieloma parsami? Oto metoda, kt�ra wydaje si� dzia�a� dobrze:

1. Przekszta�� oryginalny CGF w PCGF z jednakowymi prawdopodobie�stwami regu�.
2. Analizuj zdania za pomoc� tego PCFG, obliczaj�c prawdopodobie�stwo dla ka�dej niejednoznacznej analizy.
3. Policz regu�y w ka�dym parsowaniu dla ka�dego zdania i zwa� liczb� wed�ug prawdopodobie�stwa tego parsowania.
4. U�yj tych wa�onych liczb do obliczenia nowych prawdopodobie�stw dla regu�, a tym samym nowego PCFG.
5. Powtarzaj ten proces, a� prawdopodobie�stwo regu�y przestanie si� zmienia� (co ostatecznie nast�pi).

Ta procedura jest wersj� algorytmu cz�sto u�ywanego w uczeniu maszynowym, zwanym algorytmem Expectation Maximization (EM). Aby uwzgl�dni� bezkontekstowe aspekty struktury zdania i dla szczeg�owej informacji o konkretnych s�owach, praktyczne aplikacje zwykle wykorzystuj� PCFG, kt�re zosta�y rozszerzone na r�ne sposoby. Opracowano kilka parser�w dla wersji PCFG. Nie mog� si� oprze� wspominaniu o jednym opartym na algorytmie wyszukiwania A*. Przedstawiaj�c to, Dan Klein i Christopher D. Manning napisali :

"�rednio d�ugie wyroki banku drzew Penn, nasze najbardziej szczeg�owe oszacowanie [do zastosowania jako funkcja heurystyczna] zmniejsza sum� liczb przetworzonych kraw�dzi [przy u�yciu wyszukiwania A] do mniej ni� 3% wymagane przez wyczerpuj�ce parsowanie i prostsze oszacowanie, kt�re wymaga mniej ni� minut� wst�pnego obliczenia, zmniejsza prac� do mniej ni� 5%."

Opracowano kilka innych statystycznych metod analizy zda�. Wymieni� tylko kilka z nich. Rens Bod i wsp�pracownicy z Uniwersytetu w Amsterdamie opracowali technik�, kt�r� nazywaj� "analiz� danych zorientowan� na dane" (DOP), kt�ra opiera si� na idei, �e "percepcja i produkcja j�zyka ludzkiego dzia�a raczej w oparciu o konkretne do�wiadczenia j�zykowe ni� abstrakcyjne regu�y gramatyczne ". Metody statystyczne poprawi�y tak�e gramatyczne funkcje leksykalne (LFG), zar�wno przy u�yciu pomys��w DOP, jak i dzi�ki pracy Josefa van Genabitha i jego grupy z Dublin City University nad nauk� gramatyki LFG na podstawie adnotowanych danych banku drzew. Wreszcie Ron Kaplan i jego grupa w komercyjnej firmie zajmuj�cej si� wyszukiwaniem j�zyk�w naturalnych, Powerset (obecnie cz�� firmy Microsoft), pr�buj� nauczy� si� przypisywa� porz�dki prawdopodobie�stwa do wielu drzew parsowania zdania, kt�re s� tworzone przez analizator sk�adni r�cznie ( zamiast wyuczonej) gramatyki. Inne zastosowania statystyk w przetwarzaniu j�zyka naturalnego obejmuj� wykorzystywanie danych o tym, jak cz�sto pewne kombinacje s��w wyst�puj� w r�nych �r�d�ach tekstu. Takie kombinacje nazywane s� "n-gramami". Na przyk�ad sekwencja dw�ch s��w, na przyk�ad "w�a�nie teraz", to 2-gram, a sekwencja pi�ciu s��w, na przyk�ad "od�� na p�k�", to 5-gram. U�ywaj�c has�a "nie ma danych takich jak wi�cej danych" ,Google przeanalizowa� na przyk�ad zbi�r bilion�w s��w z publicznych stron internetowych, aby opublikowa� "liczby dla wszystkich 1 176 470 663 pi�cioznakowych sekwencji, kt�re pojawiaj� si� co najmniej 40 razy".

Podsumowuj�c wp�yw zastosowania metod statystycznych w NLP Manning i Schutze napisali: "Istotnie, wi�kszo�� entuzjazmu w zakresie metod statystycznych w przetwarzaniu j�zyka naturalnego wynika z tego, �e ludzie widz� perspektyw� metod statystycznych zapewniaj�cych praktyczne rozwi�zania rzeczywistych problem�w, kt�re wymyka�y si� przy u�yciu tradycyjne metody NLP ". Wspominaj� nawet o niekt�rych mo�liwych nowych nazwach dla eld, takich jak "Technologia j�zykowa" lub "In�ynieria j�zykowa" zamiast NLP

Widzenie komputerowe

Om�wim kilka reprezentatywnych pr�bek najnowszych prac w dziedzinie widzenia komputerowego, z kt�rych wi�kszo�� opiera si� na podstawowych technikach przetwarzania obrazu opisanych wcze�niej. W rzeczywisto�ci ten d�ug z poprzedniej pracy jest uznawany przez wi�kszo�� badaczy, tak jak w nast�puj�cym fragmencie ostatniego artyku�u: Warto zauwa�y�, �e wiele z tych, kt�re s� uwa�ane za nowoczesne pomys�y w widzeniu komputerowym - deskryptory regionu i granic, superpiksele, ��cz�c d�-g�r� i odg�rne przetwarzanie, formu�owanie bayesowskie, wyb�r funkcji itp. -by�y znane czteryy dekady temu! … Wydaje si� jednak, �e pierwsi pionierzy po prostu wyprzedzili sw�j czas. Nie mieli wyboru, musieli polega� na heurystyce, poniewa� brakowa�o im du�ych ilo�ci danych i zasob�w obliczeniowych, aby pozna� relacje rz�dz�ce struktur� naszego �wiata wizualnego. Post�p metod uczenia si� w ostatnim dziesi�cioleciu daje now� nadziej� na pe�ne zrozumienie scen. Teraz mamy potrzebne dane i zasoby obliczeniowe. Poza tym wizja komputerowa skorzysta�a na wk�adach kilku innych os�b, w tym optyki, matematyki, grafiki komputerowej, elektrotechniki, fizyki, neuronauki i statystyki. Wszystkie te dyscypliny nadal dostarczaj� pomys��w i technik, ale jedna z nich zacz�a dominowa�, a mianowicie uczenie maszynowe. Niekt�re osoby rozr�niaj� "widzenie komputerowe" i "widzenie maszynowe" - ��cz�c widzenie komputerowe g��wnie z robotyk� i wykorzystuj�c widzenie maszynowe do wy��cznie tej aplikacji i wielu innych. Poniewa� ostatecznie chcemy, aby roboty by�y zaanga�owane w wi�kszo�� tych aplikacji, nie s�dz�, aby to rozr�nienie by�o bardzo przydatne, dlatego nadal b�d� odnosi� si� do ca�ego pola jako do widzenia komputerowego. Kolejne rozr�nienie polega na tym, co z jednej strony nazywa si� "wizj� analizy sceny" i "wizj� celow� (lub aktywn�)". Podej�cie oparte na analizie sceny kierowa�o wieloma badaniami dotycz�cymi widzenia od najwcze�niejszych dni. Ten pogl�d utrzymywa�, �e celem widzenia komputerowego by�o przekszta�cenie dwuwymiarowego obrazu w opis tr�jwymiarowej sceny. Na przyk�ad system wizyjny dla MIT "Copy Demo" skonstruowa� tr�jwymiarowy model uk�adu klock�w zabawek. Natomiast niekt�rzy badacze zwr�cili uwag�, �e celem widzenia by�o dostarczenie tylko i wy��cznie tych konkretnych informacji potrzebnych do sterowania silnikiem. Widzimy to podej�cie zastosowane na przyk�ad w r�nych procedurach widzenia u�ywanych przez Shakeya. Zamiast skonstruowa� kompletny model swojego �wiata wizualnego, Shakey u�y� widzenia, aby przekaza� mu informacje potrzebne do prowadzenia dzia�a� motorycznych i planowania. Ten rodzaj widzenia celowego "jest zwykle mniej wymagaj�cy od obliczeniowych wynik�w obliczeniowych, ni� by�aby pe�na analiza sceny. Ludzie, kt�rzy badaj� wizualne procesy zwierz�t (w tym ludzi), r�wnie� spierali si� o te dwa podej�cia. David Marr, kt�ry by� zainteresowany modelowaniem cz�owieka procesy wizualne opowiada�y si� za podej�ciem do analizy sceny. Jednak ludzie, kt�rzy analizowali percepcj� wzrokow� u �aby, zauwa�yli, �e jej system wizualny zosta� zorganizowany bardziej celowo, na przyk�ad w celu �apania owad�w. Neurobiolog komputerowy Terrence Sejnowski (ten sam Sejnowski, kt�ry pracowa� nad NETtalk) i koledzy opisuj� dowody biologiczne i psychologiczne, �e wizja cz�owieka jest celowa, a nie rekonstrukcyjna, a kt�r� nazywaj� "czystym widzeniem". Do czego s�u�y widzenie? Czy naprawd� konieczna jest idealna wewn�trzna rekreacja tr�jwymiarowego �wiata? Biologiczne i obliczeniowe odpowiedzi na te pytania prowadz� do koncepcji widzenie zupe�nie inna ni� czyste widzenie. Interaktywne widzenie, jak nakre�lono [w tym artykule], obejmuje widzenie z innymi uk�adami sensorycznymi jako partnerami pomagaj�cymi w kierowaniu dzia�aniami. Kiedy patrz� na wiele komputerowych system�w wizyjnych wyprodukowanych w ci�gu ostatnich dwudziestu lat, widz� oba rodzaje. Istniej� systemy, kt�re s� skuteczne w prowadzeniu pojazd�w autonomicznych po drogach (zwracaj�c uwag� tylko na jezdni� i inne pojazdy na drodze, nie analizuj�c ani nawet nie wiedz�c o domach po drodze, kt�re - cho� mog� znajdowa� si� na miejscu - s� nieistotne do zadania prowadzenia pojazdu. Istniej� r�wnie� systemy analizuj�ce zdj�cia lub konstruuj�ce tr�jwymiarowe modele budynk�w i innych obiekt�w w nich zawartych. Ponadto istniej� systemy, kt�re maj� aspekty obu podej��

Odzyskiwanie informacji o powierzchni i g��boko�ci

Derek Hoiem, Alexei Efros i Martial Hebert z Robotics Institute na Carnegie Mellon University opracowali program, kt�ry by� w stanie sklasyfikowa� segmenty jednego obrazu jako nale��ce do powierzchni r�nego typu i orientacji. Chocia� te klasyfikacje nie stanowi� tr�jwymiarowego modelu sceny, kt�ra da�a pocz�tek obrazowi, daj� one informacje o wa�nych w�a�ciwo�ciach fizycznych sceny, podobnie jak robi to szkic Davida Marra 2 1/2-D. Na przyk�ad takie informacje, kt�re mog� by� przydatne dla robota, kt�ry musi nawigowa� i rozpoznawa� obiekty w scenie. W ich pracy wykorzystano zdj�cia obiekt�w na wolnym powietrzu, takich jak "lasy, miasta, drogi, pla�e, jeziora itp." wykonano w r�nych warunkach "(�nie�ny, s�oneczny, pochmurny, zmierzch)". Ich program podzieli� regiony obrazu na jedn� z trzech g��wnych kategorii powierzchni: "wsparcie", "pionowe" lub "niebo". Jak autorzy okre�laj� te kategorie: "Powierzchnie podparcia s� w przybli�eniu r�wnoleg�e do pod�o�a i mog� potencjalnie podpiera� solidny obiekt. Przyk�ady obejmuj� nawierzchnie dr�g, trawniki, �cie�ki gruntu, jeziora i blaty sto�u. Powierzchnie pionowe s� zbyt twardymi powierzchniami do wspierania obiektu, takiego jak �ciany, ska�y, kraw�niki, ludzie, drzewa lub krowy. Niebo to po prostu obszar obrazu odpowiadaj�cy otwartemu powietrzu i chmurom." Aby uzasadni� t� klasyfikacj�, autorzy podkre�laj�, �e w 300 obrazach zebranych za pomoc� wyszukiwania obraz�w Google "ponad 97% pikseli nale�y do poziomych (pomocniczych), prawie pionowych powierzchni lub nieba" (ustalonych przez cz�owieka) obraz�w). Program dodatkowo zaklasyfikowa� ka�d� pionow� powierzchni� do jednej z nast�puj�cych podklas: "p�askie powierzchnie zwr�cone w stron�" lewej "," �rodkowej "lub" prawej " przegl�darki oraz powierzchnie niep�askie, kt�re s� albo" porowate ", albo" sta�e ". " P�askie powierzchnie obejmuj� �ciany budynk�w, �ciany klifu i inne powierzchnie pionowe, kt�re s� w przybli�eniu p�askie. Porowate powierzchnie to te, kt�re nie maj� sta�ej ci�g�ej powierzchni. Li�cie drzew, krzewy, przewody telefoniczne i ogrodzenia ogniw s� przyk�adami porowatych powierzchni. Powierzchnie pe�ne to niep�askie powierzchnie pionowe, kt�re maj� sta�� ci�g�� powierzchni�, w tym samochody, ludzi, pi�ki pla�owe i pnie drzew ".

Ich program nauczy� si� tworzy� te klasyfikacje (i podklasy) za pomoc� zestawu szkoleniowego zawieraj�cego 300 obraz�w Google. Grupy s�siaduj�cych pikseli na ka�dym obrazie szkoleniowym w tym zestawie zosta�y z�o�one w prawie jednolite regiony, zwane "superpikselami", na podstawie podobie�stwa kolor�w i intensywno�ci. Nast�pnie ka�demu superpikselowi (nu��co!) R�cznie przypisywano klasyfikacj� i podklas�. Suprpiksele zosta�y nast�pnie pogrupowane w wi�ksze regiony zwane segmentami, kt�re odziedziczy�y po nich klasyfikacje sk�adowe superpikseli. Odt�d matematyka staje si� bardziej z�o�ona, ale w gruncie rzeczy proces uczenia si� skonstruowa� drzewo decyzyjne, kt�re mo�e odpowiednio pasowa� do r�cznie sklasyfikowanych region�w na obrazach zestawu treningowego. Wyuczone drzewo decyzyjne mo�na nast�pnie wykorzysta� do klasyfikacji region�w dowolnych obraz�w. W�z�y drzewa decyzyjnego by�y oparte na cechach pikseli i segment�w obejmuj�cych lokalizacj�, kolor, tekstur� i perspektyw�, z kt�rych wszystkie mo�na by�o obliczy� przy u�yciu wcze�niej wynalezionych technik. Chocia� nie s� w pe�ni reprezentatywne dla og�lnych wynik�w, obrazy na ryc. 30.3 wskazuj�, jak dobrze ich program przetrwa�. Na zdj�ciach poni�ej, zielony oznacza powierzchni� podparcia, czerwony oznacza powierzchni� pionow�, a niebieski oznacza niebo. Podklasy powierzchni pionowych s� oznaczone strza�kami w lewo dla p�aszczyzn skierowanych w lewo, strza�kami w g�r� dla p�aszczyzn skierowanych do �rodka i strza�kami w prawo dla p�aszczyzn skierowanych w prawo, "O" dla powierzchni porowatych i "X" dla powierzchni sta�ych.

Profesor ze Stanford Andrew Ng i jego uczniowie poszli dalej w wyodr�bnianiue rzeczywistych informacji o g��boko�ci i informacji o strukturze sceny z obraz�w monokularowych. Informacje o g��boko�ci "prawdy gruntu" dla zestawu obraz�w treningowych s� najpierw gromadzone przez tr�jwymiarowy skaner laserowy. Algorytm uczenia si� pr�buje dopasowa� swoje szacunki g��boko�ci do g��boko�ci rzeczywistej przy u�yciu kilku funkcji obrazu, takich jak zmiany tekstury, gradienty tekstury, kolor i informacje o okluzji. Poniewa� informacje o g��boko�ci bliskich obiekt�w s� rejestrowane w wi�kszych skalach ni� w przypadku odleg�ych obiekt�w, operacje s� wyodr�bniane w wielu skalach obrazu. Proces uczenia trenuje hierarchiczn�, wieloskalow� losow� sie� Markowa do reprezentowania zale�no�ci mi�dzy g��bi� �atki obrazu a g��bi� s�siednich �at. Rysunek poni�ej jest skr�con� ilustracj� dw�ch z trzech poziom�w takiej sieci.

Rysunek poni�ej pokazuje niekt�re obrazy pobrane z Internetu wraz z powi�zanymi "mapami g��bi" (o r�nych g��boko�ciach wskazanymi przez r�ne kolory) przewidywanymi przez ich system. Ashutosh Saxena i Andrew Ng nadal doskonal� te techniki.

�ledzenie ruchomych obiekt�w

Je�li systemy wizyjne maj� dzia�a� na naturalnych scenach w prawdziwym �wiecie, jedn� z rzeczy, z kt�rymi b�d� musieli sobie poradzi�, s� ruchome obiekty. Kilku badaczy pracowa�o nad problemem wizualnego �ledzenia obiekt�w, a niekt�re z najwcze�niejszych prac pochodz� z ko�ca lat siedemdziesi�tych. Jednym z przyk�ad�w, kt�re wykorzystam do wyja�nienia niekt�rych zastosowanych metod, s� prace Michaela Isarda i Andrew Blake′a na uniwersytecie w Oxfordzie. Opracowali algorytm o nazwie CONDENSATION (do propagacji g�sto�ci warunkowej) do �ledzenia poruszaj�cych si� obiekt�w. Algorytm jest w stanie "�ledzi� kontury i cechy obiekt�w pierwszego planu, zamodelowanych jako krzywe, gdy poruszaj� si� w znacznym ba�aganie, i wykonywa� to z pr�dko�ci� klatek wideo lub w ich pobli�u. Oto, w skr�cie, jak ich system dzia�a na jednym z ich kilku przyk�ad�w - filmie li�cia na krzaku wiej�cym na wietrze na tle podobnych li�ci. Rozpoczyna si� od pocz�tkowej klatki filmu, w kt�rej dany li�� interesuj�cy jest rysowany r�cznie krzywa jak w lewej cz�ci rysunku

�ledzenie konturu li�cia podczas ruchu wymaga wiedzy o dynamice li�cia. To znaczy, bior�c pod uwag� jego pozycj� i kszta�t na obrazie w jednym momencie, jak� pozycj� i kszta�t mo�e mie� w nast�pnym momencie? A w kolejnych chwilach? My nie jeste�my pewni, ale mo�emy u�y� dynamicznych sieci bayesowskich (DBN), odpowiednio zmodyfikowanych w celu u�ycia ci�g�ych rozk�ad�w prawdopodobie�stwa zamiast rozk�ad�w prawdopodobie�stwa wzgl�dem zmiennych dyskretnych, aby dokona� oszacowa�. Wymagane prawdopodobie�stwa s� szacowane na podstawie procesu uczenia si� i s� one stopniowo okre�lane przez obserwacj� li�cia podczas jego ruchu. Jednak, aby to zaobserwowa�, musimy to wy�ledzi�, a to wymaga znajomo�ci prawdopodobie�stwa - problemu "jaja kurzego i jaja", z kt�rym Isard i Blake byli w stanie sobie poradzi�. W miar� up�ywu czasu prawdopodobie�stwo po�o�enia i kszta�tu li�cia na obrazie rozprasza si�, powoduj�c coraz wi�ksz� niepewno�� co do konturu li�cia. Ale robimy obserwacje {przyjmuj�c nowy obraz za ka�dym razem. Obserwacje te, jako �e same w sobie s� nieprecyzyjne, dostarczaj� r�wnie� prawdopodobie�stwa (przy u�yciu regu�y Bayesa) dotycz�ce po�o�enia i kszta�tu li�cia. Te ostatnie prawdopodobie�stwa pomagaj� wyostrzy� di przy u�yciu tych o dynamice li�cia {do tego stopnia, �e mo�na dokona� do�� dok�adnych oszacowa�. Na przyk�ad, w dwudziestu krokach p�niej (0: 5 s), system zgaduje na zarysie pokazanym po prawej stronie rysunku powy�ej. Isard i Blake u�ywaj� szeregu skomplikowanych technologii, aby to wszystko osi�gn��. Jednym z problem�w jest to, jak reprezentowa� funkcje prawdopodobie�stwa dla dynamiki li�cia i jak przenosi� t� reprezentacj� z jednego kroku czasowego na drugi. Przyj�li technik� zwan� "filtrowaniem cz�stek", kt�ra reprezentuje prawdopodobie�stwo krzywej zarysu przez du�y zestaw wa�onych pr�bek, zwanych cz�steczkami, kontur�w. Na ka�dym etapie grupa cz�stek jest przenoszona do nast�pnego etapu, a ca�a partia jest reprezentowana jako funkcja prawdopodobie�stwa. Filtrowanie cz�stek jest intensywnie wykorzystywane do przetwarzania obrazu i innych problem�w z percepcj�. U�y�em pracy Isarda {Blake'a do zilustrowania �ledzenia obiekt�w, ale jest wiele innych projekt�w. Dieter Fox i wsp�pracownicy z University of Washington Robotics i State Estimation Lab u�ywali filtrowania cz�stek w wielu zastosowaniach. Imponuj�c� prezentacj� jest film pokazuj�cy jednoczesne �ledzenie zmieniaj�cej si� liczby os�b za pomoc� dalmierzy laserowych z ruchomym robotem. Typowy zrzut ekranu pokazano poni�ej

Zdj�cie po lewej stronie (nieu�ywane przez robota; jest tylko dla nas) pokazuje rzeczywiste po�o�enie ludzi i robota. Zdj�cie po prawej pokazuje obliczone lokalizacje ludzi i robota, reprezentowane przez obiekty graficzne. Ta aplikacja wykorzystuje rozszerzenie do filtrowania cz�stek, kt�re autorzy nazywaj� "opartymi na pr�bach wsp�lnymi probabilistycznymi powi�zaniami danych. Grupa kierowana przez Ernsta D. Dickmannsa w Institut fur Systemdynamik und Flugmechanik na Universit at der Bundeswehr w Monachium w Niemczech pracuje nad systemami wizyjnymi i steruj�cymi dla samochod�w bez kierowc�w od p�nych lat siedemdziesi�tych. Ich dynamiczne systemy wizyjne s� w stanie wykrywa� i �ledzi� s�siednie pojazdy za pomoc� przestrzenno-czasowych modeli ruchu wyrzutowego, co nazywaj� podej�ciem "4-D". By� mo�e s� pierwsz� grup�, kt�ra korzysta z filtrowania Kalmana do �ledzenia obiekt�w wizualnych. ich praca zosta�a nazwana pierwszym znacz�cym zastosowaniem wizji komputerowej w �wiecie rzeczywistym ". Zainstalowane w r�nych pojazdach Mercedes-Benz, ich systemy wizji i kontroli by�y w stanie jecha� autonomicznie na du�e odleg�o�ci, zmieniaj�c biegi i wyprzedzaj�c wolniejsze pojazdy. W 1995 roku ich pojazd VaMP (Mercedes-Benz 500 SEL) przejecha� 1758 km z Monachium do Odense w Danii i z powrotem z pr�dko�ci� przekraczaj�c� 175 km / h. Oko�o 95% przejazdu odby�o si� w pe�ni autonomicznie, w sumie 400 manewr�w zmiany pasa. Niekt�re dodatkowe szczeg�y na temat ich autonomicznych pojazd�w i projekt�w wizyjnych mo�na znale�� w ksi��ce Dickmanna na temat "Dynamic Vision". Kosmos nie pozwala na opisanie kilku innych projekt�w �ledzenia obiekt�w, ale wspomn� jeszcze o dw�ch. Jitendra Malik kieruje grup� wizji na Uniwersytecie Kalifornijskim w Berkeley, gdzie przeprowadzono badania nad �ledzeniem obiekt�w (wraz z innymi pracami nad wizj�) W grupie wizji na Uniwersytecie w Leeds w Wielkiej Brytanii prace nad �ledzeniem pi�karzy i samochod�w. Innym celem w Leeds jest poprawa dok�adno�ci �ledzenia obiekt�w poprzez rozumowanie o "podstawowych ograniczeniach przestrzenno-czasowej ci�g�o�ci obiekt�w

Modele hierarchiczne

Jeden z potencjalnie najbardziej obiecuj�cych rozwi�za� w dziedzinie widzenia komputerowego (a mo�e nawet ca�ej sztucznej inteligencji) dotyczy modeli hierarchicznych. Istniej� r�ne wersje tych modeli i r�ne sposoby ich budowy, ale je�li odst�pimy wystarczaj�co od szczeg��w, maj� one podobne struktury i funkcje. Po pierwsze, nieprzetworzone piksele s� agregowane przestrzennie (a w niekt�rych systemach czasowo), aby utworzy� grupy wy�szego poziomu. Te grupy mog� tworzy� ma�e kraw�dzie lub naro�niki lub inne prymitywne komponenty odpowiednie dla rodzaj�w przetwarzanych obraz�w. Na kolejnym poziomie hierarchii grupy pierwszego poziomu s� ponownie agregowane do nieco wy�szego poziomu i tak dalej, dop�ki, powiedzmy, rozpoznawalne obiekty na obrazie nie b�d� reprezentowane na najwy�szym poziomie. Wiele pomys��w u�ywanych w tych systemach nawi�zuje do niekt�rych cech wcze�niejszych system�w (takich jak Pandemonium, Neocognitron, architektury tablic, systemy rozpoznawania mowy i sieci rekurencyjne PDP), ale wiele nowszych system�w ��czy i rozszerza te funkcje na r�ne sposoby to nie indywidualny wcze�niejszy system. W szczeg�lno�ci pozw�l mi wspomnie� o nast�puj�cych kwestiach:

1. Agregacje na r�nych poziomach s� poznawane przy u�yciu ogromnych zestaw�w danych - nieprzeznaczonych r�cznie. W niekt�rych systemach uczenie si� jest "bez nadzoru" {polegaj�ce na ci�g�o�ci wygl�du obiektu w czasowym strumieniu obraz�w w celu dostarczenia informacji o to�samo�ciach obiekt�w.
2. Wyst�powania agregacji na ka�dym poziomie s� r�wnowa�one prawdopodobie�stwami za pomoc� probabilistycznych modeli graficznych (takich jak pola losowe Markowa) zapewniaj�cych g��wne mechanizmy reprezentacyjne i obliczeniowe.
3. Prawdopodobie�stwa agregacji na jednym poziomie mog� wp�ywa� nie tylko na prawdopodobie�stwa agregacji na wy�szych poziomach, ale tak�e na prawdopodobie�stwa agregacji na tym samym i na ni�szych poziomach. To znaczy, w przeciwie�stwie do Pandemonium i sieci neuronowych ze sprz�eniem zwrotnym, w tych nowszych systemach istniej� po��czenia "wsteczne" od wy�szych poziom�w do ni�szych poziom�w. Te zacofane po��czenia pozwalaj� systemom przewidywa�, co prawdopodobnie by�o na scenie, nawet je�li mog�o by� zas�oni�te lub nieobecne na obrazie.

Kilku naukowc�w by�o zaanga�owanych w rozw�j modeli hierarchicznych. Niekt�re motywowane s� g��wnie pr�bami modelowania mechanizm�w przechowywania i wnioskowania w korze wzrokowej ludzi i naczelnych. Mimo to ich modele s� jednak do�� interesuj�ce dla ludzi AI, ��cz�c w tym czasie spostrze�enia i dowody z neuronauki z do�� skomplikowanym aparatem obliczeniowym - w tym hierarchicznymi modelami graficznymi i technikami statystycznego pr�bkowania. Inni u�ywaj� modeli hierarchicznych i zaawansowanych metod obliczeniowych, nie zwracaj�c szczeg�lnej uwagi na ich biologi� i wiarygodno�� budowy silniejszych system�w wizyjnych. Tai Sing Lee i Davida Mumford , proponuja hierarchi� przetwarzania warstw kory wzrokowej , kt�re mo�na modelowa� jak poni�ej

W modelu Lee-Mumforda (opartym cz�ciowo na teorii wzoru , pracy Ulfa Grenander), obserwacje "od do�u do g�ry" przychodz�ce z lewej strony s� zintegrowane z hipotezami "z g�ry na d�" sformu�owanymi po prawej stronie. Na diagramie pomy�l o x₀ jako reprezentuj�cym reprezentacj� obrazu jako tablic� pikseli. Pomy�l o x₁ jako bardziej abstrakcyjnej reprezentacji obrazu, powiedzmy w kategoriach funkcji takich jak kr�tkie segmenty linii. Gdy przechodzimy o jeden krok w prawo, obliczenia daj� jeszcze bardziej abstrakcyjn� reprezentacj�, x ₂, kt�ra nast�pnie s�u�y jako hipoteza o x₁. Wzory w ramkach (kt�rych nie b�d� tutaj pr�bowa� wyja�ni�) i ��cz�ce je strza�ki maj� na celu pokazanie, �e na ka�dym poziomie prawdopodobie�stwo reprezentacji, x _i, zale�y zar�wno od na x _i-1 (uwa�any za wej�cie) oraz na x _{i + 1} (uwa�any za hipotez� na temat x_i). Lee i Mumford opisuj� ten proces sprz�enia zwrotnego {sprz�enie zwrotne w nast�puj�cy spos�b: Wej�cie sprz�enia zwrotnego nap�dza generowanie hipotez, a sprz�enie zwrotne z wy�szych obszar�w wnioskowania zapewnia priorytetom kszta�towanie wnioskowania na wcze�niejszych poziomach. Ani komunikaty przekazuj�ce, ani komunikaty zwrotne nie s� statyczne: jak trwa interpretacja obrazu, nowe interpretacje wysokiego poziomu pojawiaj� si�, kt�re informuj� o nowych priorytetach, a gdy pojawi si� interpretacja niskiego poziomu, komunikat przekazywania jest modyfikowany. Takie hierarchiczne wnioskowanie bayesowskie mo�e przebiega� r�wnolegle w wielu obszarach … [z] kolejnymi obszarami korowymi w wizualnej hierarchii [ograniczaj�cymi] wzajemne wnioskowanie w ma�ych p�tlach szybko i stale w miar� ewolucji interpretacji. Mo�na mie� nadziej�, �e taki system jako ca�o�� szybko zbiegnie si� w sp�jn� interpretacj� sceny wizualnej obejmuj�cej wszystkie �r�d�a informacji niskiego i wysokiego poziomu; ale s� problemy…Jednym z "problem�w" jest to, �e poniewa� �aden z poziom�w nie mo�e by� ca�kowicie pewien swojej interpretacji, mo�e istnie� wiele interpretacji globalnych o wysokim prawdopodobie�stwie. Lee i Mumford sugeruj� rozwi�zanie oparte na innych trwaj�cych prac AI, a mianowicie "nie przeskakiwanie do wniosku" na �adnym poziomie, ale umo�liwienie kilku interpretacjom o wysokim prawdopodobie�stwie "pozostania przy �yciu", dop�ki jedna og�lna interpretacja dla ca�ego �a�cucha nie oka�e si� najbardziej prawdopodobna. (Mo�esz sobie przypomnie�, �e dwa systemy Barrowa i Tenenbauma, a mianowicie MSYS i tego, kt�ry korzysta� z wewn�trznych obraz�w, pr�bowa� to zrobi� ju� w latach 70.). Aby zrealizowa� sw�j pomys�, Lee i Mumford sugeruj� zastosowanie filtrowania cz�stek, kt�re, jak ju� wspomnia�em, wykorzystuje zestaw wa�onych pr�bek reprezentuj�cych rozk�ad prawdopodobie�stwa w odniesieniu do interpretacji na ka�dym poziomie tego rozk�adu, kt�rych nale�y nauczy� si� z do�wiadczenia, oraz wzory ��cz�ce poziomy, system mo�e ustali� najbardziej prawdopodobn� interpretacj� na ka�dym poziomie. Chocia� Lee i Mumford sugeruj� pomys�y wdro�eniowe dla swoich oblicze� prawdopodobie�stwa, takie jak u�ycie losowo�ci Markowa starsi, nie wdro�yli swojego modelu. Jak wyja�niaj�, nie zaproponowali�my symulacji towarzysz�cej naszej propozycji, cz�ciowo dlatego, �e nale�y jeszcze opracowa� wiele szczeg��w, a cz�ciowo dlatego, �e wyb�r modelu jest wci�� nieograniczony, a ka�da konkretna symulacja zapewnia jedynie s�abe wsparcie dla wysokiego poziomu hipoteza taka jak nasza. Przytaczaj� jednak dowody neurofizjologiczne i psychofizyczne potwierdzaj�ce ich model. Korzystaj� z ilustracji na, aby wyja�ni�, w jaki spos�b modele podobne do nich mog� dzia�a� w celu poprawy przetwarzania obraz�w wizualnych.

Jasno o�wietlona cz�� obrazu sugeruje, �e mo�e to by� twarz. Ta hipoteza z kolei powoduje, �e przetwarzanie obrazu na ni�szym poziomie jest bardziej wra�liwe na wyst�powanie s�abej kraw�dzi twarzy {umo�liwiaj�c jej wykrycie. (Ludzie mog� powiedzie�: "O tak, teraz widz� t� kraw�d�.") Geoffey E. Hinton, Simon Osindero i Yee-Whye Teh opracowali (raczej z�o�one) strategie uczenia si� bez nadzoru dla innego hierarchicznego modelu zwanego sieci� g��bokiej wiary. Przeprowadzili eksperymenty z wersj� pokazan� poni�ej

Og�lna struktura jest warstwow� sieci� neuronow�, z najwy�szym poziomem sk�adaj�cym si� z 2000 jednostek, z dwukierunkowymi po��czeniami z jednostkami na poziomie poni�ej. Trening sieci przebiega od do�u krok po kroku, poziom po poziomie. Kiedy ka�dy poziom jest trenowany, jego wagi s� "zamro�one", a jego wyniki s� wykorzystywane jako dane wej�ciowe do szkolenia nast�pnego wy�szego poziomu i tak dalej. Ta tak zwana chciwa metoda szkolenia skutkuje dobrym hierarchicznym modelem dystrybucji widzianych obraz�w. Autorzy opisuj� r�wnie� eksperymenty, w kt�rych dziesi�� jednostek decyzyjnych jest dodawanych na szczyt wcze�niej wyuczonej sieci hierarchicznej. Jednostki decyzyjne s� nast�pnie szkolone w zakresie rozr�niania odr�cznych cyfr, z kt�rych ka�da ma posta� obrazu 28 x 28 pikseli. Do szkolenia wykorzystano du��, standardow� baz� cyfr, a drug� du�� do test�w. Wyniki przewy�szy�y bardziej konwencjonalne techniki. Aby zobaczy�, co "najwy�szy poziom wyszkolonej pracy sieciowej" ma na my�li, "strza�ki skierowane w d� s�u�� do generowania obraz�w na dolnym poziomie na podstawie kodowania etykiet wprowadzonego na najwy�szym poziomie. Troch� przyk�ad�w tych wygenerowanych obraz�w pokazano poni�ej

Jeff Hawkins (, projektant oryginalnego Palm Pilot, sugeruje, �e kora nowa jest hierarchiczn� pami�ci� czasow�, kt�rej warstwy (od do�u do g�ry) przechowuj� coraz bardziej abstrakcyjne reprezentacje sensorycznych sekwencji wej�ciowych i kt�rych funkcj� (od g�ry do do�u) jest dokonywanie coraz bardziej szczeg�owych prognoz przysz�ych do�wiadcze�. Twierdzi, �e kora wzrokowa uczy si� w spos�b nienadzorowany, poddaj�c si� sekwencji obraz�w w czasie. Poniewa� widzimy obrazy, kt�re pojawiaj� si� w spos�b ci�g�y w czasie, musz� istnie� odcinki, w kt�rych ka�dy obraz tego samego obiektu porusza si� po naszym polu widzenia - cho� pojawia si� w r�nych t�umaczeniach, skalach i orientacjach. Ta identyczno�� zapewnia ukryte oznaczenie, kt�re jest wykorzystywane w reprezentacjach edukacyjnych na wszystkich poziomach hierarchii. Ponadto, jak twierdzi Hawkins, pami�� hierarchiczna i jej procedury uczenia si� s� wykorzystywane nie tylko do wprowadzania wzrokowego, ale tak�e do innych modalno�ci sensorycznych. Na najwy�szych poziomach hierarchii te osobne modalno�ci ��cz� si�, aby da� zintegrowany model naszego �wiata sensorycznego oparty na wzroku, dotyku i s�uchu - model, kt�rego u�ywamy do przewidywania tego, co mo�e si� dzia� dalej. Na podstawie tych pomys��w on i Dileep George, doktorat z Stanford. opracowa� model sieci, kt�ry nazywaj� "Hierarchiczn� pami�ci� czasow�" (HTM). "W swojej rozprawie George zaimplementowa� wersj� tego modelu zilustrowan� jak tu:

Dolny poziom to tablica pikseli 32 x 32, na kt�rej prezentowana jest sekwencja obraz�w. Poziom 1 sk�ada si� z tablicy 8 x 8 w�z��w sieciowych, przy czym ka�dy w�ze� odbiera dane wej�ciowe z �aty 4 x 4 pikseli obrazu wej�ciowego. Na przyk�ad, w�ze� "a" odbiera dane wej�ciowe ze swojego "pola odbiorczego", a mianowicie �atka pikselowa oznaczona "A", a w�ze� "b" odbiera dane wej�ciowe z pola pikselowego oznaczona "B." Poziom 2 to tablica 4 x 4 w�z��w, przy czym ka�dy w�ze� odbiera dane wej�ciowe z zestawu 2 x 2 w�z��w poziomu 1. Ten rodzaj konfiguracji trwa do pojedynczego w�z�a na poziomie 3. W�ze� ten ma rozpoznawa� etykiety klas lub kategorie obraz�w wej�ciowych. W�z�y w ka�dej warstwie s� przeszkolone do rozpoznawania cz�sto wyst�puj�cych sekwencji w polu odbiorczym w warstwie poni�ej. Na przyk�ad w�ze� poziomu 1 oznaczony "a" na rysunku jest przeszkolony do przedstawiania prawdopodobie�stw cz�sto wyst�puj�cych sekwencji grup pikseli w swoim polu odbiorczym "A." Jedn� z takich sekwencji o wysokim prawdopodobie�stwie mog� by� na przyk�ad ma�e rogi przesuwaj�ce si� w prawo. W�z�y na poziomie 2 s� z kolei wyszkolone do reprezentowania prawdopodobie�stwa cz�sto wyst�puj�cych sekwencji o wysokim prawdopodobie�stwie w ich polach odbiorczych na poziomie 1 i tak dalej. Szkolenie obejmuje prezentowanie film�w jako obraz�w wej�ciowych i przechodzi z poziomu na poziom wy�ej w hierarchii. Po treningu prawdopodobie�stwa sekwencji reprezentowanych na ka�dym poziomie s� uwarunkowane informacj� zwrotn� z g�ry. Na przyk�ad, je�li prezentowany jest film, w kt�rym niewielki r�g przesuwa si� od lewej do prawej w miejscu piksela oznaczonym "A", a je�li taki ma�y r�g porusza� si� w ten spos�b cz�sto podczas treningu, to w�ze� "a"na poziomie 1 przewidzia�by, �e b�dzie kontynuowa� sw�j ruch. Gdy pod��amy w g�r� hierarchii poziom�w, ka�dy w�ze� odbiera dane wej�ciowe, cho� po�rednio, z coraz wi�kszych segment�w obrazu. Wreszcie w�ze� na g�rze (poziom 3 na schemacie) reprezentuje rozk�ad prawdopodobie�stwa mi�dzy kategoriami obraz�w, kt�re widzia�a sie�. Kiedy sie� dzia�a w "trybie rozpoznawania" (po treningu) najwy�szy w�ze� identyfikuje si� najbardziej prawdopodobna kategoria obrazu na siatk�wce. Sie� by�a w stanie nauczy� si� rozpoznawa� r�ne proste obrazy wykorzystywane przez George′a w pracy doktorskiej. George kontynuuje prac� w Numenta, firmie za�o�onej przez Hawkins w celu rozwoju tego rodzaju sieci. Chocia� modele opisane do tej pory zosta�y opracowane do zada� percepcyjnych, mog�, z pewnym dopracowaniem, s�u�y� jako podstawa og�lnych schemat�w architektonicznych dla inteligentnych agent�w. (Patrz nast�pny rozdzia�.) Aby to zrobi�, opracowania musia�yby obejmowa� mi�dzy innymi postanowienia dotycz�ce planowania i wykonywania dzia�a� zgodnie z ich istniej�cymi przepisami dotycz�cymi postrzegania. Oczywi�cie, je�li te modele s� w og�le istotne dla tego, w jaki spos�b kora nowa mog�e dzia�a� (jak twierdz� ich zwolennicy), wtedy b�d� musieli by� w stanie zrobi� wi�cej tego, co robi kora nowa, w tym planowa� i wykonywa� dzia�ania. W ka�dym razie badania modeli korowych stanowi� drog� do wsp�pracy mi�dzy badaczami AI i neuronaukami. Jak zauwa�a Thomas Dean, kt�ry zbudowa� probabilistyczne modele kory nowej: "Dost�pno�� modeli w skali kory u�atwi nie tylko nasze rozumienie m�zgu, ale umo�liwi naukowcom po��czenie wniosk�w wyci�gni�tych z biologii z najnowszymi osi�gni�ciami techniki uczenia maszynowego do projektowania system�w hybrydowych, kt�re ��cz� najlepsze biologiczne i tradycyjne podej�cia komputerowe ". Kosmos nie pozwala mi opisa� pracy kilku innych wybitnych badaczy wizji, kt�rzy opracowali modele hierarchiczne, ale kr�tko wspomn� tylko o kilku innych. Tomaso Poggio i wsp�pracownicy z McGovern Institute for Brain Research na MIT stosuj� matematyczne i statystyczne mechanizmy uczenia si�, aby pom�c modelowa�, w jaki spos�b m�zg uczy si� rozpoznawa� obiekty wzrokowe. Jednym z obszar�w ich zastosowania by�o rozpoznawanie twarzy. Yann LeCun z Computational and Biological Learning Laboratory w Courant Institute of Mathematical Sciences, New York University, bada to, co nazywa "g��bokimi architekturami", a mianowicie "z�o�onymi z wielu warstw nadaj�cych si� do szkolenia modu��w nieliniowych". Nacisk k�adziony jest na jego grup� to "modele oparte na energii" (EBM), kt�re s� modelami graficznymi, w kt�rych poj�cie zwi�zane z energi� fizyczn� jest powi�zane ze zmiennymi (zamiast zwyk�ych prawdopodobie�stw)

Gramatyki obrazu

Ze wzgl�du na skuteczne wykorzystanie gramatyki i analiz sk�adniowych w przetwarzaniu j�zyka naturalnego nie jest zaskakuj�ce, �e b�d� pr�by zastosowania podobnych pomys��w do przetwarzania zdj�� i obraz�w. W rzeczywisto�ci, w wywiadzie cytowano Russella Kirscha, kt�ry powiedzia�: "do 1957 roku zaintrygowa�o mnie to, co lingwi�ci potrafili zrobi� z gramatyk� na komputerach… Wi�c zapyta�em, co wydaje mi si� oczywistym pytaniem: czy m�g�by� zrobi� to samo ze zdj�ciami? "Kirsch i jego �ona Joan opracowali gramatyk� do analizy (i tworzenia) zdj��. Wed�ug wspomnianego wywiadu u�ywali gramatyki w programie komputerowym, kt�ry m�g�" tworzy� linie i wzory w stylu [artysty Richarda Diebenkorna]. Kiedy go sko�czono, Kirsches pokaza� wygenerowany obraz samemu arty�cie, kt�ry zgodzi� si�, �e wygl�da uderzaj�co podobnie do czego�, co m�g�by namalowa�. W rzeczywisto�ci symulacja komputerowa by�a prawie identyczna do tego, kt�ry Diebenkorn ju� namalowa�. " Inne prace nad "gramatykami obrazkowymi" wykona� profesor Azriel Rosenfeld i jego grupa z University of Maryland". Song-Chun Zhu (1969 {), kt�ry kieruje UCLA Center for Image and Vision Science, zastosowa� r�norodne techniki statystyczne i fizyki do problem�w z widzeniem. On i koledzy opracowali "stochastyczn� gramatyk� obraz�w", kt�re mo�na wykorzysta� do roz�o�enia obraz�w na cz�ci sk�adowe. (Metoda dekompozycji realizuje niekt�re z pomys��w opisanych w cz�ci 30.2.3 w pracy Lee i Mumforda). Rysunek poni�ej pokazuje przyk�ad dekompozycji obrazu, przedstawionego jako drzewo analizy.

Prace nad wizj� komputerow� poczyni�y niesamowity post�p w ci�gu ostatnich kilku lat i s� wa�n� cz�ci� wielu aplikacji, w tym wykrywania zdarze� (takich jak wykroczenia drogowe), obrazowania medycznego, �ledzenia obiekt�w (takich jak twarze, piesi i pojazdy), protez wzrokowych , wyszukiwanie obiekt�w na fotografiach, kontrola zapas�w w magazynach, nawigacja i mapowanie pojazd�w robot�w, rozpoznawanie znak�w i pisma r�cznego, systemy ostrzegania przed niebezpiecze�stwem, kontrola procesu, kontrola p�ytek drukowanych, klasyfikacja owoc�w i warzyw, mapowanie topograficzne, badania lasu, rozpoznawanie i identyfikacja twarzy w t�um, wyszukiwanie obraz�w w Internecie, kompresja obraz�w i kontrola upraw rolnych. Czytelnicy, kt�rzy chcieliby dowiedzie� si� wi�cej, znajd� bogactwo materia��w w podr�cznikach, publikacjach z zakresu wizji komputerowej oraz w Internecie.

Historia Sztucznej InteligencjiArtificial Intelligence Experts

J�zyki naturalne i sceny naturalne