Machine Learning

Zautomatyzowane techniki gromadzenia danych wraz z niedrogim urz�dzeniem pami�ci masowej umo�liwi�y gromadzenie i przechowywanie olbrzymich ilo�ci danych. Zakupy w punktach sprzeda�y, odczyty temperatury i ci�nienia (wraz z innymi danymi pogodowymi), wiadomo�ci, transakcje finansowe wszelkiego rodzaju, strony internetowe i zapisy interakcji w sieci to tylko kilka z wielu przyk�ad�w. Ale ogromna ilo�� surowych danych wymaga skutecznych technik "eksploracji danych" w celu klasyfikacji, kwantyfikacji i wyodr�bniania przydatnych informacji. Metody uczenia maszynowego odgrywaj� coraz wi�ksz� rol� w analizie danych, poniewa� mog� radzi� sobie z ogromnymi ilo�ciami danych. W rzeczywisto�ci im wi�cej danych, tym lepiej. Wi�kszo�� metod uczenia maszynowego konstruuje hipotezy na podstawie danych. Tak wi�c (na przyk�ad klasyczny przyk�ad), je�li du�y zestaw danych zawiera kilka wyst�pie� �ab�dzi b�d�cych bia�ymi i �adnych wyst�pie� �ab�dzi innych kolor�w, w�wczas algorytm uczenia maszynowego mo�e wywnioskowa�, �e "wszystkie �ab�dzie s� bia�e". Wnioskowanie jest "indukcyjne", a nie "dedukcyjne". Wnioski dedukcyjne wynikaj� koniecznie i logicznie z ich przes�anek, podczas gdy indukcyjne s� hipotezami, kt�re zawsze podlegaj� sfa�szowaniu przez dodatkowe dane. (By� mo�e nadal istnieje nieodkryta wyspa czarnych �ab�dzi .) Mimo to wnioskowania indukcyjne, oparte na du�ej ilo�ci danych, s� niezwykle przydatne. Rzeczywi�cie sama nauka opiera si� na wnioskach indukcyjnych. Podczas gdy przed oko�o 1980 r. Uczenie maszynowe (reprezentowane g��wnie przez metody sieci neuronowej) by�o przez niekt�rych uwa�ane za margines sztucznej inteligencji, uczenie maszynowe sta�o si� ostatnio znacznie wa�niejsze we wsp�czesnej sztucznej inteligencji. Opisa�em ju� jeden przyk�ad, a mianowicie wykorzystanie sieci bayesowskich, kt�re s� automatycznie konstruowane z danych. Rozw�j r, pocz�wszy od lat 80. XX wieku, uczyni� uczenie maszynowe jedn� z najwa�niejszych ga��zi sztucznej inteligencji.

Uczenie si� oparte na pami�ci

Zwyk�ym podej�ciem sztucznej inteligencji do radzenia sobie z du�ymi ilo�ciami danych jest w pewien spos�b zmniejszenie ich ilo�ci. Na przyk�ad sie� neuronowa jest w stanie reprezentowa� to, co jest wa�ne w du�ej ilo�ci danych treningowych, wed�ug struktury sieci i warto�ci masy. Podobnie, uczenie si� sieci bayesowskiej na podstawie danych powoduje kondensacj� tych danych w strukturze w�z�a sieci i jej tabelach prawdopodobie�stwa warunkowego. Jednak nasze rosn�ce mo�liwo�ci przechowywania du�ych ilo�ci danych w pami�ci komputera o szybkim dost�pie i obliczania tych danych umo�liwi�y techniki, kt�re przechowuj� i wykorzystuj� wszystkie dane w razie potrzeby - bez wcze�niejszej kondensacji. Oznacza to, �e te techniki nie pr�buj� zmniejszy� ilo�ci danych, zanim zostan� one faktycznie wykorzystane do jakiego� zadania. Wszystkie niezb�dne redukcje, na przyk�ad decyzji, s� wykonywane w momencie podj�cia decyzji. W dalszej cz�ci opisz� niekt�re z tych metod uczenia si� opartych na pami�ci. Wspomnia�em ju� o metodach "najbli�szego s�siada" do klasyfikacji punktu w przestrzeni wielowymiarowej. Na przyk�ad "regu�a k-najbli�szego s�siada" przypisuje punkt danych do tej samej kategorii, co wi�kszo�� k przechowywane punkty danych, kt�re s� najbli�ej. Podobn� technik� mo�na zastosowa� do powi�zania warto�ci liczbowej (lub zestawu warto�ci) z punktem danych. Na przyk�ad mo�na przypisa� �redni� z przechowywanych warto�ci powi�zanych z najbli�szymi s�siadami nowy punkt. Ta wersja regu�y mo�e by� u�ywana w aplikacjach kontrolnych lub szacunkowych. Regu�a k-najbli�szego s�siada jest prototypowym przyk�adem uczenia si� opartego na pami�ci i wywo�uje kilka pyta� na temat mo�liwych rozszerze�. Po pierwsze, zastosowa� najbli�sze- regu�a s�siada (jak to ju� przedstawi�em), ka�dy punkt odniesienia musi by� list� liczb {punkt lub wektor w przestrzeni wielowymiarowej. o, jedno pytanie brzmi: "Jak przedstawi� dane tak, aby co� w rodzaju metody najbli�szego s�siada mo�na zastosowa�? "Po drugie, co to jest "odleg�o��" do zmierzenia mi�dzy punktami danych? Gdy dane s� reprezentowane przez punkty w przestrzeni wielowymiarowej, naturalnym wyborem jest zwyk�a odleg�o�� euklidesowa. Jednak nawet w takim przypadku zwykle "przeskalowuje si�" wymiary, aby nie przypisywa� nadmiernej wagi tym wymiarom, dla kt�rych dane s� bardziej "roz�o�one". Je�li dane nie s� reprezentowane jako punkty w przestrzeni, nale�y zastosowa� inny spos�b pomiaru "blisko�ci" danych. W zale�no�ci od formy danych zaproponowano kilka metod. Po trzecie, czy w�r�d najbli�szych punkt�w danych bli�sze wyniki powinny by� lepsze ni� odleg�e? Podstawow� metod� k-najbli�szego s�siada mo�na rozszerzy�, wa��c wa�no�� punkt�w danych w spos�b zale�ny od ich blisko�ci. Zwykle u�ywa si� czego� zwanego "j�drem", kt�re stopniowo zmniejsza wag� punkt�w danych, kt�re s� coraz dalej. Po czwarte, jaka powinna by� warto�� k? Ilu pobliskich s�siad�w wykorzystamy, podejmuj�c decyzj� w sprawie nowej cz�ci danych? C�, przy odpowiednim rodzaju j�dra mo�na wzi�� pod uwag� wszystkie punkty danych. Te, kt�re s� najdalej, po prostu mia�yby zerowy lub nieistotny wp�yw na decyzj�. Pytanie o to, jak� warto�� k do u�ycia zast�puje si� teraz pytaniem o to, jak daleko powinien rozci�ga� si� wp�yw j�dra. Wreszcie, po uwzgl�dnieniu wszystkich wa�onych s�siad�w, w jaki spos�b podejmujemy decyzj� lub przypisujemy warto�� liczbow� lub warto�ci? Powinno to by� w taki sam jak ten zwi�zany z wi�kszo�ci� g�os�w s�siad�w, a mo�e z jak�� "�redni�" wa�onych s�siad�w? W zale�no�ci od tego wyboru mo�na zaimplementowa� r�ne wersje tak zwanych metod regresji statystycznej. Andrew W. Moore i Christopher G. Atkeson (s� jednymi z pionier�w w opracowywaniu rozszerze� zasad k-najbli�szych s�siad�w i zastosowaniu tych rozszerze� do kilku wa�nych problem�w w eksploracji danych i kontroli robota. Eksperymenty w stosowaniu tych pomys��w do kontrolowania problem�w opisano w kilku artyku�ach. Jeden artyku�2 wspomina o sterowaniu robotycznym urz�dzeniem do gry w �onglerk� zwan� "trzymaniem diab�a". Opracowano system oparty na pami�ci, aby nauczy� si�, jak trzyma� kij w grze. Rysunek poni�ej pokazuje schemat �onglowania cz�owiekia

Przedstawiono r�wnie� konfiguracj� robot�w z niekt�rymi parametrami sensorycznymi i kontrolnymi.

Rozumowanie na podstawie przypadk�w

Dziedzin� sztucznej inteligencji, zwan� "rozumowaniem opartym na analizie przypadk�w" (CBR), mo�na postrzega� jako uog�lniony rodzaj uczenia si� opartego na pami�ci. W CBR przechowywana biblioteka "spraw" s�u�y do analizy, interpretacji i rozwi�zywania nowych spraw. Na przyk�ad w medycynie zapisy diagnostyczne i terapeutyczne dla pacjent�w stanowi� bibliotek� przypadk�w; po przedstawieniu nowego przypadku podobne przypadki mo�na pobra� z biblioteki, aby pom�c w diagnozowaniu i leczeniu. W prawie wcze�niejsze precedensy prawne s� stosowane w interpretacjach i decyzjach dotycz�cych nowych spraw (zgodnie z praktyk� prawn� stare decisis, kt�ra nakazuje rozstrzyganie spraw w oparciu o precedensy okre�lone w poprzednich sprawach). Przypadki podobne do nowego przypadku mo�na traktowa� jako "s�siad�w" w uog�lnionej "przestrzeni" przypadk�w. Aby odzyska� bliskich s�siad�w, idea blisko�ci w tej przestrzeni musi opiera� si� na pewnej mierze podobie�stwa. Jedna z pionier�w wnioskowania na podstawie przypadk�w, Janet Kolodner, profesor informatyki i kognitywistyki w Georgia Institute of Technology opisuje proces w nast�puj�cy spos�b: Dobrymi przypadkami [do pobrania] s� te, kt�re mog� potencjalnie poczyni� odpowiednie prognozy dotycz�ce nowego przypadku. Pobieranie odbywa si� za pomoc� funkcji nowej sprawy jako indeks�w w bibliotece spraw. Przypadki oznaczone przez podzbiory tych funkcji lub przez funkcje, kt�re mo�na uzyska� z tych funkcji, s� przywo�ywane. [Nast�pnie wybieramy spo�r�d tych] najbardziej obiecuj�c� spraw� lub sprawy do uzasadnienia…Czasami w�a�ciwe jest wybranie jednego najlepszego przypadku; czasami potrzebny jest ma�y zestaw. Gdy odzyskana sprawa (lub sprawy) jest przystosowana do zastosowania do nowej sprawy, mo�e nast�pnie (je�li si� powiedzie) zosta� zmieniona, tak aby cz�ci, kt�re mog� by� przydatne do rozwi�zywania problem�w w przysz�o�ci, mog�y zosta� zachowane w stale rosn�cej bibliotece spraw. Rozumowanie na podstawie przypadk�w ma swoje korzenie w modelu pami�ci dynamicznej Rogera Schanka. Wczesna praca zosta�a wykonana przez dw�ch doktorant�w Schanka, Janet Kolodner i Michaela Lebowitza. Innym wa�nym �r�d�em pomys��w na CBR s� pomys�y Minsky′ego na temat ram. Edwina Rissland, profesor na University of Massachusetts w Amherst i inny pionier CBR, pisze, �e jej praca CBR jest bezpo�rednim rozwini�ciem jej "pracy nad" ograniczonym generowaniem przyk�ad�w " … kt�ra modelowa�a budow� nowych (kontr) przyk�ad�w poprzez modyfikacj� istniej�cych wcze�niejszych "bliskich" przyk�ad�w (przedstawionych jako ramek) pobranych z sieci przyk�ad�w. "Rissland i jej uczniowie wnie�li istotny wk�ad w stosowanie CBR w prawie. Napisa�a, �e proces CBR jest czasami podsumowywany przez cztery" R ", Retrieve, Reuse, Revise, i Retain. Wed�ug strony internetowej prowadzonej przez Artficial Intelligence Applications Institute na University of Edinburgh, "Case-based Reasoning jest jedn� z najbardziej udanych stosowanych technologii sztucznej inteligencji w ostatnich latach. Aplikacje komercyjne i przemys�owe mo�na szybko opracowywa�, a istniej�ce bazy danych korporacyjnych mog� by� wykorzystywane jako �r�d�a wiedzy. Najpopularniejsze aplikacje to centra informacyjne i systemy diagnostyczne. "

Drzewa decyzyjne

Nast�pny na li�cie nowych osi�gni�� w uczeniu maszynowym jest automatyczna konstrukcja struktur zwanych "drzewami decyzyjnymi" z du�ych baz danych. Drzewa decyzyjne sk�adaj� si� z sekwencji test�w s�u��cych do okre�lenia kategorii lub warto�ci liczbowej do przypisania do rekordu danych. Drzewa decyzyjne s� szczeg�lnie odpowiednie do u�ycia z danymi nienumerycznymi i numerycznymi. Na przyk�ad baza danych personelu mo�e zawiera� informacje na temat dzia�u pracownika, na przyk�ad marketingu, produkcji lub ksi�gowo�ci. W j�zyku bazy danych takie elementy danych nazywane s� "kategorialnymi" (w celu odr�nienia ich od danych liczbowych). W tej sekcji opisz� te struktury, ucz�c si� metody ich automatycznego konstruowania oraz niekt�re z ich aplikacji.

Wyszukiwanie danych i drzewa decyzyjne

Eksploracja danych to proces uzyskiwania przydatnych informacji z du�ych baz danych. Rozwa�my na przyk�ad baz� danych na temat zachowania kart kredytowych przez ludzi. Mo�e to obejmowa� zapisy p�atno�ci, �rednie kwoty zakupu, op�aty za op�nienie, �rednie salda i tak dalej. Odpowiednie metody eksploracji danych mog� ujawni�, mi�dzy innymi, �e ludzie z wysokimi op�atami za p�ne op�aty, wysokimi �rednimi zakupami i innymi zidentyfikowanymi cechami zwykle wykazywali wysokie �rednie salda. Jedna wa�na metoda eksploracji danych wykorzystuje dane do konstruowania drzew decyzyjnych. Rozwa�my bardzo prost� baz� danych, aby zilustrowa� dzia�anie drzew decyzyjnych. Za��my, �e firma, powiedzmy Wal-Mart, utrzymuje baz� danych, w kt�rej przechowuje informacje o gospodarstwach domowych, do kt�rych wcze�niej wys�a� kupony rabatowe na niekt�re swoje produkty. Za��my, �e baza danych zawiera informacje o lokalizacji gospodarstwa domowego (miejskiego, podmiejskiego lub wiejskiego), rodzaju domu (ranczo lub wielopi�trowy), niezale�nie od tego, czy gospodarstwo domowe jest poprzednim klientem Wal-Mart, oraz czy gospodarstwo domowe jest, czy nie odpowiedzia� na kt�rykolwiek z poprzednich mailing�w z kuponami. (Oczywi�cie jest to tylko zmy�lony przyk�ad; w�a�ciwie nie wiem nic o prawdziwych bazach Wal-Mart.) Tabelaryczna reprezentacja takiej bazy danych wygl�da�aby tak:

Ka�dy wiersz w tabeli nazywany jest "rekordem". Przedmioty na g�rze ka�dej kolumny nazywa si� "atrybuty ", a elementy w kolumnie nazywane s�" warto�ciami "odpowiedniego atrybutu. Analiza tej bazy danych, metodami, kt�re wyja�ni� p�niej, mo�e ujawni�, �e drzewo decyzyjne pokazane poni�ej przechwytuje informacje o tym, kt�re gospodarstwa domowe odpowiedzia�y na wysy�k� kuponu, a kt�re nie.

Testy warto�ci atrybut�w przeprowadzane s� w wewn�trznych w�z�ach drzewa (w polach), a wyniki (niezale�nie od tego, czy pojawi�a si� odpowied�) znajduj� si� na ko�cach (lub li�ciach) drzewa (w owalach). Takie drzewo mo�e by� przydatne do prognozowania oczekiwanych odpowiedzi przed wys�aniem kolejnej wiadomo�ci. Opracowano metody automatycznego konstruowania (czyli uczenia si�) drzew decyzyjnych takich jak ten (i znacznie wi�ksze) automatycznie z du�ych baz danych.

Konstruowanie drzew decyzyjnych

A. EPAM

Prawdopodobnie najwcze�niejszy system do konstruowania drzew decyzyjnych zosta� opracowany pod koniec lat 50. XX wieku przez Edwarda Feigenbauma w ramach jego pracy doktorskiej. Rozprawa pod kierunkiem Herberta Simona z Carnegie Mellon University (w�wczas Carnegie Institute of Technology). Jego system nazywa� si� EPAM, skr�t od Elementary Perceiver and Memorizer. Celem bada� by�o "wyja�nienie i przewidzenie zjawiska [ludzkiego] uczenia si� werbalnego". Standardowy eksperyment psychologiczny do testowania tej umiej�tno�ci polega� na pokazaniu ludziom par nonsensownych sylab, takich jak DAX-JIR i PIB-JUX. Pierwszy cz�onek pary by� nazywany "bod�cem", a drugi "odpowiedzi�". Po kilkakrotnym zobaczeniu wielu takich par, pacjentowi nast�pnie pokazuje si� losowy bodziec i testuje jego zdolno�� do generowania prawid�owej odpowiedzi. Pary takie pokazano EPAM podczas "fazy uczenia si�". Uczenie si� polega�o na rozwijaniu czego�, co Feigenbaum nazwa� "sieci� dyskryminacyjn�" do przechowywania zwi�zk�w mi�dzy bod�cami i reakcjami. Sie� by�a tym, co teraz nazwaliby�my drzewem decyzyjnym z testami cech liter w wewn�trznych w�z�ach i odpowiedziami przechowywanymi na ko�cach lub li�ciach drzewa. W "fazie testowania" programu EPAM sylaba bod�ca bezsensownego zosta�a przefiltrowana przez testy w d� drzewa, a� do li�cia, w kt�rym (ma si� nadziej�) zachowano prawid�ow� odpowied�. Przyk�adow� sie� dyskryminacyjn� EPAM pokazano poni�ej

Okr�g�e w�z�y to testy, a w�z�y w ramkach to odpowiedzi. EPAM nie tylko skutecznie modelowa� w tym zakresie wydajno�� ludzi w zadaniu uczenia si� "w parze z partnerem", modelowa�o r�wnie� zapominanie. Feigenbaum stwierdzi�, �e "o ile wiemy, [EPAM] jest pierwsz� konkretn� demonstracj� tego rodzaju zapominania w maszynie ucz�cej si�". EPAM zosta� napisany w j�zyku przetwarzania list Carnegie, IPL-V. W rzeczywisto�ci funkcje przetwarzania list j�zyk�w, takich jak IPL-V, by�y wymagane do pisania program�w, kt�re mog�yby rozwija� drzewa decyzyjne. Nic wi�c dziwnego, �e EPAM by� pierwszym takim programem. Program Feigenbauma jest nadal uwa�any za istotny wk�ad zar�wno w teorie ludzkiej inteligencji, jak i badania AI. Simon, Feigenbaum i inni kontynuowali prace nad programami EPAM, kt�rych zwie�czeniem by� EPAM-VI, kodowany w IPL-V i dzia�aj�cy na PC.

B. CLS

Kolejn� znacz�c� prac� nad drzewami decyzyjnymi wykonano na Uniwersytecie Yale oko�o 1960 roku. Tam psycholog Carl I. Hovland i jego doktorat. ucze� Earl B. (Buz) Hunt opracowa� komputerowy model uczenia si� koncepcji cz�owieka. Po tym, jak Hovland zapad� na raka w 1961 roku, Hunt kontynuowa� prac� nad koncepcj� uczenia si� i wsp�pracowa� z Janet Marin i Philipem Stone′em przy opracowywaniu serii program�w edukacyjnych opartych na drzewie decyzyjnym o nazwie CLS, akronim od Concept Learning System. Hunt i jego koledzy potwierdzili powi�zan� wcze�niejsz� prac� nad EPAM. Przynajmniej dla cel�w AI systemy CLS wkr�tce zosta�y przy�mione przez inne systemy uczenia si� na drzewach decyzyjnych, a mianowicie ID3, CART i powi�zane programy.

C. ID3

J. Ross Quinlan opracowa� ID3, akronim dla iteracyjnego dychotomizera, pod koniec lat siedemdziesi�tych, kiedy by� na urlopie naukowym (z University of Sydney) w Stanford. (Nazwa pochodzi od faktu, �e program konstruowa� drzewa decyzyjne przez iteracyjne dzielenie zestaw�w rekord�w danych, a� mo�na je by�o sklasyfikowa� w jednej z dw�ch odr�bnych kategorii. P�niejsze wersje pozwoli�y na klasyfikacj� w wi�cej ni� dw�ch kategoriach, ale "D" utrzymywa�o si� w nazwie.) Quinlan by� wcze�niej doktorem (pierwszym w�a�ciwie) na Wydziale Informatyki Uniwersytetu Waszyngto�skiego, pracuj�cy w Earl Hunt. Quinlan wyja�ni� genez� ID3 w e-mailu:

"Usiad�em na kursie podanym przez Donalda Michie [odwiedzaj�cego w�wczas Stanforda] i zaintrygowa�o mnie zaproponowane przez niego zadanie, a mianowicie poznanie zasady decydowania o wyniku prostej gry w szachy. ID3 zacz�o si� od przekodowania CLS Buz [czyli Earla B. Hunta], ale zmieni�em niekt�re wewn�trzne elementy (takie jak kryterium podzia�u zestawu przypadk�w) i w��czy�em iteracyjne podej�cie, kt�re pozwoli�o ID3 na obs�ug� wtedy - ogromny zestaw 29 000 skrzynek treningowych."

Oto, w skr�cie, jak ID3 przyst�pi�oby do budowy drzewa decyzyjnego do przewidywania warto�ci atrybutu odpowiedzi przy u�yciu mojej rozbudowanej bazy danych Wal-Mart. Po pierwsze, ID3 szuka�by tego pojedynczego atrybutu, kt�ry m�g�by by� u�yty jako "najlepszy" test przy rozr�nianiu tych rekord�w danych o warto�ci "tak" dla atrybutu odpowiedzi od tych o warto�ci "nie". (B�d� mia� wi�cej do powiedzenia na temat tego, jak na chwil� okre�la si� "najlepsze"). �aden pojedynczy test nie dzieli danych idealnie, ale za��my, �e lokalizacja dzia�a lepiej ni� inne. W ko�cu w tym przyk�adzie wszystkie rekordy danych o warto�ci wiejskiej dla atrybutu lokalizacji ma warto�� "tak" dla atrybutu odpowiedzi, a �aden z nich nie ma warto�ci "nie". Za��my, �e przewaga (ale nie wszystkie) rekord�w danych o warto�ci podmiejskiej ma warto�� tak dla atrybutu odpowiedzi i �e przewaga (ale znowu nie wszystkie) rekord�w danych o warto�ci miejski ma warto�� nie dla atrybut odpowiedzi. Tak wi�c atrybut po�o�enia ma ca�kiem dobre (ale niedoskona�e) zadanie polegaj�ce na rozdzielaniu rekord�w danych w odniesieniu do atrybutu odpowiedzi. Test warto�ci atrybutu lokalizacji zosta�by zatem u�yty jako pierwszy test w drzewie decyzyjnym . Do tej pory podzieliliby�my baz� danych na trzy podzbiory, z kt�rych dwa maj� rekordy danych o mieszanych warto�ciach atrybutu odpowiedzi. Nast�pnie ID3 zastosowa�by t� sam� technik� podzia�u do ka�dego z tych dw�ch podzbior�w o mieszanej warto�ci, szukaj�c dla ka�dego z nich najlepszej nast�pnej funkcji do u�ycia jako testu. W tym prostym i raczej nierealistycznym przyk�adzie dwa testy, kt�re zosta�yby zastosowane, a mianowicie typ i klient, zapewni�yby "czyste" podzia�y (to znaczy te, kt�re nie maj� mieszanych warto�ci), a sko�czyliby�my ju� drzewem decyzyjnym pokazanym powy�ej. Gdyby podzia�y nie by�y czyste lub w inny spos�b nie do zaakceptowania, ID3 kontynuowa�by wybieranie test�w na wynikowych podzbiorach baz danych, dop�ki podzia�y nie dadz� czystych lub akceptowalnych wynik�w. Wyb�r atrybutu do przetestowania jest kluczowy w tworzeniu u�ytecznych drzew decyzyjnych. W swoim oryginalnym programie ID3 Quinlan zastosowa� miar� zwi�zan� z "dok�adno�ci�" wynikaj�cego z tego podzia�u przy okre�laniu, kt�rego atrybutu u�y� do testowania. W p�niejszych pracach u�y� miary zwanej "zdobywaniem informacji", kt�rej dok�adnej definicji nie b�d� tu wchodzi�, poza stwierdzeniem, �e jest to ten atrybut, kt�rego warto�ci przekazuj� najwi�cej 'informacji"o poszukiwanej kategoryzacji. Quinlan u�y� definicji Claude′a Shannona do mierzenia ilo�ci informacji. Jeszcze p�niej u�y� znormalizowanej miary zdobywania informacji, aby nie odchyla� si� na korzy�� test�w z wieloma wynikami. Zainteresowanie maszyn� symboliczn� Quinlana i innych by�a ukierunkowana g��wnie na uczenie si� tego rodzaju regu� na podstawie danych. Z drzewa decyzyjnego �atwo jest konstruowa� regu�y, �ledz�c testy w celu wygenerowania cz�ci "IF" i wykorzystuj�c wskaz�wki zawarte w cz�ci "THEN". Na przyk�ad w przyk�adzie bazy danych Wal-Mart mo�emy wywnioskowa� nast�puj�ce regu�y z drzewa decyzyjnego:

IF (location = suburban) and (type = ranch), THEN (response = no)
IF (location = suburban) and (type = multi-story), THEN (response = yes)
IF (location = rural), THEN (response = yes)
IF (location = urban) and (customer = yes), THEN (response = no)

IF (location = urban) and (customer = no), THEN (response = yes)

W pracy Quinlana w Stanford, ID3 by� w stanie wygenerowa� do�� du�e drzewa decyzyjne, a tym samym zestawy regu�, do przewidywania, czy pewne pozycje w szachach ko�cowych zako�cz� si� strat� dla czarnych. W przypadku problemu tego typu zasugerowanego przez Donalda Michie, ID3 u�y� dwudziestu atrybut�w (obejmuj�cych cechy pozycji kawa�k�w na planszy) i bazy danych 29 236 r�nych u�o�enia kawa�k�w, aby zbudowa� drzewo z 393 w�z�ami, kt�rych przewidywania by�y prawid�owe 99,74% . Jednym z problem�w, kt�rego nale�y unika� przy konstruowaniu drzew decyzyjnych, jest "przesadzanie", to znaczy wybieranie test�w na podstawie tak ma�ej ilo�ci danych, �e wyniki test�w nie wychwytuj� znacz�cych relacji w danych jako ca�o�ci. Bez wzgl�du na to, jak du�a jest oryginalna baza danych, je�li seria test�w ostatecznie wytworzy podzbi�r, kt�ry nadal nie jest czysty, ale zosta� zredukowany do zbyt ma�ej liczby rekord�w danych, ka�da pr�ba podzielenia tego podzbioru przekroczy�aby te dane, a zatem nie by�aby przydatna. Z tego powodu techniki uczenia si� drzewa decyzyjnego zazwyczaj zatrzymuj� budow� drzewa tu� przed podzbiorami danych, kt�re mia�yby zbyt ma�o rekord�w, ale nadal dawa�yby akceptowalne wyniki.

D. C4.5, CART i nast�pcy

Quinlan kontynuowa� prac� nad systemami do konstruowania drzew decyzyjnych, poprawiaj�c ich moc i mo�liwo�ci zastosowania. Powiedzia�, �e "ID3 jest do�� prosty - oko�o 600 linii PASCAL".Jego system C4.5 (kt�ry mia� oko�o 9 000 linii C) m�g� pracowa� z bazami danych, kt�rych atrybuty mia�y ci�g�e warto�ci liczbowe opr�cz tych kategorycznych. M�g� nawet radz� sobie z bazami danych, w kt�rych niekt�rych rekordach brakowa�o warto�ci niekt�rych atrybut�w. Na koniec dysponowano metodami poprawy og�lnej wydajno�ci poprzez przycinanie niekt�rych cz�ci drzewa i dla uproszczenia regu�y IF-THEN wywodz�ce si� z drzew. Firma komercyjna Quinlana, za�o�ona w 1983 roku, sprzedaje ulepszon� wersj� C4.5 o nazwie C5.0 (wraz z wersj� Windows o nazwie See5) . Donald Michie za�o�y� r�wnie� firm�, kt�ra niezale�nie opracowa�a komercyjn� wersj� ID3 o nazwie ACLS. Jednym ze znacz�cych post�p�w w uczeniu maszynowym w tym okresie by�a owocna wsp�praca mi�dzy lud�mi sztucznej inteligencji a statystykami, kt�rzy prowadzili fundamentalne, a tak�e badania stosowane w zakresie klasyfikacji, szacowania i prognozowania. Ka�da grupa uczy�a si� od drugiej, a uczenie maszynowe jest dla niej znacznie bogatsze. Chocia� w t� wsp�prac� zaanga�owanych by�o kilka os�b, m�g�bym wspomnie� w szczeg�lno�ci statystyka Stanforda, Jerome′a Friedmana, kt�ry rozpocz�� wsp�prac� z niekt�rymi doktoratami AI ze Stanford. Po swojej wcze�niejszej pracy nad konstrukcj� drzewa decyzyjnego Friedman, we wsp�pracy z Leo Breimanem, Richardem Olshenem i Charlesem Stoneem, pom�g� opracowa� system o nazwie CART, akronim dla drzew klasyfikacyjnych i drzew regresji. CART ma wiele funkcji z C4. 5 (i w rzeczywisto�ci C4.5 zastosowa� techniki CART do radzenia sobie z atrybutami liczbowymi). Systemy uczenia drzew decyzyjnych zosta�y zastosowane do szerokiej gamy problem�w eksploracji danych

E. Programowanie logiki indukcyjnej

Wyra�one w j�zyku logiki zda�, JE�ELI {NAST�PNIE regu�y utworzone z drzew decyzyjnych maj� posta� P1 ∧ P2∧… PN → P. P i Q to zdania bez wewn�trznej struktury. Wcze�niej m�wi�em o rachunku predykat�w, w kt�rym zdania, zwane predykatami, mia�y wewn�trzne argumenty. W tym j�zyku mo�na mie� znacznie bardziej wyraziste regu�y, takie jak ∀ (x , y, z) [Ojciec (x; y) ∧ Rodze�stwo (z , y) → Ojciec (x; z)], na przyk�ad. Opracowano kilka technik uczenia si� tego rodzaju regu� "relacyjnych" z baz danych i innych "wiedzy podstawowej". (Wspomnia�em wcze�niej pokrewny temat, mianowicie uczenie si� "probabilistycznych modeli relacyjnych", kt�re s� wersjami sieci bayesowskich, kt�re dopuszcza�y predykaty ze zmiennymi.) Jeden ze wczesnych system�w uczenia si� regu� relacyjnych zosta� opracowany przez Quinlan i nazywa� si� FOIL. Poniewa� wyuczone regu�y maj� t� sam� form�, co instrukcje w j�zyku komputerowym PROLOG (j�zyk oparty na logice), dziedzina po�wi�cona nauce tych regu� nazywa si� " Indukcyjnym programowaniem logicznym"(ILP). Chocia� metody ILP wykorzystuj� aparat logiczny zbyt skomplikowany, bym m�g� tu wyja�ni�, niekt�re z nich maj� �cis�y zwi�zek z konstrukcj� drzewa decyzyjnego. Istnieje kilka zastosowa� ILP, w tym nauka zasad relacyjnych dla aktywno�� leku, w przypadku struktury drugorz�dowej bia�ka i projektowania siatki elementarnej. S� to wszystkie przyk�ady tego, co mo�na nazwa� "eksploracj� danych relacyjnych"

Sieci neuronowe

W latach 60. XX wieku badacze sieci neuronowych stosowali r�ne metody zmiany regulowanych wag sieci, dzi�ki czemu ca�a sie� reagowa�a odpowiednio na zestaw danych wej�ciowych "szkoleniowych". Na przyk�ad Frank Rosenblatt w Cornell skorygowa� warto�ci masy w warstwie ko�cowej tego, co nazwa� tr�jwarstwowym perceptronem alfa. Bill Ridgway (jeden ze student�w Bernarda Widrowa ze Stanford) dostosowa� wagi w pierwszej warstwie, kt�r� nazwa� MADALINE. Mieli�my podobny schemat dostosowywania ci�ar�w w pierwszej warstwie maszyn sieci neuronowych MINOS II i MINOS III w SRI. Inni stosowali r�ne techniki statystyczne do ustalania warto�ci masy. Ale wszystkim nam przeszkodzi�o to, jak zmieni� wagi w wi�cej ni� jednej warstwie sieci wielowarstwowych.

Algorytm Backprop

Problem ten zosta� rozwi�zany w po�owie lat 80. XX wieku dzi�ki wynalezieniu techniki zwanej "propagacj� wsteczn�" (w skr�cie backprop) wprowadzonej przez Davida Rumelharta, Geoffreya E. Hintona i Ronalda J. Williamsa. Podstawowa idea backprop jest prosta, ale matematyka (kt�r� pomin�) jest raczej skomplikowana. W odpowiedzi na b��d na wyj�ciu sieci, backprop dokonuje niewielkich korekt we wszystkich wagach, aby zmniejszy� ten b��d. Mo�na j� traktowa� jako metod� wspinaczki (a raczej zej�cia w d�)-szukanie niskich warto�ci b��du w krajobrazie ci�ar�w. Ale zamiast wypr�bowa� wszystkie mo�liwe niewielkie zmiany masy i zdecydowa�, kt�ry zestaw odpowiada stromemu zjazdowi, backprop u�ywa rachunku r�niczkowego do obliczenia najlepszego zestawu zmian masy. Czytelnicy, kt�rzy pami�taj� troch� rachunku r�niczkowego (lub by� mo�e liceum), nie b�d� mieli problem�w z przypomnieniem sobie, �e mo�na go u�y� do obliczenia nachylenia krzywej lub powierzchni. B��d na wyj�ciu sieci neuronowej mo�na traktowa� jako funkcj� ci�aru sieci, to znaczy powierzchni w "przestrzeni wagowej". T� funkcj� mo�na zapisa� i "zr�nicowa�" (operacj� w rachunku r�niczkowym) w odniesieniu do ci�ar�w, aby uzyska� zestaw zmian ci�aru, kt�re poprowadz� nas w d� w najbardziej stromym kierunku. Problem z implementacj� tego pomys�u w prosty spos�b dla sieci neuronowych polega na tym, �e sieci te maj� "progi", kt�rych efektem jest wype�nienie powierzchni b��du nag�ymi "klifami". (Wyj�cia sieci z progami mog� zmienia� si� z 1 na 0 lub z 0 na 1 z niesko�czenie ma�ymi zmianami niekt�rych warto�ci masy.) Operacje rachunku r�niczkowego wymagaj� p�ynnie zmieniaj�cych si� powierzchni i s� frustrowane przez klify. Rumelhart i wsp�pracownicy poradzili sobie z tym problemem, zast�puj�c progi komponentami, kt�rych dane wyj�ciowe mog� zmienia� si� tylko p�ynnie, mimo �e zmieniaj� si� do�� gwa�townie, aby sie� mog�a wykona� mniej wi�cej to samo co sie� z progami. Dzi�ki tym zamianom mo�na zastosowa� rachunek r�niczkowy i ca�kowy do propagacji funkcji b��du (od wyj�cia do wej�cia) w sieci, aby obliczy� najlepszy zestaw zmian warto�ci wagi we wszystkich warstwach sieci. Chocia� ten proces zerowania dopuszczalnych warto�ci masy jest powolny, zosta� zastosowany z imponuj�cymi wynikami w przypadku wielu problem�w zwi�zanych z uczeniem si� sieci neuronowej. Dlaczego o tym nie pomy�leli�my? W rzeczywisto�ci niekt�rzy ludzie najwyra�niej wymy�lili podobny pomys�, zanim Rumelhart i jego koledzy to zrobili. Prawdopodobnie najwcze�niej Arthur E. Bryson Jr. i Y. C. Ho zastosowali iteracyjne metody gradientu do rozwi�zania r�wna� Eulera -Lagrange′a. Paul Werbos, zaproponowa� r�wnie� b��dy propagacji wstecznej w celu trenowania wielowarstwowych sieci neuronowych. Podobnie jak w przypadku wszystkich lokalnych technik wyszukiwania, backprop mo�e utkn�� na jednym z lokalnych minim�w powierzchni b��du. Oczywi�cie proces uczenia si� mo�na powtarza�, zaczynaj�c od r�nych warto�ci pocz�tkowych wag, aby spr�bowa� znale�� ni�sz� (lub by� mo�e najni�sz�) warto�� b��du. W ka�dym razie metoda backprop jest nadal, jak napisa� Laveen Kanal w 1993 roku, prawdopodobnie najbardziej rozpowszechniona og�lna procedura szkolenia sieci neuronowych w zakresie klasyfikacji wzorc�w. "Metody uczenia sieci neuronowej zosta�y zastosowane w r�nych obszarach, w tym w kontroli samolot�w, wykrywaniu oszustw zwi�zanych z kartami kredytowymi, rozpoznawaniu waluty w automatach i eksploracji danych.

NETtalk

Jednym z bardzo interesuj�cych zastosowa� metody uczenia si� z wykorzystaniem metody backprop by�o opracowane przez Terrence'a J. Sejnowskiego i Charlesa Rosenberga . Nauczyli sieci neuronowej m�wi�! W jednym ze swoich eksperyment�w ich system, zwany NETtalk, nauczy� si� czyta� tekst, kt�ry zosta� przepisany z nieformalnej, ci�g�ej mowy sze�cioletniego dziecka i wytwarza� d�wi�k (brzmia� wyj�tkowo jak u dziecka). Sie� mia�a 203 jednostek wej�ciowych zaprojektowanych do kodowania ci�gu siedmiu list. Tekst by� przesy�any strumieniowo przez te siedem jednostek litera po literze. By�o 80 "ukrytych jednostek", kt�re by�y pod��czone do wej�� za pomoc� regulowanych obci��nik�w. Spodziewano si�, �e ukryte jednostki b�d� tworzy� wewn�trzne reprezentacje odpowiednie do rozwi�zania problemu odwzorowania liter na fonemy. "By�y jednostki wyj�ciowe, kt�re mia�y wytwarza� zakodowane wersje fonem�w, podstawowe jednostki d�wi�k�w mowy. Jednostki wyj�ciowe zosta�y po��czone z ukrytymi jednostkami za pomoc� dodatkowych regulowanych ci�ar�w. (��cznie by�o 18 629 regulowanych ci�ar�w). W ko�cu kody fonemiczne zosta�y przekazane do komercyjnego syntezatora mowy w celu uzyskania s�yszalnego sygna�u wyj�ciowego. Sie� by�a szkolona przez por�wnywanie, za ka�dym razem, fonemiczny kod w jednostkach wyj�ciowych w stosunku do tego, jaki powinien by� kod dla wprowadzania tekstu w tym kroku czasu. Backprop zosta� u�yty do zmodyfikowania wag w taki spos�b, aby zmniejszy� ten b��d. Autorzy twierdz�, �e "w ci�gu kilku dni mo�na by�o wytrenowa� sie� z siedmioliterowym oknem." (Pami�taj, �e komputery by�y znacznie wolniejsze w 1987 r.) Doszli do wniosku, �e "og�lnie zrozumia�o�� mowy by�a ca�kiem dobra" i �e "im wi�cej s��w uczy si� sie�, tym lepiej jest uog�lnia� i poprawnie wymawia� nowe s�owa." Po treningu na korpusie 1024 s��w sie� zosta�a przetestowana [bez dalszego szkolenia] na kontynuacji 439 s��w od tego samego m�wcy . Wydajno�� wynios�a 78%, co wskazuje, �e du�a cz�� nauki zosta�a przeniesiona na nowe s�owa nawet po ma�ej pr�bce angielskich s��w. "Opr�cz okre�lonej sieci przeprowadzono r�wnie� eksperymenty w sieciach z bardziej ukrytymi z dwiema warstwami jednostek ukrytych. Og�lnie rzecz bior�c, wi�ksze sieci dzia�a�y lepiej.

ALVINN

Kolejna aplikacja sieci neuronowej, ta do sterowania furgonetk�, zosta�a opracowana przez doktora Deana Pomerleau, student Carnegie Mellon University. System, kt�ry obejmowa� furgonetk�, kamer� telewizyjn� do patrzenia na drog� przed sob� oraz aparat interfejsu, nazywa� si� ALVINN, skr�t od Autonomous Land Vehicle in a Neural Network. ALVINN wykorzysta� pojazd CMU Navlab, kt�ry zosta� zbudowany na podwoziu samochodu dostawczego z nap�dem hydraulicznym i elektrycznym uk�adem kierowniczym. Wed�ug artyku�u CMU: "Komputery mog� sterowa� i prowadzi� furgonetk� za pomoc� serwomechanizm�w elektrycznych i hydraulicznych lub kierowca mo�e przej�� kontrol� nad jazd� do miejsca testowego lub pomin�� komputer". Dane wej�ciowe do sieci neuronowej ALVINN stanowi�a tablica warto�ci nat�enia obrazu w skali szaro�ci 30x32 o niskiej rozdzielczo�ci 30x32 wytwarzana przez kamer� wideo zamontowan� na dachu furgonetki. Ka�de z tych 960 wej�� by�o pod��czone do ka�dego z czterech ukrytych jednostek dzi�ki regulowanym ci�arkom. Z kolei jednostki ukryte zosta�y po��czone z lini� 30 jednostek wyj�ciowych od lewej do prawej za pomoc� regulowanych wag. Jednostki wyj�ciowe sterowa�y mechanizmem steruj�cym furgonetki w nast�puj�cy spos�b: �rodkowa jednostka wyj�ciowa reprezentuje warunek "jazdy na wprost", podczas gdy jednostki na lewo i prawo od �rodka reprezentuj� kolejno ostrzejsze skr�ty w lewo i prawo. Jednostki po skrajnej lewej i prawej stronie wektora wyj�ciowego reprezentuj� zwoje o promieniu 20 m odpowiednio w lewo i w prawo, a jednostki pomi�dzy reprezentuj� zwoje, kt�re zmniejszaj� si� liniowo w swojej krzywi�nie do jednostki �rodkowej "na wprost".…Kierunek sterowania podyktowany przez sie� jest uwa�any za �rodek masy "wzg�rza" aktywacji otaczaj�cej jednostk� wyj�ciow� o najwy�szym poziomie aktywacji. U�ywaj�c �rodka masy aktywacji zamiast najbardziej aktywnej jednostki wyj�ciowej podczas okre�lania w ten spos�b kierunku kierowania pozwala na korekty kierownicy dla poprawy dok�adno�ci jazdy ALVINN. Istniej� r�ne wersje ALVINN. W jednym szkolenie sieci by�o "w locie", co oznacza, �e sie� by�a szkolona w czasie rzeczywistym, gdy van kierowany by� przez ludzkiego kierowc� r�nymi drogami i �cie�kami. Po��dany k�t skr�tu zosta� wybrany przez kierowc�, a ci�ary sieci zosta�y skorygowane za pomoc� korekcji tylnej, aby spr�bowa� na�ladowa� wydajno�� kierowcy. Jednym z problem�w zwi�zanych z t� metod� by�o to, �e sie� nigdy nie by�a nara�ona na mo�liwe obrazy "zej�cia z drogi". Do zestawu treningowego dodano symulacje tego, jak wygl�da�yby takie obrazy (oznaczone w tych przypadkach k�tem skr�tu). Podsumowuj�c typowy test wydajno�ci ALVINN, Pomerleau napisa�:" Ponad trzy przebiegi, sie� jedzie z pr�dko�ci� 5 mil na godzin� wzd�u� 100-metrowego odcinka testowego �rednia pozycja pojazdu wynosi�a 1,6 cm na prawo od �rodka, przy standardowym odchyleniu 7,2 cm. Pod kontrol� cz�owieka �rednia pozycja pojazdu wynosi�a 4,0 cm na prawo od �rodka, ze standardowym odchyleniem 5,47 cm."

Carnegie Mellon's Robotics Institute kontynuowa� (i nadal kontynuuje) prace nad pojazdami autonomicznymi, chocia� podej�cie sieci neuronowej do sterowania za pomoc� obrazu zosta�o zast�pione przez bardziej niezawodne algorytmy widzenia komputerowego. Ich system postrzegania wizualnego RALPH z 1995 r. (Akronim oznaczaj�cy funkcj� szybkiego dostosowywania pozycji bocznej) wykorzystywa� specjalne procedury przetwarzania obrazu w celu okre�lenia krzywizny granicy drogi. Wed�ug Pomerleau: "RALPH by� w stanie zlokalizowa� drog� i samodzielnie kierowa� na r�nych rodzajach dr�g w wielu r�nych warunkach. RALPH przejecha� naszym pojazdem testowym Navlab 5 ponad 3000 mil po drogach od �cie�ek rowerowych jednopasmowych, po wiejskie autostrady, do autostrad mi�dzystanowych ". Latem 1995 r. Jeden z ich specjalnie wyprofilowanych pojazd�w, Pontiac Trans Sport z 1990 r. (Navlab 5) przekazany przez Delco Electronics, kierowa� autonomicznie (za pomoc� RALPH) na 2779 z 2849 mil z Pittsburgha do San Diego w Kalifornii. (Tylko kierowanie by�o autonomiczne {doktorant z Pomerleau i doktor Todd Jochem obs�ugiwa� przepustnic� i hamulec.) �rednia pr�dko�� wynosi�a ponad 60 mil na godzin�

Uczenie si� bez nadzoru

Drzewo decyzyjne i metody uczenia sieci neuronowej opisane do tej pory s� przyk�adami "uczenia nadzorowanego", "rodzaju uczenia si�, w kt�rym pr�buje si� nauczy� klasyfikowa� dane z du�ej pr�bki danych szkoleniowych, kt�rych klasyfikacje s� znane." nadz�r ", kt�ry kieruje uczeniem si� w tych systemach, polega na informowaniu systemu o klasyfikacji ka�dej bazy danych w zestawie szkoleniowym. Jednak czasami mo�liwe jest zbudowanie u�ytecznych klasyfikacji danych na podstawie samych danych. Techniki do tego celu podlegaj� nag��wek "nauka bez nadzoru". Za��my , �e mamy zestaw nieznakowanych punkt�w pr�bnych, takich jak te pokazane na rysunku

Czy mo�na si� czego� nauczy� z takich danych? Po ogl�dzinach widzimy, �e punkty wydaj� si� by� rozmieszczone w trzech grupach. By� mo�e ka�dy klaster zawiera punkty, kt�re mo�na uzna� za nale��ce do tej samej kategorii. Tak wi�c, gdyby�my mogli automatycznie przetwarza� pr�bki danych w celu identyfikacji klastr�w i granic mi�dzy nimi, mieliby�my metod� uczenia si� bez nadzoru. Badacze AI zastosowali kilka metod identyfikacji klastr�w pr�bek treningowych. Popularnym i �atwym do wyja�nienia jest tak zwana metoda k-�rednich. Dzia�a poprzez powtarzanie nast�puj�cych krok�w:

1. Zainstaluj, by� mo�e w przypadkowych lokalizacjach, pewn� liczb�, powiedzmy k, "poszukiwaczy klastr�w" w przestrzeni pr�bek.
2. Dla ka�dego z tych os�b poszukuj�cych klastra zgrupuj pr�bki szkoleniowe, kt�re s� do niego bli�sze ni� dla innych os�b poszukuj�cych klastra.
3. Oblicz centroid ("�rodek ci�ko�ci") ka�dej z tych grup pr�bek.
4. Przenie� ka�dego z poszukiwaczy gromad do �rodka ci�ko�ci odpowiedniej grupy.
5. Powtarzaj te kroki, a� �adna osoba poszukuj�ca klastra nie b�dzie musia�a zosta� ponownie przeniesiona.

Pod koniec tego procesu osoby poszukuj�ce klastra b�d� znajdowa� si� w �rodkach grup pr�b szkoleniowych, kt�re mo�na uzna� za klastry lub oddzielne kategorie danych. Teraz, aby sklasyfikowa� jaki� nowy punkt danych, kt�rego nie ma w zestawie szkoleniowym, po prostu obliczamy, do kt�rego poszukiwacza klastra jest najbli�ej. Proces zale�y oczywi�cie od mo�liwo�ci odgadni�cia liczby klastr�w, k. Metody tego polegaj� na og� na dostosowaniu ich liczby, tak aby punkty w klastrach by�y bli�ej siebie ni� odleg�o�ci mi�dzy klastrami. Statystycy i inni opracowali kilka metod grupowania danych, w tym wariacje zwi�zane z metod� k-�rednich. Jedna wybitna technika AutoClass zosta�a opracowana przez Petera Cheesemana i wsp�pracownik�w z NASA. Wed�ug strony internetowej o AutoClass, AutoClass pobiera baz� danych przypadk�w opisan� przez kombinacj� rzeczywistych i dyskretnych atrybut�w i automatycznie wyszukuje naturalne klasy w tych danych. Nie trzeba m�wi�, ile klas jest obecnych ani jak wygl�daj� - wyci�ga te informacje z samych danych. Klasy s� opisane probabilistycznie, dzi�ki czemu obiekt mo�e mie� cz�ciowe cz�onkostwo w r�nych klasach, a definicje klas mog� si� nak�ada�. AutoClass s�ynie z odkrycia nowej klasy gwiazd w podczerwieni. Odkry� tak�e nowe klasy bia�ek, intron�w i innych wzor�w w danych sekwencji DNA / bia�ek. Istniej� nawet techniki, kt�re mo�na zastosowa� do danych nienumerycznych. Statystycy grupuj� wszystkie te metody (numeryczne i nienumeryczne) pod og�lnym nag��wkiem "analiza skupie�". Podr�cznik Dudy, Harta i Bociana zawiera obszern� dyskusj� na temat uczenia si� bez nadzoru (a tak�e innych temat�w w klasyfikacji danych).

Nauka wzmocnienia

Nauka optymalnych zasad

Istnieje inny styl uczenia si�, kt�ry le�y nieco pomi�dzy odmian� nadzorowan� i nienadzorowan�. Przyk�adem mo�e by� nauka, kt�re z kilku mo�liwych dzia�a�, na przyk�ad, robot powinien wykona� na ka�dym etapie w ci�g�ej sekwencji do�wiadcze�, bior�c pod uwag� tylko ostateczny wynik wszystkich jego dzia�a�. Ekstremalnym przypadkiem by�aby nauka doskona�ej gry w szachy, bior�c pod uwag� tylko informacje o wygranej lub przegranej pod koniec gry. Nie zbudowano jeszcze systemu, kt�ry m�g�by nauczy� si� gra� w szachy w ten spos�b, ale program mo�e nauczy� si� gra� w backgammon w ten spos�b i nauczy� si� wykonywania innych interesuj�cych zada�, takich jak kontrolowanie walki �mig�owc�w. Po�yczaj�c terminy z psychologicznej teorii uczenia si�, mo�emy nazwa� informacje o wygranych lub przegranych (lub og�lnie informacje o dobrych lub z�ych wynikach) "nagrod�" lub "wzmocnieniem", a ten styl uczenia si� nazywa si� "uczeniem wzmacniaj�cym" lub (czasami) "uczenie si� metod� pr�b i b��d�w". Nauka wzmacniana ma d�ug� i zr�nicowan� histori�. Psycholog Edward L. Thorndike bada� ten styl uczenia si� na zwierz�tach. W swojej ksi��ce "Reinforcement Learning: An Introduction", Richard S. Sutton i Andrew G. Barto , dwaj pionierzy tego pola, wspominaj� o kilku historycznych kamieniach milowych, w tym metodzie Arthura Samuela do uczenia si� funkcji oceny w warcabach, wykorzystanie dynamicznych technik programowania Richarda Bellmana w optymalnej kontroli, system uczenia si� metod� pr�b i b��d�w Johna Andreaea STeLLA, systemy uczenia Donalda Michie do gry w k�ko i krzy�yk (MENACE) i r�wnowa�enia biegun�w ( BOXE) oraz praca A. Harry'ego Klopfa nad neuronami hedonistycznymi. "Uczenie si� przez wzmocnienie jest kolejn� z tych subdyscyplin sztucznej inteligencji, kt�ra sta�a si� wysoce techniczna i wielorozga��ziona. Spr�buj� delikatnego i niematematycznego opisu tego, jak to dzia�a. W najprostszym ustawienie, uczenie si� ze wzmocnieniem polega na nauczeniu si� przechodzenia przez zbi�r stan�w, przechodzenia od jednego stanu do drugiego itd., aby osi�gn�� stan, w kt�rym otrzymuje si� nagrod�. Problem jest podobny do tego, z kt�rym mierzy si� szczur w nauce prowadzenia labiryntu (lub robota, z kt�rym robot ma si� zmierzy� podczas nauki jak wykona� zadanie). W rzeczywisto�ci wykorzystajmy przyk�ad labiryntu do opisania niekt�rych aspekt�w uczenia si� przez wzmocnienie. Typowy labirynt pokazano tu

Problemem szczura jest przej�cie z pozycji pocz�tkowej do sera w pozycji bramkowej. Szare kropki maj� na celu zobrazowanie sytuacji, w kt�rych szczur m�g�by si� znale�� i rozpozna�. W terminologii uczenia wzmacniaj�cego sytuacje te nazywane s� "stanami". W ka�dym stanie szczur mo�e wybiera� spo�r�d, powiedzmy, czterech dzia�a�, mianowicie skr�� w lewo, skr�� w prawo, id� do przodu lub do ty�u. W zale�no�ci od stanu mo�liwe s� tylko niekt�re dzia�ania - na przyk�ad nie mo�na i�� naprz�d, gdy stoi si� w �lepym zau�ku. Ka�de mo�liwe dzia�anie przenosi szczura z jednego stanu do s�siedniego w labiryncie. Zbi�r stan�w i ��cz�ce je dzia�ania mo�na traktowa� jako wykres, podobny do tych, kt�re om�wi�em, gdy m�wi�em o metodach wyszukiwania. Aby nie oddali� si� zbytnio od tego, co wiadomo o prawdziwych szczurach biegn�cych w labiryncie, przejd�my teraz do opisu, w jaki spos�b funkcjonalny "robot-szczur" mo�e nauczy� si� prowadzi� ten labirynt. G��wnym problemem dla robota jest to, �e zaczyna si� od braku mapy labiryntu i nie ma poj�cia o skutkach swoich dzia�a�. Oznacza to, �e dla ka�dego stanu, w kt�rym si� on znajduje, nie wie, kt�re nast�pne stany przynios�yby dla r�nych dzia�a�, kt�re m�g�by podj�� w tym stanie. Gdyby bowiem mia� tak� map�, powiedzmy reprezentowan� przez wykres, m�g�by przeszuka� wykres (przy u�yciu metody takiej jak A*) w celu znalezienia �cie�ki do w�z�a celu. Jednym ze sposob�w jest pr�ba nauczenia si� wykresu stan�w i ich po��cze� metodami pr�b i b��d�w, a nast�pnie zastosowania metod wyszukiwania graf�w, aby dowiedzie� si�, jak porusza� si� po labiryncie. Alternatyw� i t� stosowan� w wi�kszo�ci metod uczenia si� przez zbrojenie jest nazywanie wszystkich stan�w napotykanych przez robota, kt�ry b��ka si� losowo w poszukiwaniu celu. (Zak�adamy, �e ostatecznie osi�gnie cel.) W terminologii uczenia si� wzmacniaj�cego "polityka" prowadzenia labiryntu ��czy pewne pojedyncze dzia�anie z ka�dym nazwanym stanem. Najlepsza lub "optymalna polityka" kojarzy�aby z ka�dym stanem to dzia�anie, kt�re prowadzi�oby do najkr�tszej (lub w inny spos�b najmniej kosztownej) �cie�ki przez labirynt. Uczenie si� przez wzmocnienie polega na uczeniu si� najlepszej polityki, a przynajmniej dobrej polityki. Jedn� z metod uczenia si� zasad jest powi�zanie"wyceny " z ka�d� mo�liw� akcj� w ka�dym stanie, a nast�pnie dostosowuj�c te liczby (w oparciu o do�wiadczenie), a� wska�� drog� do celu. Ta metoda nazywa si� "Q-learning" i zosta�a pierwotnie zasugerowana przez Christophera Watkinsa w jego doktoracie na Uniwersytecie Cambridge. Teza,�e Robot rozpoczyna proces uczenia si�, przypisuj�c nazw� do stanu, w kt�rym si� rozpoczyna, i przypisuj�c losowo wybrane numery wyceny do ka�dej akcji, jak� mo�e podj�� w tym stanie. Proces uczenia si� rozszerzy t� tabel�, przypisuj�c nazwy i numery wyceny wszystkich dzia�a�, kt�re mo�e podj�� w ka�dym napotkanym nowym stanie. (Zak�adamy, �e robot pami�ta w swojej tabeli nazwy wszystkich stan�w, kt�re ju� odwiedzi� w procesie uczenia si�, i odr�nia je od nowych stan�w.) Stan pocz�tkowy robota, z losowo wybranym numerem wyceny przypisanym do jego jedynego dzia�ania mo�liwe, pokazano na szkicu po lewej stronie rysunku

Na ka�dym etapie procesu uczenia si� robot podejmuje t� akcj�, maj�c najwy�szy numer wyceny. Poniewa� w pocz�tkowym stanie robota jest tylko jedna akcja, wykonuje ona t� czynno��, wprowadza si� w nowy stan i przypisuje losowe liczby wycen do mo�liwych akcji nowy stan. Ten krok pokazano na �rodkowym szkicu z rysunku powy�ej. Teraz jest kluczowy krok w nauce. Poniewa� robot "teraz" wie, �e mo�e osi�gn�� nowy stan, maj�c dzia�ania, kt�rych najwy�szy numer wyceny to 6, aktualizuje numer wyceny, a mianowicie 3, akcji prowadz�cej do tego stanu, dostosowuj�c go do liczby bardziej sp�jnej z byciem jest w stanie podj�� dzia�anie, kt�re wed�ug niego jest warte 6. Aby uwzgl�dni� "koszt" w�a�nie zako�czonej akcji, dostosowanie 3 nie idzie a� do 6, ale tylko do 5, powiedzmy. Wynik pokazano na prawym szkicu z rysunku powy�ej, na kt�rym skorygowana wycena jest nieco wi�ksza ni� inne liczby i zacieniowana i ten proces trwa. W ka�dym stanie podejmij dzia�anie, kt�rego numer wyceny jest najwi�kszy, a nast�pnie dostosuj ten numer wyceny, przybli�aj�c jego warto�� do warto�ci dzia�ania o najwy�szym numerze wyceny we w�a�nie wprowadzonym stanie. I chocia� proces rozpoczyna si� od losowo wybranych liczb wyceny, ostatecznie proces pr�b i b��d�w potknie si� do stanu docelowego, w kt�rym zostanie uzyskana wysoka "nagroda". Na tym etapie w�a�nie podj�ta akcja, kt�ra doprowadzi�a do tego nagrody, ma warto�� wyceny podniesion� do tej samej warto�ci (lub mo�e nieco mniejszej) ni� warto�� nagrody.

Szkic po lewej stronie przyrz�du pokazuje niekt�re stany i warto�ci akcji w momencie, gdy robot podejmuje akcj�, kt�ra osi�ga cel. Na szkicu po prawej stronie przyrz�du pokazuj� skorygowan� wycen� (zacieniowan�) dla tego dzia�ania zmierzaj�cego do osi�gni�cia celu. Teraz po raz pierwszy , wycena akcji opiera si� na zdobyciu nagrody, a nie jest ustalana losowo. Je�li robot kiedykolwiek znajdzie si� w stanie s�siaduj�cym ze stanem celu, z pewno�ci� podejmie t� sam� akcj�. Co wa�niejsze, kiedy osi�gnie ten przedostatni stan w kolejnym do�wiadczeniu, propaguje t� warto�� opart� na nagrodach wstecz.

Za��my, �e na szkicu po lewej robot znajduje si� w stanie zaznaczonym strza�k�. Z tego stanu podejmuje t� akcj� z najwi�ksz� wycen�, kt�ra prowadzi j� do stanu s�siaduj�cego z celem. Akcja o najwi�kszej wycenie prowadz�cej z tego stanu ma wycen� 99, wi�c wycena w�a�nie wykonanej akcji zmienia si� z 11 na 98, jak pokazano na szkicu po prawej stronie. Zwi�kszenie wycen dzia�a� w stanach zbli�onych do celu poprzez propagacj� wsteczn� powoduje, �e stany te z natury "nagradzaj�" tak, jakby by�y stanami docelowymi. Bystry czytelnik mo�e narzeka�, �e sprytnie ustawi�em "losowe" warto�ci wyceny na warto�ci, kt�re doprowadzi�yby do celu, gdy robot osi�gnie stan zbli�ony do celu. Co by by�o, gdyby warto�ci te by�y takie, jakie najprawdopodobniej by�yby, �e po zbli�eniu si� robot oddali� si� od prawie osi�gni�tego celu? Je�li liczby wyceny zostan� skorygowane zgodnie z zaleceniami, zawsze bior�c pod uwag� koszt ruchu, ma�a my�l przekona jednego, �e ostatecznie liczby b�d� takie, aby zmusi� robota do osi�gni�cia celu, a wszystkie inne drogi ostatecznie zostan� zamkni�te . Dzi�ki ci�g�emu do�wiadczeniu wyceny dzia�a� zwi�zanych z osi�ganiem celu stopniowo propaguj� si� wstecz od celu. Ostatecznie, po wielu do�wiadczeniach zwi�zanych z pr�bami i b��dami (i przy pewnych "uzasadnionych" za�o�eniach), warto�ci b�d� zbie�ne z tymi, kt�re wdra�aj� optymaln� polityk�, to znaczy tak�, kt�ra zawsze doprowadza robota do celu w najbardziej efektywny spos�b. Wi�kszo�� wersji uczenia wzmacniaj�cego ma nast�puj�ce opracowania:

• Nagrody mog� by� przyznawane w wi�cej ni� jednym stanie. Oznacza to, �e niekoniecznie istnieje jeden cel, ale wiele stan�w, kt�re mog� przyczyni� si� do nagrody. Nagrody s� reprezentowane przez warto�ci liczbowe, kt�re mog� by� dodatnie (prawdziwe "nagrody"), zero lub ujemne ("kary").
• Zamiast pr�bowa� znale�� zasad�, kt�ra odpowiada optymalnej �ie�ce do stanu jednego celu pr�buje si� nauczy� zasad, kt�re maksymalizuj� oczekiwan� z czasem nagrod�. Zazwyczaj przy poznawaniu zasad nagrody oczekiwane w odleg�ej przysz�o�ci s� "dyskontowane", co oznacza, �e nie licz� si� tak, jak nagrody oczekiwane od razu.
• Ka�de dzia�anie podj�te w danym stanie nie zawsze mo�e prowadzi� do tego samego stanu. Mo�na pr�bowa� dowiedzie� si�, jakie s� prawdopodobie�stwa, �e niekt�re dzia�ania podj�te w danym stanie prowadz� do tego, co robi� inne stany i niekt�re metody uczenia wzmacniaj�cego, takie jak "zamiatanie priorytetowe". Proces uczenia si� Q unika potrzeby wyra�nego poznania tych prawdopodobie�stw, poniewa� niezale�nie od tego, jakie one s�, odpowiednio (wraz z nagrodami) odpowiednio wp�ywaj� na warto�ci, kt�re proces uczenia przypisuje parom stan-dzia�anie.
• Kolejn� komplikacj� mo�e by� to, �e robot ma niedoskona�� wiedz� o tym, w jakim jest stanie, poniewa� jego aparat sensoryczny nie jest wystarczaj�co dok�adny ani informacyjny. W takim przypadku m�wi si�, �e rzeczywisty stan, w kt�rym znajduje si� robot, jest "ukryty", co dodatkowo komplikuje problem uczenia si� optymalnej polityki.

Dzi�ki tym opracowaniom problem staje si� jednym z tzw. "Proces�w decyzyjnych Markowa" (MDP). Ze wzgl�du na niedoskona�� wiedz� o stanie nazywa si� to "cz�ciowo obserwowalnym procesem decyzyjnym Markowa" (POMDP). MDP i POMDP zosta�y dobrze zbadane przez ludzi w teorii kontroli, a tak�e w AI. Mog� u�y� przyk�adu labiryntu robota, aby wspomnie� o kilku rzeczach, kt�re s� wa�ne w zastosowaniu uczenia wzmacniaj�cego w praktycznych zastosowaniach. Po pierwsze, za�o�y�em, �e losowa eksploracja robota ostatecznie wyl�duje w stanie celu. W z�o�onych problemach szansa na losowe osi�gni�cie celu (lub innych nagr�d) mo�e by� niewielka do zera. Podzia� problemu na hierarchi� podproblem�w, w kt�rych nagrody s� �atwiejsze do zdobycia, jest czasem wykorzystywany do przyspieszenia nauki. Dodatkowo mo�na zastosowa� strategie "kszta�towania", w kt�rych robot jest umieszczony w sytuacji wystarczaj�co blisko celu, aby losowa eksploracja znalaz�a cel. Nast�pnie, po przypisaniu niekt�rym dzia�aniom zbli�onym do celu ocen zwi�zanych z celem, sytuacje pocz�tkowe mo�na stopniowo przesuwa� coraz dalej od celu. Alternatywnie, mo�na poda� wskaz�wki, by� mo�e w postaci nagr�d po�rednich, aby da� robotowi zna�, �e radzi sobie dobrze. Takie strategie s� wykorzystywane w nauczaniu umiej�tno�ci ludzi i zwierz�t. Kolejny problem dotyczy kompromisu mi�dzy "wykorzystywaniem" ju� wyuczonej polityki a "badaniem" w celu znalezienia lepszych polityk. Cz�sto zdarza si�, �e zestaw wycen czynno�ci uzyskanych na wczesnym etapie procesu uczenia si� mo�e nie by� najlepszym mo�liwym zestawem. Aby nauczy� si� lepszego zestawu, nale�y w jaki� spos�b zach�ci� robota do losowego odst�pienia od znanej polityki, aby przej�� do lepszego. Wreszcie, wiele problem�w mo�e mie� tak zwane "przestrzenie stan�w" tak du�e, �e ca�y zestaw wszystkich stan�w oraz ich dzia�ania i wyceny nie mog� by� wyra�nie wymienione w tabeli takiej jak ta, kt�r� za�o�y�em dla problemu labiryntu robota. W takim przypadku wyceny dzia�a�, kt�re mo�na podj�� w danym stanie, musz� by� obliczone, a nie zapisane.

TD-GAMMON

Jednym z najbardziej imponuj�cych przyk�ad�w si�y metod uczenia maszynowego jest system TD-GAMMON opracowany przez Geralda Tesauro w IBM. Wersje TD-GAMMON nauczy�y si� gra� w �wietnego tryktraka po graniu przeciwko sobie podczas milion�w gier. TD-GAMMON zastosowa� kombinacj� uczenia sieci neuronowej i pewnego rodzaju uczenia wzmacniaj�cego zwanego "uczeniem r�nic czasowych" (co wyja�nia pre TD ). Sie� neuronowa TD-GAMMON sk�ada�a si� z trzech warstw. W jednej wersji by�o 198 jednostek wej�ciowych, 40 jednostek ukrytych i 4 jednostki wyj�ciowe. Ka�da z jednostek wyj�ciowych mo�e mie� warto�� wyj�ciow� od 0 do 1. Ka�de z wyj�� mia�o za zadanie oszacowanie prawdopodobie�stwa okre�lonego wyniku gry. Cztery mo�liwe rozwa�ane wyniki to bia�e wygrane, bia�e gammony, czarne wygrane lub czarne gammony. Jednostki wej�ciowe zosta�y zakodowane, aby reprezentowa� konfiguracj� element�w na p�ycie. Warto�ci czterech wyj�� po��czono, aby uzyska� liczb� daj�c� oszacowan� "warto��" pozycji p�ytki z punktu widzenia bieli. Po pierwsze, oto jak sie� zosta�a wykorzystana do wyboru ruch (zak�adam tutaj, �e czytelnik ma pewn� znajomo�� trik-traka, ale m�j opis powinien mie� sens nawet dla tych, kt�rzy tego nie robi�). Na ka�dym etapie gry rzuca si� kostkami, a program bierze pod uwag� wszystkie mo�liwych ruch�w, kt�re m�g�by wykona�, bior�c pod uwag� rzut kostk�. Sie� oblicza warto�� ka�dej mo�liwej wynikowej planszy, a program wybiera ruch produkuj�cy plansz� o najlepszej warto�ci (kt�ra jest najwy�sz� warto�ci�, gdy jest to ruch bia�ych i najni�sza warto��, gdy jest ruch czarnego). Oto, jak sie� si� uczy: Dla ka�dej pozycji planszy napotkanej podczas rzeczywistej gry wagi sieci s� korygowane za pomoc� backprop, dzi�ki czemu warto�� obliczona dla tej pozycji planszy jest bli�sza obliczonej warto�ci dla tymczasowej nast�pnej pozycji na planszy (i dlatego widzimy, dlaczego pojawia si� termin "r�nica czasowa"). Sie� rozpoczyna si� od losowo wybranych warto�ci masy, wi�c ruchy na pocz�tku procesu uczenia si�, a tak�e korekty wagi, s� losowe. Ale ostatecznie nawet losowo wybrane ruchy powoduj� zwyci�stwo jednego z graczy. Po wygranej znane s� cztery warto�ci prawdopodobie�stwa - jedna z nich to "1", a reszta to "0". Nast�pnie mo�na dopasowa� wagi sieci, aby warto�� przedostatniej planszy by�a zbli�ona do warto�ci tej ostatecznej, zwyci�skiej pozycji na planszy. Podobnie jak we wszystkich procedurach uczenia si� przy wzmocnieniu, warto�ci s� stopniowo propagowane do ty�u od ko�ca gry do pozycji wyj�ciowej. Po milionach gier wagi sieciowe przyjmuj� warto�ci, kt�re prowadz� do eksperckiej gry. Komentuj�c wersj� TD-GAMMON, kt�ra opr�cz uczenia si� wykorzystuje r�wnie� wyszukiwanie, Sutton i Barto napisali TD-GAMMON 3.0, kt�ry wydaje si� by� na poziomie lub bardzo blisko si�y gry najlepszych ludzkich graczy na �wiecie. Mo�e ju� by� mistrzem �wiata. Programy te zmieni�y ju� tak�e spos�b, w jaki graj� najlepsi gracze. Na przyk�ad TD-GAMMON nauczy� si� gra� na niekt�rych pozycjach otwarcia inaczej ni� by�o to w konwencji najlepszych graczy ludzkich. W oparciu o sukces TD-GAMMON i dalsz� analiz�, najlepsi ludzcy gracze zajmuj� teraz te pozycje, podobnie jak TD-GAMMON.

Inne zastosowania

Prawdopodobnie istniej� setki wa�nych metod uczenia si� przez wzmacnianie. Typowym, a zarazem dramatycznym przyk�adem jest praca Andrew Ng i jego grupy w Stanford nad nauk� wykonywania akrobacyjnych manewr�w �mig�owca. Inne zastosowania dotyczy�y wysy�ki wind, planowania warsztat�w, zarz�dzania zu�yciem energii i czworono�nych robot�w krocz�cych. Jako ostatni komentarz na temat uczenia si� wzmacniaj�cego, warto zauwa�y�, �e cz�� technologii uczenia maszynowego, cz��, kt�rej nazwa zosta�a zapo�yczona z psychologii, sp�aca teraz sw�j d�ug, zapewniaj�c teoretyczne ramy uczenia si� m�zgu zwierz�t na poziomie neurofizjologicznym . W artykule w Journal of Neuroscience Christopher H. Donahue i Hyojung Seo napisali: Aby podejmowa� skuteczne decyzje podczas poruszania si� w niepewnym otoczeniu, zwierz�ta musz� rozwin�� zdolno�� do dok�adnego przewidywania konsekwencji swoich dzia�a�. Uczenie si� przez wzmocnienie sta�o si� kluczowym teoretycznym paradygmatem pozwalaj�cym zrozumie�, w jaki spos�b zwierz�ta dokonuj� tego wyczynu… Opr�cz skutecznego przewidywania zachowania zwierz�t przy wyborze, z powodzeniem wykorzystano model uczenia si� wzmocnienia w celu wyja�nienia funkcji zwoj�w podstawy w zachowaniu ukierunkowanym na cel. Wykazano, �e neurony dopaminergiczne w brzusznym obszarze nakrywkowym i istocie czarnej koduj� b��d przewidywania nagrody, kt�ry jest wykorzystywany do poprawy wynik�w przysz�ych wybor�w zwierz�cia. Inne badanie na ma�pach wykonuj�cych zadanie wolnego wyboru wykaza�o, �e aktywno�� neuron�w pr��kowia jest skorelowana z warto�ciami czynno�ci, kt�re zosta�y oszacowane poprzez zintegrowanie wcze�niejszej historii wynik�w zwi�zanej z ka�dym dzia�aniem

Ulepszenia

Wiele metod uczenia maszynowego, o kt�rych wspomniano, mo�na ulepszy� na r�ne sposoby. Niekt�re z nich opieraj� si� na pracy statyst�w, a inne przez ludzi pracuj�cych nad tzw. "Obliczeniow� teori� uczenia si�" .Jedna technika, zwana "bagging" (akronim od agregacji bootstrapu) jest zas�ug� profesora Leo Breimana z University of California, Berkeley. W przypadku problem�w z klasyfikacj� workowanie polega na ��czeniu wynik�w pewnej liczby, powiedzmy m, oddzielnych klasyfikator�w. Ka�dy uczestnik jest szkolony przy u�yciu innego podzbioru oryginalnego zestawu treningowego. Podzbiory te s� uzyskiwane z orygina�u przez losowe wybranie (z zast�pieniem) niekt�rych jego przyk�ad�w. (Statystycy nazywaj� te pr�bki "pr�bkami �adowania pocz�tkowego"). Po przeszkoleniu ka�dego z klasyfikator�w dokonuje si� ostatecznej klasyfikacji wi�kszo�ci� g�os�w. Technik� t� mo�na zastosowa� niezale�nie od rodzaju zastosowanego indywidualnego klasyfikatora - sieci neuronowej, drzewa decyzyjnego, najbli�szego s�siada lub tego, co masz. Pakowanie mo�na r�wnie� zastosowa� do problemu powi�zania liczby (zamiast kategorii) z przyk�adem. W takim przypadku wyniki s� u�redniane, a nie uczestnicz� w g�osowaniu. Operacje g�osowania i u�redniania pomagaj� unikn�� przes�oni�cia danych, a tym samym daj� lepsz� wydajno��, ni� mo�na by uzyska� przy jednym szkoleniu wszystkich klas na wszystkich danych. [Mo�na si� zastanawia�, jak mo�na by poprawi� wydajno�� sieci neuronowej MADALINE z lat 60, gdyby ka�da z jej jednostek progowych by�a szkolona na pr�bkach bootstrapu.] Podobny pomys�, zwany "boosting, zosta� zaproponowany przez Roberta E. Schapire. Chocia� istnieje wiele wersji, tutaj w skr�cie opisano, jak to dzia�a. Korzystaj�c z jednej z nadzorowanych metod uczenia maszynowego, ucz�cy jest szkolony na oryginalnym zestawie szkoleniowym, w kt�rym ka�da pr�bka jest jednakowo wa�ona. " (Mas� i-tej pr�bki, powiedzmy w_i, mo�na ustawi�, na przyk�ad, w��czaj�c t� pr�bk� w_i razy do zestawu treningowego.) Nast�pnie budowany jest nowy zestaw treningowy, w kt�rym pr�bki, kt�re zosta�y b��dnie sklasyfikowane, a ich "waga" zosta�a zwi�kszona, a dla pr�bek, kt�re zosta�y prawid�owo sklasyfikowane, ich waga spad�a. Korzystaj�c z tego nowego zestawu szkoleniowego, trenowany jest inny uczestnik. (Ten przypuszczalnie b�dzie pracowa� ci�ej na wcze�niejszych b��dnie sklasyfikowanych pr�bach.) Proces ten powtarza si�, dop�ki nie znajdziemy pewnej liczby, powiedzmy m, klasyfikator�w. Teraz ka�dy z klas g�osuje nad kategoryzacj� nowych pr�bek. Ich g�osy wa�one s� w jaki spos�b dobrze spisali si� na oryginalnym zestawie treningowym. G�osy bardziej wiarygodnych klasyfikator�w licz� si� bardziej ni� g�osy mniej wiarygodnych klasyfikator�w. Nawet gdy pierwotni klasyfikatorzy s� "s�abi" (to znaczy wcale niezbyt wiarygodni), og�lna dok�adno�� po��czonego zestawu m klasyfikator�w mo�e by� ca�kiem dobra, tym samym "poprawiaj�c" wyniki. Zaproponowano kilka sposob�w poprawy. Jeden z popularnych, z powodu Yoava Freunda i Roberta Schapire′a, nazywa si� "Adaboost". Mo�liwe jest tak�e ��czenie workowania i boostingu. Na koniec wspomn� o "maszynach wektorowych wsparcia" (SVM). Pe�ny ich opis wymaga�by wi�cej matematyki, ni� chcieliby�my tutaj zag��bi�, ale mog� da� przybli�one i gotowe wyobra�enie o tym, jak dzia�aj� na podstawie przyk�adu geometrycznego. Po lewej stronie ryc. 29.17 pokazuj� te same punkty kt�re ilustrowa�y granic� oddzielaj�c� w przestrzeni cech.

Punkty oznaczone ma�ymi kwadratami odpowiadaj� pr�bkom z jednej kategorii, a punkty oznaczone ma�ymi k�kami odpowiadaj� pr�bkom z innej kategorii. Przypominamy, �e punkty na diagramach maj� wsp�rz�dne r�wne cechom, f₁ i f₂, obliczonym z element�w (takich jak d�wi�ki mowy, obrazy lub inne dane), kt�re chcemy sklasyfikowa�. Zdarza si� w tym przypadku, �e istnieje wiele linii prostych (to znaczy liniowych), kt�re oddziel� punkty w dw�ch kategoriach. Dlatego pr�ba wyszkolenia elementu neuronowego w celu klasyfikacji punkt�w (uwa�ana za "pr�bki treningowe") zako�czy si� powodzeniem. Gdyby�my u�yli standardowej procedury korekcji b��d�w do treningu, z pewno�ci� uzyskaliby�my pewn� granic� liniow�, ale w przypadku maszyn SVM wymagamy wi�cej granicy ni� tylko oddzielenie pr�bek treningowych. Chcemy, aby odleg�o�ci (zwane "marginesem") od najbli�szych punkt�w przeciwnych kategorii by�y jak najwi�ksze. Taka liniowa granica jest pokazana po prawej stronie powy�szego rysunku. R�wnoleg�e linie przerywane po obu stronach przechodz� przez te najbli�sze punkty, kt�re s� nazywane "wektorami wspieraj�cymi". Po��dane s� granice z mo�liwie najwi�kszymi marginesami, poniewa� lepiej klasyfikuj� nowe punkty, kt�rych nie ma w zestawie treningowym. Oznacza to, �e maj� lepsze w�a�ciwo�ci "uog�lniaj�ce". Wczesna praca nad rozpoznawaniem wzorc�w (nadzorowanej odmiany uczenia si�) w SRI obejmowa�a pewne eksperymenty, w kt�rych pr�bowali�my znale�� granice izolowane od pr�bek szkoleniowych. Jedna z metod tego polega�a na szkoleniu pr�bek pochodz�cych z oryginalnych poprzez dodanie do nich niewielkiej ilo�ci "ha�asu". Chodzi�o o to, aby procedura szkolenia z korekcj� b��d�w zastosowana do tego rozszerzonego zestawu zosta�a wyparta z oryginalnych pr�bek. Bardziej elegancka metoda zosta�a zaproponowana przez H. Glucksmana, w kt�rej trening korekcji b��d�w trwa� do momentu osi�gni�cia minimalnej dozwolonej odleg�o�ci mi�dzy pr�bkami treningowymi a granicami oddzielenia. Jednak aby zapewni� mo�liwie du�e marginesy, konieczne s� z�o�one procedury optymalizacji. Teraz mo�esz zapyta� , jak uzyska� przestrzenie cech, kt�re mo�na liniowo oddzieli�? Jednym ze sposob�w jest u�ycie czego� w rodzaju alfa-perceptronu Rosenblatta. Przypomnijmy, �e elementy w pierwszej warstwie element�w progowych alfa-perceptronu, powiedzmy N z nich, ka�dy otrzyma�y sw�j w�asny wk�ad z losowej kolekcji pomiar�w danych (takich jak piksele lub warto�ci fali mowy). Wyj�cia binarne tych "jednostek asocjacyjnych" (jak nazywano te elementy pierwszej warstwy) by�y w�wczas cechami podobnymi do tych, kt�rych u�y�em w dwuwymiarowym przyk�adzie. Okre�lili punkty w N-wymiarowej przestrzeni cech, kt�r� (mia� nadziej� Rosenblatt) mo�na by�o rozdzieli� liniowo. Cz�sto by�y to prace Rosenblatta. Osoby pracuj�ce z SVM u�ywaj� r�nych metod definiowania funkcji. Ich metoda zapewnia, �e wynikowa przestrze� cech jest liniowo rozdzielalna (a przynajmniej prawie tak). Ich funkcje obejmuj� u�ycie tego, co nazywaj� "j�drem", a maszyny korzystaj�ce z takich funkcji nazywane s� "urz�dzeniami j�dra". Ponownie matematyka jest zbyt z�o�ona, aby j� tu opisa�, ale zainteresowany czytelnik mo�e spojrze� na ksi��k� Nello Cristianiniego i John Shawe-Taylor: Jak wskazuje ta ksi��ka, historia matematyki prowadz�cej do maszyn j�dra i maszyn SVM si�ga pocz�tk�w XX wieku i anga�owa�a ludzi w teori� optymalizacji, statystyki i teori� uczenia obliczeniowego. a maszyny j�dra s� doskona�ymi przyk�adami tego, w jaki spos�b praca w kilku dyscyplinach, przy u�yciu wysoce technicznego aparatu matematycznego, przyczyni�a si� do powstania nowych, zaawansowanych technik w sztucznej inteligencji. Wa�nymi miejscami opisywania nowej pracy w uczeniu maszynowym s� sponsorowane przez Neural Information Processing Systems (NIPS) konferencje corocznie przez Fundacj� Neural Information Processing Systems Foundation, po wys�uchaniu wszystkich opisanych w nim metod uczenia maszynowego rozdzia�, mo�esz rozs�dnie zapyta�, kt�ra metoda jest najlepsza? Nale�y zastosowa� metod� najbli�szego s�siada, drzewo decyzyjne, sie� neuronow� lub co� takiego jeszcze?

Historia Sztucznej InteligencjiArtificial Intelligence Experts

Machine Learning