VII.Nauka

Wprowadzenie

Uczenie si� przez systemy sztucznej inteligencji - co zwykle nazywam uczeniem maszynowym - ma d�ug� histori�, a dziedzina prze�y�a co� w rodzaju renesansu w ci�gu ostatnich dwudziestu lat. Uczenie maszynowe sk�ada si� g��wnie z r�norodnego zestawu algorytm�w i technik, kt�re zosta�y zastosowane do problem�w w szerokim zakresie dziedzin. Ka�dy przegl�d metod i aplikacji b�dzie nieuchronnie niekompletny, przynajmniej na poziomie okre�lonych algorytm�w i technik. Istnieje wiele doskona�ych wprowadze� do formalnych i statystycznych szczeg��w algorytm�w i technik uczenia maszynowego dost�pnych gdzie indziej. Niniejsza sekcja koncentruje si� na uczeniu maszynowym jako og�lnym sposobie "my�lenia o �wiecie" i zapewnia og�ln� charakterystyk� g��wnych cel�w uczenia maszynowego. Istnieje wiele filozoficznych w�tpliwo�ci, kt�re zosta�y podniesione na temat uczenia maszynowego, ale po dok�adniejszym zbadaniu nie zawsze jest jasne, czy zastrze�enia naprawd� przemawiaj� konkretnie przeciwko uczeniu maszynowemu. Wiele wydaje si� raczej ukierunkowanych na uczenie maszynowe jako szczeg�ln� instancj� jakiego� bardziej og�lnego zjawiska lub procesu. Jedn� z og�lnych zasad moralnych tego rozdzia�u jest to, �e uczenie maszynowe jest pod wieloma wzgl�dami mniej niezwyk�e lub dziwne, ni� si� czasem my�li.

Trzy szerokie klasy wnioskowania

Na bardzo wysokim poziomie mo�na rozr�ni� trzy r�ne, niekoniecznie wyczerpuj�ce, wnioskowania strategiczne: analogiczne, specyficzne dla dziedziny i strukturalne. Jako przyk�ad og�lno�ci tej taksonomii logika dedukcyjna i indukcyjna s� rodzajem wnioskowania strukturalnego. Wnioskowanie analogiczne ma na celu odwzorowanie pewnej sytuacji lub problemu na najistotniejsze przyk�ady historyczne, zar�wno znane, jak i osobiste; wnioski s� nast�pnie dokonywane przy u�yciu odwzorowania analogicznego w celu prze�o�enia historycznych wynik�w na obecny problem. Problemy i wyniki nie musz� by� du�e ani znacz�ce: je�li kto� ma wcze�niejsze do�wiadczenia z prze��cznikami �wiat�a i �ar�wkami, w�wczas mo�na u�y� wnioskowania analogicznego, aby podj�� decyzj� o tym, jak w��czy� �wiat�o podczas wchodzenia do nowego pokoju. Je�li analogie s� odpowiednie, w�wczas wnioskowanie analogiczne mo�e wspiera� wnioskowanie w bardzo rzadkich sytuacjach lub zjawiskach lub wnioski z bardzo ograniczonych danych. Wiarygodno�� wnioskowania analogicznego jest jednak wysoce zale�na od analogicznych przypadk�w i odwzorowa�, a niewiele wiadomo na temat poszukiwania takich przypadk�w lub opracowania odpowiednich mapowa�. W odniesieniu do tematu, wnioskowanie analogiczne rzadko odbywa si� za pomoc� maszyny; zazwyczaj dokonujemy wnioskowania analogicznego w naszym umy�le. Wnioskowanie specyficzne dla domen wykorzystuj� techniki, kt�re s� specjalnie dostosowane do wiedzy na temat konkretnych problem�w, �rodowisk i odpowiedzi, kt�re wyst�puj� w domenie. U�ywaj�c wyspecjalizowanych algorytm�w i ogranicze�, cz�sto mo�na wyci�ga� do�� pot�ne wnioski, nawet przy ograniczonej ilo�ci danych. Metody specyficzne dla dziedziny mo�na jednak opracowa� i stosowa� tylko przy znacznej wiedzy w tej dziedzinie, co mo�e wyklucza� powszechne stosowanie takich metod. Uczenie maszynowe i wnioskowanie specyficzne dla domeny cz�sto mo�na rozumie� jako cz�� konkretnej dziedziny, a nie jako wyr�niaj�c� si� i nowatorsk� strategi� wnioskowania. Ponadto, poniewa� jakakolwiek technika musi wykorzystywa� pewne informacje specyficzne dla domeny (np. Mo�liwe warto�ci zmiennej), nie jest jasne, czy mo�na narysowa� jak�kolwiek ostr� lini�, aby dok�adnie wytyczy� metody "specyficzne dla domeny", chocia� wyra�nie mo�na wnioskowa� algorytmy, kt�re maj� zastosowanie tylko w �ci�le okre�lonych sytuacjach. Wnioskowanie strukturalne wykorzystuje (wzgl�dnie) og�lne algorytmy og�lne, kt�rych sukces zale�y od wewn�trznej struktury danych, a nie od cech semantycznej zawarto�ci danych. Oznacza to, �e wnioskowanie strukturalne skupia si� na relacjach mi�dzy zmiennymi, obiektami lub predykatami, a nie na ich wewn�trznych w�a�ciwo�ciach. Ten typ wnioskowania jest koniecznie og�ln� domen�, poniewa� takie metody s� wyra�nie zaprojektowane tak, aby nie wykorzystywa� �adnych informacji w domenie z wyj�tkiem informacji "strukturalnych" o obiektach wnioskowania (np. liczba warto�ci zmiennych, czy istotne jest przestrzenne po�o�enie obiekt�w itd.). Zaleta wnioskowania strukturalnego jest oczywista: metody maj� zastosowanie do ka�dej dziedziny, w kt�rej znajduj� si� odpowiednie cechy strukturalne i mo�na je znale�� na podstawie danych. Metody te nie s� zatem ograniczone do domen, w kt�rych zdarza si�, �e mamy znaczn� wcze�niejsz� wiedz�, ani nie musimy mie� �adnego znacz�cego do�wiadczenia w sytuacjach tego typu. Wady takich wniosk�w s� r�wnie oczywiste: nie mo�na wywnioskowa� mechanizm�w specyficznych dla domeny (poniewa� informacje specyficzne dla domeny s� wykluczone), a wnioskowanie z ma�ych zestaw�w danych mo�e by� do�� trudne. Wnioskowanie strukturalne jest podstaw� wielu, i zapewne wi�kszo�ci, ram uczenia si� maszyn i metod, w tym wielu dobrze znanych, takich jak r�ne formy regresji, algorytmy uczenia sieci neuronowej, takie jak propagacja wsteczna, oraz algorytmy uczenia przyczynowego wykorzystuj�ce sieci bayesowskie. We wszystkich tych metodach algorytm dzia�a poprzez wyodr�bnianie i wykorzystywanie relacji strukturalnych mi�dzy zmiennymi bez wzgl�du na znaczenie lub dziedzin� zmiennych. Na przyk�ad, je�li dokonuje si� klasyfikacji za pomoc� sztucznej sieci neuronowej, mo�na uzyska� zestaw danych zawieraj�cy pomiary r�ne funkcje wid�et�w, a tak�e niekt�re kategorie docelowe. Algorytm uczenia sieci neuronowej (np. standardowa propagacja wsteczna) wykorzystuje nast�pnie tylko regularno�ci statystyczne w zbiorze danych do uczenia si� odpowiedniej struktury mi�dzyzmiennej, kt�r� mo�na nast�pnie wykorzysta� do przewidywania kategorii docelowej (np. "funkcjonalna" vs. "wadliwa"). Dla przysz�ych wid�et�w. Dok�adne "znaczenie" zmiennych nie ma znaczenia dla algorytmu uczenia si�. W przypadku wszystkich tych metod nie trzeba wiele wiedzie� o podstawowej domenie w celu zastosowania metod, chocia� informacje specyficzne dla domeny (np. zmienna X przyjmuje warto�� przed zmienn� Y) mo�na zazwyczaj w��czy� na r�ne sposoby. Powszechno�� domen metod uczenia maszynowego cz�ciowo t�umaczy ich popularno�� w stosunkowo nowatorskich dziedzinach naukowych, takich jak bioinformatyka, w kt�rych istnieje znaczna niepewno�� co do tego, modele lub metody s� odpowiednie. Istnieje naturalny podzia� mi�dzy metodami wnioskowania strukturalnego mi�dzy metodami logicznymi i statystycznymi. Metody logiczne zazwyczaj maj� na celu modelowanie struktury w kategoriach relacji dedukcyjnych, by� mo�e uzupe�nione r�nymi reprezentacjami braku dok�adnej wiedzy na temat sytuacji. Metody cz�sto wykorzystuj� r�ne rodzaje logiki modalnej, aby pom�c w reprezentowaniu i wnioskowaniu niepewnych mo�liwo�ci. Najcz�stszym zastosowaniem metod logicznego uczenia maszynowego jest wnioskowanie z wcze�niejszej wiedzy, gdzie ta wcze�niejsza wiedza koduje informacje strukturalne na temat konkretnej dziedziny. Tu skupimy si� bardziej na metodach statystycznych, kt�re wykorzystuj� wi�ksze ilo�ci danych do wnioskowania o powi�zaniach strukturalnych. Wi�kszo�� z tych metod wykorzystuje dane do ustalenia, kt�re zmienne s� istotne z punktu widzenia informacji, dla kt�rych innych, a nast�pnie wykorzystuje brak takich po��cze� informacyjnych do opracowania prostych, ale dok�adnych modeli o znacz�cej mocy predykcyjnej. Istnieje oczywista r�nica mi�dzy algorytmami uczenia si� a wyuczonym modelem. Na przyk�ad niekt�re okre�lone sieci neuronowe (z wagami po��cze� itp.) to wyuczony model; propagacja wsteczna to algorytm, wed�ug kt�rego model jest uczony. Algorytmy uczenia maszynowego s� rodzajem wnioskowania strukturalnego, poniewa� uczenie si� nie ma �adnego wewn�trznego odniesienia do badanej dziedziny; w szczeg�lno�ci algorytm uczenia si� nie wykorzystuje (znacz�cej) informacji semantycznej o zmiennych. Ta obserwacja pozostawia otwarte pytanie, czy wyuczony model ma interesuj�c� tre�� semantyczn�. Powr�cimy do tego pytania w dalszej cz�ci tego rozdzia�u. W mi�dzyczasie jednak nale�y pami�ta� o rozr�nieniu mi�dzy "algorytmem uczenia si� a modelem uczenia si�" podczas my�lenia o tych procesach.

Szorstka taksonomia uczenia maszynowego

Za��my, �e mamy zestaw danych D: zbi�r punkt�w danych, z kt�rych ka�dy zawiera pomiary warto�ci zmiennych V dla konkretnej osoby lub jednostki. Zbi�r danych mo�e mie� wiele komplikacji: Warto�ci zmiennych mo�na przypisa� lub wywnioskowa�; mo�e nie by� oczywiste, jak okre�li� zmienne lub jednostki; punkty danych mog� nie by� niezale�ne (np. je�li dane szereg�w czasowych); mog� istnie� niezmierzone czynniki, kt�re wp�ywaj� na zmienne w zbiorze danych; i tak dalej. Pod wzgl�dem opracowania przybli�onej taksonomii metod uczenia maszynowego te subtelno�ci s� w du�ej mierze nieistotne. Bior�c to pod uwag�, zasadniczo wszystkie metody uczenia maszynowego zak�adaj�, �e sytuacja jest "dobrze postawiona" na r�ne sposoby, na przyk�ad przy u�yciu dobrze zdefiniowanych zmiennych. Na najgrubszym poziomie algorytmy uczenia maszynowego mo�na podzieli� na dwie klasy (z ma�ym �rodkiem) na podstawie tego, czy algorytm wymaga specyfikacji zmiennej docelowej w zbiorze danych. Nadzorowane algorytmy uczenia si� zak�adaj�, �e pewna zmienna X jest wyznaczona jako cel do przewidywania, wyja�niania lub wnioskowania, a warto�ci X w zbiorze danych stanowi� warto�ci "podstawowej prawdy" dla uczenia si�. Oznacza to, �e nadzorowane algorytmy uczenia wykorzystuj� znane warto�ci X w celu ustalenia, czego nale�y si� nauczy�. Najcz�stszy rodzaj nadzorowanego algorytmu uczenia si� ma na celu opracowanie modelu klasyfikacji lub kategoryzacji: Bior�c pod uwag� informacje o r�nych osobach i kategoriach, do kt�rych nale��, algorytm tworzy wyuczony model, kt�ry mo�na wykorzysta� do przewidywania przynale�no�ci kategorii do nowych os�b. Na przyk�ad mo�na chcie� przewidzie�, kt�re wid�ety produkowane w fabryce najprawdopodobniej zawiod�. Je�li kto� ma dane dotycz�ce wydajno�ci wielu r�nych wid�et�w, a tak�e pomiary innych istotnych funkcji, w�wczas mo�na u�y� algorytmu uczenia maszynowego, aby nauczy� si� modelu, kt�ry b�dzie przewidywa� wydajno�� przysz�ych wid�et�w. W odpowiednich warunkach algorytmy klasyfikacji mog� da� modele, kt�re mog� tworzy� nowe, uzasadnione uog�lnienia dotycz�ce grup w oparciu o relacje mi�dzyfunkcyjne. Algorytmy klasyfikacji mo�na r�wnie� wykorzysta� do rozpoznania lub identyfikacji poprzez klasyfikacj� do "kategorii" z dok�adnie jednym cz�onkiem. Przyk�ady nadzorowanych algorytm�w uczenia obejmuj� algorytmy uczenia si� dla sztucznych sieci neuronowych, drzew decyzyjnych i maszyn wektor�w wsparcia; wiele form regresji; i wi�kszo�� metod uczenia si� wzmacniaj�cego. Algorytmy uczenia bez nadzoru nie wyodr�bniaj� �adnych konkretnych zmiennych jako celu lub fokusu, a zatem maj� na celu zapewnienie og�lnej charakterystyki pe�nego zestawu danych. Prawdopodobnie najcz�stszym zastosowaniem uczenia bez nadzoru jest algorytm grupowania: dzielenie r�nych os�b na "naturalne" grupy wed�ug jednej lub drugiej metryki. Algorytmy te czasami wytyczaj� wzgl�dnie arbitralne linie mi�dzy jednostkami, ale mog� by� do�� skuteczne w wykrywaniu grup, gdy faktycznie istniej�. Na przyk�ad mo�na zmierzy� postawy ludzi wobec r�nych kwestii politycznych, a nast�pnie chcie� ustali�, czy istniej� naturalne grupy, kt�re mo�na zdefiniowa� na podstawie tych przekona�. Dane wyj�ciowe algorytmu klastrowania mog� w pewnych warunkach s�u�y� jako zmienna docelowa dla nadzorowanego algorytmu uczenia si�. Zazwyczaj trudno jest zweryfikowa� dane wyj�ciowe lub model z algorytmu uczenia bez nadzoru, w�a�nie dlatego, �e zwykle nie ma "prawdziwej prawdy", z kt�r� mo�na by por�wna� wydajno�� modelu. Rzadko istnieje jeden poprawny, prawdziwy spos�b na grupowanie r�nych os�b, tylko lepsze i gorsze sposoby. R�ne metody rozk�adu prawdopodobie�stwa lub szacowania g�sto�ci r�wnie� nale�� do kategorii uczenia si� bez nadzoru. Standardowym pogl�dem wyuczonych modeli jest to, �e ich tre�� semantyczna jest ca�kowicie statystyczna: po��czenia mi�dzy zmiennymi dostarczaj� informacji, kt�re mo�na wykorzysta� do przewidywania, ale nie uwa�a si�, �e dalsze tre�ci semantyczne - na przyk�ad struktura przyczynowa - mo�na przypisa� tym modelom. W ostatnich latach nast�pi� jednak znaczny wzrost zainteresowania algorytmami uczenia maszynowego, kt�re unikaj� stosowania za�o�e� specyficznych dla domeny, ale tworz� wyuczone modele z bogat� tre�ci� semantyczn�. W szczeg�lno�ci wyuczonych modeli mo�na u�y� do przewidywania przysz�ego zachowania lub cech przy interwencjach lub manipulacjach spoza systemu. Te algorytmy uczenia maszynowego s� zazwyczaj metodami uczenia si� bez nadzoru, chocia� cz�sto chce si� pozna� struktur� przyczynow�, aby wp�yn�� na lub wprowadzi� zmian� w okre�lonej zmiennej. Mo�na si� zastanawia�, jak takie wnioskowanie przyczynowe jest mo�liwe, bior�c pod uwag� ca�kowicie standardow� w nauce i filozofii, �e "korelacja nie jest przyczyn�". Metody uczenia maszynowego do odkrywania przyczynowego musz� przyjmowa� za�o�enia z pewn� zawarto�ci� przyczynow�, ale zazwyczaj wykorzystuj� jedynie og�lne za�o�enia dotycz�ce sposob�w, w jakie zwi�zek przyczynowy i korelacja s� ze sob� powi�zane. Na przyk�ad szeroko omawiane przyczynowe za�o�enie Markowa twierdzi, �e zmienna nie dostarcza informacji o jej skutkach, je�li ju� zna si� warto�ci bezpo�rednich przyczyn zmiennej. To za�o�enie ma tre�� przyczynow�, ale na bardzo wysokim poziomie og�lno�ci. Tego rodzaju uczenie si� przyczynowe jest trudniejsze ni� uczenie czysto statystyczne (np. Grupowanie, klasyfikacja, szacowanie g�sto�ci, aproksymacja funkcji), w kt�rym po prostu pr�buje si� znale�� powi�zania informacyjne mi�dzy zmiennymi. Z wyj�tkiem bardzo nietypowych okoliczno�ci, zbi�r zwi�zk�w przyczynowych mi�dzy niekt�rymi cechami b�dzie �cis�ym podzbiorem zbioru relacji informacyjnych. Oznacza to, �e (prawie wszystkie) zwi�zki przyczynowe s� relacjami informacyjnymi, ale nie wszystkie relacje informacyjne s� przyczynowe. Bior�c pod uwag� t� asymetri� uczenia si� dla r�nych typ�w modeli, mo�na mie� nadziej�, �e modele statystyczne mog� wystarczy� dla wszystkich interesuj�cych zastosowa�. Informacje o charakterze czysto statystycznym s� jednak niewystarczaj�ce do przewidywania zmian systemu, czy to z powodu w�asnych dzia�a�, czy polityk, a mo�e dlatego, �e struktura przyczynowa p�ka na r�ne sposoby. Potrzebne s� informacje przyczynowe, aby przewidzie� prawdopodobne skutki wi�kszo�ci interwencji, decyzji politycznych lub innych egzogenicznych zmian w systemie. Czasami musimy rozwi�za� trudniejszy problem w nauce. Algorytmy uczenia maszynowego musz� r�wnowa�y� trzy czynniki: (1) z�o�ono�� wyuczonego modelu, co zapewnia wi�ksz� dok�adno�� w reprezentowaniu wej�ciowego zestawu danych; (2) uog�lnienie wyuczonego modelu na nowe dane, co umo�liwia wykorzystanie modelu w nowych kontekstach; oraz (3) wykonalno�� obliczeniowa uczenia si� i korzystania z modelu, co jest niezb�dnym warunkiem praktycznej przydatno�ci algorytm�w. Z�o�ono�� wiata b�dzie czasem wi�ksza ni� z�o�ono�� modeli praktycznych dla konkretnej sytuacji, co sugeruje, �e �aden pojedynczy model nie b�dzie wystarczaj�cy. Mo�na mie� nadziej�, �e istniej� "pod-problemy", kt�re nie s� bardziej z�o�one ni� dost�pne modele. Je�li tak, to mo�na prawdopodobnie dowiedzie� si� wi�cej o �wiecie, (1) okre�laj�c zakres podproblem�w; (2) nauczenie si� odpowiedniego modelu (lub modeli) dla ka�dego podproblemu; a nast�pnie (3) integracja wynik�w modelu w spos�b zgodny z zasadami. R�ne techniki "meta-uczenia si�" wdra�aj� t� trzyetapow� propozycj�. Jako przyk�ad rozwa�my przyk�ad wzmocnienia dla prostej klasyfikacji binarnej: na przyk�ad, czy wid�et jest uszkodzony. Zamiast pr�bowa� nauczy� si� pe�nego modelu w jednym kroku, algorytm przyspieszaj�cy uczy si� najpierw prostego modelu klasyfikacyjnego, kt�ry dzia�a do�� dobrze, cho� zazwyczaj nie jest tak dobry, jak tego chce lub wymaga u�ytkownik. Nast�pnie system wyodr�bnia wszystkie przypadki, dla kt�rych ten prosty model dokonuje niepoprawnej prognozy, i uczy si� drugiego modelu klasyfikacji tylko dla tych przypadk�w. Wyj�cia tych dw�ch modeli mo�na zintegrowa� na r�ne sposoby, aby uzyska� klasyfikator dla wszystkich przypadk�w. Ten ujednolicony klasyfikator b�dzie dokonywa� niepoprawnych prognoz dla innych przypadk�w, dzi�ki czemu mo�na nauczy� si� trzeciego klasyfikatora dla tych b��dnie sklasyfikowanych przypadk�w, zintegrowa� nowy klasyfikator z ujednoliconym i iterowa�. W ten spos�b wzmocnienie buduje ujednolicony klasyfikator sk�adaj�cy si� z szeregu "s�abych" klasyfikator�w, z kt�rych ka�dy koncentruje si� na dok�adnej klasyfikacji zredukowanego podzbioru danych. Modele hierarchiczne, takie jak mieszanki ekspert�w (np. Jordan i Jacobs 1994), dzia�aj� podobnie. �aden przegl�d uczenia maszynowego nie by�by kompletny bez dyskusji na temat nauki bayesowskiej. Algorytm uczenia bayesowskiego wymaga okre�lenia (ewentualnie niesko�czonego) zestawu mo�liwych hipotez lub modeli, a tak�e rozk�adu prawdopodobie�stwa - "wcze�niejszego rozk�adu prawdopodobie�stwa" w stosunku do tych hipotez. Po dostarczeniu danych algorytm uczenia si� u�ywa regu�y Bayesa do ustalenia prawid�owego (wed�ug rachunku prawdopodobie�stwa) rozk�ad prawdopodobie�stwa w hipotezach, bior�c pod uwag� te dane. Argumentacja bayesowska ukazuje intuicj�, �e przekonania po zaobserwowaniu niekt�rych danych powinny by� podane przez prawdopodobie�stwo ka�dego mo�liwego wyja�nienia, bior�c pod uwag� te dane. Wyra�ona w zwyk�ym j�zyku regu�a Bayesa stwierdza: prawdopodobie�stwo hipotezy po zaobserwowaniu niekt�rych danych [P(H|D)] jest r�wne (1) wcze�niejszemu prawdopodobie�stwu hipotezy [P(H)] pomno�onemu przez (2 ) prawdopodobie�stwo zobaczenia takich danych, gdyby hipoteza faktycznie by�a prawdziwa [P(D|H)], podzielona przez (3) prawdopodobie�stwo zobaczenia tych danych w pierwszej kolejno�ci [PD)]. Idea racjonalnego uczenia si� bayesowskiego ma d�ug� histori� filozoficzn�. Bayesianizm od wielu lat mia� stosunkowo niewielki wp�yw praktyczny z powodu prostego faktu: z wyj�tkiem przyk�ad�w zabawek, obliczenia wymagane do nauki bayesowskiej szybko staj� si� zbyt trudne do wykonania analitycznie lub r�cznie. Rozw�j nowoczesnych komputer�w cyfrowych umo�liwi� przeprowadzenie lub przybli�enie nauki bayesowskiej dla bardziej realistycznych sytuacji, dlatego te� bayesianizm ponownie sta� si� dominuj�cym tematem w nauce. Wiele algorytm�w uczenia maszynowego mo�na postrzega� jako wdra�anie lub przybli�anie uczenia bayesowskiego przy r�nych za�o�eniach lub ograniczeniach dotycz�cych przestrzeni hipotez, wcze�niejszego rozk�adu prawdopodobie�stwa, funkcji prawdopodobie�stwa i tak dalej.

Zakres i ograniczenia uczenia maszynowego

Podobnie jak w przypadku uczenia si� ludzi, warto�� uczenia maszynowego jest mniejsza w wyniku, a bardziej w sposobie, w jaki mo�na go wykorzysta� do przysz�ych zada�: przewidywanie, planowanie, klasyfikacja, rozpoznawanie i tak dalej. Jako spo�eczno�� wiemy, jak wiele zrobi� z uczeniem maszynowym. Uczenie maszynowe jest du�� cz�ci� wsp�czesnej informatyki i istnieje wiele r�nych algorytm�w i technik, kt�re s� odpowiednie dla szerokiego zakresu warunk�w. W przypadku grupowania, klasyfikacji i uczenia si� przyczynowego istniej� oczywi�cie algorytmy dla prostych sytuacji: zestawy danych zawieraj�ce wszystkie istotne zmienne, czyste pomiary, proste relacje (np. Liniowe) i brak brakuj�cych punkt�w danych. Ale s� te� algorytmy odporne na zmiany we wszystkich tych wymiarach: zaszumione dane, nie zmierzone zmienne, z�o�one relacje, brakuj�ce dane, odchylenie w doborze pr�by i tak dalej. Istnieje wiele historii sukcesu ka�dego z tych algorytm�w pod wzgl�dem zastosowa� w �wiecie rzeczywistym. Istniej� r�wnie� algorytmy do obs�ugi danych szereg�w czasowych, aw szczeg�lno�ci do monitorowania system�w i wykrywania b��d�w. Istniej� do�� pot�ne algorytmy klasyfikacji tekstu i obraz�w, kt�re s� wysoce wyspecjalizowane do tych cel�w (chocia� zwykle nie s� one dok�adne w zakresie ludzkiej wydajno�ci). ��czenie informacji - integracja informacji z wielu r�nych �r�de� - pojawi�o si� ostatnio jako g��wny element uczenia maszynowego w �wiecie rzeczywistym. Jednocze�nie znane s� teoretyczne ograniczenia uczenia maszynowego, z kt�rych wiele odzwierciedla ograniczenia w uczeniu si� ludzi. Na przyk�ad, je�li dane s� zbyt ha�a�liwe - je�li s� zasadniczo losowe - uczenie si� b�dzie prawie niemo�liwe. Algorytmy uczenia maszynowego wykorzystuj� wnioskowanie strukturalne, wi�c je�li w danych nie ma �adnych wzorc�w, nie mo�na niczego wywnioskowa�. Uczenie si� wymaga tak�e pewnej zmienno�ci na �wiecie, mi�dzy jednostkami, mi�dzy czasami lub mi�dzy miejscami. Algorytmy uczenia maszynowego nie mog� dowiedzie� si� niczego o funkcji o sta�ej warto�ci, poniewa� nie ma si� czego nauczy�: sta�a funkcja jest zawsze taka sama. I chocia� w niekt�rych sytuacjach nauka jest �atwiejsza ni� w innych, w najgorszym przypadku nauka jest prawie zawsze trudna. Dok�adniej m�wi�c, zasadniczo wszystkie interesuj�ce problemy uczenia maszynowego s� na tyle trudne, �e wymagaj� (naszym zdaniem) algorytmu z wyk�adniczo wieloma krokami obliczeniowymi w najgorszym przypadku. Bardziej interesuj�cym ograniczeniem w uczeniu maszynowym jest zdolno�� do nabierania zdolno�ci, nawet w pozornie �atwych warunkach, do wnioskowania o cechach struktury przyczynowej lub informacyjnej jednostki na podstawie pomiar�w na poziomie grupy. Za��my, �e chcemy dowiedzie� si� czego� o jednostce (np. W jaki spos�b wykszta�cenie wp�ywa na p�niejsze dochody?), Ale mierzymy cechy tylko na poziomie grupy (np. �rednie w r�nych grupach wykszta�cenia, doch�d i inne istotne zmienne). Ponadto za��my, �e ka�da osoba ma dok�adnie ten sam typ podstawowych relacji (cho� niekoniecznie te same warto�ci), a cechy na poziomie grupy s� prostymi, deterministycznymi funkcjami cech na poziomie indywidualnym (np. Warto�� rednia lub ca�kowita). Nawet przy tych silnych za�o�eniach upraszczaj�cych istnieje wiele interesuj�cych przypadk�w, w kt�rych relacje informacyjne mi�dzy funkcjami na poziomie grupy nie s� takie same jak relacje mi�dzy odpowiednie cechy na poziomie indywidualnym. Oznacza to, �e wyuczony model funkcji na poziomie grupy niekoniecznie jest taki sam jak model dla jednostki, nawet je�li ka�da jednostka ma ten sam model. Ta mo�liwo�� stanowi powa�ne wyzwanie metodyczne w zakresie korzystania z uczenia maszynowego w domenach, w kt�rych jednostki s� w centrum uwagi, ale gromadzenie danych dotyczy g��wnie grup (np. Cz�ci ekonomii, innych nauk spo�ecznych i bioinformatyki).

Wyzwania filozoficzne w uczeniu maszynowym

Uczenie maszynowe jest g��wnym obszarem bada� w dziedzinie informatyki i statystyki, a tak wiele, a by� mo�e prawie wszystkie, najbardziej znacz�cych problem�w w uczeniu maszynowym maj� charakter obliczeniowy i algorytmiczny (np. "Czego mo�na si� nauczy� w okre�lonych warunkach?" Lub " czy ten algorytm mo�e dzia�a� szybciej? "), niekoniecznie filozoficzny. Nawet poj�cia uczenia maszynowego, kt�re mog� wydawa� si� filozoficzne, cz�sto okazuj� si� mniej filozoficzne, ni� mog�oby si� wydawa�. Jako jeden przyk�ad rozwa�my tak zwane twierdzenia o "braku wolnego lunchu" , kt�re s� czasami potocznie okre�lane jako: "Algorytmy s� skuteczne tylko wtedy, gdy s�" dostrojone "do swojej domeny; nie ma uniwersalnych algorytm�w uczenia si�. " Frazowanie to sugeruje r�ne argumenty filozoficzne, ale wszystkie oparte s� na niezrozumieniu faktycznych twierdze�. Na przyk�ad mo�na pokusi� si� o twierdzenie, �e uczenie maszynowe jest bezcelowe, poniewa� mo�na by pomy�le�, �e twierdzenia o braku obiadu sugeruj�, �e w�a�ciwy wyb�r algorytmu wymaga, aby� ju� zna� prawd� le��c� u podstaw, co wyeliminowa�oby potrzeb� jakiejkolwiek nauki. Ten sugerowany argument nie rozumie sensu, w kt�rym �aden algorytm nie ma przewagi nad innymi. Twierdzenia o braku obiadu s� pod wieloma wzgl�dami precyzyjnym stwierdzeniem staro�ytnej sceptycznej obserwacji, �e jakakolwiek przysz�o�� jest zgodna z przesz�o�ci�. Je�li bior�c pod uwag� wcze�niejsze obserwacje, mo�liwa jest jakakolwiek przysz�o��, �aden algorytm uczenia si� nie ma przewagi nad innymi. Ale teraz wida� od razu, �e prawie ka�de ograniczenie przestrzeni kosmicznej wystarcza, aby pokona� twierdzenia o braku obiadu; na przyk�ad pojedyncze s�abe za�o�enie o regularno�ci mo�e wystarczy� do zdefiniowania "domeny", a wi�c wybrania uprzywilejowanej klasy nadrz�dnych algorytm�w. Z pewno�ci� nie trzeba a priori zna� prawdziwej, le��cej u podstaw prawdy. Oczywi�cie, podobnie jak w przypadku wielu z�ych argument�w, w tym sugerowanym sprzeciwie kryje si� j�dro prawdy. Ka�da ciekawa metoda uczenia maszynowego przyjmuje za�o�enia dotycz�ce natury �wiata, a algorytmy mog� �atwo zawie��, je�li za�o�enia te oka�� si� fa�szywe. Wa�n� cz�ci� uczenia maszynowego jest zbadanie, czy za�o�enia w�asnego algorytmu faktycznie zachowuj� si�, przynajmniej w przybli�eniu (np. Sprawdzaj�c, czy rozk�ad danych jest w przybli�eniu gaussowski). Takich test�w cz�sto brakuje w praktyce i retoryce uczenia maszynowego. Je�li odpowiednie za�o�enia s� fa�szywe, nale�y zwr�ci� si� do innych metod, kt�re nie czyni� tych za�o�e�, nawet je�li te inne metody b�d� zwykle odpowiednio s�absze. B��dem jest my�le� o uczeniu maszynowym jako "czarnej skrzynce", kt�ra po prostu przyjmuje dane jako dane wej�ciowe i zwraca prawd�. Praktyka uczenia maszynowego jest natomiast znacznie bli�sza wykorzystywaniu statystyk w nauce - jako narz�dzia do dok�adniejszego badania struktury danych. Odpowiednie narz�dzie (tj. Algorytm uczenia maszynowego) powinno by� wybrane do konkretnego zadania, a narz�dzia mog� by� u�ywane z r�nym stopniem umiej�tno�ci (np. Poprzez interpretacj� wynik�w algorytmu na r�ne sposoby). Mo�na mie� nadziej� na wyrafinowany system, kt�ry mo�e pobiera� dane wej�ciowe, okre�la� najlepszy algorytm dla tego typu danych, a nast�pnie zastosowa� algorytm, ale taki meta-ucze� obecnie pozostaje w du�ej mierze nadziej�. Jednym z najmniej dyskutowanych "za�o�e�" algorytm�w uczenia maszynowego jest to, �e wszystkie one wymagaj� podania �ci�le okre�lonych zmiennych z precyzyjnymi, by� mo�e niesko�czonymi zestawami warto�ci. Zmienne nie musz� by� liczbowe - mog� mie�ci� si� w r�nych kategoriach, takich jak "du�e" i "ma�e" - ale musz� by� jasno okre�lone: W pewnym sensie musi istnie� pewien, prawdopodobnie nieznany, fakt dotycz�cy "prawdziwej" warto�ci ka�dej zmiennej dla ka�dego punktu danych. Uczenie maszynowe polega na wnioskowaniu strukturalnym, dlatego musi istnie� mo�liwo�� znalezienia wzorc�w i struktury danych. Nie jest jasne, co to znaczy m�wi� o "strukturze" mi�dzy zmiennymi, kt�re nie s� dobrze zdefiniowane. Ta obawa nie jest powa�nym wyzwaniem w praktyce, poniewa� zasadniczo zawsze chodzi o zbiory danych wynikaj�ce z proces�w pomiarowych okre�laj�cych zmienne; r�nego rodzaju metafizyczni realistycy r�wnie� zwykle nie b�d� zaniepokojeni tym problemem. Je�li jednak zostanie postawione pytanie, czy istnieje jakakolwiek stabilna podstawowa struktura do zmierzenia, uczenie maszynowe b�dzie wydawa� si� daremnym przedsi�wzi�ciem. Wszystkie obserwacje w tej sekcji rodz� naturalne pytanie: je�li uczenie maszynowe jest z grubsza analogiczne do statystyki, to w jakim sensie "uczenie si�"? Bardziej kontrowersyjnym kadrowaniem by�oby: czy maszyna uczy si� jakiej� nauki, czy te� tak naprawd� cz�owiek uczy si� algorytmu? Istniej� dwa r�ne aspekty "czy si� uczy?" pytanie: Pierwsze dotyczy og�lnej filozoficznej troski, a drugie wskazuje na luki w naszym rozumieniu poznania. Pierwsz� trosk� najs�awniej przedstawi� Searle) za pomoc� swojego Chi�skiego Pokoju, ale pojawi� si� w wielu r�nych formach. Argument zaczyna si� od og�lnego twierdzenia, �e obliczenia obejmuj� jedynie manipulacj� symbolami, podczas gdy poznanie obejmuje co� wi�cej. "Co� wi�cej" poznania r�ni si� mi�dzy autorami, ale cz�sto jest to poj�cie semantyczne, takie jak szczeg�lna w�a�ciwo�� naszych koncepcji lub "podstawa" dla nich. Manipulowanie symbolami jest nast�pnie scharakteryzowane jako poj�cie czysto syntaktyczne: zgodnie z tym argumentem mo�na poprawnie manipulowa� symbolami wy��cznie poprzez badanie cech fizycznej reprezentacji i bez jakiegokolwiek zrozumienia semantyki lub znaczenia symbolu. Argument nast�pnie konkluduje, �e obliczenia nie mog� by� poznaniem, poniewa� pierwszemu brakuje jakiejkolwiek tre�ci semantycznej lub uziemienia na �wiecie, podczas gdy drugiemu koniecznie jest. Argument ten jest przedstawiony jako og�lny argument przeciwko idei "poznania jako obliczenia", a uczenie maszynowe jest wyra�nie odpowiednim rodzajem oblicze�. Sukcesy uczenia maszynowego wynikaj� z wnioskowania strukturalnego; te metody wykorzystuj� wzorce lub prawid�owo�ci statystyczne w danych i s� (relatywnie m�wi�c) oboj�tne na semantyk� zmiennych wej�ciowych. Bardziej szczeg�owa wersja poprzedniego argumentu wnioskuje, �e "uczenie si�" maszynowe mo�e by� przydatne, ale nie mo�e by� prawdziwym uczeniem si�, przynajmniej w takim stopniu, w jakim prawdziwe uczenie si� wymaga poznania. Innymi s�owy, mo�e istnie� pewne uczenie si�, ale cz�owiek, kt�ry przetwarza dane wyj�ciowe "uczenia si�" maszyny, jest tym, kt�ry to robi. Maszyna po prostu ustawia pewne wzorce w danych jako istotne, cho� mo�e to by� zadanie niepraktyczne obliczeniowo. Jest to powa�ny sprzeciw wobec co najmniej tytu�u "uczenie maszynowe" dla tych algorytm�w, poniewa� ten argument podwa�a u�ycie wszystkich termin�w poznawczych w odniesieniu do operacji maszynowych. Jednak ten argument nie wydaje si� budzi� �adnego szczeg�lnego sprzeciwu wobec samego uczenia maszynowego, ale raczej dotyczy uczenia maszynowego jako dzia�ania maszynowego. Oznacza to, �e konkretna odpowied� na (lub akceptacja) tego argumentu - na przyk�ad odwo�anie si� do jakiego� procesu uziemiania symboli, specjalnych mocy przyczynowych m�zgu lub odrzucenia pewnych przes�anek - wynika� b�dzie z bardziej og�lnych podstaw filozoficznych, a nie z g��bsze zastanowienie si� nad natur� uczenia maszynowego w izolacji. Og�lny sprzeciw jest wyra�nie istotny dla uczenia maszynowego, ale wydaje si� r�wnie oczywiste, �e ka�de rozwi�zanie musi uwzgl�dnia� wiele kwestii, kt�re le�� poza zakresem uczenia maszynowego. Istnieje bardziej szczeg�owa forma "czy to uczenie si�?" sprzeciw, kt�ry dotyczy bezpo�rednio uczenia maszynowego. Wgl�d i kreatywno�� s� cz�sto uwa�ane za centraln� cech� uczenia si� cz�owieka, je�li nie centraln�. Nasze uczenie si� wydaje si� czasami zale�e� od kluczowych intuicyjnych skok�w, kt�rych nie jeste�my w stanie wyja�ni� ani przewidzie�. Introspektywnie wydaje si�, �e w tw�rczym wgl�du jest co� "niealgorytmicznego". Algorytmy uczenia maszynowego wydaj� si� nie oferowa� takiej zdolno�ci wgl�du, poniewa� s� "tylko" z�o�onymi sekwencjami prostych operacji. Praktyka uczenia maszynowego nieuchronnie anga�uje cz�owieka w element okre�laj�cy i kontroluj�cy algorytm, testuj�cy r�ne za�o�enia i interpretuj�cy dane wyj�ciowe algorytmu. Te obserwacje sugeruj� wniosek, �e uczenie maszynowe (ponownie) wcale nie jest prawdziwym uczeniem si�, ale raczej szybkim, u�ytecznym wykrywaniem r�nych wzorc�w danych. Z tego powodu cz�owiek, kt�ry kontroluje i zatwierdza algorytmy, wykonuje "prawdziwe" uczenie si�. Sprzeciw ten r�ni si� znacznie od poprzedniego: nie ma tu �adnych roszcze� dotycz�cych niemo�no�ci poznania maszynowego, a jedynie niemo�no�� podniesienia si� obecnych algorytm�w uczenia maszynowego do poziomu prawdziwego uczenia si�. Sprzeciw ten jest ca�kowicie zgodny z mo�liwo�ci�, �e bardziej wyrafinowane i refleksyjne algorytmy, uzupe�nione odpowiedni� wiedz� podstawow�, mog�yby przeprowadzi� prawdziwe uczenie si�. Argument zale�y natomiast od twierdzenia, �e �aden z obecnie dost�pnych algorytm�w nie spe�nia tego standardu dla prawdziwego uczenia si�.

W poprzednim akapicie u�yto wyra�e� "uczenie si� cz�owieka" i "prawdziwe uczenie si�" bez obja�nienia; za�o�ono, �e czytelnik rozumie, o co chodzi. Mo�na si� jednak zastanawia�, czy nasze rozumienie natury uczenia si� przez cz�owieka jest wystarczaj�co jasne, aby zapewni� standard "prawdziwego uczenia si�", kt�rego uczenie maszynowe nie spe�nia. Nie ma dobrze ugruntowanego modelu tego, w jaki spos�b ludzie faktycznie si� ucz�, dlatego nie jest jasne, jakie kryteria nale�y spe�ni�, aby algorytm maszynowy uzna� za "uczenie si�". Nie ma w�tpliwo�ci, �e - w niekt�rych sytuacjach - uczenie si� cz�owieka jest znacznie lepsze od uczenia maszynowego. Nasza zdolno�� do gromadzenia r�norodnych informacji i informacji w tle, czy to przez analogi�, przez przypadek, czy w innym procesie, nie ma sobie r�wnych w uczeniu maszynowym (pomimo wielu pr�b zbudowania system�w dla zdrowego rozumowania). Ta obserwacja nie jest jednak wystarczaj�ca, aby stwierdzi�, �e w procesie uczenia si� stosujemy zupe�nie inny proces; mo�na jedynie stwierdzi�, �e w naszej nauce jest co� innego. Prawdopodobnym alternatywnym wyja�nieniem jest to, �e dysponujemy zasobem informacji, uprzedze� i do�wiadcze�, kt�rych wsp�czesne systemy uczenia maszynowego nie maj� sobie r�wnych. Baza danych zawieraj�ca 10 000 punkt�w danych jest uwa�ana za du�� w uczeniu maszynowym; dziecko, kt�re ma tylko jedno do�wiadczenie na godzin� przebudzenia (powiedzmy, szesna�cie dziennie) przekracza t� liczb� w mniej ni� dwa lata. Je�li ma jedno do�wiadczenie na minut� na przebudzenie, to przewy�sza baz� danych w ci�gu oko�o jedenastu dni. Produkty uczenia si� przez cz�owieka s� lepsze (w pewnym sensie) od produkt�w uczenia maszynowego, ale procesy nie musz� by� zasadniczo odmienne pod wzgl�dem rodzaju, bior�c pod uwag�, �e istniej� ogromne r�nice w wiedzy podstawowej, dok�adno�ci b��d�w, informacji czasowych i semantycznych oraz wkr�tce. By� mo�e, co wa�niejsze, istniej� znaczne luki w naszym zrozumieniu proces�w le��cych u podstaw uczenia si� cz�owieka. Nie wiemy wystarczaj�co du�o o tych procesach, aby okre�li� w tym momencie ich podobie�stwo - lub odmienno�� - do algorytmu proponowane w uczeniu maszynowym. Kto� m�g�by odpowiedzie�, �e introspekcja na podstawie naszej w�asnej nauki dostarcza wszystkich wymaganych dowod�w. Taka odpowied� pomija du�� literatur� psychologiczn� wykazuj�c� niewiarygodno�� introspekcji w ujawnianiu szczeg��w le��cych u podstaw podstawowych proces�w poznawczych. Mo�e si� zdarzy�, �e jest co� jako�ciowo odmiennego w uczeniu si� cz�owieka, tak �e algorytmy "uczenia si�" maszynowego nie zas�uguj� na t� nazw�. Jednak w chwili obecnej takie twierdzenia oparte s� w du�ej mierze na ignorancji, a nie na pozytywnych dowodach r�nicy. Poprzednie dyskusje przyj�y potencjalnie problematyczne za�o�enie: Warto martwi� si� o konkretn� etykiet� do��czon� do algorytm�w uczenia maszynowego. Podstawowe w�a�ciwo�ci tych algorytm�w - ich niezawodno��, zbie�no��, z�o�ono�� obliczeniowa i tak dalej - s� rzeczywistymi cechami bez wzgl�du na nazw�, kt�rej si� u�ywa. Co wi�cej, algorytmy s� ju� nazywane wieloma r�nymi nazwami, takimi jak "eksploracja danych", "statystyki stosowane", "zautomatyzowane szukaj "i tak dalej. W ten spos�b mo�na zrezygnowa� z nazwy "uczenia maszynowego", poniewa� nie ma to oczywi�cie wp�ywu na podstawow� nauk�. Nie nale�y tak �atwo rezygnowa� z nazwy "uczenia maszynowego", poniewa� nazwa wskazuje na szereg interesuj�cych zagadnie� dotycz�cych natury poznania i uczenia si� oraz znaczenia metod maszynowych w badaniu poznania cz�owieka. Metody uczenia maszynowego s� obecnie regularnie stosowane w celu zapewnienia ram i inspiracji dla modeli poznawczych, czasami pod has�em "obliczeniowej kognitywistyki". Etykieta jest r�wnie� wa�na, poniewa� ustanawia uprzedzenia i oczekiwania u tych, kt�rzy j� s�ysz�. Czasami te oczekiwania s� nieuzasadnione, ale sk�aniaj� osoby - zar�wno zwolennik�w, jak i sceptyk�w - do zadawania wa�nych pyta� na temat natury i wydajno�ci tych algorytm�w. Ostatnia ko�cowa kwestia filozoficzna dotyczy stopnia, w jakim mo�na by� realist� w zakresie tre�ci lub proces�w po�rednich wyuczonego modelu. To znaczy, kiedy mo�na zrozumie�, �e wewn�trzna struktura lub bogatsza tre�� semantyczna wyuczonego modelu odpowiada - by� mo�e tylko z pewnym prawdopodobie�stwem - cechom �wiata? To pytanie jest szczeg�lnie nagl�ce dla bada� nad uczeniem si� przyczynowym, kt�re maj� na celu wywnioskowanie struktury przyczynowej na �wiecie na podstawie zestaw�w pasywnych obserwacji. Algorytmy wnioskowania przyczynowego przypuszczalnie ucz� si� zestawu struktur przyczynowych, kt�re mog�y wytworzy� dany zestaw danych, lub odkry� najbardziej prawdopodobn� tak� struktur�. Istnieje wiele przypadk�w, w kt�rych te algorytmy zosta�y zastosowane do rzeczywistych zestaw�w danych, a wyuczone modele zosta�y nast�pnie pomy�lnie przypisane dla �wiata. Algorytmy te - podobnie jak wszystkie metody wnioskowania - s� wiarygodne tylko przy okre�lonych za�o�eniach dotycz�cych natury �wiata. Co wi�cej, tre�� semantyczna wyuczonego modelu - fakt, �e mo�emy go nazwa� modelem przyczynowym - wywodzi si� z tych za�o�e�, kt�re zapewniaj� charakterystyk� jednego (?) Sposobu, w jaki struktury przyczynowe mog� by� "rzutowane" na dane obserwowane lub eksperymentalne . Analogia jest tu z za�o�eniami, takimi jak teoria �wiat�a z promieniem: te za�o�enia wyja�niaj�, w jaki spos�b tr�jwymiarowe obiekty s� rzutowane na dwuwymiarow� p�aszczyzn� (np. siatk�wk�) i s� niezb�dne, aby jakikolwiek system wizualny m�g� wnioskowa� o strukturze obiektu na podstawie ograniczonego dwuwymiarowego wej�cia. Podobnie jak nasz system wizualny do�wiadcza z�udze� optycznych, gdy r�ne za�o�enia nie s� w stanie utrzyma� (np. Prosty dr��ek wydaje si� wygi�ty po umieszczeniu w wodzie), algorytmy wnioskowania przyczynowego podlegaj� "z�udzeniom wnioskowania przyczynowego", gdy za�o�enia s� naruszone w okre�lony spos�b. Te algorytmy wnioskowania przyczynowego i og�lnie algorytmy uczenia maszynowego nie wydaj� si� w tym momencie r�ni� od standardowych przypadk�w wnioskowania indukcyjnego: �adne wnioskowanie indukcyjne nie mo�e mie� �adnych gwarancji niezawodno�ci bez r�nych za�o�e� dotycz�cych �wiata. Je�li te za�o�enia s� spe�nione, algorytmy dzia�aj�; je�li zostan� naruszone, nie ma �adnego konkretnego uzasadnienia, aby wierzy� w wewn�trzn� struktur� wynik�w algorytmu. Jednak za�o�enia algorytm�w wnioskowania przyczynowego s� czasami twierdzone, �e s� r�ne, poniewa� wydaje si�, �e mo�emy jedynie przetestowa�, czy za�o�enia s� rzeczywi�cie spe�nione, maj�c tak� sam� wiedz� przyczynow�, kt�rej pr�bujemy si� nauczy� . Argument ten nie koncentruje si� na czystej mo�liwo�ci, �e za�o�enia mog� by� fa�szywe, poniewa� istnieje ryzyko, �e wszelkie wnioskowanie indukcyjne musi si� odby�. Ta troska nie dotyczy tak�e praktycznej testowalno�ci za�o�e� algorytm�w; wnioskowanie indukcyjne - czy to ludzkie, czy maszynowe - nieuchronnie poci�ga za sob� za�o�enia, kt�re w danym momencie mog� by� praktycznie niemo�liwe do przetestowania. Mo�e by� potrzebne na przyk�ad rz�d wielko�ci wi�cej danych ni� obecnie. Je�li za�o�enia mo�na w zasadzie przetestowa�, w�wczas (w pewnym sensie) mo�na ustali�, czy algorytmy s� wiarygodne w takiej sytuacji, a wi�c mie� uzasadnienie, aby traktowa� wyuczony model w realistyczny spos�b. Podstawowym zmartwieniem jest to, �e za�o�enia nie s� co do zasady testowalne, poniewa� wydaje si�, �e jedynym sposobem na sprawdzenie, kt�re testy statystyczne s� istotne, jest znajomo�� podstawowej struktury przyczynowej, ale w�a�nie to powinien znale�� algorytm wnioskowania przyczynowego . Algorytmy te mog� (argument jest kontynuowany) czasami znale�� przybli�enia do prawdziwej struktury przyczynowej, ale tylko przypadkowo. Za�o�enia mog� by� prawdziwe w ka�dej konkretnej sytuacji, ale nie mo�na tego wiedzie�, a wi�c nie ma uzasadnienia do tego ,�e algorytm wyprowadza jako cokolwiek innego ni� przedstawienie danych obserwowanych lub eksperymentalnych. Algorytmy mog� wytworzy� u�yteczn� "skr�con�" wersj� danych, kt�r� mo�na wykorzysta� na r�ne sposoby, ale nie mo�na (przy tym argumencie) uczy� si� niczego merytorycznego na temat podstawowej struktury �wiata. Ten potencjalny problem nie jest do nich ograniczony, cho� g��wnie dotyczy algorytm�w wnioskowania przyczynowego. Na przyk�ad wiele algorytm�w grupowania jest niezawodnych tylko wtedy, gdy mo�na przyj�� pewne za�o�enia dotycz�ce grup bazowych. Trzeba wi�c by� w stanie zbada� grupy, aby ustali�, czy maj� one te w�a�ciwo�ci, ale wymaga�oby to wcze�niejszej znajomo�ci grup, co wyeliminowa�oby potrzeb� korzystania z algorytmu klastrowania. Metody uczenia maszynowego maj� wyra�nie mniejsz� warto��, je�li zawsze musz� by� interpretowane w spos�b instrumentalistyczny. Teorie instrumentalistyczne - te, kt�re przewiduj� zachowanie systemu bez dokonywania �adnych zobowi�zania do podstawowej struktury lub ontologii teorii - s� u�yteczne na wiele sposob�w, ale cz�sto pragnie si� czego� wi�cej ni� zwyk�ego przewidywania. Przede wszystkim trzeba mie� informacje o mechanizmach le��cych u ich podstaw, aby m�c dok�adnie przewidzie�, co si� stanie, gdy system si� zepsuje lub zmieni na r�ne sposoby; teorie instrumentalistyczne nie dostarczaj� takich informacji. Istniej� trzy naturalne odpowiedzi na ten sprzeciw. Po pierwsze, uwa�ne zbadanie za�o�e� cz�sto ujawnia, �e wiedza wymagana do ich przetestowania jest s�absza ni� sugeruje to powierzchowne za�o�enie za�o�enia. W szczeg�lnym przypadku algorytm�w wnioskowania przyczynowego trzeba mie� pewien rodzaj wiedzy przyczynowej w celu przetestowania za�o�e�, ale niezb�dna wiedza to nie to samo, co znajomo�� poszukiwanej struktury przyczynowej. Na przyk�ad, by� mo�e trzeba wiedzie�, �e okre�lona populacja jest "przyczynowo jednorodna" (tj. Wszystkie osoby maj� takie same relacje przyczynowe, cho� niekoniecznie te same warto�ci zmiennych). Ta wiedza wymaga wiedzy przyczynowej, ale niekoniecznie o przyczynach lub skutkach tej konkretnej zmiennej. Druga pokrewna odpowied� zauwa�a, �e argument okre�la testowalno�� za�o�e� jako "wszystko albo nic":

Wie si� dok�adnie, co jest wymagane do przetestowania za�o�enia (cho� mo�na tego nie przetestowa�), albo w og�le nic. Bardziej realistyczn� charakterystyk� sytuacji jest to, �e cz�sto zna si� niekt�re, ale nie wszystkie testy za�o�enia, a tak�e szereg mo�liwych dr�g przysz�ych test�w. Mo�na mie� r�wnie� powody, by s�dzi�, �e niedok�adnie przetestowano to za�o�enie. Je�li ten rodzaj ograniczonej wiedzy jest ograniczony, w�wczas mo�na mie� ograniczone potwierdzenie za�o�enia, uznaj�c jednocze�nie, �e dane wyj�ciowe algorytmu nale�y interpretowa� lub akceptowa� w ograniczony spos�b. Mo�na sprzeciwi� si� wielu metodom uczenia maszynowego na tej podstawie, �e wymagaj� one pewnych silnych, nie do ko�ca ustalonych w�a�ciwo�ci, ale nie nale�y odrzuca� wynik�w tych metod po prostu dlatego, �e w pewnym momencie nie ma pewno�ci, czy dok�adna w�a�ciwo�� si� utrzymuje. Trzeci� i najbardziej og�ln� odpowiedzi� na t� rodzin� zastrze�e� jest zauwa�enie, �e schemat argument�w faktycznie przemawia przeciwko wi�kszo�ci metod indukcyjnych, a nie tylko wnioskowaniu przyczynowemu; sprzeciwia si� uczeniu maszynowemu, a nie uczeniu maszynowemu. Rozwa� konkretny wniosek indukcyjny: "Wszystkie elektrony maj� �adunek ujemny". Ka�da metoda, kt�ra przypuszcza ten wniosek, musi przyj�� pewne za�o�enia dotycz�ce �wiata, na przyk�ad, �e elektrony tworz� sp�jny, stabilny zestaw pod wzgl�dem posiadania pewnego �adunku elektrycznego. Takie za�o�enie mo�na przetestowa� jedynie poprzez rzeczywiste okre�lenie �adunk�w elektrycznych wszystkich elektron�w, ale takie testy wyeliminowa�yby potrzeb� wnioskowania o wnioski indukcyjne. Zauwa�, �e w tym przyk�adzie nie wspomniano o metodach maszynowych, ani nie podano specyfikacji poza "metod� indukcyjn�". Problem znajomo�ci warunk�w potwierdzaj�cych przyj�cie metody jest og�lny, kt�ry przemawia przeciwko prawie wszystkim indukcyjnym metodom wnioskowania, a nie konkretnie metodom uczenia maszynowego. Rzadko mo�na z g�ry pozna� wszystkie warunki potwierdzenia lub testowania dla za�o�e�, kt�re s� wymagane dla okre�lonej metody wnioskowania w celu zapewnienia wiarygodnych informacji o strukturze wewn�trznej lub uniwersalnej.

Wniosek

Metody uczenia maszynowego s� cz�sto traktowane z pewnym podejrzeniem. Cz�sto s� przedstawiane jako "czarne skrzynki", kt�re pobieraj� dane i bez �adnych wskaz�wek w jaki� spos�b ucz� si� cz�ci prawdziwej struktury �wiata. Algorytmy te s� w praktyce o wiele mniej tajemnicze: etykieta "automatycznych statystyk" jest cz�sto trafnym deskryptorem. Metody uczenia maszynowego odkrywaj� i wykorzystuj� relacje strukturalne mi�dzy danymi, a to wnioskowanie strukturalne stanowi podstaw� zar�wno mocnych, jak i s�abych stron algorytm�w uczenia maszynowego. Metody te mog� by� stosowane w spos�b stosunkowo og�lny, poniewa� konkretne znaczenie zmiennych nie ma znaczenia dla funkcjonowania algorytmu. Z powodu tej og�lno�ci nie mog� one jednak dostarcza� informacji specyficznych dla domeny, takich jak mechanizmy le��ce u podstaw relacji informacyjnych. Uczenie maszynowe jest jednym z najszybciej rozwijaj�cych si� obszar�w informatyki, a wiele spo�r�d najwa�niejszych wyzwa� dotyczy rozszerzenia algorytm�w na nowe typy danych, nowe modele lub s�absze za�o�enia. Istniej� obawy filozoficzne dotycz�ce uczenia maszynowego, ale wi�kszo�� z nich dotyczy cz�ci "maszynowej" lub "uczenia si�". Z jednej strony uczenie maszynowe jest przyk�adem z�o�onego obliczenia maszynowego, dlatego pojawiaj� si� naturalne pytania o to, czy jakiekolwiek operacje maszynowe mo�na poprawnie opisa� za pomoc� termin�w poznawczych. Z drugiej strony algorytmy uczenia maszynowego wykonuj� z�o�one, ale jasno okre�lone sekwencje oblicze�, dlatego powstaj� pytania, czy metody kwalifikuj� si� jako "uczenie si�", czy te� za�o�enia niezb�dne do wnioskowania indukcyjnego mo�na odpowiednio przetestowa�. Podsumowuj�c, metody uczenia maszynowego otworzy�y nowe mo�liwo�ci uczenia si� o strukturze i zachowaniu naszego �wiata. Algorytmy te nale�y oczywi�cie stosowa� z odpowiedni� �wiadomo�ci� i testowaniem podstawowych za�o�e�. Jednak przy w�a�ciwym zastosowaniu uczenie maszynowe mo�e wykorzystywa� struktur� w danych, aby uzyska� cenn� wiedz� na temat struktury i relacji na �wiecie.

Postawy filozoficzneArtificial Intelligence Experts

VII.Nauka