Historia Sztucznej InteligencjiArtificial Intelligence Experts

Spotkania



We wrześniu 1948 r. W California Institute of Technology (Caltech) w Pasadenie w Kalifornii odbyła się interdyscyplinarna konferencja na temat tego, jak układ nerwowy kontroluje zachowanie i jak mózg można porównać do komputera. Nazywało się to Sympozjum Hixona na temat mechanizmów mózgowych w zachowaniu. Uczestniczyło w nich kilku luminarzy i wygłaszało referaty, w tym Warren McCulloch, John von Neumann i Karl Lashley (1890 -1958), wybitny psycholog. Lashley wygłosił coś, co według niektórych było najważniejszą przemową na sympozjum. Zarzucił behawioryzmowi jego statyczny obraz funkcji mózgu i twierdził, że aby wyjaśnić ludzkie możliwości planowania i języka, psychologowie musieliby zacząć rozważać dynamiczne, hierarchiczne struktury. Wystąpienie Lashleya położyło podwaliny pod to, co stałoby się kognitywistyką. Pojawienie się sztucznej inteligencji jako pełnego pola badań zbiegło się (i zostało zapoczątkowane) przez trzy ważne spotkania - jedno w 1955 r., jedno w 1956 r. I jedno w 1958 r. W 1955 r. Odbyła się "Sesja na temat uczenia się maszyn" zorganizowane w połączeniu z Western Joint Computer Conference 1955 w Los Angeles. W 1956 r. W Dartmouth College zwołano "Summer Research Project on Artiial Intelligence". W 1958 r. Sympozjum na temat "Mechanizacji procesów myślowych" sponsorowało Narodowe Laboratorium Fizyczne w Wielkiej Brytanii.

Sesja na temat uczenia się maszyn

Cztery ważne artykuły zostały zaprezentowane w Los Angeles w 1955 roku. We wstępie swojego przemówienia do tej sesji Willis Ware napisał:

"Dokumenty te nie sugerują, że przyszłe maszyny uczące się powinny być zbudowane zgodnie z ogólnym cyfrowym urządzeniem komputerowym; jest raczej tak, że cyfrowy system komputerowy oferuje wygodne i wysoce elastyczne narzędzie do badania zachowania modeli. Ta grupa dokumentów sugeruje kierunki ulepszeń dla przyszłych konstruktorów maszyn, których celem jest wykorzystanie cyfrowych maszyn obliczeniowych do tej konkretnej techniki modelowej. Szybkość operacji musi być wielokrotnie zwiększana; jednoczesne działanie w wielu trybach równoległych jest silnie wskazane; wielkość losowego dostępu pamięć masowa musi przeskakiwać o kilka rzędów wielkości; potrzebne są nowe typy urządzeń wejściowych. Dzięki takim postępom i technikom omówionym w tych dokumentach istnieje znaczna obietnica, że systemy mogą zostać zbudowane w stosunkowo bliskiej przyszłości, co będzie imitować znaczną część aktywność mózgu i układu nerwowego "

Na szczęście poczyniliśmy znaczne postępy w zakresie produktów znajdujących się na liście "wskazówek dotyczących ulepszeń" Ware'a. Szybkość działania wzrosła wielokrotnie, w wielu systemach AI wykorzystywana jest praca równoległa, pamięć o dostępie swobodnym skoczyła o kilka rzędów wielkości i dostępnych jest wiele nowych typów urządzeń wejściowych. Być może konieczne będą dalsze usprawnienia. Pierwszy artykuł sesji, autorstwa Wesleya Clarka i Belmonta Farleya z Lincoln Laboratory MIT, opisał niektóre eksperymenty z rozpoznawaniem wzorców na sieciach elementów podobnych do neuronów. Zmotywowani propozycją Hebba, aby zespoły neuronów mogły się uczyć i dostosowywać poprzez dostosowanie siły ich wzajemnych połączeń, eksperymentatorzy próbowali różnych schematów dostosowywania siły połączeń w swoich sieciach, które zwykle były symulowane na komputerach. Niektórzy chcieli tylko zobaczyć, co mogą zrobić te sieci, podczas gdy inni, tacy jak Clark i Farley, byli zainteresowani konkretnymi aplikacjami, takimi jak rozpoznawanie wzorców. Ku przerażeniu neurofizjologów, którzy skarżyli się na nadmierne obciążenie, sieci te nazwano sieciami neuronowymi. Clark i Farley doszli do wniosku, że "surowe, ale użyteczne właściwości uogólniające posiadają nawet losowo połączone sieci opisanego typu" .Kolejna para artykułów, jedna autorstwa Geralda P. Dinneena (1924-), a druga Olivera Selfridge'a (1926-), obaj z Lincoln Laboratory firmy MIT przedstawiły inne podejście do rozpoznawania wzorów. W artykule Dinneen opisa; techniki obliczeniowe przetwarzania obrazów. Obrazy zostały przedstawione komputerowi jako prostokątny zestaw wartości intensywności odpowiadających różnym odcieniom szarości na obrazie. Dinneen był pionierem zastosowanie metod filtrowania w celu usunięcia przypadkowych kawałków hałasu, pogrubienia linii i krawędzi. Rozpoczął pracę od:

"W ciągu ostatnich miesięcy podczas serii spotkań po lunchu i lunchu grupa nas w laboratorium zastanawiała się nad problemami w tym obszarze. Nasze odczucie, niemal jednogłośnie, było takie, że istnieje potrzeba praktycznego działania, wybrania prawdziwego problemu na żywo i zajęcia się nim ".

Tekst Selfridge'a był kawałkiem towarzyszącym artykułowi Dinneen. Operując na "oczyszczonych" obrazach (jak na przykład program Dinneen), Selfridge opisał techniki podświetlania "cech" na tych obrazach, a następnie klasyfikowania ich na podstawie cech. Na przykład narożniki obrazu, o których wiadomo, że są kwadratem lub trójkątem, są podświetlone, a następnie zliczana jest liczba narożników w celu ustalenia, czy obraz jest kwadratem czy trójkątem. Selfridge powiedział, że "ostatecznie mamy nadzieję rozpoznać inne rodzaje cech, takie jak krzywizna, zestawienie pojedynczych punktów (tj. Ich względne położenie i odległości) i tak dalej". Metody zapoczątkowane przez Selfridge'a i Dinneena mają fundamentalne znaczenie dla większości późniejszych prac nad umożliwieniem maszynom "widzenia". Ich praca jest tym bardziej niezwykła, gdy weźmie się pod uwagę, że wykonano ją na komputerze, Lincoln Laboratory "Memory Test Computer", który dziś można by uznać za niezwykle prymitywny. [Komputer testowy pamięci (MTC) jako pierwszy użył modułów pamięci o swobodnym dostępie z rdzeniem ferrytowym opracowanych przez Jaya Forrestera. Został zaprojektowany i zbudowany przez Kena Olsena w 1953 roku w Digital Equipment Corporation (DEC). MTC był pierwszym komputerem do symulacji działania sieci neuronowych (tych Clarka i Farleya). Kolejny artykuł dotyczył programowania komputera do gry w szachy. Został napisany przez Allena Newella, wówczas badacza z Rand Corporation w Santa Monica. Dzięki biograficznemu szkicowi Newella napisanemu przez jego kolegę, Herb'a Simona z Carnegie Mellon University, wiemy coś o motywacji Newella i tym, jak zainteresował się tym problemem:

"We wrześniu 1954 roku Allen wziął udział w seminarium w RAND, w którym Oliver Selfridge z Lincoln Laboratory opisał działający program komputerowy, który nauczył się rozpoznawać litery i inne wzory. Słuchając Selfridge'a charakteryzującego jego raczej prymitywny, ale działający system, Allen doświadczył tego, o czym zawsze mówił jako jego "doświadczenie konwersji". "Od razu stało się dla niego jasne", że można zbudować inteligentne systemy adaptacyjne, które były znacznie bardziej złożone niż cokolwiek jeszcze. o przetwarzaniu informacji w organizacjach, o cybernetyki i propozycjach programów szachowych dodano teraz konkretną demonstrację wykonalności komputerowej symulacji złożonych procesów. W tym czasie zaangażował się w zrozumienie ludzkiej nauki i myślenia poprzez symulację ".

Simon podsumowuje artykuł Newella na temat szachów:

"[Przedstawił] wymyślny projekt programu komputerowego do gry w szachy w humanoidalny sposób, obejmujący pojęcia celów, poziomy aspiracji do zakończenia poszukiwań, satysfakcję z" wystarczająco dobrych "ruchów, wielowymiarowe funkcje oceny, generowanie subceli do realizacji celów, i coś w rodzaju najlepszego pierwszego wyszukiwania. Informacje o tablicy miały być wyrażone symbolicznie w języku przypominającym rachunek predykatów. Projekt nigdy nie został wdrożony, ale później zapożyczono z niego pomysły do wykorzystania w NSS [Newell, Shaw i Simon] program szachowy w 1958 r. "

Newell zasugerował, że jego cele wykraczają poza szachy. W swoim artykule napisał: "Zatem celem tego wysiłku jest zaprogramowanie obecnego komputera do nauki dobrej gry w szachy. Jest to sposób na lepsze zrozumienie rodzajów komputerów, mechanizmów i programów niezbędnych do obsługi ultraskomplikowanych problemów ". Proponowane techniki Newella można uznać za jego pierwszą próbę uzyskania dowodów na to, co on i Simon nazwali później hipotezą fizycznego systemu symboli. Walter Pitts, komentator tej sesji, zakończył ją mówiąc: "Jednak, podczas gdy panowie Farley, Clark, Selfridge i Dinneen naśladują układ nerwowy, pan Newell woli naśladować hierarchię pierwotnych przyczyn, zwanych tradycyjnie umysłem. Ostatecznie dojdzie do tego samego, bez wątpienia… " Aby dojść do tego samego, "te dwa podejścia, modelowanie neuronowe i przetwarzanie symboli, należy uznać po prostu za różne poziomy opisu tego, co dzieje się w mózgu. Różne poziomy są odpowiednie do opisywania różnych rodzajów zjawisk mentalnych

Letni projekt Dartmouth

W 1954 roku John McCarthy (1927-) dołączył do Dartmouth College w Hanover, New Hampshire, jako adiunkt matematyki. McCarthy stale interesował się czymś, co nazwano by sztuczną inteligencją. Zostało "uruchomione", mówi, "biorąc udział w Sympozjum Hixon na temat mechanizmów mózgowych w zachowaniu we wrześniu 1948 r., Które odbyło się w Caltech, gdzie zaczynałem pracę magisterską z matematyki". Podczas pobytu w Dartmouth został zaproszony przez Nathaniela Rochestera (1919-2001) do spędzenia lata 1955 r. w dziale badań informacyjnych Rochester w IBM w Poughkeepsie w Nowym Jorku. Rochester był projektantem komputera IBM 701 i brał również udział w badaniach sieci neuronowych. W IBM tego lata McCarthy i Rochester przekonali Claude'a Shannona i Marvina Minsky'ego (1927-), wówczas młodszego adiunkta Harvarda z matematyki i neurologii, aby przyłączyli się do nich, proponując warsztaty, które odbędą się w Dartmouth następnego lata. Shannon, o którym wcześniej wspomniałem, był matematykiem w Bell Telephone Laboratories i już słynął z pracy nad teorią przełączania i teorią informacji statystycznych. McCarthy przejął inicjatywę, pisząc propozycję i organizując coś, co nazwano "Letnim projektem badawczym na temat sztucznej inteligencji". Propozycja została przedłożona Fundacji Rockefellera w sierpniu 1955 r. Fragmenty wniosku brzmią następująco:

"Proponujemy przeprowadzenie 2-miesięcznego, 10-osobowego badania sztucznej inteligencji latem 1956 r. W Dartmouth College w Hanover, New Hampshire. Badanie ma być przeprowadzone na podstawie przypuszczenia, że każdy aspekt uczenia się lub jakakolwiek inna cecha inteligencji może być w zasadzie tak precyzyjnie opisana, że można stworzyć maszynę do jej symulacji. Zostanie podjęta próba znalezienia sposobu, w jaki maszyny będą używać języka, tworzyć abstrakcje i koncepcje, rozwiązywać rodzaje problemów zarezerwowanych obecnie dla ludzi i poprawiać się. Uważamy, że można dokonać znacznego postępu w zakresie jednego lub więcej z tych problemów, jeśli starannie wybrana grupa naukowców będzie pracować nad tym razem przez lato ". …
W obecnym celu przyjmuje się, że problemem sztucznej inteligencji jest sprawienie, aby maszyna zachowywała się w sposób, który nazwano by inteligentnym, gdyby tak zachowywał się człowiek ".

Fundacja Rockefellera zapewniła fundusze na to wydarzenie, które odbyło się w ciągu sześciu tygodni lata 1956 r. Okazało się jednak, że jest to bardziej ciągły sześciotygodniowy warsztat niż letnie "studium". Wśród osób biorących udział w warsztatach tego lata, oprócz McCarthy'ego, Minsky'ego, Rochestera i Shannona, byli Arthur Samuel (1901-1990), inżynier w korporacji IBM, który napisał już program gry w warcaby, Oliver Selfridge, Ray Solomonoff z MIT, który był zainteresowany automatyzacją indukcji, Allen Newell i Herbert Simon. Newell i Simon (wraz z innym naukowcem Rand, Cliffem Shawem) opracowali program do dowodzenia twierdzeń w logice symbolicznej. Kolejnym naukowcem IBM był Alex Bernstein, który pracował nad programem szachowym. McCarthy podał kilka powodów, dla których użył terminu "sztuczna inteligencja". Pierwszym było odróżnienie tematyki zaproponowanej na warsztaty w Dartmouth od wcześniejszego tomu zamówionych artykułów, zatytułowanych Automata Studies, współredagowanych przez McCarthy'ego i Shannona, które (ku rozczarowaniu McCarthy'ego) w dużej mierze dotyczyły ezoterycznego i raczej wąskiego przedmiotu matematycznego zwany teorią automatów. Drugi, według McCarthy'ego, polegał na "uniknięciu skojarzenia z" cybernetyką ". Skoncentrowanie się na sprzężeniu analogowym wydawało się mylące i chciałem uniknąć akceptacji Norberta Wienera jako guru lub kłótni z nim. "

Ta nazwa była (i nadal jest) kontrowersyjna. Według doskonałej historii Pameli McCorduck o początkach sztucznej inteligencji, Art Samuel zauważył: "Słowo" sztuczność "sprawia, że myślisz ,że jest w tym coś fałszywego, albo brzmi, jakby to wszystko było sztuczne i nie ma w tym nic prawdziwego. McCorduck mówi dalej, że " Newellowi lub Simonowi spodobało się to zdanie i nazwali je własnym pracując przez lata przy złożonym przetwarzaniu informacji. "Ale większość osób, które zapisały się do pracy w tym nowym polu (w tym ja), używała nazwy" sztuczna inteligencja "i tak nazywa się to dzisiaj. (Później, Newell pogodził się z tą nazwą. Komentując treść pola, stwierdził: "Więc pielęgnuj nazwę sztuczna inteligencja. To dobra nazwa. Jak wszystkie nazwiska naukowców, będzie rosło, aby stać się dokładnie tym, czym jest pole jakie ma na myśli. ") Podejścia i motywacje ludzi na warsztatach różniły się. Rochester przybył na konferencję z doświadczeniem w sieci elementów podobnych do neuronów. Newell i Simon stosowali (a właściwie pomogli stworzyć) podejście do przetwarzania symboli. Jednym z tematów, o których Shannon chciał pomyśleć (zgodnie z propozycją), było zastosowanie koncepcji teorii informacji w komputerach i modelach mózgu. "(Po warsztatach Shannon odwrócił jednak uwagę od sztucznej inteligencji.) McCarthy napisał że chciał zbudować "sztuczny język, który można zaprogramować w komputerze do rozwiązywania problemów wymagających przypuszczeń i samodzielnego odniesienia. Powinien on odpowiadać językowi angielskiemu w tym sensie, że krótkie angielskie wypowiedzi na dany temat powinny mieć krótkich korespondentów w języku, podobnie jak krótkie argumenty lub przypuszczenia. Mam nadzieję, że spróbuję sformułować język posiadający te właściwości. . . " Chociaż McCarthy powiedział później, że jego pomysły na ten temat są nadal zbyt "źle sformułowane" do prezentacji na konferencji, nie minęło wiele czasu, zanim przedstawił konkretne propozycje użycia języka logicznego i jego mechanizmów wnioskowania do reprezentowania i rozumowania wiedzy. Chociaż rozprawa doktora Minsky'ego i niektóre z jego późniejszych prac koncentrowały się na sieciach neuronowych, w czasie warsztatów w Dartmouth zaczął zmieniać kierunek. Teraz, jak napisał, chciał rozważyć maszynę, która miałaby tendencję do tworzenia w sobie abstrakcyjnego modelu środowiska, w którym jest umieszczona. Gdyby napotkano problem, mógłby najpierw zbadać rozwiązania w ramach wewnętrznego abstrakcyjnego modelu środowiska, a następnie podjąć próbę eksperymentów zewnętrznych. "Podczas warsztatów Minsky kontynuował prace nad szkicem, który później został opublikowany jako praca podstawowa, "Kroki Ku inteligencji sztucznej. "Jednym z najważniejszych technicznych wkładów ze spotkania w 1956 r. Była praca Newella i Simona nad ich programem" Logic Theorist (LT) "służącym do udowodnienia twierdzeń w logice symbolicznej. LT był konkretnym dowodem na to, że przetwarzanie "struktury symboli "i wykorzystanie tego, co Newell i Simon nazywali "heurystyką" były fundamentem inteligentnego rozwiązywania problemów. Opiszę niektóre z tych pomysłów bardziej szczegółowo w następnej części. Newell i Simon pracowali nad pomysłami na LT dla kilka miesięcy i przekonał się pod koniec 1955 r., że można je wcielić w działający program. Według Edwarda Feigenbauma (1936 -), który odbywał kurs u Herb Simona w Carnegie na początku 1956 r., "To tuż po świętach Bożego Narodzenia - styczeń 1956 r. -kiedy Herb Simon wszedł do klasy i powiedział: "W czasie świąt Allen Newell i ja wynaleźliśmy maszynę myślącą." "To, co wkrótce miało zostać zaprogramowane jako LT, było maszyną myślącą" Simon mówił o niej. Nazywał to tak, bez wątpienia, ponieważ myślał, że tak się stało ,że niektóre z tych samych metod rozwiązywania problemów, z których korzystają ludzie. Simon napisał później: "W czwartek, 15 grudnia. Udało mi się ręcznie zasymulować pierwszy dowód ... Zawsze 15 grudnia 1955 roku obchodziłem urodziny heurystycznego rozwiązywania problemów przez komputer". Zgodnie z autobiografią Simona "Modele mojego życia" LT rozpoczęło się od symulacji ręcznej, wykorzystując swoje dzieci jako elementy komputerowe, jednocześnie pisząc i trzymając karty notatek jako rejestry zawierające zmienne stanu programu. Kolejnym tematem omawianym w Dartmouth był problem udowodnienia twierdzeń w geometrii. (Być może niektórzy czytelnicy przypomną sobie swoje zmagania z dowodami geometrii w liceum). Minsky już myślał o programie do udowodnienia twierdzeń geometrii. McCorduck cytuje go, mówiąc:

"Prawdopodobnie ważnym wydarzeniem w moim rozwoju - i wyjaśnieniem mojej być może zaskakująco przypadkowej akceptacji pracy Newella-Shawa - Simon - było to, że naszkicowałem heurystyczną procedurę poszukiwania maszyny geometrycznej, a następnie byłem w stanie podać ją - naśladuj to na papierze w ciągu około godziny. Pod moją ręką powstał nowy dowód twierdzenia o trójkącie równoramiennym, dowód, który był nowy i elegancki dla uczestników - później odkryliśmy, że dowód był dobrze znany. . ." W lipcu 2006 r. W Dartmouth odbyła się kolejna konferencja z okazji pięćdziesiątej rocznicy pierwszej konferencji. Kilku założycieli i innych wybitnych badaczy sztucznej inteligencji wzięło udział w ankiecie i dokonało przeglądu tego, co osiągnięto od 1956 r. McCarthy przypomniał, że głównym powodem warsztatów Dartmouth w 1956 r. nie było spełnienie moich oczekiwań, ponieważ AI jest trudniejsze niż się spodziewaliśmy. , warsztaty z 1956 r. są uważane za oficjalny początek poważnej pracy w sztucznej inteligencji, a Minsky, McCarthy, Newell i Simon zostali uznani za "ojców" AI. W bibliotece Baker Library w Dartmouth poświęcono tablicę upamiętniającą początek sztucznej inteligencji jako dyscypliny naukowej.

Mechanizacja procesów myślowych

W listopadzie 1958 r. Sympozjum na temat "Mechanizacji Procesu Myśli "odbyło się w National Physical Laboratory w Teddington, Middlesex, Anglia. Zgodnie z przedmową z konferencji, sympozjum odbyło się" w celu zgromadzenia naukowców badających myślenie sztuczne, rozpoznawanie znaków i wzorów, naukę, mechaniczne tłumaczenie języka, biologia, programowanie automatyczne, planowanie przemysłowe i mechanizacja biurowa. " Wśród osób, które zaprezentowały referaty na tym sympozjum było wielu, o których już wspomniałem w tej historii. Należą do nich Minsky (wówczas członek personelu w Lincoln Laboratory i na drodze do zostania profesorem matematyki na MIT), McCarthy (wówczas asystent profesora nauk o komunikacji na MIT), Ashby, Selfridge i McCulloch. (John Backus, jeden z twórców komputerowego języka programowania FORTRAN, i Grace Murray Hopper, pionier "programowania automatycznego" również wygłosili referaty.) Obrady tej konferencji zawierają artykuły, które stały się bardzo wpływowe w historii sztucznej inteligencji. Wśród nich wymienię te autorstwa Minsky'ego, McCarthy'ego i Selfridge'a. Artykuł Minsky'ego "Niektóre metody sztucznej inteligencji i programowania heurystycznego" był najnowszą wersją utworu, nad którym pracował tuż przed warsztatami w Dartmouth. W artykule opisano różne metody, które były (i mogłyby być) wykorzystane w programowaniu heurystycznym. Obejmował także metody rozpoznawania wzorców, uczenia się i planowania. Ostateczna wersja, która wkrótce miała zostać opublikowana jako "Kroki w kierunku sztucznej inteligencji", miała stać się obowiązkową lekturą dla nowych rekrutów do pól. Wspomniałem już o nadziei McCarthy'ego na opracowanie języka sztucznej inteligencji dla AI. Podsumował swój artykuł konferencyjny "Programy ze zdrowym rozsądkiem" w następujący sposób:

"W tym artykule omówione zostaną programy do manipulacji w odpowiednim języku formalnym (najprawdopodobniej część rachunku predykatów) typowymi stwierdzeniami instrumentalnymi. Program podstawowy wyciągnie natychmiastowe wnioski z listy przesłanek. Wnioski te będą zdaniami deklaratywnymi lub imperatywnymi. Kiedy wydane zostanie zdanie rozkazujące, program podejmuje odpowiednie działanie. " W swoim artykule McCarthy zasugerował, że fakty potrzebne programowi AI, który nazwał "przyjmującym porady", może być reprezentowany jako wyrażenie w matematycznym (i przyjaznym dla komputera) języku zwanym "logiką pierwszego rzędu". Na przykład fakty "Jestem przy biurku" i "Moje biurko jest w domu" byłyby reprezentowane jako wyrażenia na (ja, biurko) i na (biurko, dom). Te, wraz z podobnie reprezentowanymi informacjami o tym, jak osiągnąć zmianę lokalizacji (na przykład pieszo i samochodem), mogą być następnie wykorzystane przez proponowanego (ale jeszcze nie zaprogramowanego) doradcę, aby dowiedzieć się, jak osiągnąć jakiś cel, taki jak będąc na lotnisku. Proces wnioskowania doradcy wytworzyłyby logiczne wyrażenia, które wymagałyby przejścia do samochodu i jazdy na lotnisko. Reprezentowanie faktów w języku logicznym ma kilka zalet. Jak to później ujął McCarthy:

"Wyrażanie informacji w zdaniach deklaratywnych jest o wiele bardziej modułowe niż wyrażanie ich w segmentach programu komputerowego lub w tabelach. Zdania mogą być prawdziwe w znacznie szerszych kontekstach, niż konkretne programy mogą być przydatne. Dostawca faktu nie musi wiele rozumieć na temat jak działa odbiorca lub jak lub czy będzie go używać. Ten sam fakt można wykorzystać do wielu celów, ponieważ logiczne konsekwencje zbiorów faktów mogą być dostępne " McCarthy rozwinął te pomysły w memorandum towarzyszącym. Jak wspomnę później, niektóre z propozycji McCarthy'ego zostały ostatecznie wdrożone przez absolwenta Stanforda, C. Cordella Greena. Wspomniałem już o pracy Olivera Selfridge'a z rozpoznawaniem wzorów w 1955 roku. Na sympozjum Teddington w 1958 r. Selfridge przedstawił artykuł na temat nowego modelu rozpoznawania wzorców (i prawdopodobnie także innych zadań poznawczych). Nazwał go "Pandemonium", co oznacza miejsce wszystkich demonów. Jego model jest szczególnie interesujący, ponieważ jego komponenty, które Selfridge nazywa "demonami", mogą być tworzone zarówno jako spełniające funkcje komórek nerwowych niższego poziomu, jak i funkcje poznawcze wyższego poziomu (odmiany przetwarzającej symbole). Tak więc Pandemonium może przybierać formę sieci neuronowej, hierarchicznie zorganizowanego zestawu procesorów symboli {wszystkie pracujące równolegle lub jakiejś kombinacji tych form. Jeśli to drugie, model jest prowokującą propozycją połączenia tych dwóch odmiennych podejść do sztucznej inteligencji. We wstępie do swojej pracy Selfridge podkreślił znaczenie obliczeń wykonywanych równolegle:

"Podstawowym motywem naszego modelu jest koncepcja przetwarzania równoległego. Sugeruje się to z dwóch powodów: po pierwsze, często łatwiej jest przetwarzać dane w sposób równoległy i rzeczywiście jest to zwykle bardziej naturalny sposób postępowania to w; a po drugie, łatwiej jest zmodyfikować zespół quasi-niezależnych modułów niż maszyna, której wszystkie części wchodzą w interakcję natychmiastowo i w złożony sposób ".

Selfridge przedstawił kilka sugestii dotyczących tego, jak Pandemonium może się uczyć. Warto opisać niektóre z nich, ponieważ zapowiadają późniejszą pracę w uczeniu maszynowym. Ale najpierw muszę powiedzieć nieco więcej o strukturze Pandemonium. Struktura Pandemonium przypomina schemat organizacyjny firmy. Na najniższym poziomie są pracownicy, których Selfridge nazwał "demonami danych". Są to procesy obliczeniowe, które "patrzą na" dane wejściowe, powiedzmy obraz drukowanej litery lub cyfry. Każdy demon szuka czegoś konkretnego na obrazie, być może poziomego paska; inny może szukać pionowego paska; inny dla łuku koła i tak dalej. Każdy demon "krzyczy" swoimi ustaleniami do zestawu demonów znajdujących się wyżej w organizacji. (Pomyśl o tych demonach na wyższych szczeblach jako menedżerach średniego szczebla). Głośność krzyku demona zależy od tego, jak pewne jest to, że widzi to, czego szuka. Oczywiście Selfridge mówi metaforycznie, kiedy używa określeń takich jak "szuka" i "krzyczy". Wystarczy powiedzieć, że programowanie komputerów nie jest zbyt trudne szukaj "pewnych cech na obrazie. (Selfridge już pokazał, jak można to zrobić w swoim artykule z 1955 r., o którym wspominałem wcześniej). A" krzyk "jest tak naprawdę siłą wyjściową procesu obliczeniowego. Każdy z następnych poziom demonów specjalizuje się w słuchaniu określonej kombinacji krzyku z demonów danych. Na przykład jeden z demonów na tym poziomie może zostać dostrojony, aby nasłuchiwać okrzyków danych demon 3, demon danych 11 i demon danych 22. Jeśli okaże się, że te konkretne demony krzyczą głośno, odpowiada własnym krzykiem demonom o jeden poziom wyżej w hierarchii i tak dalej. Tuż poniżej najwyższego poziomu organizacji znajdują się tak zwane przez Selfridge "demony poznawcze". Podobnie jak na innych poziomach, słuchają one określonych kombinacji okrzyków demonów na niższym poziomie i odpowiadają własnymi okrzykami na ostatecznego "demona decyzyjnego" na górze - ogólnego bossa. W zależności od tego, co słyszy od swojego "personelu", demon decyzji ostatecznie ogłasza, co uważa za tożsamość obrazu {być może litera "A" lub litera "R" lub cokolwiek innego. Rzeczywisty projekt demona zależy od tego, jakie zadanie ma wykonać Pandemonium. Ale nawet bez sprecyzowania, co ma zrobić każdy demon, Selfridge przedstawił bardzo interesujące propozycje dotyczące tego, jak Pandemonium może nauczyć się osiągać lepsze wyniki we wszystkim, co powinno robić. Jedna z jego propozycji dotyczyła wyposażenia każdego demona w coś, co stanowiło "megafon", przez który wydał swój okrzyk. Poziom głośności megafonu można regulować. (Pandemonium Selfridge'a jest nieco bardziej skomplikowane niż wersja, którą opisuję. W jego wersji każdy demon używa różnych kanałów do komunikowania się z każdym z różnych demonów powyżej. Głośność krzyku dochodzącego do każdego kanału jest indywidualnie dostosowywana przez naukę mechanizm). Demonom nie wolno było jednak ustawiać własnego poziomu głośności. Wszystkie poziomy głośności miały zostać ustawione w procesie uczenia się zewnętrznego, który ma na celu poprawę wydajności całego zestawu. Wyobraź sobie, że poziomy głośności są początkowo ustawiane losowo lub według tego, co według projektantów będzie odpowiednie. Następnie urządzenie jest testowane na pewnej próbce danych wejściowych i odnotowywana jest jego ocena wydajności. Powiedzmy, że dostaje wynik 81%. Następnie dokonuje się drobnych korekt poziomów głośności na wszystkie możliwe sposoby, aż do znalezienia zestawu korekt, który najbardziej poprawi wynik, powiedzmy do 83%. Ten szczególny zestaw drobnych korekt jest następnie wprowadzany, a proces jest powtarzany w kółko (być może w przypadku dodatkowych danych), dopóki nie będzie można dokonać dalszej poprawy. (Ponieważ w organizacji może być wiele megafonów, wprowadzanie korekt na wszystkie możliwe sposoby i testowanie każdego z tych sposobów w celu znalezienia wyniku może wydawać się niepraktyczne. Proces może rzeczywiście zająć trochę czasu, ale komputery są szybkie {nawet tym bardziej dzisiaj. Później pokażę, jak to zrobić ,możemy obliczyć, a nie eksperymentalnie, najlepsze poprawki, które należy wprowadzić w sieciach neuronowych zorganizowanych jak Pandemonium.) Jeśli myślimy o wyniku jako wysokości jakiegoś krajobrazu i dostosowaniach jako ruchach nad krajobrazem, proces ten można porównać do wspinaczki wzgórze, zawsze wykonując kroki w kierunku najbardziej stromego wejścia. Gradient wspinaczka (lub metody wspinaczki, jak się je czasami nazywa) są dobrze znane w matematyce. Selfridge miał do powiedzenia na temat niektórych pułapek ich używania:

"Można to opisać jako jeden z problemów treningu, a mianowicie zachęcenie maszyny lub organizmu do wystarczającej ilości stoków, aby niewielkie zmiany. . . spowoduje zauważalną poprawę jego wysokości lub wyniku. Można opisać sytuacje uczenia się, w których większość trudności w zadaniu polega na znalezieniu jakiegokolwiek sposobu poprawy swojego wyniku, na przykład na uczeniu się jazdy na monocyklu, gdzie utrzymanie się przez sekundę trwa dłużej niż poprawa tego sekunda do minuty; i inne, w których łatwo jest zrobić trochę dobrze, a bardzo dobrze, na przykład nauczyć się grać w szachy. Prawdą jest również to, że często głównym szczytem jest płaskowyż, a nie izolowany szczyt."
Selfridge opisał inną metodę uczenia się w Pandemonium. Metodę tę można porównać do zastępowania menedżerów w organizacji, która nie osiąga dobrych wyników. Jak to ujął Selfridge, przy koncepcji naszego demonicznego zgromadzenia zebraliśmy nieco arbitralnie dużą liczbę subdemonów, które naszym zdaniem byłyby przydatne. . . ale nie mamy żadnej pewności, że wybrane przez nas pod-demony są dobre. Wybór subdemonów generuje nowe subdemony do prób i eliminuje te nieefektywne, czyli takie, które niewiele pomagają poprawić wynik. Proces selekcji demonów rozpoczyna się po pewnym czasie działania mechanizmu uczenia się dostosowującego głośność, bez dalszej poprawy wyników. Następnie "wartość" każdego demona jest oceniana przy użyciu, jak sugeruje Selfridge, metody opartej na wyuczonym poziomie głośności ich krzyków. Demony o wysokim poziomie głośności mają duży wpływ na końcowy wynik i dlatego można uznać, że mają dużą wartość. Po pierwsze, demony o niskim poziomie głośności są całkowicie eliminowane. (Ten krok nie może bardzo zaszkodzić wynikowi.) Następnie niektóre demony przechodzą losowo "mutacje "i są ponownie wprowadzane do użytku. Następnie wybrane są niektóre pary godnych demonów i, jak mówi Selfridge," sprzężone " w demony potomków. Precyzyjna metoda koniugacji Selfridge zaproponowana tutaj nie musi nas dotyczyć, ale duchem tego procesu jest wytwarzanie potomstwa, które, jak można się spodziewać, ma użyteczne właściwości rodziców. Potomstwo zostaje następnie oddane do użytku. Teraz cały proces dostosowywania poziomów głośności ocalałych i "ewoluujących" demonów może rozpocząć się od nowa, aby sprawdzić, czy wynik nowego zestawu można jeszcze poprawić.