Postawy filozoficzneArtificial Intelligence Experts

XI.Akcje i Agenci

Wprowadzenie

Podejścia klasycznej sztucznej inteligencji (AI) skupiały się na pojedynczych, izolowanych systemach oprogramowania, które działały w stosunkowo nieelastyczny sposób, automatycznie przestrzegając ustalonych reguł. Jednak nowe technologie i aplikacje stworzyły zapotrzebowanie na sztuczne jednostki, które są bardziej autonomiczne, elastyczne i adaptacyjne i działają jako jednostki społeczne w systemach wieloagentowych. Tu przedstawiono i zbadano tę skoncentrowaną na agentach sztuczną inteligencję i podkreśla znaczenie opracowania teorii działania, uczenia się i negocjacji w scenariuszach z wieloma agentami, takich jak Internet.

Działanie w AI

Historycznie "hipoteza systemu symboli fizycznych" w AI została osadzona w tak zwanych systemach deliberatywnych. Takie systemy charakteryzują się tym, że zawierają symboliczne modele świata, a decyzje o tym, które działania należy wykonać, są manipulowane tymi symbolami. Aby system AI działał, wystarczy dać mu logiczną reprezentację teorii działania (jak systemy podejmują decyzje i odpowiednio działają) i sprawić, by wykonał trochę dowodu twierdzenia. Takie podejście do działania najlepiej obrazuje problem planowania, w którym systemy wykorzystują manipulację symboliczną, aby ustalić, które akcje wykonać, aby osiągnąć swoje cele, to znaczy uzasadnić sposób skutecznego zachowania. Zazwyczaj system otrzyma opis stanu świata, w którym się znajduje (stan początkowy) i pożądanego stanu świata (stan końcowy lub cel). System będzie również wyposażony w zestaw akcji, z których każda będzie zawierała listę warunków wstępnych wykonania akcji oraz listę efektów wynikających z wykonania akcji - które predykaty są usuwane, a które dodawane do opisu świat. Wyobraź sobie na przykład, że świat składa się z dwóch bloków i tabeli, a początkowy stan świata to "blok B w tabeli, blok A w bloku B, nic w bloku A" lub, formalnie, {OnTable (B), On (A, B), Clear (A)}; wyobraź sobie również, że celem jest "blok B na stole i blok A na stole", czyli {OnTable (A), OnTable (B)} i że system jest w stanie wykonać dwie akcje, UnStack (x, y) i PutDown (x). Działaniom tym towarzyszą następujące listy warunków wstępnych i efektów. Dla UnStack (x, y):

Pre {On(x, y), Clear(x)}
Del {On(x, y)}
Add {Holding(x), Clear(y)}.
And for PutDown(x):
Pre {Holding(x)}
Del {Holding(x)}
Add {OnTable(x)}.

Oczywiście w tym przykładzie plan składa się z sekwencji działań {UnStack (A, B), PutDown (A)} przeniesie świat ze stanu początkowego do celu. Na każdym etapie system wykonujący algorytm planowania (planista) próbuje dopasować warunki wstępne różnych działań do opisu świata. Na przykład planista może rozpocząć od próby PutDown (A), ale zakończy się niepowodzeniem, ponieważ warunek wstępny tej akcji (Holding (A)) nie ma zastosowania. Z drugiej strony warunki wstępne dla akcji UnStack (A, B) są wstrzymane (A jest ułożone na B i jest jasne), więc można wykonać tę akcję. W wyniku wykonania tej akcji Hold (x), warunek wstępny PutDown (A), zostaje dodany do opisu świata. Po wykonaniu tej drugiej akcji z kolei stan świata zmienia się na {OnTable (A), Clear (B), Clear (A), OnTable (B)}, co spełnia cel {OnTable (A), OnTable (B )}. Niestety, biorąc pod uwagę złożoność obliczeniową twierdzenia dowodzącą nawet w bardzo prostych układach logicznych, takie podejście do projektowania i wdrażania systemów wymiernych nie było szeroko stosowane w rzeczywistych scenariuszach. Udowodniono, że nawet wyrafinowane techniki planowania ostatecznie okażą się bezużyteczne w żadnym systemie ograniczonym czasowo. Jak pokazuje niezwykle prosty przykład powyżej, po prostu zbyt długo trwa przeszukiwanie wszystkich możliwych kombinacji, aby wywnioskować cele (twierdzenia) z zestawu warunków początkowych (przesłanek). Wyniki te miały ogromny wpływ na sztuczną inteligencję, powodując, że niektórzy badacze kwestionują symboliczny paradygmat sztucznej inteligencji i prowadzą do alternatywnych podejść, w szczególności w architekturach reaktywnych. System reaktywny to taki, który nie używa symbolicznego modelu świata ani symbolicznego rozumowania, aby zdecydować, co dalej. Architektury reaktywne są modelowane jako czarne skrzynki: przestrzegają reguł "jeśli-to", które bezpośrednio mapują dane wejściowe na działania. Bez modelu świata lub zadania, takie systemy są poznawczo elementarne; zachowują się bardziej jak gąsienice niż ludzie. Być może paradygmatycznym przykładem tego typu systemu jest architektura subsumpcji, która ustanawia hierarchię zachowań konkurencyjnych, w których niższe warstwy mają pierwszeństwo przed wyższymi . Wyobraźmy sobie na przykład reaktywnego robota, który pobiera próbki z, powiedzmy, powierzchni Marsa. Załóżmy, że robotowi podano następujące informacje (sytuacja → zasady działania):

1 Jeśli wykryje przeszkodę, zmień kierunek.
2 Jeśli przenosisz próbki i podstawę, upuść próbki.
3 Jeśli nosisz próbki, a nie bazę, przejdź do bazy.
4 W przypadku wykrycia próbki, należy pobrać próbkę.
5 Jeśli to prawda, poruszaj się losowo.

Takie zasady tworzą hierarchię, która zapewnia, że robot skręci, jeśli znajdzie przeszkodę; jeśli znajduje się u podstawy i niesie próbki, upuści je, pod warunkiem, że nie ma bezpośredniego niebezpieczeństwa awarii i tak dalej. Najwyższe zachowanie - losowy spacer - zostanie przeprowadzone tylko wtedy, gdy agent nie będzie miał nic więcej do zrobienia: zakłada się, że warunek "Jeśli jest prawdziwy", aby zawsze strzelać. Jest to sposób na zagwarantowanie, że jeśli zasady (1) - (4) nie będą miały zastosowania, robot nadal coś zrobi. Powstałe systemy są, mówiąc obliczeniowo, niezwykle proste, a jednak mogą wykonywać złożone zadania. Ponadto systemy reaktywne znajdują się w rzeczywistych domenach i mogą wykazywać elastyczne zachowanie. W rzeczywistości działania nie są planowane z wyprzedzeniem, ale są raczej wyłaniającym się skutkiem "osadzenia" systemu w konkretnej sytuacji. Jakkolwiek interesujące może być to podejście, przedstawia kilka problemów. Reaktywne systemy uczą się procedur, ale nie deklaratywnej wiedzy; to znaczy uczą się tylko wartości lub atrybutów, które nie są łatwe do uogólnienia na podobne sytuacje (lub przekazania do innych systemów). Poza tym, a może co ważniejsze, właśnie dlatego, że wykazują właściwości wschodzące, nie ma zasadowej metodologii budowy takich systemów. Niezależnie od wielu prób łączenia architektur rozważnych i reaktywnych w systemach hybrydowych, wydaje się, że pod koniec dnia pozostaje wybór między teoretycznie rozsądnymi, ale niepraktycznymi systemami rozważnymi a wydajnymi, ale luźno zaprojektowanymi systemami reaktywnymi . Może to odzwierciedlać fakt, że każdy rodzaj systemu sztucznej inteligencji został zaprojektowany w celu rozwiązania powiązanych, ale różnych problemów: symboliczna sztuczna inteligencja wynikała z wysiłku sformalizowania i zmechanizowania rozumowania, który rozkwitł wraz z rozwojem systemów eksperckich; podczas gdy systemy reaktywne były często motywowane wysiłkami w celu rozwiązania liczbowych, nieliniowych problemów, takich jak te związane z łącznością i sztucznym życiem. Przez ostatnie kilka dziesięcioleci badacze doświadczyli ewolucji nowych technologii, takich jak Internet. Wymagają one osobistych, stale działających systemów, dla których starsze pojęcia działania - wynikające z uciążliwego rozumowania symbolicznego lub zawsze adaptacyjnych odruchów - mogą być niewystarczające. Rzeczywiście, wielu badaczy uważa, że w XXI wieku dla systemów AI aby działać "inteligentnie", muszą być w stanie zachowywać się w sposób autonomiczny, elastyczny w nieprzewidywalnych, dynamicznych, typowo społecznych domenach. Innymi słowy, uważają, że "nowa" sztuczna inteligencja powinna rozwijać agentów. W rzeczywistości można argumentować, że obecne trendy w tworzeniu stron internetowych i projektowaniu stron internetowych, a także nowe aplikacje w handlu elektronicznym (na przykład PayPal) i oprogramowaniu społecznościowym (na przykład Facebook), zostaną w pełni rozwinięte tylko wtedy, gdy przyjęta jest perspektywa agenta

Trzy zasady AI zorientowanej na agenta

W tej części szczegółowo przeanalizowano główne funkcje oprogramowania, które systemy wyświetlałyby w społecznej AI zorientowanej na agenta lub, innymi słowy, zasady zachowania "nowej" AI.

Zachowanie autonomiczne

Przez autonomię badacze rozumieją zdolność systemów do podejmowania własnych decyzji i wykonywania zadań w imieniu projektanta. Pomysł przekazania części odpowiedzialności systemowi, aby uniknąć żmudnego zapisywania kodu, jest z pewnością bardzo atrakcyjny. Ponadto w scenariuszach, w których trudno jest bezpośrednio kontrolować zachowanie naszych systemów, niezbędna jest zdolność do samodzielnego działania. Na przykład misje kosmiczne w coraz większym stopniu zależą od bezzałogowych statków kosmicznych i robotów, aby podejmować decyzje samodzielnie: Ta zdolność jest najważniejsza, ponieważ koszty (czas i pieniądze) komunikacji między stacją kosmiczną a takimi systemami mogą być wygórowane. To właśnie ta autonomia określa agentów. Tradycyjnie systemy oprogramowania wykonują działania (tak zwane metody) automatycznie. Wyobraź sobie, że aplikacja internetowa na twoim komputerze (użytkownik lub klient) żąda dostępu do zawartości strony internetowej przechowywanej w innym systemie oprogramowania gdzie indziej (na serwerze lub hoście). Serwer nie może odmówić dostępu do treści strony internetowej; musi wykonać metodę "wyślij", ilekroć jest o to poproszony. Natomiast agenci sami decydują, czy zastosować swoje metody zgodnie ze swoimi przekonaniami, pragnieniami i intencjami: "Co tradycyjne systemy oprogramowania robią za darmo, agenci robią za pieniądze".

Zachowanie adaptacyjne

Po drugie, agenci muszą być elastyczni. Projektując systemy agentów, nie można przewidzieć wszystkich potencjalnych sytuacji, które mogą napotkać, i z góry optymalnie określić ich zachowanie. Na przykład elementy interakcji w Internecie (agenci, protokoły, języki) nie są z góry znane. Dlatego agenci muszą uczyć się i dostosowywać do swojego środowiska. To zadanie jest jeszcze bardziej złożone, gdy natura nie jest jedynym źródłem niepewności, ale agent znajduje się w systemie wieloagentowym (MAS), który zawiera inne czynniki o potencjalnie różnych możliwościach, celach i przekonaniach. Poza tym nowe systemy muszą być ogólne. Agent musi mieć kompetencje do wyświetlania ogólnego repertuaru działań, aby zachować swoją autonomię w dynamicznych środowiskach. Z pewnością agenta nie można nazwać inteligentnym, jeśli nie jest w stanie działać dobrze, gdy znajduje się w środowisku innym niż (ale pod pewnymi względami podobnymi do) środowisko, dla którego został pierwotnie zaprojektowany. Rzeczywiście nie ma potrzeby uczenia się czegokolwiek w statycznych, zamkniętych domenach, w których agenci mają doskonałą wiedzę na temat przejść między stanami a działaniami. Natomiast inteligencja i uczenie się są ściśle powiązane w dziedzinach, w których autonomiczni agenci muszą podejmować decyzje z częściowymi lub niepewnymi informacjami; to znaczy w domenach, w których agenci uczą się bez nadzoru i bez luksusu posiadania pełnego modelu świata. Tacy agenci stają przed tak zwanym problemem uczenia się przez wzmacnianie. W takich scenariuszach agent istnieje w środowisku opisanym przez zestaw możliwych stanów. Za każdym razem, gdy agent wykonuje akcję w stanie, otrzymuje liczbową nagrodę, która wskazuje bezpośrednią wartość tego przejścia między stanem a działaniem - jak "dobra". To tworzy sekwencję stanów, działań i nagród. Zadaniem agenta jest poznanie zasad, które maksymalizują oczekiwaną sumę nagród, zwykle z przyszłymi nagrodami dyskontowanymi wykładniczo z powodu ich opóźnienia. Innymi słowy, im bardziej przewidywania są w przyszłości, tym mniejsze są szanse na nagrody; rozsądna zasada, ponieważ bardziej odległe nagrody są mniej prawdopodobne. W przeciwieństwie do uczenia nadzorowanego, takiego jak rozpoznawanie wzorców lub sieci neuronowe, uczący się nie jest powiadamiany, jakie działania należy podjąć, ale zamiast tego musi odkryć, które działania przynoszą najwięcej korzyści, wykorzystując i badając ich związek ze środowiskiem. Działania mogą wpływać nie tylko na natychmiastową nagrodę, ale także na następną sytuację, a przez to na wszystkie kolejne nagrody. Te dwie cechy, wyszukiwanie prób i błędów oraz opóźniona nagroda, to dwie najważniejsze cechy uczenia wzmacniającego. Metodę tę z powodzeniem zastosowano do szeregu problemów organizacyjnych w robotyce, kontroli, badaniach operacyjnych, grach, interakcji człowiek-komputer, ekonomii / finansach, złożonej symulacji i marketingu

Zachowania społeczne

Agenci muszą również wykazywać nastawienie społeczne. W środowisku zamieszkiwanym przez heterogeniczne byty agenci potrzebują umiejętności rozpoznawania przeciwników i tworzenia grup, gdy jest to opłacalne. To nie przypadek, że większość platform opartych na agentach zawiera narzędzia wieloagentowe. Rzeczywiście, niektórzy autorzy twierdzą, że inżynierię oprogramowania zorientowaną na agenta należy opracować właśnie dlatego, że nie ma pojęcia struktury organizacyjnej w tradycyjnych systemach oprogramowania. Ogólnie rzecz biorąc, projektowanie i wdrażanie systemów wieloagentowych jest atrakcyjną platformą dla konwergencji różnych technologii AI. To jest podstawowa filozofia zawodów, takich jak RoboCup, w których drużyny piłkarzy muszą pokazywać swoje umiejętności indywidualne i zbiorowe w czasie rzeczywistym. Co ważniejsze, systemy wieloagentowe odgrywają kilka ról w informatyce i telekomunikacji: Dla klientów zapewniają spersonalizowane, przyjazne dla użytkownika interfejsy; jako oprogramowanie pośrednie były szeroko wykorzystywane do wdrażania rynków elektronicznych i aukcji elektronicznych. Przyczyny tego szczęśliwego małżeństwa między MAS a nowymi technologiami są podniecające. Gdy domena obejmuje wiele różnych systemów oprogramowania, które są fizycznie lub logicznie rozproszone (pod względem danych, wiedzy specjalistycznej lub zasobów), podejście oparte na wielu agentach może często stanowić skuteczne rozwiązanie. Podobnie, gdy domena jest duża, wyrafinowana lub nieprzewidywalna, ogólny problem można podzielić na kilka mniejszych i prostszych komponentów, które są łatwiejsze do opracowania i utrzymania i które specjalizują się w rozwiązywaniu problemów składowych. Oznacza to, że w większości rzeczywistych aplikacji (pojedyncze) agenci mogą stać się "zbyt duże", aby działać dobrze, a strategia dziel i zwyciężaj, w której wykwalifikowani agenci pracują równolegle, wydaje się bardziej rozsądna. Przykłady obejmują geograficzne rozmieszczenie kamer w sieci drogowej lub zintegrowane podejście wymagane do rozwiązania złożonych zadań, na przykład współpracę ekspertów (chirurgów, anestezjologów, pielęgniarek) na sali operacyjnej. Podsumowując, w środowisku AI powszechnie przyjmuje się, że "nowa" sztuczna inteligencja musiałaby zaprojektować i wdrożyć systemy wieloagentowe zdolne do działania i uczenia się w szybki i wydajny sposób. Następne dwie sekcje poświęcone są opisowi podstaw zachowania wielu agentów i uczenia się wielu agentów

Zachowanie wielu agentów

Podejścia do zachowania wielu agentów różnią się głównie pod względem stopnia kontroli, jaką projektant powinien mieć nad poszczególnymi agentami i środowiskiem społecznym, to znaczy nad mechanizmami interakcji. W rozproszonych systemach rozwiązywania problemów (DPS) pojedynczy projektant może kontrolować (lub nawet jawnie projektować) każdego pojedynczego agenta w domenie - zadanie rozwiązania problemu jest rozdzielone między różnych agentów, stąd nazwa. Z drugiej strony w MAS jest wielu projektantów i każdy jest w stanie zaprojektować tylko swojego agenta i nie ma kontroli nad wewnętrznym projektem innych agentów. Projektowanie protokołów interakcji jest również ściśle powiązane z kwestią zachęt agentów. Kiedy agenci są projektowani centralnie, zakłada się, że mają wspólny cel ogólny. Tak długo, jak agenci muszą współistnieć i współpracować w jednym systemie, istnieje pojęcie globalnej użyteczności, którą każdy agent stara się maksymalizować. Agenci tworzą zespoły, które wspólnie przyczyniają się do osiągnięcia ogólnego celu. Natomiast w MAS każdy agent będzie indywidualnie motywowany do osiągnięcia własnego celu i maksymalizacji własnej użyteczności. W rezultacie nie można zakładać, że agenci współpracują ze sobą. Przeciwnie, agenci będą współpracować tylko wtedy, gdy będą mogli skorzystać z tej współpracy. Badania w DPS biorą pod uwagę, w jaki sposób pracę związaną z rozwiązaniem problemu można podzielić na kilka węzłów, aby zwiększyć wydajność systemu. Oznacza to, że celem niezależnych węzłów jest rozwiązanie globalnego problemu poprzez spójną współpracę, przy jednoczesnym utrzymaniu niskiego poziomu komunikacji. Badacze MAS są również zainteresowani skoordynowaną interakcją, ale muszą budować agentów, nie wiedząc, jak zaprojektowano ich przeciwników. Centralnym zagadnieniem badawczym w MAS jest to, w jaki sposób autonomiczni agenci określają wspólną płaszczyznę współpracy oraz wybierają i wykonują spójne działania. W szczególności badacze DPS postrzegają negocjacje jako mechanizm przydzielania zadań między agentami i przydzielania zasobów przy użyciu automatycznego kontraktowania. Ponieważ wszyscy agenci mają wspólny cel i mają na celu wzajemną pomoc (zgodnie z tzw. Założeniem życzliwości), nie ma potrzeby motywowania agenta do wyrażenia zgody na wykonanie zestawu działań. Alternatywnie, planowanie z wykorzystaniem wielu agentów jest kolejnym podejściem DPS, które pozwala uniknąć niespójnych i niespójnych decyzji podejmowanych przez planowanie z wyprzedzeniem dokładnie, jak każdy agent będzie działał i wchodził w interakcje. Planowanie wieloagentowe zostało sformalizowane przez rozszerzenie języków i technik planowania dla jednego agenta, aby opisać złożone stany mentalne - zwykle poprzez zdefiniowanie planów społecznych w kategoriach wspólnych przekonań i wspólnych intencji. Z drugiej strony badacze MAS mają autonomicznych agentów, którzy korzystają z negocjacji, aby dzielić się pracą związaną z realizacją wcześniej uzgodnionego planu (dla obopólnej korzyści agentów) lub rozwiązać bezpośredni konflikt. W systemach MAS agenci zazwyczaj zawierają porozumienia parami w drodze negocjacji dotyczących sposobu ich koordynacji i nie ma globalnej kontroli, żadnej spójnej wiedzy oraz wspólnych celów i kryteriów sukcesu. Zatem głównym celem tego mechanizmu kontraktów motywacyjnych jest "przekonanie" agentów do osiągnięcia rozsądnych porozumień i zrobienia czegoś w zamian za coś innego. W tym przypadku badacze AI śledzili badania dotyczące negocjacji z niepełnymi informacjami opracowanymi w ekonomii i teorii gier.

Negocjacje

Ponieważ negocjacje w MAS są prawdopodobnie najczęściej stosowaną techniką koordynacji, warto rozważyć ją bardziej szczegółowo. W ustawieniach MAS agenci otrzymują mechanizm negocjacji składający się z protokołu i zestawu strategii dotyczących zestawu transakcji. Negocjacje są definiowane jako proces, w którym w każdym punkcie czasowym jeden agent proponuje umowę, a drugi agent albo przyjmuje ofertę, albo nie. Jeżeli oferta zostanie zaakceptowana, wówczas negocjacje kończą się realizacją umowy. W przeciwnym razie drugi agent musi złożyć kontrofertę lub odrzucić ofertę przeciwnika i porzucić proces. W ten sposób protokół określa, kiedy i jak wymieniać oferty (tj. Jakie działania agenci wykonają lub powstrzymają się od wykonania i kiedy). Na przykład Oferta (x, y, σi, t1) oznacza, że proces negocjacji rozpocznie się w czasie t1 z agentem x oferującym agentowi y transakcję σi z zestawu potencjalnych transakcji, zwykle w postaci "Zrobię akcję 1 w zamiana na działanie 2" lub {Do (x, a1), Do (y, a2)}. Następnie, w następnym etapie negocjacji, agent y skontaktuje się przeciwnie z Akceptuj (y, σi, t12), w którym to przypadku odcinek negocjacji kończy się wraz z realizacją umowy ,i; lub z Odrzuć (y, σi, t2), aby negocjacja się nie udała. Alternatywnie agent y może wysłać odpowiedź, Oferta (y, x, σj, t2), z, powiedzmy, σj = {Do (x, a3), Do (y, a2)}, "Wolałbym wykonaj akcję a3 zamiast a1", aby negocjacje przechodziły do następnego etapu, w którym obowiązuje ta sama procedura. To, którą konkretną ofertę złożą agenci, zależy od ich strategii negocjacyjnej. Jest to funkcja od historii negocjacji do aktualnej oferty zgodnej z protokołem. Określa, jaki ruch powinien wykonać agent, aby zmaksymalizować swoją użyteczność, biorąc pod uwagę protokół, negocjacje do tego momentu oraz przekonania i intencje agenta. Takie strategie biorą również pod uwagę, jak niechętny może być agent; to znaczy, jak niechętnie jest przyjmować układ niepewny wynik, a nie kolejna okazja z bardziej pewnym, ale być może gorszym wynikiem. Zazwyczaj strategie muszą znajdować się w równowadze Nasha: to znaczy, że żaden agent nie powinien mieć motywacji do odstąpienia od uzgodnionych strategii. Po przyjęciu strategii, przy założeniu, że agent x z niej korzysta, agent y nie może działać lepiej, używając innej strategii. Aby to zilustrować, rozważ tzw. Dylemat więźniów. Dwóch podejrzanych jest aresztowanych przez policję. Policja nie ma wystarczających dowodów na skazanie i po rozdzieleniu obu więźniów odwiedza każdego z nich, aby zaoferować tę samą umowę. Jeśli jeden zeznaje (wady od drugiego), a drugi milczy, zdrajca wychodzi na wolność, a cichy wspólnik otrzymuje pełne dziesięć lat kary. Jeśli obaj pozostaną cicho, obaj więźniowie zostaną skazani na jedynie sześć miesięcy więzienia za niewielką opłatę. Jeśli jeden zdradza drugiego, każdy otrzymuje pięcioletni wyrok. Każdy więzień musi zdradzić drugiego lub milczeć. Podejrzani nie mogą ze sobą rozmawiać w celu osiągnięcia porozumienia. W tym przypadku równowaga Nasha jest taka, że oba świadczą. Każdy podejrzany wie, że gdyby jeden postanowił milczeć, drugi zrobiłby to lepiej, składając zeznania, łamiąc w ten sposób "pozostać w cichej równowadze". Równowaga Nasha jest szczególnie ważnym atrybutem, ponieważ jest postrzegana jako jedyny trwały wynik racjonalnych negocjacji przy braku umów, które mogłyby być egzekwowane zewnętrznie. Jednak to rozwiązanie ma poważne wady. Po pierwsze, są sytuacje, w których nie ma równowagi Nasha. Po pierwsze, są sytuacje, w których nie ma równowagi Nasha. Na przykład Matching Pennies to przykład gier, w których zysk jednego gracza jest dokładnie równy stracie drugiego gracza. Po drugie, są sytuacje, w których istnieje kilka czystych równowag Nasha. W uproszczonym przykładzie załóżmy, że dwóch kierowców spotyka się na wąskiej drodze. Oba muszą skręcać, aby uniknąć zderzenia czołowego. Jeśli oboje skręcą w tę samą stronę, uda im się minąć, ale jeśli wybiorą inne strony, zderzą się. W tym przypadku istnieją dwie czyste równowagi Nasha: albo obie skręcają w lewo, albo obie skręcają w prawo. W tym przykładzie nie ma znaczenia, po której stronie obaj gracze wybiorą, o ile obaj wybiorą to samo. Ponieważ obie strategie są równie dobre, można po prostu rzucić monetą, aby wybrać jedną z dwóch alternatyw. Są jednak inne sytuacje, w których nie mielibyśmy takiego wyboru: W grze Battle of the Sexes obaj gracze wolą angażować się w tę samą aktywność niż samotność, ale ich preferencje różnią się w zależności od tego, w którą aktywność powinni się zaangażować. Gracz 1 woli że oboje bawią się, podczas gdy gracz 2 woli, aby oboje zostali w domu. W tym przypadku istnieją dwie equlibria czystego Nasha, ale nie osiągnięto porozumienia. Wreszcie, akceptując rozwiązanie równowagi Nasha, obaj agenci mogą stracić bardziej opłacalne umowy. Tak jest w przypadku Dylematu Więźnia: Równowaga Nasha w tej grze jest nieoptymalnym rozwiązaniem, które prowadzi obu graczy do defektu, nawet jeśli indywidualna nagroda każdego gracza byłaby większa, gdyby obaj grali wspólnie i milczeli. Dlatego zamiast ograniczeń równowagi Nasha i aby zapobiec irracjonalnym postawom, zwykle przyjmuje się następujące założenia dotyczące racjonalności społecznej: (1) Szczerość: Żaden agent nie będzie próbował przekonać innej osoby do twierdzenia, że wie albo jest fałszywe lub twierdzenie, że chce być fałszywe (np. agenci nie mogą zobowiązać się do wykonania działań, których nie są w stanie wykonać). (2) Uczciwość: Agenci muszą działać zgodnie ze swoimi przekonaniami. (3) Fair play: agenci muszą przestrzegać ustalonych umów. (4) Towarzyskość: W przypadku obojętności agenci muszą zaakceptować oferty innych osób, a oferty muszą zawsze być indywidualnie racjonalne.

Argumentacja

Założenia dotyczące racjonalności społecznej wymaganej do działania poprzedniego podejścia nie są intuicyjne, a zresztą wielu prawdziwych agentów oblicza swoje opcje indywidualnie pod kątem własnego interesu, ignorując negocjacje i uzgodnione zobowiązania. W odpowiedzi wielu członków społeczności MAS przyjęło alternatywne podejście do koordynacji MAS. W szczególności przedstawiono kilka badań dotyczących negocjacji opartych na argumentacji jako skutecznej techniki współpracy i rozwiązywania sytuacji konfliktowych. W tego rodzaju negocjacjach agenci otwierają przestrzeń porozumienia, wymieniając nie tylko propozycje i kontrpropozycje, ale także powody ich poparcia. Ponadto agenci zobowiązują się do zaakceptowania wyników argumentacji, która podlega ścisłym regułom dotyczącym ważności i akceptowalności argumentów oraz ich kolejności w typach argumentacyjnych. Wyobraź sobie na przykład następującą sytuację: Agent 1 ma młotek, śrubę, śrubokręt i zdjęcie, które zamierza zawiesić za pomocą "planu" {młot + gwóźdź + obraz}. Z drugiej strony agent 2 jest właścicielem lustra i gwoździa, jego celem jest powieszenie lustra i planuje wykonanie planu {młot + gwóźdź + lustro}. Wyobraź sobie, że agent 1 wie, że agent 2 ma gwóźdź i prosi o niego. Oczywiście agent 2 nie może zgodzić się na taką prośbę, ponieważ potrzebuje gwoździa do powieszenia lustra. Przy użyciu protokołu negocjacji odrzucenie agenta 2 zakończy odcinek i żaden z agentów nie osiągnie swoich celów. Jednak jeśli pozwolą im się kłócić, agent 2 może wyjaśnić, dlaczego odrzuca ofertę agenta 1 ("Potrzebuję gwoździa do powieszenia lustra "), a dzięki tej informacji agent 1 może przekonać agenta 2, że w rzeczywistości istnieje inny sposób zawieszenia jego lustra, nowy plan, w którym zamiast gwoździa stosuje się śrubę i śrubokręt. Jeśli agent 2 nie znajdzie wady argumentu agenta 1, musi go zaakceptować. Ponieważ wydaje się, że tak jest, agenci zgadzają się na wymianę gwoździa na śrubę i śrubokręt, w wyniku czego oba osiągają swoje cele. Argumentacja opiera się na założeniu, że agenci uszanują rozumowanie leżące u podstaw umów - trudne do utrzymania założenie w praktyce. Alternatywne podejścia badały, w jaki sposób uczynić mechanizmy koordynacji MAS "egzekwowalnymi" za pomocą przepisów socjalnych, instytucji, konwencji, a nawet praw. To uzupełnia nasze omówienie głównych problemów i technik w zachowaniu wielu agentów. Jednak, zachowanie w złożonych scenariuszach dynamicznych, takich jak MAS, nie jest jednorazowym zadaniem, ale procesem udoskonalania, dzięki któremu agenci dostosowują swoje strategie do siebie nawzajem. Stąd radzenie sobie z uczeniem się wielu agentów jest niezwykle ważne przy badaniu zachowania wielu agentów.

Uczenie się wielu agentów

Badania nad uczeniem maszynowym były w większości niezależne od badań agentów i dopiero niedawno zwrócono na nie uwagę w związku z agentami i systemami wieloagentowymi . Jest to w pewnym sensie zaskakujące, ponieważ umiejętność uczenia się i adaptacji jest prawdopodobnie jedną z najważniejszych cech inteligencji. Jak omówiono powyżej, inteligencja implikuje pewien stopień autonomii, który z kolei wymaga umiejętności uczenia się samodzielnego podejmowania decyzji w dynamicznych, nieprzewidywalnych domenach, takich jak te, w których współistnieją agenci. Kluczowe kwestie w uczeniu się przez wielu agentów dotyczą tego, która rodzina technik powinna być stosowana i, co więcej, czym jest uczenie się przez wielu agentów. Na jednym poziomie agenty i systemy wieloagentowe mogą być postrzegane jako kolejna domena aplikacji dla systemów uczenia maszynowego, co prawda ma swoje własne wyzwania. Badania przyjmujące ten pogląd sprowadzają się głównie do zastosowania istniejących algorytmów uczenia się jednego agenta mniej więcej bezpośrednio do MAS, tak więc uczenie się wielu agentów jest postrzegane tylko jako własność wschodząca. Chociaż może to być interesujące z punktu widzenia MAS, nie wydaje się zbyt interesujące w przypadku badań nad uczeniem maszynowym. Niemniej jednak jest to kierunek, w którym podążyła większość badań naukowych dotyczących MAS. Istniejące algorytmy uczenia się zostały opracowane dla pojedynczych agentów uczących się oddzielnych i niezależnych zadań. Alternatywnie, systemy wieloagentowe stwarzają problem uczenia się rozproszonego, to znaczy wielu agentów uczy się osobno, aby wykonać wspólne zadanie. Gdy proces uczenia się zostanie rozdzielony między kilka agentów uczenia się, takie algorytmy uczenia wymagają obszernej modyfikacji lub należy opracować zupełnie nowe algorytmy. W nauczaniu rozproszonym agenci muszą współpracować i komunikować się, aby skutecznie się uczyć; zagadnienia te są szeroko badane przez badaczy MAS, ale jak dotąd nie poświęcono im dużej uwagi w obszarach uczenia się. Jeśli chodzi o techniki uczenia się, nadzorowane metody uczenia się nie są łatwo stosowane w scenariuszach z wieloma agentami, ponieważ zazwyczaj zakładają, że agentom można zapewnić właściwe zachowanie w danej sytuacji. Dlatego większość badaczy zastosowała metody uczenia wzmacniającego do tego stopnia, że problem uczenia się wieloagentowego można zdefiniować jako problem uczenia się wzmacniającego w systemach wieloagentowych. W szczególności najprostszym sposobem na rozszerzenie algorytmów uczenia się jednego agenta na problemy z wieloma agentami jest po prostu uczynienie każdego agenta nauki niezależnym. Agenci uczą się "jakby byli sami" (Weiss i Dillenbourg, 1999). Komunikacja lub wyraźna koordynacja nie jest zatem problemem - współpraca i konkurencja nie są zadaniami do rozwiązania, a jedynie właściwościami środowiska. Podobnie, agenci nie mają modeli stanów psychicznych innych agentów ani nie próbują budować modeli zachowań innych agentów. Bez względu na to, jak proste może być to podejście do uczenia się wielu agentów, założenie, że agenci mogą uczyć się skutecznych zasad w ustawieniach MAS niezależnie od działań wybranych przez innych agentów, jest niewiarygodne. Intuicyjnie najbardziej atrakcyjną alternatywą jest nauczenie agentów nauki strategii równowagi Nasha. Jednak, koncepcja równowagi Nasha jest problematyczna, a metody sformułowane przy użyciu takiego podejścia napotykają mnóstwo trudności technicznych, które sprawiają, że ich stosowanie jest raczej ograniczone

Wyzwania

Aplikacje oparte na agentach odniosły znaczący sukces w produkcji, kontroli procesów, systemach telekomunikacyjnych, kontroli ruchu lotniczego, zarządzaniu ruchem i transportem, filtrowaniu i gromadzeniu informacji, handlu elektronicznym, zarządzaniu procesami biznesowymi, rozrywce i opiece medycznej. Niemniej jednak jednym z kluczowych problemów był podział na pracę teoretyczną i praktyczną, która w dużej mierze rozwinęła się różnymi drogami. W konsekwencji projektantom brakuje systematycznej metodologii jasnego określania i strukturyzacji ich aplikacji jako systemów (wielu) agentów. Większość aplikacji agencyjnych została zaprojektowana w sposób ad hoc, albo przez zapożyczenie metodologii z bardziej tradycyjnych podejść, albo przez zaprojektowanie systemu z intuicją i (koniecznie ograniczonym) doświadczeniem. W każdym razie, jeśli agenci i systemy wieloagentowe mają stać się standardem w rozwoju nowych aplikacji internetowych - jak uważają ich zwolennicy - powinny być potrzebne pewne ważne zmiany w metodologiach i technologiach zorientowanych na agentów. Po pierwsze, musiałby zostać zbudowany język modelowania agentów do określania, wizualizacji, modyfikowania, konstruowania i dokumentowania (wielu) systemów agentów. Deweloperzy agentów nadal charakteryzują swoje systemy jako rozszerzenia tradycyjnych systemów, dlatego Unified Modeling Language (UML) jest de facto standardowym językiem w projektowaniu i specyfikacji agentów i systemów wieloagentowych. Wada ta obejmuje brak odpowiednich metod i technik weryfikacji dla systemów agentów. Po drugie, podczas gdy niektóre funkcje programowania, takie jak abstrakcja, dziedziczenie i modułowość, ułatwiają zarządzanie coraz bardziej złożonymi systemami, Java i inne języki programowania nie mogą zapewnić bezpośredniego rozwiązania dla wdrożenia agenta. Do tej pory programy zorientowane na agentów były używane głównie do testowania pomysłów, a nie do opracowywania realistycznych systemów (ale patrz Bordini i in. 2005, aby zapoznać się z ankietami dotyczącymi programowania, języków, platform i aplikacji dla wielu agentów). Po trzecie, należy ustalić standardy interoperacyjności między agentami. Debata nie powinna koncentrować się wyłącznie na zaletach i wadach różnych języków i protokołów komunikacyjnych dla agentów, ale także ontologii, czyli tego, jakie typy bytów i pojęć definiują domenę agenta oraz jakie są ich właściwości i relacje. Obecnie ontologie są często określane nieformalnie lub są niejawnie implementowane przez agenta. Aby prawdziwa współpraca była możliwa, agenci będą potrzebować jawnie zakodowanych, współdzielonych ontologii. Czwarty problem dotyczy ponownego użycia. Jeśli systemy wieloagentowe mają być trwałe, konieczne będzie opracowanie technik określania i utrzymywania modeli i oprogramowania wielokrotnego użytku dla MAS, agentów i komponentów agentów. Wielokrotnego użytku jest również potrzebne do mobilności. Jeśli agenci mają wędrować po sieciach rozległych, takich jak WWW, muszą mieć możliwość ciągłego ponownego wykorzystywania w różnych scenariuszach. Wreszcie, jeśli ludzie mają czuć się swobodnie z pomysłem przekazania zadań agentom, wówczas zostaną rozwiązane problemy związane z zaufaniem. Obejmują one uwierzytelnianie, prywatność komunikacji i dane osobowe użytkownika, audyty, rozliczalność i ochronę przed złośliwymi lub niekompetentnymi agentami. Podsumowując, chociaż istnieje potrzeba utrzymywania teorii i praktyki w tym samym tempie, AI skupione na agentach już przyniosło dojrzałe i integrujące techniki i procedury, które są dojrzałe do wykorzystania. Można twierdzić, że paradygmat agenta służył jako pomost między tradycyjnymi systemami sztucznej inteligencji a aplikacjami, które pojawiły się w ciągu ostatnich kilku dekad. Kiedy z okazji dwudziestej piątej rocznicy AI Magazine zapytano ekspertów. Zgodnie z najnowszym stanem sztucznej inteligencji AI odczuwało, że AI musi wrócić do budowy inteligentnych systemów ogólnych kompetencji (Leake 2005). Wygląda na to, że agenci i MAS mogą dostarczyć nam koncepcje, metodologie i techniki niezbędne do realizacji pierwotnego celu AI w usługach i aplikacjach oferowanych przez Internet.

Wniosek

Systemy AI muszą podejmować inteligentne decyzje. Ale co najważniejsze, muszą wykazać, że robią to, zachowując się odpowiednio. W tym rozdziale skoncentrowano się na roli agentów w analizie zachowania systemów AI. W końcu to właśnie robią agenci: działają. Dlatego badanie zachowania i działania w sztucznej inteligencji musi mówić o agentach. W rzeczywistości istnieją poważne powody, by sądzić, że agenci są paradygmatem, który ucieleśni "nową" sztuczną inteligencję. Mówiąc ściślej, w erze Internetu i usług sieciowych sztuczna inteligencja skupi się na tym, w jaki sposób kolekcje niezależnych agentów koordynują swoje zachowanie (zachowanie wielu agentów) i na tym, jak się tego uczy (uczenie się wielu agentów).