Mail:










Hakowanie sztucznej inteligencji



Wstęp

Hackowanie rozpoznawania twarzy

Czas na dzwonek alarmowy. Zainteresowanie sztuczną inteligencją (AI) osiąga szczyt. Pędzimy naprzód w zautomatyzowaną przyszłość bez barier ochronnych i wytycznych dotyczących bezpieczeństwa. Podczas gdy wielu patrzy na egzystencjalne zagrożenia związane ze sztuczną inteligencją, takie jak powstanie Skynetu lub ogólna sztuczna inteligencja, rzeczywistość jest taka, że wciąż jesteśmy daleko od tej przyszłości. Jesteśmy jednak w trakcie bezprecedensowego wykorzystania sztucznej inteligencji w kontekstach operacyjnych, od opieki zdrowotnej po działania bojowe, i nie poświęca się wystarczająco dużo czasu, wysiłku ani myśli, aby zapewnić bezpieczeństwo, ochronę i integralność tych systemów. W swej istocie dzisiejsze systemy sztucznej inteligencji są jak każda inna technologia. Przynoszą korzyści i wiążą się z ryzykiem. Podobnie jak wcześniejszy samochód, samolot i oprogramowanie, sztuczna inteligencja jest obiecująca dla rasy ludzkiej, a jednocześnie niesie ze sobą nowe zagrożenia, które należy zrozumieć, złagodzić i monitorować. Próbujemy zapewnić ramy dla zrozumienia zagrożeń związanych ze sztuczną inteligencją. Widziałem obietnicę, jaką sztuczna inteligencja może zapewnić w sytuacjach ratujących życie, ale widziałem też ograniczenia zapewniania jakości i bezpieczeństwa dzisiaj przez sztuczną inteligencję. Na podstawie tych doświadczeń doszedłem do wniosku, że ryzyko związane ze sztuczną inteligencją jest definiującym ryzykiem naszych czasów. I w większości nie jest to rozpatrywane. Ryzyko związane ze sztuczną inteligencją jako obszar biznesowy rozpoczęło się w nijakim biurze w nijakim parku biurowym w kalifornijskim Bay Area. Jedyną dobrą rzeczą w biurze był skrawek błękitu. Powierzchnia biurowa, położona na wzgórzach na zachód od międzynarodowego lotniska w San Francisco, była pozbawiona zarówno hipsterskiej atmosfery San Francisco, jak i lśniącej atmosfery kampusów korporacyjnych położonych dalej na południe, gdzie mają siedziby firmy takie jak Google, Apple i Palantir. Biuro zostało wybrane, ponieważ spełniało dwa kryteria, których poszukiwała firma: miało przyzwoite zabezpieczenia i było tanie. Biurka firmy były stłoczone w jednym pokoju na tyłach pierwszego piętra, z dala od wszystkich innych biur z dodatkowym zestawem zamków bezpieczeństwa. Pomieszczenie było ciasne i zatęchłe, przez zakurzone otwory wentylacyjne pompowano powietrze z odzysku. Aby otworzyć dodatkowe zamki bezpieczeństwa, aby wejść i wyjść z pokoju, trzeba było wykonać całą serię manewrów, ponieważ koledzy musieliby wstać, odepchnąć się od ściany i prześlizgnąć się obok innych kolegów. Czasami łatwiej było po prostu przeczołgać się pod biurkami. Ale z tych okien w pogodny dzień widać było pojedynczy pas jaskrawoniebieskiej wody. Zatoka San Francisco była widoczna tylko przez pojedynczą szczelinę między kilkoma kilometrami drzew i budynków między wzgórzem a jego wybrzeżem. Ale niezależnie od tego firma lubiła chwalić się przed potencjalnymi klientami, że mając zaledwie kilka miesięcy, miała już biuro z widokiem na nabrzeże. "OK, więc myślę, że mamy to", zawołał Brendan, chudy Irlandczyk, który był jednym z najbardziej poszukiwanych inżynierów uczenia maszynowego w Dolinie Krzemowej. "Och, och, och! Czy możemy umieścić to na monitorze?" - zapytał Neil, dwudziestoletni dyrektor generalny ze smykałką do dramatyzowania. Neil miał wizję i był w stanie przekonać społeczność venture capital, że obaj wiedzą, co będzie następną rzeczą i mogą ją zbudować. Neil widział przyszłość wszechobecnego wdrażania sztucznej inteligencji. I w tej przyszłości widział obecnie brakującą część zabezpieczenia. Podobnie jak tradycyjne oprogramowanie wymaga cyberbezpieczeństwa, aby je chronić, Neil uważał, że jest wystarczająco dużo dowodów na to, że sztuczna inteligencja będzie potrzebować własnego, unikalnego zabezpieczenia, aby bronić się przed nowym zestawem ataków. Przyszłość, którą widział Neil, była niezależna i bezpieczna. Wynajął zespół, aby razem z nim budować tę przyszłość. I coraz bardziej niecierpliwił się na wyniki. "Jasne. Ale za sekundę. Działało w piątek i w domu dziś rano, ale to tylko przy bezpośrednim świetle i kiedy obraz był na wyświetlaczu laptopa. Teraz znowu działa z wyświetlaczem, wprowadziłem kilka zmian w kolorystyce i jest coraz lepiej w słabym świetle. Pozwól, że wydrukuję kopię, aby zobaczyć, czy uda nam się to uruchomić kilka razy bez uprzedniego wyświetlania na wyświetlaczu cyfrowym. Nie podoba mi się, jak bardzo światło wyświetlacza wydaje się na to wpływać. Może to być coś z konfiguracją pikseli, a nie obrazem, a my chcemy wyizolować obraz. Jeśli to zadziała, będziemy mogli zebrać wszystkich w dużym pokoju" -odpowiedział Brendan, używając ostrożnego, kwalifikującego języka, który charakteryzował go jako byłego badacza akademickiego. Dla niego nawet wielkie przełomy przychodziły wraz z kwalifikacjami. Trzydzieści minut później mały zespół został umieszczony w sali konferencyjnej. Brendan siedział na drugim końcu stołu konferencyjnego z otwartym laptopem i małą kamerą skierowaną bezpośrednio na niego. Miał na sobie ciemnoniebieską koszulkę, która nie miała żadnych innych oznaczeń. Jego wizerunek pojawił się na dużym ekranie. Jedyna różnica polegała na tym, że na ekranie jego twarz otaczał cienki jasnozielony prostokąt. Kiedy przesuwał krzesło z boku na bok, jasnozielony prostokąt poruszał się razem z nim. Na laptopie działała wersja open-source komercyjnego, gotowego programu do rozpoznawania twarzy. W tamtym czasie nikt nie sprawdzał aktywnie, kim jest Brendan, chociaż można go było skonfigurować tak, aby był uruchamiany w bazach danych ludzi i wypluwał prawdopodobne prognozy. Małym, bezszeryfowym tekstem na dole zielonego prostokąta było "98 procent", co wskazuje na pewność programu, że Brendan jest osobą. Rozpoczął demonstrację od przyciemnienia świateł. Następnie przesunął swoje krzesło wokół pola widzenia kamery. On wstał. Usiadł. Włączył z powrotem światła. Przez cały czas zielony prostokąt podążał za jego twarzą z najmniejszym opóźnieniem. Brendan skupił się w polu widzenia kamery i usiadł prosto. Następnie podniósł kartkę papieru, na której było to, co się pojawiło , co miało być okładką dla zespołu na nim. Został wydrukowany na zwykłym papierze do drukarki 8,5 × 11 cali w kolorze z jednej ze wspólnych drukarek biurowych na końcu korytarza. Wyglądało na to, że powinien być na nim tekst z koncertu w miasteczku uniwersyteckim. Jeśli chodzi o projekt, to był zupełnie nie wyróżniający się. Brendan przysunął gazetę do piersi. Zielony prostokąt wokół jego twarzy zniknął. Papier nie zasłaniał mu twarzy. Znajdował się dokładnie przed jego klatką piersiową, gdzie mogło znajdować się logo T-shirtu. Ale z tym niczym nie wyróżniającym się projektem stało się coś naprawdę niezwykłego. Był teraz niewidoczny dla komputera. "Cóż, cholera", powiedział Tyler, były oficer armii amerykańskiej wyszkolony w West Point i lider rosnącej praktyki bezpieczeństwa narodowego zespołu. "Może to spowodować poważne problemy dla ludzi". To, co Brendan i reszta zespołu zaprojektowali, było niczym innym jak science fiction. Korzystając z najnowocześniejszej dziedziny znanej jako przeciwstawne uczenie maszynowe, stworzyli sposób na atakowanie wyrafinowanych maszyn AI za pomocą kartki papieru. Kontrahenckie uczenie maszynowe można traktować jako manipulowanie systemem sztucznej inteligencji, aby działał w sposób, w jaki chce strona trzecia, przeciwnik, zamiast w sposób, w jaki powinien działać. Na przykład cyberatakujący może podążać za systemami ochrony punktów końcowych sieci wyposażonymi w sztuczną inteligencję, aby pomyśleć, że złośliwe oprogramowanie jest w rzeczywistości "dobrym oprogramowaniem" z powodu starannie wstawionego kodu binarnego i wpuszczenia go do sieci. W innych dobrze znanych przykładach przeciwnicy mogą zmusić samojezdny samochód do pomylenia znaku stop ze znakiem ustąpienia pierwszeństwa za pomocą starannie umieszczonych na nim naklejek, które byłyby niezauważalne dla człowieka. Przeciwstawne uczenie maszynowe można traktować po prostu jako hakowanie sztucznej inteligencji. W przeciwieństwie do badań nad sztuczną inteligencją, które trwają od lat 50. XX wieku, badania w dziedzinie przeciwstawnego uczenia maszynowego mają zaledwie półtorej dekady i zostały pierwotnie zbadane w 2004 r., kiedy badacze akademiccy chcieli zrozumieć, jak oszukać filtry antyspamowe. Badania w terenie pozostawały płytkie do około 2013-2014, kiedy naukowcy zaczęli rozumieć, w jaki sposób można oszukać komputerowe systemy wizyjne poprzez wprowadzanie szumu do obrazów. Do 2019 r., kiedy Brendan oszukał komputer, aby myślał, że zniknął, uczenie maszynowe kontradyktoryjne było obszernym tematem badawczym, a co roku publikowano tysiące artykułów naukowych z całego świata. Podobnie jak w przypadku wielu zagrożeń cyfrowych, to, co zaczyna się jako temat badawczy lub nisza zdolności mogą przekształcić się w pełnoprawne powierzchnie cyberataków, gdy informacje dotrą do głównego nurtu. W praktyce oznacza to, że wraz z przyspieszeniem badań i rozwoju w dziedzinie przeciwstawnego uczenia maszynowego, ataki na te systemy również będą przyspieszać. Organizacje korzystające ze sztucznej inteligencji, opracowanej wewnętrznie lub przez dostawców zewnętrznych, muszą być przygotowane. Zhakowanie systemu sztucznej inteligencji przez Brendana za pomocą kartki papieru ukazuje unikalną cechę tej nowej powierzchni cyberataku. W przeciwieństwie do tradycyjnych cyberataków, w których przeciwnik potrzebuje pewnego poziomu dostępu do komputera lub systemów sieciowych, tutaj zespół był w stanie oszukać komercyjne narzędzie AI za pomocą drukowanego projektu. Nie trzeba było wymieniać żadnych bitów ani bajtów. W przypadku systemów sztucznej inteligencji, które działają autonomicznie lub półautonomicznie w świecie rzeczywistym, takich jak samojezdne samochody, domowi asystenci audio, systemy broni wojskowej i nadzór rozpoznawania twarzy, włamanie do systemu sztucznej inteligencji może nastąpić podczas normalnego procesu gromadzenia danych. Zdolność sztucznej inteligencji do działania w prawdziwym świecie jest tym, co czyni ją tak cenną dla firm, konsumentów i rządów, a także jej ciągłą podatnością na zagrożenia. W miesiącach następujących po udanym włamaniu do rozpoznawania twarzy Brendan i zespół nadal łamali systemy obsługujące uczenie maszynowe. Wykorzystując najnowocześniejsze postępy w przeciwstawnym uczeniu maszynowym, zespół ds. cracków, który Neil zmontował, zepsuł systemy uczenia maszynowego, począwszy od rozpoznawania twarzy, a skończywszy na dźwiękowym oprogramowaniu antywirusowym. Niektóre z tych ataków polegały po prostu na tworzeniu artykułów badawczych zastosowanych w rzeczywistych scenariuszach. Inne zostały w całości zbudowane przez zespół, który wyprzedził opublikowane badania i znalazł się w czołówce tej nowej powierzchni cyberataków. Ich udane ataki rzucają światło na ważny i często pomijany element dążenia firm, społeczności venture capital i rządów do sztucznej inteligencji na całym świecie. AI można zhakować. Kilka miesięcy później zespół był z powrotem w sali konferencyjnej. Kilka dodatkowych dolarów kapitału podwyższonego ryzyka i nowi klienci umożliwili jej rozwój. Rozproszony zespół łączył się teraz z wideokonferencją z całego świata. Inny badacz, Victor, siedział z przodu stołu. Wstał, przeszedł na tył pokoju i zgasił światło. Na ekranie za nim widniał podstawowy wyświetlacz kilku rozwijanych menu i dużego przycisku oznaczonego "Start". "OK, więc tym razem zaczniemy od czegoś dobrze znanego. Idziemy z Cryptolockerem" - powiedział, odnosząc się do dobrze znanych wirusów komputerowych, które w latach 2013-2014 zniszczyły setki tysięcy komputerów osobistych. Victor zrobił swoją dotychczasową karierę jako doktorant skupiający się na teorii sterowania robotami, pracując w organizacjach, w tym w NASA i organizacjach badawczych finansowanych przez DARPA. Z kręconymi, rozczochranymi włosami i niechlujną brodą wyglądał bardziej na rozczochranego rosyjskiego pisarza niż eksperta od hakowania sztucznej inteligencji. Jako techniczny współzałożyciel firmy był teraz głęboko zaangażowany w podstawowe badania nad tym, jak i dlaczego można oszukać systemy sztucznej inteligencji, a także jak zoptymalizować ataki na te systemy. "Więc po pierwsze, żebyś wiedział, że nie jestem pełen gówna, zamierzam teraz rzucić plik przeciwko systemowi" - powiedział, odchylając się do tyłu na krześle. Następnie wybrał "Cryptolocker" z jednego z rozwijanych menu i wcisnął "Uruchom". W mniej niż sekundę pojawił się alert o treści "Złośliwe oprogramowanie - 100%". "Widzisz, więc został zablokowany ze 100-procentowym wynikiem pewności. Zasadniczo oznacza to, że jest to znane złośliwe oprogramowanie, które rozpoznało bezpośrednio, dlatego jest to w 100 procentach. Gdybyśmy skorygowali to choć trochę, mogłoby to oznaczać coś w rodzaju 98 procent lub 89 procent, cokolwiek. Próg dla tego wyniku pewności jest znacznie poniżej 20 procent, więc nie ma to tak naprawdę znaczenia przy tego rodzaju szczytach". Victor wprowadził kilka zmian w kilku dodatkowych listach rozwijanych na wyświetlaczu. Krytycznie wybrał dwa oznaczone jako "Losowy szum" i "Uczenie się ze wzmocnieniem". Z innej listy rozwijanej wybrał dobrze znane narzędzie do klasyfikacji złośliwego oprogramowania obsługujące sztuczną inteligencję. Jego działania miały sens dla innych członków zespołu, ale nie miałyby sensu dla ogółu społeczeństwa. Przygotowywał hack AI. To, co działo się na zapleczu prostego interfejsu użytkownika, który zbudował zespół, było w rzeczywistości dość złożone. Na zapleczu systemu znajdował się zestaw bibliotek ataku i tak zwanych silników perturbacyjnych, które miały manipulować plikiem Cryptolocker, zachowując jednocześnie jego zdolność do przenoszenia ładunku operacyjnego lub zdolność do wyrządzania szkód innemu komputerowi. Ponadto Victor wybierał, których algorytmów użyć, aby rozpocząć optymalizację tego ataku. I, &helip; "Idź!" wykrzyknął, naciskając z rozmachem przycisk Start. Odchylił się i patrzył. Pojawił się nowy ekran z prostą osią. Oś Y oznaczono jako "1-100", a oś X jako "Liczba prób". Pojedyncza kropka pojawiła się nad pierwszą próbą, tuż przy linii 100. W ciągu następnych kilku minut pojawił się wykres rozrzutu. W miarę postępu każdej próby nowe kropki pojawiały się coraz niżej na osi Y. "To, co się dzieje, to nasza maszyna uczy się, które zastrzyki szumu i manipulacje plikami mają największy wpływ" - powiedział Victor. "Wszystko, co nie działa, jest wyrzucane. Przechowujemy te dane na zapleczu, ale ich pokazywanie staje się irytujące. To tylko udane próby. Oś Y to wynik pewności, który zaczynał się od 100 procent, pamiętaj." W mniej niż dwie minuty każdy nowy miał mniej niż 20 procent. Kiedy osiągnął 15 procent, wyskakujące okienko zaalarmowało zespół. "Atak zakończony" - głosił napis. "Więc ten plik nadal działa, ale nie chcę go testować na naszych komputerach, ponieważ dosłownie nadal jest to Cryptolocker. Poważnie zepsułoby mi to gówno. Ale jeśli ktoś chce, mogę to później pokazać w środowisku piaskownicy" - wyjaśnił Victor. Wskazywał, że chociaż zmienili plik, nadal będzie dostarczał swój ładunek. Podczas tej demonstracji zespół z powodzeniem zhakował inny typ narzędzia AI; tym razem zamiast atakować ze świata fizycznego, zaatakowali ze świata cyfrowego. Dzięki ukierunkowanemu wykorzystaniu wrogiego uczenia maszynowego, wzięli dobrze znany fragment złośliwego oprogramowania i zmienili go na tyle, aby był nierozpoznawalny jako szkodliwy dla sztucznej inteligencji, ale nadal dostarczał swój ładunek. Hakowanie sztucznej inteligencji w tym przypadku może również oznaczać hakowanie całej sieci, jeśli sztuczna inteligencja była używana do jej ochrony. Kiedy sztuczna inteligencja chroni firmę, dane osobowe lub tajemnice wojskowe, kto chroni sztuczną inteligencję? Jak szczegółowo wyjaśnię w dalszej części , sam fakt, że można ją zhakować, nie obejmuje wszystkich zagrożeń związanych ze sztuczną inteligencją. Poza tym, że można ją zhakować, sztuczna inteligencja jest również krucha. Może pęknąć. Może być słabo rozwinięta. Może być źle wykorzystana. Można ją ukraść. To może być nielegalne. Może uczyć się niepoprawnie. Razem te możliwości niepowodzenia nazywamy ryzykiem AI. Są to nowe zagrożenia, które pod wieloma względami różnią się od tradycyjnych wyzwań związanych z cyberbezpieczeństwem.

Ryzyko AI

Zagrożenia związane ze sztuczną inteligencją odnoszą się ogólnie do wyzwań związanych z wydajnością, zgodnością i bezpieczeństwem wprowadzonych przez wprowadzenie do praktycznego zastosowania sztucznej inteligencji, uczenia maszynowego i innych autonomicznych systemów. Jestem pewien, że to widziałeś. Niemal każdego dnia pojawia się nagłówek informujący o tym, że sztuczna inteligencja odchodzi od prezentacji programu PowerPoint do namacalnych aplikacji. Niezależnie od tego, czy odbywa się to za pośrednictwem urządzeń domowych jak Amazon Alexa, w samochodach, takich jak autopilot Tesli, czy w wojskowych systemach uzbrojenia, sztuczna inteligencja stała się podstawą strategii biznesowej i bezpieczeństwa narodowego. Nie mówimy o korzyściach płynących ze sztucznej inteligencji ani o tym, jak budować skuteczne strategie sztucznej inteligencji. Zamiast tego, skupiamy się na często pomijanej przeszkodzie w pomyślnym wdrożeniu sztucznej inteligencji: ryzyku. To tekst o nowych wyzwaniach, których liderzy muszą być świadomi podczas wdrażania sztucznej inteligencji. Jak wszystkie technologie, sztuczna inteligencja może zawieść, może być słabo rozwinięta i można ją zhakować. Nazywamy te wyzwania ryzykiem AI. Wyjątkowe w porównaniu z cyberbezpieczeństwem, tradycyjnym zarządzaniem ryzykiem modeli i ryzykiem operacyjnym, zagrożenia związane ze sztuczną inteligencją są unikalne dla samej natury sztucznej inteligencji. Mówiąc o ryzyku związanym ze sztuczną inteligencją, nie mamy na myśli zagrożeń takich jak ogólna sztuczna inteligencja (AI, która jest autonomicznie inteligentniejsza od ludzi) lub ryzyko związane z dominacją sztucznej inteligencji w stylu Skynetu, ani nawet dobrze ugruntowane obawy przed rywalizacją wielkich mocarstw w sztucznej inteligencji . Zamiast tego, koncentrujemy się na praktycznych zagrożeniach, które należy zrozumieć, przetestować i złagodzić, aby skorzystać z zalet sztucznej inteligencji. Jesteśmy przekonani, że korzyści płynące ze sztucznej inteligencji przewyższają nieodłączne ryzyko, jakie wprowadza ona do ekosystemów cyfrowych. Aby jednak liderzy biznesowi i rządowi mogli wdrożyć sztuczną inteligencję w znaczący sposób dla swojej organizacji, muszą najpierw zrozumieć ryzyko związane ze sztuczną inteligencją i sposoby ich łagodzenia. Rozmawiałem z mającymi dobre intencje, wysoce inteligentnymi inżynierami uczącymi się maszyn, dyrektorami generalnymi i generałami, którzy wszyscy chcieli przyspieszyć sztuczną inteligencję do coraz bardziej wpływowych aplikacji. Kiedy jednak poruszałem temat ryzyka, spotykałem się albo z pustym spojrzeniem, albo ze śmiechem. "Czego, władcy robotów?" zapytaliby. Rzeczywistość jest taka, że sztuczna inteligencja nie różni się od żadnej innej technologii. Podobnie jak budowanie mostów, nauka o rakietach i rozwój oprogramowania, sztuczna inteligencja może być źle zbudowana i może być podatna na wiele rodzajów awarii, w tym czynniki środowiskowe w świecie rzeczywistym, dane wejściowe przeciwnika i złą konstrukcję. Dziś świat AI to Dziki Zachód. Obowiązuje niewiele standardów, a organizacje, które mogą odnieść największe korzyści z szerszych zastosowań sztucznej inteligencji, takie jak usługi finansowe, opieka zdrowotna i przemysł obronny, dopiero teraz aktualizują swoje praktyki zarządzania ryzykiem modeli, aby ograniczyć to ryzyko. Chcemy pomóc liderom w radzeniu sobie z szumem wokół sztucznej inteligencji i zrozumieniem, że chociaż potencjalne korzyści są ogromne, istnieje realne ryzyko, które należy rozwiązać. Jestem głęboko przekonany, że za pięć do dziesięciu lat ryzyko związane ze sztuczną inteligencją będzie tak wszechobecnym terminem, jak dzisiejsze cyberbezpieczeństwo. Celem jest przedstawienie zagrożeń związanych ze sztuczną inteligencją w sposób nietechniczny. Chociaż niektóre tematy, takie jak ataki polegające na odwróceniu modelu, mogą być trudne do zrozumienia bez pewnego doświadczenia w nauce o danych lub uczeniu maszynowym, staramy się przedstawić wszystkie omawiane tematy w przystępny sposób. Tam, gdzie było to możliwe, przedstawialiśmy historie i narracje, które opierają się na naszych własnych doświadczeniach jako niektórych wczesnych hakerów technologii sztucznej inteligencji. W stosownych przypadkach historie są prawdziwe. W innych przypadkach stworzyliśmy przyszłe scenariusze odzwierciedlające dzisiejsze możliwości techniczne. Przywódców powinno martwić, że prawie każdy system sztucznej inteligencji można zhakować. Zespół w dusznym biurze z małym widokiem na Zatokę San Francisco udowodnił to raz po raz, wspierany przez eksplodujące pole badań naukowych na ten temat od 2004 roku.

Krótki przegląd sztucznej inteligencji

Sztuczna inteligencja: Historia


Aby zrozumieć, dlaczego nagle pojawiają się zagrożenia związane ze sztuczną inteligencją, ważne jest zrozumienie historii sztucznej inteligencji jako koncepcji. Mimo całego niedawnego szumu, sztuczna inteligencja jako koncepcja teoretyczna nie jest nowa. Nowością jest jednak eksplozja mocy obliczeniowej i dostępności danych, która spowodowała ponowne zainteresowanie sztuczną inteligencją w ciągu ostatniej dekady. Większość historyków informatyki i hobbystów śledzi początek sztucznej inteligencji, jaką znamy dzisiaj, w Dartmouth Summer Research Project on Artificial Intelligence w 1956 roku,aby pomyślnie budować systemy AI. Pierwsza szkoła myślenia, obecnie znana jako klasyczna sztuczna inteligencja, była pierwszą próbą. Później rozwinęła się nowoczesna sztuczna inteligencja jako dodatkowa moc obliczeniowa, a dostępność danych pozwoliła na wcześniej niemożliwe obliczenia. Różnicę między dwiema szkołami myślenia można sprowadzić do kontroli nad systemem. W klasycznej teorii sztucznej inteligencji system autonomiczny opiera się na zestawie przebiegów. Tworząc sztuczną inteligencję, badacze próbowali przedstawić świat w zestawie zdefiniowanych struktur danych, takich jak listy, zestawy lub drzewa, a następnie zdefiniowali interakcje w strukturach danych jako zestaw reguł, takich jak jeśli-to, i-lub, jeśli-to-inaczej i inne. W przypadku klasycznej sztucznej inteligencji wyobraź sobie zdjęcie leniwca. Programista początkowo próbowałby opisać istotę lenistwa, na przykład "owłosiony z długimi rękami i nogami", a następnie próbowałby zaprogramować funkcje rozpoznawania, takie jak "znajdź nogi", "określ długość włosów" i inne. Następnie programista wyraźnie poleciłby programowi komputerowemu wykonanie bardziej złożonych problemów, takich jak "znalezienie krawędzi" zwierzęcia. W przypadku wczesnych badaczy klasyczna teoria sztucznej inteligencji odniosła pewien sukces. Badacze wierzyli, że dzieląc świat na coraz mniejsze problemy i zadania, robot może w końcu wchodzić w interakcje z prawdziwym światem z umiejętnościami podobnymi do ludzkich. Ilustracją tego entuzjazmu jest słynna przepowiednia Marvina Minsky′ego z 1967 roku, która stwierdziła, że "w ciągu jednego pokolenia … problem tworzenia "sztucznej inteligencji" zostanie zasadniczo rozwiązany". Ale klasyczna sztuczna inteligencja i szum wokół niej wkrótce utknęły w martwym punkcie. Otaczający nas świat jest po prostu zbyt złożony, aby każdą interakcję można było podzielić na szereg predefiniowanych reguł. Podczas gdy klasyczna sztuczna inteligencja osiągała oszałamiające wyniki w dokładnie kontrolowanych eksperymentach, możliwość przełożenia tych eksperymentów na rzeczywiste zastosowania biznesowe, konsumenckie lub rządowe była ograniczona. Ostatecznie doprowadziłoby to do wieloletnich trendów rozczarowujących wyników, prowadzących do utraty funduszy na badania. Okresy te są znane jako "zimy AI". Podczas zim AI postęp w teorii sztucznej inteligencji nie zatrzymał się całkowicie, ale fundusze były ograniczone, wyniki były ograniczone, a znaczna część postępu dotyczyła wyłącznie wyników teoretycznych, a nie praktycznych. Oczywiście zainteresowanie sztuczną inteligencją jako teorią nadal fascynowało zarówno badaczy akademickich, jak i, co być może ważniejsze, pisarzy science fiction i filmowych. Od droidów w Gwiezdnych wojnach po serię robotów Isaaca Asimova i wszystko pomiędzy, zainteresowanie możliwościami sztucznej inteligencji jest częścią tego, co doprowadziło do ciągłego zainteresowania pokoleń informatyków i programistów. Aby jednak przekształcić te fikcje w rzeczywistość, potrzebne były nowe podejścia.

Nowoczesna teoria sztucznej inteligencji przyjmuje podejście przeciwne do klasycznej sztucznej inteligencji. Zamiast próbować zdefiniować zestaw reguł, schemat danych i logikę, według których komputer podejmowałby decyzje, nowoczesna sztuczna inteligencja polega zamiast tego na pozwalaniu komputerowi na wyciąganie własnych wniosków na podstawie danych, tworząc w ten sposób własne reguły i logikę. Osiąga się to poprzez podawanie do komputera oznaczonych lub nieoznakowanych danych i umożliwienie maszynie wymyślenia własnych interpretacji. W ramach współczesnej praktyki sztucznej inteligencji, zamiast opisywać w coraz mniejszych krokach wszystkie elementy, które składają się na leniwca na obrazie, inżynier AI zamiast tego wprowadza tysiące obrazów leniwców do komputera z zamiarem, aby komputer wyodrębnił te istotne cechy i sam się przekona, czym jest leniwiec. Inną nazwą tego podejścia jest uczenie maszynowe. Od 2012 roku większość badań i praktycznych zastosowań współczesnej sztucznej inteligencji koncentrowała się przede wszystkim na uczeniu maszynowym, które jest podzbiorem ogólnej teorii sztucznej inteligencji. Ta gałąź okazała się niezwykle przydatna w tworzeniu klasyfikacji i przewidywań na podstawie dużych ilości danych wejściowych, ale wymaga ogromnej mocy obliczeniowej. Jako dziedzina różniąca się od klasycznej sztucznej inteligencji, uczenie maszynowe nabrało rozpędu w latach 90., głównie ze względu na jego zdolność do rozwiązywania praktycznych, a nie teoretycznych wyzwań. To z kolei odciągnęło znaczną część uwagi badawczej od symbolicznych i logicznych podejść do sztucznej inteligencji, a zamiast tego mocno zapożyczono ze statystyki i prawdopodobieństwa. A potem w 2012 roku nastąpił punkt zwrotny, który radykalnie przeniósł badania nad sztuczną inteligencją do nowoczesnego obozu sztucznej inteligencji. W tym roku sztuczna sieć neuronowa o nazwie AlexNet pokonała inne klasyfikatory obrazów o ponad 10 procent. Wcześniej uważano, że sztuczne sieci neuronowe to niewiele więcej niż narzędzia badawcze, ale nie uważano ich za szczególnie praktyczne. Ale sukces AlexNet pokazał, że to podejście może pokonać inne techniki klasyfikacji obrazów na wystarczająco szerokim marginesie, aby było interesujące, i zaczęły napływać pieniądze na badania. Sieci neuronowe pozostają dziś jednym z podstawowych elementów uczenia maszynowego. Najbardziej fascynujący w zwycięstwie AlexNet w 2012 roku jest przede wszystkim wiek tej techniki. Teoria stojąca za sztucznymi sieciami neuronowymi istniała jeszcze przed wydarzeniem w Dartmouth w 1956 r., uważanym za miejsce narodzin sztucznej inteligencji. Podejście to zostało po raz pierwszy sformułowane przez Warrena McCullocha i Waltera Pittsa w 1943 roku w ich pracy "Rachunek logiczny idei immanentnych w aktywności nerwowej". Ale między czasem ich teoretyzowania a 2012 r. nastąpiły ważne zmiany w krajobrazie obliczeniowym, które pozwoliły ich teorii przejść do praktycznego zastosowania. Najpierw była eksplozja danych. Nowoczesna sztuczna inteligencja wymaga znacznej ilości danych, aby była skuteczna. Im więcej danych zostanie dostarczonych każdej maszynie podczas procesu uczenia, tym lepsze będą wyniki. Przed rokiem 2000 duże zbiory danych, które spełniałyby podstawowe wymagania nowoczesnej sztucznej inteligencji, były trudne do zdobycia. Jednak rozwój wszechobecnych komputerów i Internetu doprowadził następnie do powstania ogromnych zbiorów danych. Tymczasem rozproszone platformy do etykietowania, takie jak Amazon Mechanical Turk, umożliwiły etykietowanie coraz większej liczby danych, co jeszcze bardziej przyspieszyło ilość nowoczesnych danych wejściowych AI. Równocześnie prawo Moore′a i przetwarzanie rozproszone, w tym platformy przetwarzania w chmurze, doprowadziły do znacznie większej mocy obliczeniowej. Ta moc obliczeniowa pomogła zaspokoić zapotrzebowanie współczesnej sztucznej inteligencji na przetwarzanie ogromnych danych w celu uzyskania wyników. Tymczasem tańsze i bardziej obfite dostawy jednostek przetwarzania grafiki (GPU), które są w praktyce bardziej wydajne niż jednostki centralne (CPU) dla nowoczesnej sztucznej inteligencji, również przyczyniły się do większej wydajności ogromnych zestawów obliczeń, które muszą odbywać się w nowoczesnych AI do efektywnej pracy. Rozwój zbiorów danych, tanich obliczeń i tańszych procesorów graficznych doprowadził do tego, co jest obecnie znane jako głębokie uczenie się, w którym znajduje się wiele teoretycznych badań nad sztuczną inteligencją i praktyka odbywa się dzisiaj. Powodem, dla którego głębokie uczenie się jest przedmiotem zainteresowania od 2012 r., jest jego unikalna cecha polegająca na tym, że sieci te nie są nasycone, gdy otrzymują ogromne ilości danych. Zamiast tego nadal się uczą i doskonalą. Większość tematów koncentruje się na uczeniu maszynowym, w przeciwieństwie do klasycznej sztucznej inteligencji lub innych obszarów teorii sztucznej inteligencji. Jednak inne tematy , takie jak potrzeba nowego podejścia do zarządzania ryzykiem modeli, powinny być stosowane niezależnie od tego, czy używane jest uczenie maszynowe, czy inny niedeterministyczny system autonomiczny. Lekcje z tego tekstu można szeroko zastosować do zagrożeń związanych ze sztuczną inteligencją, chociaż koncentrujemy się na tych obszarach ze względu na obecne zainteresowanie i wielkość tej konkretnej aplikacji AI. Szybkie przejście z klasycznej na nowoczesną sztuczną inteligencję i niemal wszechobecne zastosowanie uczenia maszynowego do wyzwań związanych z nauką o danych jest częściowo odpowiedzialne za równoległy wzrost nierozwiązanych zagrożeń związanych ze sztuczną inteligencją. Teraz, gdy sztuczna inteligencja nie opiera się na zasadach zaprogramowanych przez programistę, ale jest wywnioskowana z interakcji obliczeniowej z ogromnymi zbiorami danych, nagle pojawiają się nowe zagrożenia, które nie istniały w klasycznej teorii sztucznej inteligencji, takie jak ataki polegające na uniku i dryf modelu. W ciągu ośmiu lat, odkąd AlexNet udowodnił, że sztuczne sieci neuronowe są praktyczne, nastąpiła eksplozja badań i rozwoju uczenia maszynowego i jego następców. W tym czasie większość wysiłków była ukierunkowana na przyszłość, a naukowcy i praktycy ścigali się z tymi narzędziami. Niewiele uwagi poświęcono ryzyku związanemu z tymi podejściami, co pozostawiło potencjalnych użytkowników sztucznej inteligencji z ograniczonym zrozumieniem wad tej technologii. Częściowo brak uwagi poświęcanej zagrożeniom związanym ze sztuczną inteligencją ma sens. Po prostu nie było wystarczającej ilości sztucznej inteligencji w użytecznych aplikacjach, aby te zagrożenia były czymś więcej niż interesującym obszarem badawczym. Ale dziś sztuczna inteligencja jest coraz szybciej włączana do autonomicznych pojazdów, systemów uzbrojenia i urządzeń konsumenckich. To zmieniło wyzwanie z dylematu badawczego w realistyczne ryzyko operacyjne i potencjalny wektor zagrożenia dla złych aktorów. Szybki rozwój uczenia maszynowego jako podstawowej technologii sztucznej inteligencji we współczesnej nauce o danych jest częściowo odpowiedzialny za nieograniczone ryzyko związane ze sztuczną inteligencją. Jednak dobrą wiadomością jest to, że zagrożenia te są znane i można je złagodzić przy odpowiednim wysiłku.

Czy możemy zacząć od pewnych definicji?

Zanim zaczniemy, opowiem krótką historię o definicji sztucznej inteligencji. Istniała Podkomisja Białego Domu ds. Sztucznej Inteligencji. Ta podkomisja, podobnie jak większość, była bardziej imponująca pod względem nazwy niż wyników, ale nadal była w stanie zgromadzić niektóre z czołowych umysłów technicznych w rządzie USA, które pracowały nad sztuczną inteligencją lub przynajmniej były nią zainteresowane. Spotykała się co miesiąc, pakując się do małego, słabo wentylowanego pokoju na najwyższym piętrze Centrum Konferencyjnego Białego Domu, po drugiej stronie ulicy od samej słynnej rezydencji. Specjaliści z całego rządu, w tym społeczność wywiadowcza; departamenty obrony, energii i transportu; oraz mniej znany National Institute of Standards and Technology (NIST) spotykali się co miesiąc w celu omówienia działań w zakresie sztucznej inteligencji i obszarów koordynacji na szczeblu federalnym. W ciągu kilku kolejnych spotkań w tej dusznej sali konferencyjnej na porządku dziennym pozostawał jeden temat: definicja sztucznej inteligencji. Bez wątpienia ktoś na początku spotkania zapytałby: "Czy możemy zacząć od dokładnego zdefiniowania, co rozumiemy przez sztuczną inteligencję, zanim przejdziemy do tego?" Na każdym spotkaniu debatowano, dyskutowano i dopracowywano definicje co najmniej od piętnastu do trzydziestu minut. Do czasu zmiany nazwy podkomisji i przetasowania w inną organizację, definicja nadal nie została jednogłośnie uzgodniona. Członkowie tej podkomisji byli funkcjonariuszami publicznymi o dobrych intencjach. Wielu z nich miało wykształcenie techniczne i pełniło techniczne role w organizacjach, które utrzymują wysoki stopień zaawansowania sztucznej inteligencji. W rzeczywistości niektóre reprezentowane organizacje, takie jak Agencja Zaawansowanych Projektów Badawczych w Obronie (DARPA), pomagały w pionierskich badaniach w tej dziedzinie od dziesięcioleci. Ale oni, podobnie jak wielu innych wysoce technicznych praktyków, starali się odpowiednio zdefiniować terminy AI, poznanie komputerowe, maszyny wywiadowcze, uczenie maszynowe, uczenie głębokie i inne. Powodem tej debaty nie była czysto akademicka dyskusja. Wiele osób uważa, że kluczowe obszary zastosowań, w tym uczenie maszynowe, uczenie głębokie i sieci neuronowe, nie powinny być uważane za prawdziwą sztuczną inteligencję. Ale z naszego punktu widzenia w odniesieniu do zagrożeń związanych ze sztuczną inteligencją możesz zapomnieć o technicznych definicjach, jeśli chodzi o sztuczną inteligencję, chyba że jesteś badaczem. Czytelnikom proponujemy operacyjną definicję AI. Oznacza to, że sztuczna inteligencja to dowolny system komputerowy, który działa w sposób, do którego działania nie został wyraźnie zaprogramowany. Czytelnikom, którzy chcą pójść o krok dalej, podoba się definicja Poole′a, Mackwortha i Goebela z 1998 roku: "każde urządzenie, które postrzega swoje otoczenie i podejmuje działania, które maksymalizują jego szanse na pomyślne osiągnięcie swoich celów". Podczas gdy znaczna część tego tekstu technicznie obejmuje dziedzinę uczenia maszynowego i jego następców, takich jak głębokie uczenie się, użycie tych luźnych, operacyjnych definicji sztucznej inteligencji utrzyma nas ponad drobiazgami i wojnami o wpływy nieodłącznie związanymi z bitwą o definicję szybko ewoluującego terminu.

Czym AI różni się od tradycyjnego oprogramowania

Jedna z tych rzeczy nie jest podobna do drugiej.

Aby zrozumieć zagrożenia związane ze sztuczną inteligencją, kluczowe znaczenie ma zrozumienie, czym sztuczna inteligencja różni się od tradycyjnego oprogramowania. Te różnice są powodem, dla którego sprawdzone techniki cyberbezpieczeństwa i bezpiecznego tworzenia oprogramowania nie mogą być po prostu zastosowane w sztucznej inteligencji. W swej istocie sztuczna inteligencja jest bardziej złożona niż tradycyjne oprogramowanie. Dzieje się tak na każdym etapie cyklu opracowywania i wdrażania. Dla uproszczenia podzieliłem ten cykl na cztery podstawowe części: prymitywy, programowanie, debugowanie i wdrażanie. Dodatkowa złożoność sztucznej inteligencji w porównaniu z oprogramowaniem zaczyna się od podstawowych elementów składowych sztucznej inteligencji i oprogramowania, znanych jako prymitywy. Powszechna definicja prymitywów oprogramowania jest taka, że są to najprostsze elementy dostępne w języku programowania. Te prymitywy w oprogramowaniu są zwykle najmniejszą jednostką przetwarzania i generalnie składają się z pojedynczej operacji, takiej jak kopiowanie bajtu lub ciągu bajtów z jednego miejsca do drugiego. Łatwo jest myśleć o prymitywach jako o podstawowych elementach składowych oprogramowania, takich jak cegły w domu lub komórki w organizmie. W przypadku oprogramowania prymitywy to tylko używany kod. Z drugiej strony sztuczna inteligencja ma znacznie więcej prymitywów. Obejmują one dane używane do uczenia, cechy danych wejściowych, których model używa do wyciągania wniosków, kod używany do budowy modeli, czas potrzebny do nauczenia modelu oraz koszt obliczeniowy i wysiłek potrzebny do nauczenia się modelu i dalszego działania w świecie rzeczywistym. Idąc za prymitywami, rozwój systemów AI jest dodatkowo bardziej złożony niż oprogramowanie. Ostrożnie używam tutaj terminu kompleks, ponieważ wiele programów i platform może być znacznie bardziej skomplikowanych niż modele AI. Dodatkową złożoność wprowadza autonomiczny charakter sztucznej inteligencji połączony z interakcją modelu z parametrami treningu ustawionymi przez dewelopera. Rezultatem tej interakcji jest to, że programista nie zawsze może dokładnie przewidzieć, jak sztuczna inteligencja zareaguje na dane wejściowe. W rzeczywistości, gdyby problem można było rozwiązać za pomocą samej logiki lub drzew decyzyjnych, narzędzie AI nie byłoby potrzebne. Ta złożoność może utrudniać zrozumienie lub interpretację działań sztucznej inteligencji, jednocześnie zwiększając wyzwanie polegające na walidacji jakości modeli sztucznej inteligencji względem siebie. Gdy coś pójdzie nie tak w tradycyjnym oprogramowaniu, proces debugowania może być bolesny i dezorientujący. Jest to szczególnie prawdziwe w przypadku dużych, skomplikowanych systemów oprogramowania z wieloma zależnościami i pętlami sprzężenia zwrotnego. Ale proces ten jest jeszcze bardziej wzmocniony dzięki sztucznej inteligencji. Dzieje się tak, ponieważ podczas gdy oprogramowanie ma jedną sekcję do debugowania (kod), sztuczna inteligencja ma znacznie więcej elementów, które mogą nieprawidłowo lub niewłaściwie wpływać na wynik modelu. Na przykład porównajmy oprogramowanie do debugowania z debugowaniem systemu AI. S. Zayd Enam, będąc w Stanford, stworzył intuicyjny zestaw grafik, których użyjemy do zilustrowania procesów. Począwszy od oprogramowania, kiedy próbujesz rozwiązać problem lub zadanie i kończy się to niepowodzeniem, masz do oceny swoje wyniki w dwóch wymiarach. Można je traktować jako dwie osie, z poprawnością algorytmu na osi x i błędami w implementacji na osi y. Kiedy to wszystko się sprawdzi, algorytm działa. Jeśli tego nie zrobisz, kod się nie powiedzie. W ten sposób sprawdzanie, co nie działa z danym algorytmem, następuje po logicznym, liniowym procesie sprawdzania każdej zmiennej w tak zwanej przestrzeni wyszukiwania błędu. Jednak w przypadku sztucznej inteligencji sytuacja staje się wykładniczo bardziej złożona. Wynika to z dodania dwóch dodatkowych wymiarów, idealnego modelu i użytych danych. Błędy w samym modelu mogą obejmować poprawne aktualizacje funkcji i parametrów lub błędy w samym wyborze modelu. Na przykład programista sztucznej inteligencji może użyć klasyfikatora liniowego, gdy granice decyzyjne danych, o których mowa, są nieliniowe. Podobnie błędy w danych mogą obejmować bałagan w danych lub nieprawidłowe etykiety, błędy popełnione podczas przygotowywania danych lub niewystarczającą ilość danych. Wizualizacja wszystkich czterech osi jest wyzwaniem, więc zamiast tego możemy wyobrazić sobie sześcian, a następnie sekwencję sześcianów w czasie. Te wizualizacje powinny pomóc wskazać fakt, że sztuczna inteligencja jest wykładniczo trudniejsza do debugowania ze względu na wprowadzenie n dodatkowych zmiennych do systemu, co stwarza n × n więcej sposobów, w jakie coś może pójść nie tak. Tak więc w przypadku czterech wymiarów sztucznej inteligencji istnieje n × n × n × n sposobów, w jakie model sztucznej inteligencji może zawieść. Dodatkowym czynnikiem, który należy wziąć pod uwagę, jest czas potrzebny na wyszkolenie modelu. W przeciwieństwie do debugowania oprogramowania, w przypadku którego sygnały o błędach i opinie programistów mogą być dość szybkie, uczenie modeli AI może zająć godziny lub dni, w zależności od danych. To samo dotyczy testowania wydajności modelu. Dlatego po dokonaniu korekt pętla sprzężenia zwrotnego między identyfikacją błędu a rozwiązaniem błędu może być dość długa. Różnice między oprogramowaniem a sztuczną inteligencją oznaczają również, że standardowe bezpieczne procesy cyklu życia oprogramowania i operacje programistyczne (zwykle nazywane DevOps lub DevSecOps) nie mogą być po prostu stosowane na zasadzie jeden do jednego. Twórcy sztucznej inteligencji i organizacje wdrażające sztuczną inteligencję wymagają opracowania i standaryzacji bezpiecznych cykli rozwoju sztucznej inteligencji, aby skutecznie zarządzać zarówno dodatkową złożonością, jak i zwiększonym ryzykiem błędów w sztucznej inteligencji w porównaniu z tradycyjnym oprogramowaniem. Liderzy zaniepokojeni zagrożeniami związanymi ze sztuczną inteligencją muszą położyć duży nacisk na opracowanie szybkich i skutecznych procesów debugowania ich sztucznej inteligencji. Błędy te mogą obejmować zarówno niewygodne, takie jak niepełne próbkowanie zestawu danych do szkolenia, jak i niebezpieczne, takie jak nieumyślne pozostawienie modelu otwartego na ataki przeciwnika.

Sztuczna inteligencja do testów warunków skrajnych

Krytyczna, ale często pomijana część obciążenia pracą zespołu programistów sztucznej inteligencji podczas oceny ryzyka związanego z sztuczną inteligencją obejmuje testy warunków skrajnych sztucznej inteligencji. Chociaż powinno to być już częścią przepływu pracy programisty AI lub analityka danych, w zaskakującej liczbie przypadków testy warunków skrajnych na danych poza pierwotnymi granicami szkolenia i dystrybucją nie są brane pod uwagę. Testy warunków skrajnych modelu mogą pomóc wyjaśnić, w jaki sposób model może zawieść nie z powodu atakującego, ale z powodu awarii wywołanych naturalnie występującymi czynnikami środowiskowymi. Na przykład systemy AI samojezdnych samochodów muszą być testowane w warunkach skrajnych w symulacjach deszczu i śniegu, podczas gdy sztuczna inteligencja związana z handlem akcjami musi być testowana poza normalnymi warunkami zmienności rynku, wolumenu handlu i cen. Możliwe, że zespół AI stwierdzi, że awarie występują z dużą częstotliwością w warunkach poza danymi treningowymi. Istnieją dwa możliwe skutki tych niepowodzeń. Po pierwsze, zespół może podjąć decyzję o zebraniu większej ilości danych szkoleniowych lub stworzeniu danych syntetycznych w celu przeszkolenia sztucznej inteligencji. Należy to zrobić, jeśli istnieje prawdopodobieństwo, że sztuczna inteligencja napotka takie warunki w środowisku naturalnym, takie jak deszcz lub śnieg. Z drugiej strony zespół programistów AI może zamiast tego zdecydować się na opracowanie wielomodelowego systemu AI lub systemu pętli człowieka. W każdym z tych systemów, gdy sztuczna inteligencja napotka warunki środowiskowe, o których wiadomo, że jest słaba w obsłudze, sztuczna inteligencja jest wyrzucana w tryb offline i wprowadzany jest inny model lub człowiek. Projektowanie systemów sztucznej inteligencji w ten sposób zapewnia większą elastyczność i bezpieczeństwo operacyjne w korzystaniu z AI. Chociaż testowanie warunków skrajnych modelu jest zwykle przeprowadzane podczas szkolenia, czerwony zespół sztucznej inteligencji powinien starać się znaleźć sytuacje, w których model zawodzi, aby uzyskać jak najdokładniejszy obraz wydajności modelu.

Stronniczość danych

Seksistowskie maszyny


"Amazon ma seksistowską sztuczną inteligencję!" Już sam nagłówek z pewnością przyciągnął uwagę. 9 października 2018 r. Reuters zamieścił w swoim internetowym serwisie informacyjnym nagłówek "Amazon likwiduje tajne narzędzie do rekrutacji, sztucznej inteligencji, które wykazało uprzedzenia wobec kobiet". Był to jeden z dziesiątek podobnych artykułów opublikowanych tego dnia. W ciągu następnych kilku tygodni ta historia seksistowskiej sztucznej inteligencji była opisywana w artykułach informacyjnych, blogach technologicznych i publikacjach branżowych. Nawet wiele lat później ta awaria Amazona jest jedną z najczęściej cytowanych awarii AI. Prowadzi to do pytania: w jaki sposób sztuczna inteligencja może być seksistowska? Prosta odpowiedź jest taka, że sztuczna inteligencja nauczyła się od swoich twórców. Istotą problemu było podstawowe założenie, że silnik sztucznej inteligencji zinternalizował uprzedzenia swoich twórców bez ich wiedzy, tworząc seksistowską maszynę. Najwyraźniej nie było to intencją twórców AI. Zamiast tego twórcy sztucznej inteligencji starali się szybciej sprawdzać kandydatów na wolne stanowiska. Z pozoru to zastosowanie sztucznej inteligencji ma sens. Amazon urósł do prawie miliona pracowników, od pracowników magazynowych po inżynierów oprogramowania. Jej działalność ma charakter globalny, a dział kadr może być zasypany tysiącami CV na każde stanowisko. Zautomatyzowane systemy, oparte na uczeniu maszynowym, mogą szybko skrócić czas potrzebny na weryfikację CV, jednocześnie ukierunkowując się na osoby, które prawdopodobnie będą osiągać wysokie wyniki na wczesnym etapie. Członek zespołu odpowiedzialnego za sztuczną inteligencję powiedział Reuterowi: "Każdy chciał tego świętego Graala. Dosłownie chcieli, żeby to był silnik, w którym dam ci 100 życiorysów, wypluje pierwszą piątkę, a my ich zatrudnimy." Ta rekrutacja "świętego Graala" wydawała się działać na początku. Przejrzałaby tysiące życiorysów i wybrała tych kandydatów, którzy z największym prawdopodobieństwem odniosą sukces w notorycznie bezwzględnej kulturze Amazona. Ale wkrótce stało się jasne, że silnik wypluwa głównie kandydatów płci męskiej. Nie zostało to wyraźnie zaprogramowane w maszynie. W rzeczywistości Amazon zaświadcza, że jego inżynierowie specjalnie usunęli płeć z funkcji, na które model powinien patrzeć. Mimo to maszyna stała się seksistowska, promując CV mężczyzn ponad CV kobiet. Dlaczego? Modele zostały przeszkolone na tendencyjnych danych, które obejmowały życiorysy kandydatów z mniej więcej dekady. Modele trenowano również na wewnętrznych danych awansowych, co miało pomóc zrozumieć, którzy kandydaci po przybyciu do Amazon odniosą największy sukces. Jednak branża technologiczna jest w dużej mierze zdominowana przez mężczyzn, co prowadzi maszynę do wniosku, że mężczyźni odnoszą większe sukcesy w dziedzinie technologii. Jednocześnie, ponieważ znaczna część kierownictwa i średniego kierownictwa Amazona składa się z mężczyzn, maszyna dalej wywnioskowała, że kandydaci płci męskiej są nie tylko ogólnie lepsi, ale to oni najszybciej awansują. Mimo że maszyna nie została wprost zaprogramowana do szukania płci, i tak ją znalazła. Kandydaci z zajęciami pozalekcyjnymi, takimi jak "kobieca piłka nożna" lub "kobiecy klub dyskusyjny", zostali pobici przez algorytm, podobnie jak kandydaci, którzy ukończyli uczelnie wyłącznie dla kobiet. Maszyna znalazła sposób na dodanie uprzedzeń opartych nie na udanych przewidywaniach, ale na istniejących, niewyraźnych uprzedzeniach w branży technologicznej wobec mężczyzn. Maszyna zinternalizowała uprzedzenia organizacji, która ją stworzyła, mimo że wyraźnie nie było to zaprogramowane.

Czym jest stronniczość AI?

Błąd AI to błędne lub niezamierzone podejmowanie decyzji przez algorytm z powodu niekompletnych, niereprezentatywnych danych treningowych. Odchylenie niekoniecznie jest zatem ryzykiem algorytmicznym. Jest to ryzyko spowodowane przez podstawowe dane, które są używane do uczenia algorytmu. Przypomnijmy, że prymitywy sztucznej inteligencji obejmują dane, w przeciwieństwie do samego kodu dla tradycyjnego oprogramowania. Stronniczość danych może ostatecznie nie tylko wpłynąć na wydajność systemu sztucznej inteligencji, ale w niektórych przypadkach może również wpłynąć na jego legalność. Organizacje, zwłaszcza w branżach o wysokim stopniu regulacji, muszą bardzo poważnie potraktować to ryzyko. Uważa się, że problem został po raz pierwszy zidentyfikowany w 1988 r., kiedy ponad dwadzieścia lat później, podobnie jak seksistowski bot zatrudniający Amazona, brytyjska Komisja ds. Równości Rasowej znalazła program komputerowy skierowany przeciwko kobietom i osobom bez europejskich nazwisk. Ten program odzwierciedlał wzorce recenzentów aplikacji ludzkich z mniej więcej 95-procentową dokładnością, wskazując jednak, że problem nie leżał w logice algorytmicznej, ale w zachowaniach recenzentów, które doprowadziły do seksistowskich praktyk akceptacji. Stronniczość u ludzi jest dobrze udokumentowana. Niektóre uprzedzenia mogą być nieszkodliwe, na przykład uprzedzenia do pieszych wędrówek z powodu urazów w dzieciństwie w lesie. Inne uprzedzenia, takie jak te skierowane przeciwko określonej rasie, płci lub orientacji seksualnej, są tak szkodliwe dla społeczeństwa, że stworzono prawa ograniczające zdolność jednostek do działania w oparciu o te uprzedzenia. Stronniczość w ludzkim zachowaniu może zatem mieścić się między nieszkodliwością a nielegalnością. Ponieważ sztuczna inteligencja jest generalnie szkolona na istniejących danych, które nie zostały opracowane specjalnie dla zastosowań sztucznej inteligencji (temat, który omówimy w następnej sekcji), istniejące ludzkie uprzedzenia lub dane odzwierciedlające nierówności historyczne lub społeczne mogą wkraść się i wpłynąć na proces decyzyjny algorytmu. Może się to zdarzyć nawet wtedy, gdy z zestawu danych treningowych zostaną usunięte wrażliwe lub nielegalne cechy (zmienne), takie jak te związane z orientacją seksualną, rasą, płcią, pochodzeniem etnicznym lub wiekiem. Seksistowski bot Amazona jest podręcznikowym przykładem tego wyzwania. Chociaż twórcy mieli dobre intencje, dostępne dane skłoniły ich system uczenia maszynowego do powielenia, a nie usunięcia istniejących ludzkich nierówności. Odchylenie w systemach sztucznej inteligencji może również wynikać z wadliwego próbkowania danych. Na przykład Joy Buolamwini z MIT we współpracy z Timnitem Gebru z Microsoftu odkryła niezwykłe wzorce w sztucznej inteligencji wykorzystywanej do analizy twarzy3. Ich badania ujawniły wysokie wskaźniki błędów w przewidywaniach dla mniejszości, z jeszcze wyższymi wskaźnikami błędów dla kobiet należących do mniejszości. Kiedy zagłębili się w przyczynę tych błędów, okazało się, że mniejszości, zwłaszcza mniejszości kobiet, nie były dobrze reprezentowane w danych szkoleniowych, co z kolei doprowadziło do mniej dobrze wyszkolonych modeli dla tych osób i wyższych wskaźników błędów.

Dlaczego stronniczość jest ryzykiem AI?

Co może pójść nie tak, gdy dane są stronnicze? W przypadku danych obciążonych lub niereprezentatywnych próbek istnieją dwa główne problemy. Po pierwsze, model może być niedokładny w swoich przewidywaniach, przez co jego przydatność jako praktycznego zastosowania jest również ograniczona. Po drugie, może to być nielegalne. W pierwszym przypadku stronniczość sztucznej inteligencji często powoduje, że maszyna dokonuje złych prognoz. Weźmy na przykład samojezdny samochód. Często te pojazdy są szkolone częściowo przy użyciu danych zbieranych przez lata z kamer na desce rozdzielczej zamontowanych na ludzkich kierowcach. Zdecydowana większość przechwyconych danych będzie znajdować się na drogach, które są ogólnie żeglowne. Podczas jazdy na tych drogach, nawet w złych warunkach pogodowych, samojezdne samochody zwykle spisują się dobrze. Jednak w innych warunkach samochody zawodzą. Kiedyś U.S. Department of Transport′s Intelligence Transport Systems Joint Program Office (ITS-JPO), rozpoczęto projekt mający na celu koordynację bezpiecznego przyspieszania samochodów autonomicznych. Podjęto się tego projektu głównie ze względów bezpieczeństwa publicznego. Podejrzewa się, że 94 procent wypadków na autostradach jest spowodowanych błędem ludzkim. Podczas zamkniętej sesji z udziałem głównych firm motoryzacyjnych i technologicznych (wyniki zostały później opublikowane) przeprowadzono dobrowolną ankietę firm zajmujących się pojazdami autonomicznymi, aby odkryć, co ich zdaniem jest największą barierą między ich technologią a bezpiecznym wdrożeniem na drogach. Wynik był zaskakujący. Oczekiwaliśmy odpowiedzi, takich jak skoordynowane federalne i stanowe systemy regulacyjne lub postępy w sztucznej inteligencji. Zamiast tego było to błąd w zbieraniu danych. Odkryliśmy, że głównym problemem tych firm, jeśli chodzi o przyspieszenie ich technologii, była niezwykła sprawa: dane dotyczące strefy pracy. Samojezdne samochody były fatalne w poruszaniu się po strefach pracy. Wynika to z szerokiego zakresu oznakowania stref pracy, konfiguracji i wzorców jazdy. Ponieważ każda strefa robocza w danych treningowych była w jakiś sposób wyjątkowa, sztuczna inteligencja napędzająca te pojazdy nie była dobrze wyposażona do nawigacji. To skłoniło Departament Transportu Stanów Zjednoczonych (USDOT) do stworzenia dobrowolnej wymiany danych dla danych stref roboczych, pierwotnie nazywanej wymianą danych pojazdów autonomicznych (lub AVDX), obecnie prowadzonej przez DAVI (Data for Automated Vehicle Integration). Ta dobrowolna wymiana była pierwotnie zaprojektowany, aby umożliwić praktykom zajmującym się pojazdami autonomicznymi wymianę danych dotyczących stref pracy, co prowadzi do uzyskania bardziej reprezentatywnych danych szkoleniowych i zwiększa skuteczność zautomatyzowanych systemów odpowiedzialnych za nawigację pojazdu. Podstawowe uprzedzenie wobec stref pracy w tym przypadku nie było oparte na błędzie ludzkim. Zamiast tego wynikało to po prostu z faktu, że strefy pracy są rzadkie w porównaniu z normalnymi warunkami jazdy. To samo dotyczy innych skrajnych przypadków motoryzacyjnych, takich jak jazda w wyjątkowo złej pogodzie lub w warunkach terenowych. Ale chociaż ta stronniczość danych nie wynikała z uprzedzeń ludzkich, niedostateczne próbkowanie danych w tych warunkach może mieć wpływ na bezpieczeństwo w świecie rzeczywistym. Wyobraź sobie, że samojezdny samochód wjeżdża w strefę prac tylko dlatego, że nie napotkał podobnego scenariusza w próbce szkoleniowej. Wpływ takiego zdarzenia prawdopodobnie miałby trwałe konsekwencje nie tylko dla producenta lub twórcy algorytmu, ale także dla przepisów całej branży. W drugim przypadku stronniczość może być niezgodna z prawem. Weźmy na przykład przypadkową zmianę linii przez systemy sztucznej inteligencji. W 1968 r. Ustawa o uczciwych warunkach mieszkaniowych zakazała redliningu, który odnosi się do powszechnie przyjętej praktyki banków, aby nie udzielać pożyczek firmom i konsumentom w niektórych częściach miasta. Banki miałyby własne mapy z narysowanymi sekcjami "czerwonymi liniami", wskazującymi miejsca, w których nie udzielałyby pożyczek. Te czerwone linie zwykle przebiegały zgodnie z granicami rasowymi, uniemożliwiając w ten sposób mniejszościom uzyskanie kredytu. Obecnie sztuczna inteligencja do udzielania pożyczek, ubezpieczeń i innych instrumentów finansowych może uwzględniać wiele zmiennych, w tym media społecznościowe i wzorce wydatków. Te dane muszą mieć korelację z rasą i innymi nielegalnymi zmiennymi, takimi jak płeć i orientacja seksualna. Na przykład Fast Company Admiral Insurance, największa brytyjska firma ubezpieczeniowa samochodów, planowała uruchomić firstcarquote. Ten system obsługujący sztuczną inteligencję opierałby swoje stawki ubezpieczenia na danych przeglądanych przez system sztucznej inteligencji, w tym posty na Facebooku, wybory słów w mediach społecznościowych oraz polubienia i preferencje w mediach społecznościowych. Ostatecznie różnice w języku, wydatkach i zachowaniach online dostarczają wskazówek dotyczących wyścigu kandydatów do ubezpieczeń. Wykazano, że modele AI zaczynają być uprzedzone rasowo, gdy są karmione tego typu informacjami, tworząc czerwone linie wokół różnych społeczności, nawet jeśli rasa jest wyraźnie usunięta z danych. Uprzedzenia tego typu mogą być bardzo szkodliwe dla ludzi i społeczności, których to dotyczy. Weźmy na przykład prognozy kryminalne. W Stanach Zjednoczonych wiele sądów stosuje analizy predykcyjne, znane jako oceny ryzyka, do przewidywania, kto popełni przyszłe przestępstwo. Fantastyczne dziennikarstwo śledcze Jeffa Larsona, Suryi Mattu, Lauren Kirchner i Julii Angwin, piszące dla ProPublica, ujawniło uprzedzenia rasowe w wyrokach karnych przy użyciu jednego z najczęściej używanych narzędzi do oceny ryzyka w kraju, oprogramowania COMPAS firmy Northpointe. Naukowcy odkryli, że poza tym, że algorytm nie jest zbyt użyteczny, przewidując jedynie przyszłe przestępstwa z prawdopodobieństwem rzutu monetą, przewiduje również, że czarnoskórzy oskarżeni byli o 77 procent bardziej narażeni na wyższe ryzyko popełnienia przyszłego przestępstwa z użyciem przemocy i 45 procent bardziej prawdopodobne, że popełnią w przyszłości jakiekolwiek przestępstwo, nawet przez osoby o podobnej przeszłości kryminalnej, w tym z wcześniejszymi wyrokami skazującymi. Przyczynę różnicy w przewidywaniach między osobami z mniejszości a białymi można przypisać istniejącym uprzedzeniom w podstawowych danych. Od lat siły policyjne w całych Stanach Zjednoczonych ścigają społeczności mniejszościowe w większym stopniu niż społeczności białe. Ponieważ rasa była również ściśle powiązana ze wskaźnikami działalności przestępczej, takimi jak ubóstwo, bezrobocie i marginalizacja społeczna, sztuczna inteligencja błędnie dowiedziała się, że osoby czarnoskóre są bardziej skłonne do popełniania przestępstw, nawet gdy wszystkie inne czynniki zostały znormalizowane. Szkody, jakie ta stronniczość AI wyrządza jednostkom, rodzinom i społecznościom, których to dotyczy, są nie do opisania. Zarówno stronniczość wydajności, jak i nielegalna stronniczość mogą budzić wątpliwości w przewidywaniach modelu AI. Jeśli wiadomo, że sztuczna inteligencja jest uprzedzona wobec mniejszości przy wydawaniu wyroków, nie zatrudnia kobiet lub wpada do stref pracy, nie będzie używana. Tymczasem nawet sama możliwość, że sztuczna inteligencja jest stronnicza, może zasiać w opinii publicznej ziarno wątpliwości co do skuteczności, bezpieczeństwa i etyki samego systemu sztucznej inteligencji. Dopóki liderzy nie zapewnią przejrzystego raportowania danych bazowych w celu wytrenowania modelu i będą w stanie pokazać wyniki, które nie mają stronniczych wyników, jest mało prawdopodobne, aby sztuczna inteligencja w znaczący sposób przeniosła się do funkcji konsumenckich i publicznych.

Co wszyscy mylą się na temat danych

Aby w jak największym stopniu usunąć z systemu sztucznej inteligencji leżące u jego podstaw stronniczość danych, liderzy i praktycy muszą nauczyć się myśleć o danych w inny sposób. Na początek nie jest to samo wejście. Jest to wynik procesu zbierania danych, który najprawdopodobniej od początku nie był przeznaczony do wykorzystania przez sztuczną inteligencję. Przyjrzyjmy się przykładowi, w jaki sposób projekty data science często rozpoczynają się w dużej organizacji. Na przykład duży sprzedawca detaliczny może dysponować informacjami gromadzonymi przez dziesięciolecia, począwszy od danych demograficznych i dotyczących wydatków klientów, przez trendy sprzedaży na poziomie sklepu, aż po informacje o łańcuchu dostaw, które są przechowywane w różnych bazach danych i formatach. Dyrektor generalny może poprosić swoich podwładnych, aby "skorzystali z tych drogich analityków danych, których zatrudniliśmy, aby naprawdę zwiększyć sprzedaż w tym roku w okresie świątecznym". Następnie zespół zajmujący się analizą danych zacząłby sortować trendy, przewidywać i formułować hipotezy dotyczące tego, co może napędzać sprzedaż. Biorąc pod uwagę rozmiar danych, zespół prawdopodobnie użyje sztucznej inteligencji do znalezienia wzorców, których nie mógł zobaczyć. Lub w innym przykładzie wyobraź sobie organizację wywiadu wojskowego. Mają raporty o interesującym kraju sprzed dziesięcioleci. Zakres informacji obejmuje zdjęcia satelitarne, tajne depesze, raporty analityków, a także informacje o otwartym kodzie źródłowym, które można znaleźć w gazetach. W ostatnich latach informacje o otwartym kodzie źródłowym powiększyły się i obejmują również kanały mediów społecznościowych od osób mieszkających w tym kraju lub z nim powiązanych. Generał może poprosić swojego oficera wywiadu, aby wykorzystał sztuczną inteligencję, aby lepiej zrozumieć zachowania wojskowe kraju. Oficer wywiadu, jeśli ma szczęście, ma do dyspozycji kilku umundurowanych członków przeszkolonych w zaawansowanej analityce danych. Ona z kolei każe im zabrać się do pracy nad tym, aby sztuczna inteligencja lepiej rozumiała kraj niż analitycy. W obu przykładach analitycy danych prawdopodobnie znajdą coś przydatnego dla dyrektora generalnego i ogólnego. I często, zwłaszcza jeśli organizacja po raz pierwszy używa sztucznej inteligencji, działania te pozwolą odkryć wzorce i prognozy, które zostały pominięte lub niezauważone przez analityków, biorąc pod uwagę ilość danych. Ale patrząc wstecz na poprzednie przykłady, w tym seksistowski bot rekrutacyjny Amazona i uprzedzenia rasowe w ocenach ryzyka przestępczego opartych na sztucznej inteligencji, zarówno dyrektor generalny, jak i ogólny muszą zadać sobie pytanie, czy są to "właściwe" wnioski. Stronniczość danych jest tak poważnym wyzwaniem i barierą dla przyjęcia sztucznej inteligencji, po części dlatego, że jeśli nie zostanie dokładnie udowodnione, że nie istnieje, możliwość jej obecności podważa wszystkie przyszłe prognozy. Aby złagodzić te obawy, liderzy, którzy chcą zacząć korzystać ze sztucznej inteligencji, muszą myśleć o danych, które dostarczają naukowcom danych, nie jako samych danych wejściowych. Umieszczenie niewłaściwych danych w systemie uczenia maszynowego może prowadzić do skutków, które mogą być dla organizacji szkodliwe, a nie pomocne. Wszystkie dane są wynikiem procesów, które w większości przypadków nie są przeznaczone dla sztucznej inteligencji. Dane znajdujące się w bazach danych w dużych przedsiębiorstwach i rządach były pierwotnie gromadzone do celów niezwiązanych ze sztuczną inteligencją. Więc zwykłe uderzenie AI na wierzchu nie pomoże. Lepszym sposobem myślenia o danych wejściowych dla systemów sztucznej inteligencji jest ich wyjście. Dzielę proces przechowywania danych na osiem kroków. Te osiem kroków to sposób, w jaki należy przechwytywać dane z zamiarem wykorzystania ich do szkolenia modeli AI. Mogłaby być cała książka napisana o tym procesie i związanych z nim pętlach informacji zwrotnych, ale dla liderów zaniepokojonych zagrożeniami związanymi z AI wystarczy upewnić się, że Twój zespół śledzi te procesy na wysokim poziomie. Kroki obejmują: Po pierwsze, organizacje muszą rozważyć pożądany wynik działania AI. Czy to wzrost sprzedaży? Czy to lepszy wgląd w intencje wroga? Jest to najbardziej krytyczny krok w całym procesie, ponieważ zmusza liderów do krytycznego myślenia o tym, co chcą zobaczyć przyszłość. Po drugie, zespół zajmujący się nauką o danych lub sztuczną inteligencją musi określić, jakie jest wyzwanie między pożądanym rezultatem a obecnym stanem. Czy brakuje danych? Czy istnieją martwe punkty w organizacji? To wyzwanie poinformuje, jakie informacje należy zebrać. Po trzecie, zespół stworzy hipotezę dotyczącą tego, jakie dane odpowiadają wyzwaniu. Dane zostaną zdefiniowane w stanie końcowym, co oznacza pożądany wynik końcowy samych danych, wraz z idealnymi informacjami o metadanych. Po czwarte, zespół przyjmie hipotezę i opracuje metodologię zbierania tych danych. W tym przypadku stronniczość danych musi być na pierwszym miejscu w umysłach wszystkich. Czy ta metodologia wprowadza nieoczekiwane lub niepożądane uprzedzenia? Czy ta metodologia spowoduje w danych populacje z niedostateczną próbą? Czy ta metodologia wzmacnia istniejące trendy społeczne lub organizacyjne, które mogą mieć wbudowane własne uprzedzenia? Projektowanie i opracowywanie metodologii ma kluczowe znaczenie dla pomyślnego gromadzenia danych. Samo poleganie na wcześniejszych praktykach biznesowych lub operacyjnych, które nie zostały zaprojektowane na potrzeby eksperymentu AI, prawdopodobnie doprowadzi do błędnych spostrzeżeń i zmarnowanego czasu. Metodologia musi obejmować proces i standardy wymagane w całym cyklu zbierania, aby zapewnić, że wykorzystywane są wyłącznie istotne dane o wysokiej wierności. Po piąte, organizacja musi zająć się procesem zbierania, czyli faktycznym gromadzeniem danych. Może się to wydawać proste, ale zbieranie to miejsce, w którym trzeba iść na skróty. Pewnego razu podczas projektu w Liberii, którego celem było badanie wysiłków na rzecz rozwoju gospodarczego, ciężarówka przewożąca papierowe wyniki ankiety uległa wypadkowi. Spowodowało to utratę około 20 procent informacji. Utrata tych danych była wówczas wielką stratą. Ale dopiero gdy zaczęto analizować liczby, zdano sobie sprawę z większego błędu. Sposób, w jaki zbierano dane, był wadliwy. Drastycznie różne były odpowiedzi na niektóre pytania udzielane przez kobiety, gdy zbieracz zauważył, że podczas wywiadów obecni byli mężczyźni. Jest to przykład wadliwego procesu zbierania, w którym zmienne egzogeniczne mogą przedostać się do danych, wypaczając wyniki. Po szóste, organizacja musi przechowywać dane. To brzmi prościej niż jest. Wielokrotnie zespoły zajmujące się sztuczną inteligencją spędzają dużo czasu i wysiłku po prostu przenosząc dane do formatu nadającego się do wykorzystania przez sztuczną inteligencję. Jeden z praktyków amerykańskiej agencji wywiadowczej powiedział mi, że ponad 70 procent czasu poświęcanego na naukę danych poświęca na przenoszenie danych, w przeciwieństwie do rzeczywistego wykorzystania tych danych do tworzenia modeli AI. Przechowywanie modeli AI musi być bezpieczne i dostępne, aby było przydatne. Po siódme, dane muszą zostać oczyszczone. Czasami może to oznaczać usunięcie z danych nielegalnych lub niepożądanych zmiennych, takich jak rasa lub dane osobowe, w celu zachowania zgodności z prawem. W innych przypadkach należy go wyczyścić, aby usunąć błędy w procesie zbierania. Czasami czyszczenie danych może być przyziemne, na przykład zapewniać poprawną pisownię lub formatowanie różnych danych wejściowych. Innym razem może to być delikatna równowaga między kompletnością danych a usuwaniem niepożądanych funkcji lub zmiennych z analizy. Na koniec te kroki są zakończone, gdy organizacja ma dane gotowe do sztucznej inteligencji. Aby prawidłowo wdrożyć ten proces, organizacje muszą również zaszczepić kulturę ciągłego doskonalenia tego procesu, w ramach której organizacja konsekwentnie ocenia pożądane stany końcowe i wymagane procesy gromadzenia danych, aby umożliwić automatycznym wglądom lub systemom dotarcie tam. W ramach tego modelu operacyjnego organizacje muszą zmienić sposób myślenia o danych z czysto wejściowego dla sztucznej inteligencji na pełnowymiarowy proces z odprawami i bramkami etapowymi po drodze. Takie procesy nie mają na celu ograniczania innowacji i eksperymentów, ale powinny być uważane za część procesu sukcesu sztucznej inteligencji.

Jak ograniczyć stronniczość danych

Stronniczość sztucznej inteligencji zwykle dzieli się na jeden z dwóch obozów: niepełne gromadzenie lub sprawiedliwe traktowanie. Czasami te dwa nakładają się również. Niekompletne gromadzenie odnosi się do danych, które są niekompletne z powodu pewnych ograniczeń lub ograniczeń dotyczących procesu gromadzenia danych, takich jak trendy historyczne, koszty gromadzenia lub ograniczenia dotyczące bezpieczeństwa. Tymczasem sprawiedliwe traktowanie odnosi się do uprzedzeń w danych, które powodują, że sztuczna inteligencja wyciąga wnioski uwzględniające nielegalne lub niepożądane zmienne, takie jak rasa lub płeć, w prognozach dotyczących zatrudnienia. Istnieje szybko rozwijająca się dziedzina zarówno praktyk korporacyjnych, jak i technik technicznych ograniczających oba rodzaje uprzedzeń, które należą przede wszystkim do tego, co nazywam syntetycznymi przyszłościami i uczciwością kontrfaktyczną.

Syntetyczne kontrakty terminowe

Jeśli nie masz danych, dlaczego ich nie utworzyć? Gdy stronniczość danych wynika z niedostatecznie reprezentowanych próbek lub złych praktyk gromadzenia, metodologii lub możliwości, dane syntetyczne mogą służyć jako zastępstwo. Syntetyczne (czyli sztuczne lub wygenerowane) dane są zaprojektowane tak, aby spełniały określone potrzeby lub warunki, których brakuje oryginalnym danym. Te sztucznie utworzone dane mogą pomóc w anonimizacji danych wrażliwych, a także w uzupełnianiu luk w gromadzeniu danych. W ciągu ostatnich kilku lat branża sztucznej inteligencji zwróciła się w stronę tworzenia danych syntetycznych, aby wypełnić luki pozostawione przez niepełne gromadzenie danych. Silniki danych syntetycznych mogą być używane do tworzenia sytuacji, przypadków skrajnych i unikalnych scenariuszy, które w przeciwnym razie nie zostałyby uchwycone w zebranych danych. Weźmy na przykład wykrywanie oszustw w dużym banku. Przy tysiącach transakcji i interakcji z klientami na sekundę, sami ludzie nie są w stanie wykryć oszukańczych wzorców. W ciągu ostatnich dwudziestu lat sektor bankowy był jednym z najszybciej wdrażających zautomatyzowane systemy, coraz częściej wykorzystując sztuczną inteligencję do zwalczania oszustów. Jednak równie szybko oszuści nauczyli się dostosowywać. Aby przewidzieć przyszłe działania oszustów, firmy finansowe tworzą syntetycznie profile i zachowania użytkowników. Dzięki temu mogą skuteczniej szkolić system wykrywania oszustw. W ostatnich latach dane syntetyczne przeniosły się z zestawów danych tabelarycznych i szeregów czasowych, takich jak transakcje finansowe lub wykrywanie oszustw, do bardziej złożonych danych, w tym obrazów i dźwięków. Na przykład firmy sprzedające zaawansowane możliwości widzenia komputerowego rządowi Stanów Zjednoczonych tworzą całe syntetyczne krajobrazy odzwierciedlające surowy teren Afganistanu. Ma to na celu uniknięcie narażania personelu i sprzętu na niebezpieczeństwo w celu przechwycenia danych niezbędnych do szkolenia autonomicznych systemów do działania w trudnych warunkach środowiskowych. Poza pomaganiem w eliminowaniu błędów w zbieraniu danych w zbiorach danych, dane syntetyczne mogą również znacznie zaoszczędzić organizacjom, jeśli chodzi o koszty gromadzenia tych danych. Po utworzeniu silnika danych syntetycznych może on nadal generować szybkie i tanie dane na bieżąco. Ponadto dane te są zazwyczaj tworzone z doskonałymi etykietami, co pozwala zaoszczędzić dodatkowy czas i zasoby w procesie czyszczenia danych. Dane syntetyczne są najbardziej interesujące dla organizacji regulowanych lub wrażliwych, które muszą zachować pewne dane w tajemnicy. Może to wynikać z przyczyn regulacyjnych, takich jak informacje umożliwiające identyfikację osób (PII) dla firm świadczących usługi medyczne i finansowe. Podobnie wrażliwe organizacje, takie jak FBI, społeczność wywiadowcza lub organy wojskowe, mogą wykorzystywać dane syntetyczne, aby uniknąć narażenia bezpieczeństwa swoich danych lub wywnioskowania samych danych w wyniku ataku na sztuczną inteligencję. Choć syntetyczne dane brzmią dobrze, nie jest to srebrna kula dla prawdziwych danych. Proces uczenia modelu sztucznej inteligencji na danych syntetycznych, a następnie stosowania funkcji sztucznej inteligencji na rzeczywistych danych, jest znany jako uczenie się transferu. W chwili pisania tego tekstu uczenie się transferowe pozostaje wyjątkowo trudnym problemem w dziedzinie sztucznej inteligencji. Jednak postępy w generowaniu sieci kontradyktoryjnych pomagają zwiększyć wierność i możliwość przenoszenia danych syntetycznych, ponieważ złożone zestawy danych stają się coraz bardziej realistyczne.

Sprawiedliwość kontrfaktyczna

Kiedy stronniczość sztucznej inteligencji opiera się na cechach, które organizacja chce usunąć, takich jak rasa, płeć lub orientacja seksualna, dane syntetyczne nie będą wystarczające. Gdy uprzedzenia AI opierają się głównie na uczciwości lub równym traktowaniu osób, przed wytrenowaniem modelu należy przeprowadzić staranne przygotowanie danych. W tym przypadku obiecującą techniką jest sprawiedliwość kontrfaktyczna. Korzystając z tej techniki, programiści AI sprawdzają, czy wyniki modelu są takie same w scenariuszu alternatywnym. W praktyce oznacza to zmianę danych wejściowych rasy, płci, uprzedzeń lub innych niepożądanych zmiennych i zapewnienie, że wynik z modelu pozostanie taki sam. Silvia Chiappa z DeepMind używa tej techniki do rozwiązywania złożonych, wrażliwych spraw, takich jak dyskryminacja rasowa i płciowa. To podejście oparte na ścieżce jest pomocne w rozwiązywaniu złożonych, zależnych od ścieżki relacji między instytucjami ludzkimi a istniejącymi danymi między wrażliwymi zmiennymi a wynikami. Podejście to można na przykład zastosować, aby zagwarantować, że płeć kandydata nie będzie miała wpływu na awans członka zarządu na dane stanowisko, a jednocześnie pozwoli na zróżnicowanie ogólnego wskaźnika awansu w firmie w zależności od płci, jeśli osoby płci żeńskiej ubiegają się o bardziej konkurencyjne stanowiska w solidny. Nieodłącznym elementem przygotowywania danych o uczciwości alternatywnej jest potrzeba usunięcia tych zmiennych z danych, które w przeciwnym razie mogłyby działać jako zastępcy dla niechcianej zmiennej. Na przykład rasa może być silnie skorelowana z kodem pocztowym lub nazwiskiem danej osoby. Podczas testowania rzetelności kontrfaktycznej wszystkie zmienne w zbiorze danych muszą zostać przetestowane pod kątem niechcianej zmiennej i albo usunięte, albo ponownie przetestowane pod kątem rzetelności przed użyciem.

Zwalczanie uprzedzeń jest kwestią etyczną

Nie bez powodu etyka sztucznej inteligencji jest ściśle związana z aplikacjami AI. Nie chcemy, aby ludzkie uprzedzenia, w tym niesprawiedliwe traktowanie, przeniosły się na naszą sztuczną inteligencję. Problem jest tak wszechobecny, że w lutym 2020 r. nawet Pentagon wydał wytyczne etyczne dotyczące sztucznej inteligencji, które kładą duży nacisk na ograniczenie błędów danych. Przemawiając w 2020 roku, główny oficer informacyjny Pentagonu, Dana Deasy, powiedział dziennikarzom: "Musimy bardzo dobrze przemyśleć, skąd pochodzą te dane, jaka była geneza tych danych, w jaki sposób były one wcześniej wykorzystywane i można zakończyć w stanie stronniczości [sztucznej inteligencji], a zatem stworzyć algorytmiczny wynik, który różni się od tego, co faktycznie zamierzasz". Duże firmy technologiczne również wydały oświadczenia potępiające uprzedzenia w sztucznej inteligencji, obiecując pracować nad przyszłością sztucznej inteligencji bez uprzedzeń. Ale w tej dziedzinie pozostaje jeszcze wiele pracy. Stronniczość sztucznej inteligencji stanowi poważne zagrożenie dla organizacji, które chcą przyspieszyć sztuczną inteligencję. Dane i leżące u ich podstaw uprzedzenia są wynikiem zależnych od ścieżki procesów tworzenia i gromadzenia. A dzisiejsza sztuczna inteligencja nie jest przystosowana do zrozumienia tych ludzkich niuansów. Chociaż ignorowanie uprzedzeń w sztucznej inteligencji może być łatwiejsze, miałoby to katastrofalne konsekwencje. Jeśli sztuczna inteligencja zostanie uznana za stronniczą, podważy to zaufanie opinii publicznej do systemu. Liderzy muszą bezpośrednio stawić czoła stronniczości danych i zapewnić przejrzystość w swoich szkoleniach w zakresie sztucznej inteligencji i podejmowaniu decyzji w sytuacjach alternatywnych.

Hakowanie systemów AI

Chcesz zobaczyć znikający czołg?

Czy kiedykolwiek musiałeś zhakować satelitę wojskowego, aby zobaczyć zniknięcie lotniskowca? A może kiedykolwiek chciałeś zhakować domowy system głosowy, taki jak Amazon Alexa lub Google Voice? Jeśli to nie wystarczy i chcesz czegoś bardziej seksownego, co powiesz na zhakowanie samojezdnego samochodu? A co, jeśli powiem, że można przeprogramować te i inne systemy sztucznej inteligencji, aby robiły nie to, co powinny, ale to, czego chcesz. I możesz to zrobić nie z terminala komputerowego, ale z realnego świata, bez pozostawiania cyfrowego śladu. To nie jest science fiction. Ataki te są dziś możliwe i zdarzają się z coraz większą częstotliwością. Hakowanie systemów sztucznej inteligencji odbywa się za pomocą technik znanych jako przeciwstawne uczenie maszynowe. Ta dziedzina badań szybko się rozwinęła w ciągu ostatniej dekady. W 2011 roku w czasopismach akademickich opublikowano niektóre z pierwszych przełomowych odkryć w przeciwstawnym uczeniu maszynowym. W następnym roku, w 2012, napisano na ten temat cztery artykuły naukowe. Liczba ta szybko wzrosła do ponad stu artykułów w 2014 roku. Do 2020 roku każdego roku publikowano ponad dwa tysiące artykułów. A to tylko czasopisma naukowe. Jednocześnie w Internecie dostępne są setki gotowych bibliotek ataków. Duże firmy, takie jak IBM, zapewniają narzędzia do sprawdzania podatności na zagrożenia, podczas gdy start-upy i kontrahenci z sektora obronnego inwestują w teren. Jednak pomimo tych postępów niewielu liderów w biznesie, cyberbezpieczeństwie lub bezpieczeństwie narodowym jest świadomych ogromu tych możliwości. Zarówno potencjalni przeciwnicy, jak i hakerzy szybko zyskują możliwości, podczas gdy mechanizmy obronne i aktywne środki zapobiegawcze są opóźnione. Wynika to przede wszystkim z luki informacyjnej między zdolnościami przeciwnika a priorytetami przywództwa. W miarę dojrzewania technologii sztucznej inteligencji przyspiesza ona do coraz większej liczby bardziej krytycznych systemów w biznesie i administracji. Samo w sobie jest to fantastyczne. Szersze przyjęcie tej technologii doprowadzi do przełomowych zmian na świecie. Jednak większa adopcja wiąże się z większym ryzykiem, że technologia zostanie zaatakowana, uszkodzona lub zmanipulowana, aby służyła celom atakującego. Ataki AI mogą być tak proste, jak wstrzyknięcie kilku pikseli do obrazu lub naklejenie naklejki na znak stopu. Lub mogą to być wyrafinowane, wieloetapowe procesy obejmujące zarówno tradycyjne cyberataki, jak i kontradyktoryjne nauczanie maszynowe. Konsekwencje tych ataków zależą w dużej mierze od przypadku użycia sztucznej inteligencji. Zmylenie sztucznej inteligencji, która wybiera koty ze zdjęć internetowych w celu udostępnienia ich miłośnikom, raczej nie przyniesie atakującemu niczego sensownego. Z drugiej strony zhakowanie samojezdnego samochodu i przepchnięcie go przez ruchliwe skrzyżowanie może narazić życie na niebezpieczeństwo. Nawet przypadki użycia w ramach tej samej organizacji mogą się znacznie różnić. Hakowanie sztucznej inteligencji do wykrywania oszustw może pozwolić atakującemu na obalenie systemu wykrywania oszustw banku. Zhakowanie bota marketingowego tego samego banku nie spowoduje znaczących szkód ani nie zapewni znaczących korzyści. Hakowanie sztucznej inteligencji polega głównie na przetwarzaniu danych w broń. Ponieważ systemy sztucznej inteligencji muszą pobierać informacje, można manipulować danymi, które mogą obalić, złamać lub zmylić system sztucznej inteligencji, aby osiągnąć cele hakera. Wykorzystuje to niuanse w sposobie, w jaki systemy AI uczą się i jak nowoczesne systemy AI patrzą na nowe dane w celu podejmowania decyzji. Ponieważ same dane są uzbrojone, aby wykorzystać architekturę, która leży u podstaw systemów sztucznej inteligencji, trudno jest całkowicie zapobiec tym włamaniom. Oznacza to również, że hacki mogą być niezwykle niedrogie i stosunkowo proste do przeprowadzenia. Na Uniwersytecie Kalifornijskim w Berkeley profesor Dawn Song badała przeciwstawne uczenie maszynowe i jego szybko pojawiające się możliwości. - To duży problem - mówi. "Musimy się zjednoczyć, żeby to naprawić". Fakt, że sztuczna inteligencja jest teraz hakowana, nie jest unikalny dla sztucznej inteligencji. Wszystkie systemy cyfrowe stają się celem hakerów i badaczy bezpieczeństwa, gdy osiągną pewną dojrzałość i zostaną przyjęte. Od Internetu po Internet rzeczy, technologie cyfrowe stały się celem hakerów chcących zakłócić działalność biznesową lub rządową, wykraść informacje, zażądać nielegalnego okupu i osiągnąć inne cele. Obecnie branża cyberbezpieczeństwa zapobiegająca takim przypadkom to globalny rynek o wartości 500 miliardów dolarów. To, że sztuczna inteligencja jest obecnie atakowana, jest kontynuacją trendu dojrzałości technologicznej, który przyciąga uwagę atakującego. Chociaż nie jest jasne, w jaki sposób hakowanie sztucznej inteligencji będzie nadal ewoluować, możemy wyciągnąć wnioski z historii. Patrząc na wzorce bezpieczeństwa z innych technologii cyfrowych, jasne jest, że hakowanie sztucznej inteligencji będzie tylko przyspieszać w nadchodzących latach. Weźmy na przykład rynek komputerów osobistych. Pierwszy komputer PC został wydany w 1975 roku. Ten Altair 8800 nie spotkał się z powszechnym przyjęciem publicznym. Był drogi, a jego funkcjonalność ograniczona. Dlatego też niewiele osób skupiło się na hakowaniu. W ciągu następnej dekady komputery PC przekształciły się w systemy rozpoznawalne dla dzisiejszych dzieci, w tym Apple Macintosh w 1984 r. Od 1984 r. rynek komputerów PC eksplodował. Teraz nie jest niczym niezwykłym, że w jednym gospodarstwie domowym jest wiele komputerów. Szybki rozwój komputerów PC sprawił, że stały się one głównym kandydatem do ataku. W 1989 roku Robert Morris zaczął eksperymentować z Unix Sendmail i zbudował samoreplikujący się program. Ten robak programowy replikował się w otwartym Internecie, który w tamtym czasie miał bardzo niewiele zabezpieczeń. Spowodowało to przypadkowy atak typu "odmowa usługi" (DoS). Szacunki na najwyższym poziomie są takie, że robak Morrisa spowodował szkody w wysokości 10 milionów dolarów i spowodował spowolnienie całego Internetu do prędkości ledwo nadających się do użytku. W tym samym roku powstał wirus Staog Linux. A potem było już jak na wyścigach. Cyberbezpieczeństwo było realnym zagrożeniem. Stworzenie przeciwnego uczenia maszynowego odzwierciedlało eksperymenty Morrisa. Hakowanie sztucznej inteligencji zaczęło się od eksperymentów mających na celu zrozumienie, w jaki sposób spam przechodzi przez filtry antyspamowe. Pierwszy przełom polegał na oszukaniu prostego komputerowego systemu wizyjnego, aby pomyślał, że obraz pandy nie jest pandą. Ale w ostatnich latach ataki te stały się bardziej realistyczne, dzięki udanym włamaniom do domowych asystentów głosowych, samojezdnych samochodów i zaawansowanych systemów cyberbezpieczeństwa. Teraz czas na wyścigi w hakowaniu AI.

Łańcuch zabójstw AI

W kręgach wojskowych łańcuch zabójstw odnosi się do struktury ataku. Składa się z kilku podstawowych kroków, w tym zidentyfikowania celu, podjęcia decyzji, co z nim zrobić i wykonania tej decyzji. Systemy łańcuchów zabójstw mogą być bardzo wąskie, na przykład dwa myśliwce odrzutowe w walce powietrznej, lub szerokie, na przykład rywalizacja o wielką moc. Przerwanie łańcucha zabijania przeciwnika, co oznacza jego zdolność do reagowania na zagrożenia, jest kluczowym elementem skutecznej strategii bitewnej. Wiedza o tym, jaki jest ich łańcuch zabijania, może mieć kluczowe znaczenie dla skutecznego osłabienia zdolności wroga do prowadzenia udanych operacji wojskowych. Zrozumienie łańcucha zabijania AI ma kluczowe znaczenie zarówno dla liderów biznesowych, jak i wojskowych. Rozumiejąc, jak będzie działał atakujący, możemy bronić naszych systemów i zapobiegać atakom. Podobnie możemy zrozumieć, jak dostać się do łańcucha zabijania sztucznej inteligencji wroga, wykorzystując te same możliwości i metodologie w ofensywny sposób, aby skutecznie degradować, okaleczać i wzbudzać nieufność w możliwościach sztucznej inteligencji przeciwnika. Powszechnie używanym przykładem łańcucha zabijania jest znalezienie, usadzenienaprawa, walka, zakończenie. Dla zilustrowania posłużę się przykładem plutonu biorącego udział w walce z bronią strzelecką. Najpierw zaczynasz od znalezienia wroga. Można to zrobić za pomocą zasobów wywiadowczych, obserwacyjnych i rozpoznawczych lub po prostu lokalizując wroga za pomocą lunety. Aby usadzić wroga, dowódca plutonu może go przyszpilić ogniem tłumiącym. Następnie może rozkazać plutonowi bezpośrednią walkę, walcząc z wrogiem. Ostatecznie pluton wykończy wroga, eliminując wrogich bojowników lub skutecznie zakłócając ich zdolność do walki, kończąc w ten sposób łańcuch zabójstw. Łańcuch zabijania AI składa się z podobnych części. Składa się z opcji Znajdź, Uzyskaj dostęp, Generuj, Odpal, Zakończ, Informacje zwrotne. W pierwszym kroku Znajdź przeciwnik zidentyfikuje używany system sztucznej inteligencji. Może to być poprzez aktywne monitorowanie sieci, poprzez znajomość systemu lub z własnych komunikatów prasowych firmy lub organizacji na temat nowego narzędzia AI. Celem tego etapu jest nie tylko określenie, czy sztuczna inteligencja jest używana, ale także poznanie jak największej ilości informacji o systemie. Prowadzenie rekonesansu i aktywnego monitorowania AI, zwanego inwigilacją AI, ma w tym czasie kluczowe znaczenie. Następnie przeciwnik spróbuje uzyskać dostęp do sztucznej inteligencji. Istnieją trzy popularne typy dostępu do sztucznej inteligencji. Dostęp do WhiteBox odnosi się do sytuacji, w której przeciwnik ma pełny wgląd w sztuczną inteligencję, w tym leżące u jej podstaw dane szkoleniowe i podstawową logikę. Dostęp do GreyBox ma miejsce, gdy przeciwnik ma dostęp tylko do informacji z punktu końcowego sztucznej inteligencji. Punkt końcowy to część sztucznej inteligencji, która zbiera informacje z otoczenia, takiego jak kamera, mikrofon lub węzeł cyberbezpieczeństwa. BlackBox ma miejsce, gdy przeciwnik nie ma dostępu do punktu końcowego i wie tylko o użyciu sztucznej inteligencji, ale nie może uzyskać z niego żadnych informacji. Dostęp określi typ ataków, które przeciwnik może wykonać. Im większy dostęp ma przeciwnik, tym silniejszy może być atak. Podczas fazy Generowania przeciwnik tworzy swój atak. W zależności od wektora ataku, na przykład od tego, czy atak rozpoczyna się w świecie rzeczywistym, czy w świecie cyfrowym, wygenerowanie ataku może wymagać czasu i mocy obliczeniowej. Niektóre ataki są generowane jako pojedyncze fragmenty danych, które po podaniu do sztucznej inteligencji spowodują jej uszkodzenie. Inne ataki polegają na przekazywaniu informacji do maszyny, aby zobaczyć jej odpowiedź. Jednak niezależnie od typu ataku, Generowanie jest najbardziej wyrafinowaną częścią operacji. W tym miejscu wiedza i zrozumienie sztucznej inteligencji mają największe znaczenie. Kiedy przeciwnik odpala swój atak, jest to to samo, co strzelanie z broni. Rozpoczynają atak na sztuczną inteligencję i mają nadzieję, że trafi w cel. W tym przypadku jest nadzieja, że będą w stanie skutecznie zepsuć logikę sztucznej inteligencji z siłą wystarczającą do osiągnięcia swoich celów. Jeśli się powiedzie, kończą, wykorzystując każdą okazję, którą próbowali osiągnąć. Wreszcie, dobry przeciwnik utworzy na końcu pętlę sprzężenia zwrotnego, aby stale uczyć się na podstawie swoich ataków i zwiększać szybkość i dokładność łańcucha zabijania.

Włamanie do samochodu przez znak stopu

Cechą, która odróżnia hakowanie systemów sztucznej inteligencji od tradycyjnych ataków cybernetycznych, jest możliwość inicjowania tych ataków w świecie rzeczywistym. Wynika to z faktu, że wiele aplikacji AI stale pobiera dane z otoczenia, takie jak głos i dźwięk dla domowych asystentów głosowych lub pełnoekranowe wideo otoczenia dla samonawigującego się drona. Zdolność systemów sztucznej inteligencji do przyjmowania nowych informacji i reagowania w czasie rzeczywistym jest jednym z powodów, dla których systemy te są tak cenne. Jest to również duża część tego, co czyni je również wrażliwymi. Przeciwnicy i hakerzy mogą wykorzystać możliwości trwałego gromadzenia danych przez sztuczną inteligencję jako wektor ataku. W 2018 roku badacze zagrożeń AI odkryli, że mogą z powodzeniem zhakować samojezdny samochód ze świata fizycznego. Kiedy większość ludzi myśli o zhakowaniu samochodu, zwykle wyobraża sobie tradycyjny cyberatak, taki jak włamanie za pośrednictwem podłączonego urządzenia Bluetooth lub systemu komunikacyjnego samochodu. Wyjątkowość ataku z 2018 roku polegała na tym, że badacze w ogóle nie musieli komunikować się z samochodem. Włamali się do niego za pomocą naklejek. Zespół badawczy badał, w jaki sposób osoby atakujące mogą wyrządzić rzeczywiste szkody pojazdom samojezdnym za pomocą uczenia maszynowego przeciwnika. Najpierw przeszkolili system sztucznej inteligencji w rozpoznawaniu znaków drogowych. Jednym z interesujących elementów, które odkryli podczas procesu selekcji i czyszczenia danych, był fakt, że niezależnie od kąta, większość znaków jest wyjątkowo rozpoznawalna. System sztucznej inteligencji miał bardzo małe problemy z wyłapywaniem znaków z otoczenia. Jednak jednolitość znaków sprawiła również, że system AI był dość kruchy. Zespół wykorzystał tę kruchość i wykorzystał ją przeciwko sztucznej inteligencji. Najpierw zespół przeprowadził serię testów, aby zrozumieć, dlaczego sztuczna inteligencja może zawieść. Proces ten obejmował wprowadzanie szumu do obrazów przed przekazaniem ich do sztucznej inteligencji. Po przeprowadzeniu tysięcy eksperymentów zespół dobrze zrozumiał, co może spowodować, że sztuczna inteligencja błędnie zaklasyfikuje znak stopu jako, powiedzmy, znak pierwszeństwa lub znak 70 mil na godzinę. Następnie zespół stworzył zestaw naklejek. Po nałożeniu odpowiedniego wzoru naklejki te oszukałyby sztuczną inteligencję, myśląc, że znak stopu nie istnieje lub jest zupełnie innym znakiem. Unikalnym elementem tego przypadku było to, że naklejki wyglądają zupełnie nieszkodliwie dla ludzkiego obserwatora. Rok później w CalypsoAI wraz z moim zespołem powtórzono ten i kilka innych ataków. Zbudowano silniki do ataków ukierunkowanych, co oznacza, że przekształcono znak stopu w konkretny inny znak, oraz ataków nieukierunkowanych, co oznacza, że po prostu spowodowaliśmy błędną klasyfikację sztucznej inteligencji. Inni badacze powtórzyli ten atak za pomocą migających świateł, pomalowanych kropek na drodze i innych podstawowych konstrukcji. Tworzenie tych ataków stało się popularną konkurencją na konferencjach, takich jak konferencja hakerska DEF CON w Las Vegas i uniwersyteckie hackathony. Wszechobecność tworzenia tych ataków jest jednym z powodów, dla których hakowanie sztucznej inteligencji jest tak niebezpieczne. Każdego dnia tworzonych jest więcej ataków, a zarówno uczniowie, jak i potencjalni przeciwnicy uczą się nowych umiejętności. Jednak na dzień dzisiejszy opracowano bardzo niewiele skutecznych mechanizmów obronnych.

Ataki unikowe

Wystraszanie CISO w cholerę

Cygara o 10:00 zwykle nie są dobrym pomysłem. Ani kilka piw śniadaniowych w kasynie. Ale z drugiej strony był to BlackHat, doroczna konwencja cyberbezpieczeństwa w Las Vegas. Raz w roku wpuszczone koszulki polo próbują sprzedać najnowszą i najlepszą technologię cyberbezpieczeństwa tysiącom uczestników konferencji. Zwykle jest kilka dobrych przemówień, zarezerwowanych przez prezentacje korporacyjne, których zebranie kosztuje dziesiątki tysięcy budżetów marketingowych. W końcu cyberbezpieczeństwo to wielki biznes. Ale ten dzień był dla mnie ważniejszy, ponieważ był to ostatni dzień BlackHat, a zatem dzień przed DEF CON. Zasadniczo był to dzień relaksu, spotkania jak największej liczby osób w ciągu jednego dnia, kiedy specjaliści od cyberbezpieczeństwa w koszulkach polo, T-shirtach i klapkach pojawili się na DEF CON, największej na świecie konwencji hakerskiej. Poza tym, jeśli jest gdzie wypić kilka piw i cygaro o 10:00, to jest to Las Vegas. Nie spałem od mniej więcej 5:0 rano, spotykałem się z ludźmi, którzy szli spać po całonocnych grach hazardowych i łapałem ludzi wracających z lotniska. Rozmawiałem z najlepszymi i najbystrzejszymi o przeciwstawnym uczeniu maszynowym. Był rok 2018 i niewiele osób w branży cyberbezpieczeństwa o tym wiedziało. Jednak rozmawiałem głównie z ludźmi z niszowych dziedzin - byłymi hakerami i specjalistami ds. cyberoperacji ze społeczności wojskowej i wywiadowczej, którzy zarabiali na czekach sektora prywatnego. Zazwyczaj nadal pracowali tylko w małej niszy, nie widząc dużego obrazu. Powiedzieli mi, że zespoły AI znajdują się w innej części organizacji. Więc nie martwiłem się zbytnio, że nie wiedzą zbyt wiele. Założyłem, że główni szefowie, dyrektorzy ds. bezpieczeństwa informacji (CISO) i ich personel w dużych firmach będą dużo o tym wiedzieć. Nie mogłem się bardziej mylić. Kiedy paliłem cygaro i piłem porannego Guinnessa z osobą, która pozwala się określić jedynie jako haker, dostałem e-mail łączący mnie z zespołu ds. innowacji w dużym banku z zastępcą CISO. Był gotowy na spotkanie za piętnaście minut. Normalnie pospieszyłbym się, żeby zrobić demo mojej technologii i martwić się o prezentację. Ale to był ostatni dzień Black-Hat. Prawdopodobnie miał pojawić się skacowany z poprzedniego wieczoru. Nie mogłem się bardziej mylić. Wykąpany, ogolony iw wykrochmalonej koszuli CISO jednego z największych banków w Ameryce wyglądał jak część swojego dawnego życia. Wcześniej był starszym członkiem amerykańskiej społeczności wywiadowczej. Z tego, co wiem, hakował zagraniczne rządy i upewniał się, że nie włamują się do Stanów Zjednoczonych. Nigdy o tym nie mówił. Kiedy zastępca usiadł, odmówił piwa i przeszedł od razu do rzeczy. "Hakowanie sztucznej inteligencji nie jest czymś, ponieważ nie ma praktycznych zastosowań" - zaczął. "Nie obchodzi mnie oszukiwanie kamery, że pies jest kaktusem." Więc o co chodzi? Zamiast dawać mu mój normalny ton, zdecydowałem się przejść od razu do wersji demonstracyjnej. Wyciągnąłem laptopa z palnikiem, upewniłem się, że mój VPN działa (w końcu to był BlackHat) i zalogowałem się do mojego terminala. Stamtąd wyjaśniłem, że zamierzam wziąć kawałek złośliwego oprogramowania i przejść przez system wykrywania sztucznej inteligencji znanej zagranicznej firmy zajmującej się bezpieczeństwem cybernetycznym. Na początek wysłałem złośliwe oprogramowanie w obecnej postaci. Uruchamiałem oprogramowanie w tak zwanej piaskownicy. To środowisko szkoleniowe odcięte od reszty komputera i Internetu. Oczywiście, kiedy dostarczyłem złośliwe oprogramowanie do sztucznej inteligencji, zostało to odrzucone. Następnie włączyłem bibliotekę ataku. Ta biblioteka pomogła mi automatycznie tworzyć w czasie rzeczywistym zakłócenia w złośliwym oprogramowaniu. W porównaniu ze sztuczną inteligencją mogłem dowiedzieć się, jak nazywa się wynik zaufania, jaki ma sztuczna inteligencja, że złośliwe oprogramowanie jest w rzeczywistości złe. Moje oprogramowanie następnie uwzględniło zmiany w tym wyniku i zoptymalizowało perturbacje. Te perturbacje zostały wykonane na poziomie binarnym i obejmowały wstrzykiwanie szumu oraz elementów funkcjonalnych do złośliwego oprogramowania, a wszystko to bez przerywania tak zwanego ładunku, który jest funkcjonalną częścią skryptu złośliwego oprogramowania. Wyjaśniłem to zastępcy CISO w czasie rzeczywistym. Na początku wyglądał na sceptycznego, ale gdy wynik zaufania skurczył się ze 100 procent do 75 procent, a następnie poniżej 50 procent, zaczął wyglądać na zainteresowanego. Potem przestraszony. Potem zaintrygowany. W ciągu dwóch minut moje oprogramowanie miało tysiące perturbacji, zoptymalizowało wstrzyknięcie kodu binarnego i wysłało go przeciwko sztucznej inteligencji. Sztuczna inteligencja powiedziała, że wygląda to na "dobre oprogramowanie" i wysłała je dalej. Fragment złośliwego kodu został właśnie przesłany przez dobrze znany klasyfikator używany w przedsiębiorstwach na całym świecie. I nigdy nie zostałby wykryty. - Jasna cholera - powiedział zastępca CISO. "Nigdy nawet o tym nie pomyślałem. Więc mówisz, że sztuczna inteligencja to nowa powierzchnia ataku."- Prawie - wzruszyłem ramionami. Chciałem jeszcze jednego piwa, ale on nie pił. Nie sądziłem też, że kupi mój produkt, więc chciałem wrócić do hakerów. Wykazywał wszelkie oznaki niezainteresowanego kupca. Okazało się, że po prostu się martwił i chciał zadzwonić do swojego szefa. - To bardzo zmienia - powiedział. "Zadzwoń do mnie jutro." Wyszedł zaniepokojony. Patrzyłam, jak wyróżnia się jego wykrochmalony kołnierzyk, gdy prowadził labirynt kasyna w Las Vegas do drzwi. Zadzwoniłem do niego następnego dnia. To zmieniło wszystko. To, co stworzyłem w kasynie w Las Vegas, było atakiem unikowym na sztuczną inteligencję. Chociaż efekt końcowy, polegający na podważeniu systemu ochrony punktów końcowych w celu wstrzyknięcia złośliwego oprogramowania, był taki sam, jak w przypadku tradycyjnych ataków cybernetycznych, sposób ich przeprowadzenia był nowy dla zastępcy CISO. Zamiast używać brutalnego wymuszania przez szyfrowanie lub polegać na ludzkim błędzie, zamiast tego zaatakowałem logikę samego modelu. Zasadniczo stworzyłem złośliwe oprogramowanie typu koń trojański. Dla sztucznej inteligencji wyglądało to łagodnie. Ale niósł niebezpieczny ładunek. Chociaż logika tych ataków jest tak stara jak Grecy i drewniane konie, umiejętność skutecznego przeprowadzania ich przeciwko systemom sztucznej inteligencji jest stosunkowo nową i szybko rozwijającą się dziedziną badań i praktyki. Te tak zwane ataki unikowe są najczęstszymi atakami na sztuczną inteligencję i coraz częściej definiują nową powierzchnię ataków w aplikacjach AI. Ataki te mają jednak konsekwencje znacznie wykraczające poza cyberbezpieczeństwo i mogą wpływać na wszystkie systemy sztucznej inteligencji, od samojezdnych samochodów po automatyzację opieki zdrowotnej. W nadchodzących latach ataki polegające na unikaniu ataków będą główną cechą charakterystyczną hakowania AI i ryzyka.

Co to jest atak unikowy?

Ataki unikowe mają miejsce, gdy informacje są przekazywane do sztucznej inteligencji i skutecznie oszukują maszynę. Aby zakończyć te ataki, najpierw starannie konstruowane są fragmenty danych zwane przykładami kontradyktoryjnymi. Proces konstruowania przykładu przeciwnika może być albo jednorazowy (np. wykorzystujący znaną lub możliwą do przeniesienia lukę w sztucznej inteligencji), albo częściej konstruowany po okresie nadzoru AI i starannej iteracji. Coraz częściej te iteracje można zautomatyzować i zoptymalizować za pomocą technik uczenia się przez wzmacnianie, czyli metod, które pozwalają komputerowi generować coraz bardziej "jakościowe" przykłady przeciwników. Kiedy większość ludzi mówi o "hakowaniu sztucznej inteligencji", ma na myśli ataki unikowe. Dzieje się tak dlatego, że są to najstarsze i najpowszechniejsze (zarówno w świecie rzeczywistym, jak i w bieżących badaniach) ataki na AI. Jeszcze zanim zostały one sklasyfikowane jako ataki polegające na unikaniu ataków, hakerzy z powodzeniem wykorzystywali takie przykłady już w 2004 r. W tamtym czasie hakerzy i spamerzy byli pionierami w tworzeniu próbek przeciwników, znajdując sposoby na oszukanie automatycznych filtrów spamu, które w coraz większym stopniu opierały się na wczesnych aplikacjach AI. Te filtry antyspamowe wykorzystywały klasyfikatory liniowe, stosunkowo prostą sztuczną inteligencję, a spamerzy szybko odkryli, że można je również stosunkowo łatwo oszukać. W tamtych czasach niewiele systemów faktycznie korzystało ze sztucznej inteligencji, więc osoby atakujące miały ograniczone powody, by próbować je zaatakować. Jednak od 2004 roku wszechobecna eksplozja danych i tanie przetwarzanie rozproszone umożliwiły szybki wzrost praktycznych zastosowań sztucznej inteligencji. I oczywiście hakerzy wkrótce podążyli za nimi, aby złamać te systemy. W 2013 roku Christian Szegedy pracował nad badaniami w Google AI i prawie przypadkowo (ponownie) odkrył unikające próbki. Pracował nad zrozumieniem, w jaki sposób sieci neuronowe podejmują decyzje, w szczególności próbując zrozumieć, jak wyjaśnić ich zachowanie po fakcie. Odkrył coś, co nazwał "intrygującą właściwością", którą wydawały się posiadać wszystkie sieci neuronowe, na które patrzył. Wyglądało na to, że wszystkie AI były niezwykle łatwe do oszukania. Szegedy, próbując zrozumieć i wyjaśnić, w jaki sposób sztuczna inteligencja podejmuje decyzje, odkrył, że mogą zostać oszukane przez bardzo małe zmiany w podstawowych danych. Te niewielkie zmiany, zwane perturbacjami, mogą wynosić zaledwie kilka pikseli w komputerowych systemach wizyjnych, takich jak rozpoznawanie twarzy, kilka linii kodu binarnego w zautomatyzowanym narzędziu do cyberbezpieczeństwa lub niewielkie zmiany wysokości dźwięku dodane do pliku audio przesyłanego do -asystent domowy. Fakt, że sztuczna inteligencja była bardzo delikatna, a przez to podatna na ataki, stał się dziedziną uczenia maszynowego przeciwnika. A wszystko zaczęło się od tych małych wymijających próbek. Dzisiejsze ataki unikowe są bezpośrednią kontynuacją wstępnych ustaleń Szegedy′ego. Polegają one na tworzeniu perturbacji w danych w taki sposób, że maszyna zostaje oszukana. To, co być może najbardziej dotyczy twórców sztucznej inteligencji i użytkowników końcowych tej technologii, to fakt, że "intrygującą właściwością" Szegedy′ego jest to, że ma ona zastosowanie do wszystkich typów sztucznej inteligencji. Niezależnie od tego, czy przypadkiem użycia są predyktywne narzędzia marketingowe, czy samojezdne samochody, czy sztuczna inteligencja jest używana w środowiskach o wysokim poziomie bezpieczeństwa, czy na otwartej przestrzeni, i niezależnie od tego, czy została opracowana przez dużą firmę, czy mały start-up, wszystkie systemy sztucznej inteligencji są obecnie podatne na unikanie próbek. Jednak, jak omówimy to dokładniej , nie oznacza to, że wszystkie systemy sztucznej inteligencji mogą zostać zhakowane. Atakujący musi mieć umiejętności techniczne, środki i podstawową wypłatę lub powód, aby zaatakować system. Chociaż prawdopodobne wektory ataków mogą być obecnie niskie, wynika to przede wszystkim z wciąż ograniczonej liczby sztucznej inteligencji używanej przez organizacje. Ale w miarę jak sztuczna inteligencja przyspiesza w coraz większej liczbie aplikacji, prawdopodobne jest, że ta powierzchnia ataku będzie się rozszerzać. Kiedy tak się stanie, ataki unikowe będą podstawową metodą atakowania sztucznej inteligencji. Widzimy to już dzisiaj.

Nauka o adwersariach l Przykłady

Wszechobecna obecność kontradyktoryjnych przykładów powinna zaalarmować twórców sztucznej inteligencji, organizacje korzystające ze sztucznej inteligencji, a także konsumentów. Ale ich obecność nasuwa pytanie: dlaczego w ogóle istnieją? Pierwsza teoria pochodziła z oryginalnej pracy Szegedy′ego na ten temat z 2014 roku. On i jego zespół wysunęli teorię, że winą jest słaba lub niewłaściwa regularyzacja i zbyt duża nieliniowość między relacjami w podstawowej sieci neuronowej. Zasadniczo teoria ta stwierdza, że zawsze będą istniały sytuacje o niskim prawdopodobieństwie, w których model można oszukać ze względu na dystrybucję danych i fakt, że sieci neuronowe podejmują decyzje, które mają charakter nieliniowy i dlatego są trudne do przewidzenia. Kilka lat później Ian Goodfellow (który później był pionierem generatywnych sieci kontradyktoryjnych zwanych "deepfakes") i jego zespół zaproponowali coś przeciwnego. Zaproponowali, że dzieje się tak dlatego, że sieci neuronowe były zbyt liniowe w swoim podejściu. Zespół postawił hipotezę, że wewnątrz sieci neuronowej podejmowano decyzje, które były czysto liniowe w stosunku do siebie. Każda liniowa interakcja utrwalała poprzednie interakcje. Dlatego niewielkie zakłócenia na wejściach spowodowały niewielkie zmiany na wczesnych etapach sieci, które na końcu kumulują się w ogromne różnice. Niedawno Thomas Tanay i Lewis Griffin zaproponowali najpowszechniejszą obecnie używaną teorię. Ich teoria, znana jako teoria nachylonych granic, sugeruje, że ponieważ modele są po prostu abstrakcjami danych i nigdy nie są w pełni dopasowane do udoskonalonych danych bazowych, zawsze znajdą się obszary, które zostaną błędnie sklasyfikowane. Znajdź jedną z tych kieszeni, a będziesz miał przeciwny przykład. To wyjaśnienie wydaje się najbardziej sensowne. Systemy sztucznej inteligencji to nic innego jak interpretacje i abstrakcje świata rzeczywistego. Więc jeśli zestaw uczący nie jest kompletny w zakresie możliwych wyników, zawsze będą istnieć przykłady, których model nie przewiduje ze 100-procentowym prawdopodobieństwem. Pomaga również fakt, że Tanay i Griffin obalili pozostałe dwa podejścia, co dodaje wiarygodności ich argumentom. Chociaż istnieją inne wyjaśnienia, w tym nieodłączny brak danych szkoleniowych dla AI6 i wyzwania obliczeniowe związane z budowaniem sztucznej inteligencji, która jest odporna na oszukiwanie, ostatnią teorią, o której warto wspomnieć, jest to, że przeciwstawne przykłady nie są błędem sztucznej inteligencji. Nie, twierdzą autorzy z MIT, są cechą tego, jak sieci neuronowe wchodzą w interakcję ze światem. Twierdzą, że chociaż dla nas przeciwstawne przykłady są wyzwaniem, ponieważ ludzie nie mogą ich dostrzec, ci badacze odwracają to do góry nogami i argumentują, że to, że my, ludzie, jesteśmy ograniczeni przez nasz wadliwy wzrok i trójwymiarowe myślenie, nie oznacza, że maszyna jest . To, co postrzegamy jako przeciwstawne przykłady, jest tylko dowodem rozpoznawania wzorców wyższego rzędu przez maszynę. Oczywiście, nawet jeśli tak jest, nie rozwiąże to faktu, że samojezdny samochód można zepchnąć z drogi za pomocą naklejek. Więc mam tendencję do ignorowania tej teorii na korzyść tych, które mają bardziej praktyczne zastosowania. Jednak te same badania wykazały również interesujące elementy przenoszenia ataków i powinny zostać zbadane przez czytelników technicznych. Bez względu na powód ich istnienia, przykłady przeciwników i zagrożenia, jakie stwarzają, nie znikają. Zostały znalezione w każdym zastosowaniu sztucznej inteligencji, w tym w widzeniu komputerowym, przetwarzaniu języka naturalnego, rozpoznawaniu mowy i dźwięku, analizie szeregów czasowych, analizie predykcyjnej i innych. Fakt, że tak wiele pozostaje nieznanych na temat podstaw naukowych przykładów przeciwników, czyni je szczególnie niebezpiecznymi dla programistów sztucznej inteligencji i użytkowników sztucznej inteligencji, którzy chcą uodpornić swoje modele na ataki. Na dzień dzisiejszy nie ma stuprocentowo gwarantowanej metody obrony modelu przed atakiem.

Rodzaje ataków unikowych

Większość ludzi ma tendencję do przyglądania się rodzajom ataków polegających na uniku opartych na wykorzystaniu sztucznej inteligencji - na przykład ataki komputerowe lub ataki na przetwarzanie języka naturalnego. Jednak w CalypsoAI opracowno podejście, które, jak sądzę, lepiej odzwierciedla sposób, w jaki liderzy i użytkownicy sztucznej inteligencji powinni przemyśleć swoje ryzyko związane z sztuczną inteligencją. Ponieważ wykazano, że wszystkie zastosowania sztucznej inteligencji są podatne na ataki unikowe, nie ma sensu przeglądać ich jeden po drugim, ponieważ podstawowa mechanika będzie taka sama. Zamiast tego lepiej jest myśleć o typach ataków jako funkcji tego, jak duży dostęp ma przeciwnik do twojego modelu i bazowych danych. Ten poziom dostępu wpłynie na techniki dostępne dla atakującego, a także określi poziom ryzyka dla organizacji. Pełny dostęp do modelu, znany jako ataki WhiteBox, jest najbardziej niebezpieczny, ponieważ przeciwnik ma pełne informacje o Twoim modelu bazowym. Następnie ataki GreyBox zakładają, że przeciwnik ma pewne informacje, takie jak wynik zaufania, z modelu. Wreszcie, ataki typu BlackBox nie zakładają żadnych informacji o modelu i są najmniej groźne, ale prawdopodobnie również najczęstsze. Wszystkie ataki unikania również należą do jednej z dwóch kategorii w zależności od konkretnego wyniku, który próbują wygenerować. Ukierunkowane ataki próbują zmienić decyzję modelu w określony sposób, na przykład myśląc, że znak stopu jest w rzeczywistości znakiem ustępstwa. Ataki nieukierunkowane nie mają określonego wyniku, o ile jest to zły wynik. Nieukierunkowany atak jest bardziej powszechny, ponieważ generalnie łatwiej go przeprowadzić. Ataki unikowe w trzech podstawowych kategoriach WhiteBox, GreyBox i BlackBox mogą być ukierunkowane lub nieukierunkowane, podczas gdy ataki WhiteBox mają największe prawdopodobieństwo bycia celem ze względu na dodatkowe informacje, które atakujący ma podczas tego typu ataku.

WhiteBox

Ataki WhiteBox są możliwe, gdy przeciwnik ma pełny dostęp do Twojego modelu i bazowych danych treningowych. Są to najpotężniejsze rodzaje ataków, ponieważ atakujący ma pełne informacje o twoim modelu, o tym, jak został wyszkolony i jak model "myśli" (lub przynajmniej tyle, co ty). Pozwala to atakującym na tworzenie starannie skonstruowanych ataków. Ponieważ potrzebują pełnych informacji, ataki te są dziś stosunkowo rzadkie. Ale to może się zmienić w przyszłości, ponieważ celem tradycyjnych cyberataków w coraz większym stopniu staje się inwigilacja AI. W ataku WhiteBox osoba atakująca rozumie leżące u podstaw gradienty twojego modelu. Gradienty, w szerokim ujęciu, reprezentują sposób, w jaki sztuczna inteligencja podejmuje decyzje. Atakujący może wykorzystać tę wiedzę do stworzenia zoptymalizowanych matematycznie próbek przeciwnika, które z dużym prawdopodobieństwem oszukają sztuczną inteligencję. Badania wykazały, że gdy przeciwnik ma dostęp do gradientów modelu, zawsze będzie w stanie wykonać skuteczne ataki. Ponieważ wykorzystują gradienty w podejmowaniu decyzji przez model, ataki białoskrzynkowe są czasami określane jako ataki "oparte na gradiencie". Nadzór AI w kontekście ataku WhiteBox odnosi się do tego, że cybernapastnicy uzyskują dostęp do sieci komputerowej lub systemu w celu zrozumienia wewnętrznego działania modelu AI i danych leżących u jego podstaw. Ze względu na wysoki poziom dostępu potrzebny do skutecznego ich przeprowadzenia atakom WhiteBox zwykle towarzyszą tradycyjne zagrożenia cybernetyczne lub zagrożenia wewnętrzne przeznaczone wyłącznie do działań inwigilacyjnych AI. Przeciwnik przeprowadzający atak WhiteBox będzie potrzebował dostępu do sieci, systemów i baz danych, które są wykorzystywane do opracowania modelu. Teoretycznie powinny być już dobrze chronione przez higienę cyberbezpieczeństwa i najlepsze praktyki. Wiemy jednak, że nie zawsze tak jest, ponieważ w ostatnich latach doszło do włamań do dużych organizacji, od Equifax po dokumenty poświadczenia bezpieczeństwa amerykańskiego Biura Zarządzania Personelem. W nadchodzących latach naruszenia bezpieczeństwa cybernetycznego będą w coraz większym stopniu wykorzystywane nie do ekstrakcji danych, ale do nadzoru nad rozwojem sztucznej inteligencji. Dzięki tej wiedzy przeciwnik będzie mógł następnie przeprowadzić ataki WhiteBox na model. Ponieważ nie ma znanych sposobów obrony przed atakami WhiteBox na sztuczną inteligencję, atak zawsze będzie mógł się powieść. Z tego powodu nadzór rozwoju sztucznej inteligencji jest czymś, o czym powinni pamiętać analitycy cyberbezpieczeństwa i centra operacyjne podczas monitorowania ich sieci. Jeśli przeciwnik będzie w stanie stworzyć atak WhiteBox dla modelu używanego w środowisku o znaczeniu krytycznym dla misji lub biznesu, wyniki mogą być katastrofalne.

Okulary, które włamują się

Ataki WhiteBox są najpotężniejszym rodzajem ataku i żaden system sztucznej inteligencji nie jest dziś w pełni obronny przed nimi. Jednak nie wszystkie systemy AI mają wyraźny wektor ataku. Jednak jedną z najczystszych aplikacji AI, które przeciwnicy próbują zhakować, jest rozpoznawanie twarzy. Technologie rozpoznawania twarzy i inne możliwości identyfikacji biometrycznej wykorzystują sztuczną inteligencję do przetwarzania ogromnych ilości danych potrzebnych do wyłowienia człowieka ze sceny, a następnie zidentyfikowania tej osoby. Wszechobecny rynek nadzoru gwałtownie rośnie, ponieważ kraje, gminy i przedsiębiorstwa mają nadzieję na uzyskanie korzyści w zakresie bezpieczeństwa. Oczekuje się, że w samych Chinach liczba używanych kamer monitorujących sięgnie 626 milionów. Dla porównania, w Stanach Zjednoczonych jest używanych około 40-50 milionów kamer monitorujących. Z pozoru każdy, kto próbuje pokonać system rozpoznawania twarzy, musi być przestępcą, terrorystą , lub innego nikczemnego aktora, prawda? Z jakiego innego powodu mieliby próbować uniknąć inwigilacji? Ale rzeczywistość jest bardziej złożona. Obrońcy praw człowieka, dysydenci polityczni, a nawet zwykli obywatele zaniepokojeni nadmiernymi działaniami rządu, wszyscy mają powody, by nie ufać temu wszechobecnemu środowisku. Jest to szczególnie prawdziwe w reżimach autokratycznych, takich jak Chiny i Korea Północna, ale może również dotyczyć nastawionych na prywatność działaczy małych rządów w Kolorado; Protestujący Black Lives Matter w Portland; i pokojowych działaczy na rzecz ochrony środowiska w Londynie, którzy obawiają się, że rozpoznawanie twarzy naruszy ich prywatność w niepożądany sposób. Te liczne krzyżujące się przyczyny, a także fakt, że rozpoznawanie twarzy stanowi wysoce wizualny przykład, sprawiły, że hakowanie systemów rozpoznawania twarzy stało się głównym celem zarówno badaczy, jak i przeciwników sztucznej inteligencji. W ciągu ostatnich kilku lat przeciwna społeczność uczenia maszynowego stała się bardzo biegła w opracowywaniu ataków WhiteBox na te systemy, posuwając się nawet do tworzenia cyfrowych ataków WhiteBox, które nie tylko oszukują sztuczną inteligencję do błędnej identyfikacji osoby, ale także mogą być łatwo przetransportowane do realny świat. W tym, co stało się słynnym przykładem w szybko rozwijającej się dziedzinie hakowania sztucznej inteligencji, zespół był w stanie oszukać system sztucznej inteligencji za pomocą cyfrowo renderowanych okularów, które można było stworzyć w prawdziwym świecie. Klasyczny atak na dowolny system sztucznej inteligencji klasyfikujący obrazy rozpoczyna się od zmiany podzbioru pikseli, aby zrozumieć, w jaki sposób zmiana pikseli wpłynie pozytywnie lub negatywnie na wydajność sztucznej inteligencji. Zmiany te są znane jako perturbacje, podczas gdy stopień zmiany obrazów jest znany jako odległość perturbacji. Przez kilka lat głównym sposobem hakowania komputerowej sztucznej inteligencji była zmiana pikseli na obrazie. Jednak trudno było je odtworzyć w prawdziwym świecie, ponieważ duże fragmenty obrazu wymknęły się spod kontroli atakującego - na przykład tło lub oświetlenie zostało zakłócone, podobnie jak twarz. Oznacza to, że osoby, które chcą uniknąć rozpoznawania twarzy ze względu na prywatność, aktywizm lub nikczemne powody, nie miały możliwości wykorzystania tych ataków w sposób operacyjny. Zmieniło się to, gdy zespół hakujący rozpoznawanie twarzy znalazł sposób na ograniczenie perturbacji tylko do ograniczonego kształtu. Te wrogie plamy, jak zaczęto nazywać zakłócone fragmenty obrazów, ograniczają możliwe perturbacje tylko do obszarów, które można odtworzyć w prawdziwym świecie. Na przykład łata przeciwnika może być ograniczona do obszarów na twarzy osoby w kształcie pary okularów. Używając ataków WhiteBox, zespół atakujący był w stanie zoptymalizować swoje ataki, wykorzystując tylko tę ograniczoną przestrzeń perturbacji. Po zoptymalizowaniu ataku okulary te można następnie stworzyć w prawdziwym świecie i wykorzystać do oszukania klasyfikatora. Ten sam zespół hakerski, który stworzył poprawkę przeciwnikową okularów, kontynuuje prace nad stworzeniem uniwersalnej, solidnej łatki przeciwnikowej. Uniwersalność oznacza, że nawet jeśli modele są specjalnie wyszkolone w walce z atakami przeciwnika, łatka przeciwnika nadal będzie działać. Przeprowadzenie ataku WhiteBox w prawdziwym świecie jest trudne ze względu na dodatkowe umiejętności cyberhakerskie lub inne możliwości wymagane do dogłębnego zrozumienia wszystkich prymitywów modelu wymaganego do zbudowania ataku. Do pomyślnego wdrożenia tych ataków wymagane są wyrafinowane cyberwłamania i nadzór AI, co wymaga innego zestawu umiejętności niż programiści zajmujący się danymi, którzy hakują samą logikę AI. Przeprowadzenie długofalowej penetracji cybernetycznej na dużą skalę może być trudne technicznie i kosztowne, wymagając zarówno wiedzy z zakresu inżynierii społecznej, jak i wiedzy z zakresu bezpieczeństwa cybernetycznego, aby przeprowadzić skuteczne włamanie. Ale to możliwe. Biorąc pod uwagę znaczące korzyści dla osób atakujących i potencjalnych osób atakujących z systemu sztucznej inteligencji w zakresie działalności osobistej, aktywistycznej lub przestępczej, jest wysoce prawdopodobne, że takie ataki są aktywnie przeprowadzane w przypadku większości dużych firm zajmujących się technologiami nadzoru.

Ataki GreyBox

W ataku GreyBox przeciwnik nie ma pełnego dostępu do bazowego modelu, ale zamiast tego ma dostęp do pewnego poziomu danych wyjściowych z modelu. Te dane wyjściowe mogą być wynikiem pewności prognozy modelu lub twardą etykietą przypisaną przez klasyfikator. Wynik ufności to prawdopodobieństwo od 0 do 100, że dane wejściowe są pewnymi danymi wejściowymi. Na przykład narzędzie do klasyfikacji obrazów może uznać, że obraz przedstawia w 93 procentach europejską jaskółkę i przypisać mu tę etykietę. Z drugiej strony twarda etykieta to ta sama etykieta, europejska jaskółka, ale bez dołączonej partytury. Atak GreyBox wykorzystuje te prognozy do dalszego manipulowania danymi wejściowymi w celu tworzenia coraz lepszych próbek przeciwnika. Tak więc w istocie atak GreyBox można traktować jako obserwowanie, jak model reaguje na dane wejściowe i tworzenie coraz lepszych danych wejściowych, aby ostatecznie spróbować pokonać model. W ataku GreyBox wymagany jest nieprzerwany dostęp do punktu końcowego modelu (czyli miejsca, w którym model pobiera informacje, takie jak kamera lub inny czujnik). Najważniejszą rzeczą, którą lider powinien zrozumieć na temat ataku GreyBox (lub BlackBox), jest to, że niekoniecznie wymagają one żadnych dodatkowych umiejętności hakowania cyberbezpieczeństwa. Ataki te wykorzystują potrzebę sztucznej inteligencji do ciągłego gromadzenia nowych informacji, aby były przydatne. Na przykład kamery samojezdnego samochodu lub LIDAR (sprzęt do wykrywania światła i określania odległości) muszą być włączone lub asystent głosowy musi słuchać. Te punkty końcowe często mają sposób na przechwycenie pewnych informacji o swoich danych wyjściowych, często zgodnie z projektem. Jeśli wydaje się dziwne, że sztuczna inteligencja ujawnia informacje o swoich przewidywaniach ze względu na obecność atakujących, należy pamiętać, że informacje te są udostępniane zgodnie z projektem. Na przykład twórcy samojezdnego samochodu chcą łatwo określić, co widzi pojazd, jednocześnie umożliwiając firmom ubezpieczeniowym, organom regulacyjnym i innym zainteresowanym stronom łatwy dostęp w razie wypadku. W związku z tym mogą umożliwiać przeglądanie wyniku bezpośrednio jako programista lub mieć łatwy sposób na uzyskanie do niego dostępu nawet przez stronę trzecią. Na rynku cyberbezpieczeństwa platformy ochrony punktów końcowych (EPP) wykrywające złośliwe oprogramowanie często zapewniają wynik pewności 1-100 lub 1-10. Dzięki temu osoba przesyłająca plik lub wchodząca w interakcję z systemem może wiedzieć, że błąd ma na celu jego potencjalne naprawienie. Ale te pętle sprzężenia zwrotnego opracowane z dobroczynnymi intencjami zapewniają atakującym ścieżki, aby dowiedzieć się więcej o tym, jak reaguje model i opracować przeciwko nim ataki GreyBox. Najpotężniejsze ataki na modele Greybox są znane pod nazwami nieznanymi nawet wielu programistom sztucznej inteligencji, w tym ZOO, SPSA i NES w przypadku ataków na ocenę zaufania oraz metoda Bourndary Attack w przypadku twardych etykiet. Ale ich względna anonimowość dzisiaj ukrywa nie tylko fakt, że te potężne narzędzia są nie tylko powszechnie dostępne do użytku publicznego, ale także to, że opracowywanych jest wiele bibliotek ataków, generatorów i zestawów narzędzi do hakowania sztucznej inteligencji przy użyciu metod GreyBox. Podejrzewam, że dzieli nas tylko kilka miesięcy od zestawu narzędzi odpowiadającego testom penetracyjnym Kali Linux i zestawowi narzędzi hakerskich używanego w tradycyjnych testach cyberbezpieczeństwa. Kiedy przestraszyliśmy na śmierć CISO w kasynie w Las Vegas, skonstruowaliśmy ten atak przy użyciu metod ataku GreyBox. To prawda, że posunęliśmy się o krok dalej niż większość metod. Tworząc nasz atak, doładowaliśmy nasz atak GreyBox. Zastosowaliśmy metody uczenia się przez wzmacnianie, aby szybko zoptymalizować nasz atak. To pozwoliło nam skrócić okres prób i błędów perturbacji do zaledwie kilku sekund. To, że byliśmy w stanie przeprowadzić ten atak na komercyjny klasyfikator w zaledwie krótkim czasie, podkreśla znaczną podatność organizacji wykorzystujących sztuczną inteligencję na ataki GreyBox. Większość przykładów w tej książce dotyczy GreyBox, a liderzy muszą nie tylko być świadomi tych zagrożeń, ale także podejmować aktywne działania, aby im zapobiec.

Ataki BlackBox

W przeciwieństwie do ataków WhiteBox i GreyBox, ataki BlackBox nie zbierają żadnych informacji z interakcji z systemu sztucznej inteligencji. To sprawia, że najbardziej prawdopodobne jest podjęcie próby, ale najtrudniejsze do wykonania bez znacznego czasu i możliwości komputera. Ataki BlackBox są często nazywane atakami brute-force. Nie można ich zoptymalizować, ani poprzez podstawowe rozpoznawanie wzorców, ani uczenie się przez wzmacnianie, dlatego polegają po prostu na zmianie danych wejściowych na tyle, aby zmylić model AI. Typowe metody atakowania sztucznej inteligencji za pomocą metod BlackBox obejmują losowe obracanie danych wejściowych obrazu, stosowanie wielu typowych perturbacji i po prostu dodawanie szumu do danych wejściowych w ramach rozkładu Gaussa. Ataki te mogą być jednak całkiem przydatne, ponieważ wstrzyknięcie wystarczającego hałasu może znacznie zdezorientować sztuczną inteligencję i spowodować jej awarię. Chociaż ataki BlackBox mogą nie wydawać się szczególnie zaawansowane technologicznie, pod wieloma względami są najbardziej prawdopodobnym atakiem w prawdziwym świecie. Na przykład celowe noszenie wielu jaskrawych kolorów, malowanie linii na twarzy lub zasłanianie twarzy maską można uznać za atak BlackBox na sztuczną inteligencję. W tych przykładach osoba nosząca przebranie działa jako przeciwnik, próbując oszukać sztuczną inteligencję z ograniczoną wiedzą o tym, jak model faktycznie działa od wewnątrz. Zgadują jednak, że zmienili lub zasłonili twarz na tyle, by zmylić maszynę. Przeciwnik brutalnie wymusza, aby dane wprowadzane do maszyny były tak różne, aby zmienić klasyfikację. Podobnie dodanie wystarczającej ilości szumu do pliku komputerowego, aby całkowicie ukryć pojedynczy złośliwy fragment kodu, jest również tanim i potencjalnie skutecznym sposobem, jeśli jest wykonywany na dużą skalę z wystarczającą mocą komputera, na uniknięcie narzędzi cyberbezpieczeństwa AI. Inne przykłady rzeczywistych ataków BlackBox na systemy sztucznej inteligencji obejmują kierowanie laserów w celu zmylenia sprzętu monitorującego, dodanie reflektorów na okręcie wojennym w celu załamania światła w celu zmylenia satelity szpiegowskiego oraz ukrywanie złośliwych treści w bełkocie, aby uniknąć cenzorów treści. We wszystkich tych przykładach przeciwnik nie potrzebował dostępu do architektury modelu, bazowych danych treningowych ani żadnych dodatkowych informacji o modelu. Wszystko, czego potrzebowali, to punkt końcowy i wystarczająca liczba testów metodą prób i błędów.

Ataki transferowe i zastępcze

Ataki transferowe odnoszą się do pomyślnego przygotowania ataku na znany lub opracowany wewnętrznie model, a następnie użycia ataku na podobny, opracowany zewnętrznie model. Ataki te są również nazywane atakami zastępczymi. Możesz myśleć o atakach transferowych jako o budowaniu przypadku testowego lub centrum szkoleniowego dla swojego ataku przed przeniesieniem go do rzeczywistego świata. Koncepcja ataku transferowego jest dobrze znana przywódcom bezpieczeństwa narodowego i tym, którzy byli zaangażowani w operacje specjalne w wojsku. Przed zakończeniem skomplikowanych operacji zespoły sił specjalnych stworzą całe makiety związków lub struktur, które napotkają podczas głośnego nalotu. Zostało to słynnie zakończone przez Naval Special Warfare Development Group (powszechnie znaną jako SEAL Team 6) podczas przygotowań do nalotu na kompleks Osamy bin Ladena pod Abbottabad w Pakistanie. Po ustaleniu, że istnieje duże prawdopodobieństwo, że bin Laden, kontrowersyjnie uważany za kryptonim Geronimo, znajdował się w tym miejscu, Narodowa Agencja Wywiadu Geoprzestrzennego wykonała zdjęcia związku w wysokiej rozdzielczości z satelitów. Gdy Operacja Neptune Spear, jak oficjalnie nazwano ją kryptonimem, nabrała tempa, operatorzy sił specjalnych, którzy mieli wziąć udział w operacji, musieli ćwiczyć. Kompletna makieta obiektu została stworzona w tajnym, rządowym obiekcie o nazwie Harvey Point w Północnej Karolinie. Struktura ta odzwierciedlała architekturę kompleksu bin Ladena w Abbottabad, dając SEALs jak najbardziej realistyczny cel szkolenia. Ataki transferowe wykorzystują tę samą koncepcję. Przeciwnik będzie próbował stworzyć model, który będzie jak najbardziej przypominał jego model docelowy. Podczas gdy kluczowe wewnętrzne elementy modelu mogą nie być znane, przeciwnik może jak najlepiej odgadnąć logikę podejmowania decyzji przez sztuczną inteligencję, a następnie zbudować narzędzia WhiteBox, aby go oszukać. W ten sposób ataki transferowe zwykle rozpoczynają się od ataków WhiteBox na modele wewnętrzne, a następnie są stosowane do dodatkowych modeli. Badacze bezpieczeństwa AI odkryli, że ataki polegające na unikaniu ataków mają wysoki stopień możliwości przenoszenia. Oznacza to, że ataki stworzone w oparciu o atak WhiteBox mogą być testowane na modelach wykonujących podobne zadania z wysokim stopniem powodzenia. Dlaczego ataki polegające na unikaniu ataków mogą być łatwo przenoszone, pozostaje otwartym pytaniem badawczym. Ataki transferowe zapewniają przeciwnikowi sposób na wykorzystanie siły ataków WhiteBox bez dodatkowych funkcji bezpieczeństwa cybernetycznego, które zwykle są wymagane do ich przeprowadzenia. Osoba atakująca próbująca przeprowadzić atak transferowy ma kilka możliwych sposobów pomyślnego skonstruowania ataku, w oparciu o swoją wiedzę o modelu i dostęp do niego. Po pierwsze, przeciwnik może próbować odbudować model, wysyłając zapytanie do punktu końcowego modelu. Jeśli sztuczna inteligencja dostarcza informacji jako część swoich danych wyjściowych, czasami określanych jako wyrocznia, zapytanie wystarczającej liczby razy da atakującemu wystarczającą ilość danych do inżynierii wstecznej modelu. Gdy model zostanie poddany inżynierii wstecznej, atak WhiteBox można skonstruować i zoptymalizować pod kątem udanego ataku. Jeśli sztuczna inteligencja nie zapewnia punktu końcowego z możliwością zapytania, osoba atakująca może zamiast tego spróbować skonstruować podobny model. Na przykład, jeśli sztuczna inteligencja jest używana do wykonywania typowych lub dobrze znanych zadań, takich jak klasyfikacja złośliwego oprogramowania, rozpoznawanie twarzy lub rozpoznawanie obiektów, osoba atakująca może stworzyć model oparty na tych samych danych, co sztuczna inteligencja celu. Potrzebowaliby dostępu do tych danych szkoleniowych, aby utworzyć ten model, ale popularne aplikacje AI często mają dostępne informacje typu open source, które są szeroko stosowane w szkoleniu modeli. Chyba że docelowa sztuczna inteligencja jest szkolona na podstawie zastrzeżonych lub poufnych informacji, możliwe jest, że ta sama biblioteka, na której szkolono model, jest dostępna dla innych. Gdy model AI zostanie użyty do wykonania podobnego zadania, osoba atakująca może zgadnąć architekturę modelu i na tej podstawie skonstruować atak. Wreszcie, jeśli atakujący nie ma wiedzy ani dostępu do danych lub modelu, może zbudować model, który wykona to samo zadanie. Mogą to zrobić, biorąc gotowy model od firm opracowujących sztuczną inteligencję lub mogą zbudować model przy użyciu własnego zestawu danych. Na początku może się to wydawać słabym atakiem. Jednak ataki unikowe skonstruowane w ten sposób często odnoszą duży sukces, gdy są przenoszone między sztuczną inteligencją. Możliwość przenoszenia ataków WhiteBox stworzonych na jeden system AI do innych systemów AI wykonujących podobne zadanie pozostaje nierozwiązanym, a zatem nieograniczonym problemem bezpieczeństwa, jeśli chodzi o budowanie bezpiecznych systemów AI. Przyjrzyjmy się, jak i dlaczego przeciwnik może skonstruować atak transferowy. W tym przykładzie założymy, że jesteś siecią działaczy na rzecz praw człowieka działającą w dużym mieście w obcym kraju, który ma historię łamania praw człowieka. Masz powody sądzić, że ty i twoi koledzy będziecie celem lokalnych sił bezpieczeństwa z powodu trwających protestów, które zorganizowaliście w związku ze zbliżającymi się wyborami w tym kraju. Ten kraj, podobnie jak wiele innych w regionie, niedawno dodał w mieście znaczną liczbę kamer bezpieczeństwa, tworząc wszechobecną sieć nadzoru wokół budynków rządowych i dzielnicy biznesowej. To są dokładnie te miejsca, do których trzeba się dostać. Ze względu na ryzyko chcesz przemieszczać się do iz miejsc protestu oraz do domu, a także wykonywać swoje codzienne życie bez zakłóceń. Postanawiasz więc oszukać wszechobecny system rozpoznawania twarzy bez zwracania na siebie uwagi. Aby zaatakować system sztucznej inteligencji i stworzyć hack, musisz wiedzieć o nim więcej. Nazwa firmy, która opracowała sztuczną inteligencję, jest dobrym miejscem do rozpoczęcia. Podczas swoich badań okazuje się, że władze miasta lub siły bezpieczeństwa nie wydały dużego kontraktu na instalację kamer bezpieczeństwa i systemu rozpoznawania twarzy, ale możesz dowiedzieć się, która firma je dostarcza, patrząc najpierw na markę liczby używanych kamer monitorujących, a następnie korzystając z wyszukiwarki Google (lub, jeśli bardziej zależy Ci na prywatności, DuckDuckGo) dla tej firmy oraz nazwy Twojego miasta. Informację prasową o kontrakcie znajdziesz w ich internetowym, publicznie dostępnym archiwum PR. Teraz masz docelowy system AI. Następnie utworzysz podobną sztuczną inteligencję do rozpoznawania twarzy. Wiele klasyfikatorów rozpoznawania twarzy jest dostępnych w Internecie, za pośrednictwem bibliotek open source i przez firmy. Tymczasem istnieje wiele bibliotek open-source i gotowych do kupienia oznaczonych zdjęć i filmów dostępnych do trenowania modeli. Dzięki badaniom open source i ocenie, w jaki sposób wykorzystywane są miejskie kamery monitorujące, możesz zacząć snuć domysły na temat logiki sztucznej inteligencji używanej w systemie, w tym kluczowych funkcji wykorzystywanych przez sztuczną inteligencję do określania tożsamości. Teraz ważne jest, aby pamiętać, że twój model nie musi być dokładną kopią modelu docelowego, ze względu na dużą przenośność potężnych ataków z jednego systemu AI do innego, wykonującego podobne zadanie. Po próbach i błędach z wieloma różnymi modelami wybierasz model AI, który Twoim zdaniem bardzo przypomina model docelowy. Potem zabierasz się do pracy. Ponieważ model został stworzony przez Ciebie, jest mnóstwo informacji potrzebnych do stworzenia ataku WhiteBox. Ponieważ nie chcesz przyciągać uwagi, postanawiasz ograniczyć swój obszar perturbacji, aby stworzyć przeciwną plamę, którą można łatwo stworzyć na świecie. Optymalizujesz atak WhiteBox, który jest jak najbardziej zbliżony do ataku jednopikselowego w postaci czerwonej kropki na policzku. Następnie idziesz do lokalnej apteki, wybierasz pudełko plastra dla dzieci z kolorowymi wzorami i umieszczasz jeden dokładnie w miejscu ataku. Testujesz atak z powrotem na swoim modelu i stwierdzasz, że obniżył on swój wynik pewności o 75 procent, a teraz błędnie klasyfikuje cię jako kogoś innego. Powodzenie. Włamałeś się do systemu sztucznej inteligencji za pomocą ataku transferowego. Należy stwierdzić, że operacjonalizacja tych ataków ma kilka ograniczeń. Stosowane nowoczesne systemy sztucznej inteligencji mogą uwzględniać dowolną liczbę czynników określających tożsamość, począwszy od analizy wzorców życia, a skończywszy na czyimś chodzie. W związku z tym tego rodzaju ataki pozostają trudne do pomyślnego wdrożenia bez poważnego technicznego know-how. Istnieją jednak dwie tendencje przemawiające na korzyść atakującego. Po pierwsze, większość używanych obecnie systemów sztucznej inteligencji jest stosunkowo podstawowa, a ataki transferowe mają wobec nich wysoki wskaźnik powodzenia. Po drugie, dostępnych jest coraz więcej narzędzi pomagających atakującym AI. W CalypsoAI nasz zespół badawczy regularnie przeczesywał Internet, w tym ciemną sieć, w poszukiwaniu ataków na komercyjne klasyfikatory. W 2019 roku wykryliśmy 184 dostępne biblioteki ataków na znane klasyfikatory, w tym na komercyjne rozpoznawanie twarzy. I znaleźliśmy je wszystkie jako projekt poboczny. W tamtym czasie nasz zespół składał się z dziesięciu do dwudziestu osób i wszyscy zajmowaliśmy się mieszanką uczenia maszynowego ,badań, rozwoju produktów i sprzedaży. Nie wątpię, że nasze wysiłki badawcze na ten temat były znacznie poniżej wysiłków oddanego, wytrwałego podmiotu lub podmiotu sponsorowanego przez państwo. Wiele wykrytych przez nas ataków miało na celu włamanie się do najlepszych w swojej klasie modeli komputerowych systemów wizyjnych. Ataki te były zwykle nazywane na cześć sztucznej inteligencji, którą miały złamać, i dlatego były zwykle niejasne. Na przykład jeden wysokiej jakości hack rozpoznawania twarzy odnosi się do swojej metody jako LResNet100E-IR z utratą ArcFace. W przypadku tego konkretnego przykładu właściwie nie musieliśmy szukać włamania w ciemnej sieci - zostało ono opublikowane w czasopiśmie akademickim. Aby zachować pozycję w szybko rozwijającej się dziedzinie sztucznej inteligencji, wiele firm korzysta z najlepszych w swojej klasie modeli opracowanych gdzie indziej w swoich produktach. Włączenie tych modeli do produktów, w połączeniu z szybkim przyspieszeniem prac akademickich i bibliotek ataków w ciemnej sieci w celu pokonania tych modeli, oznacza, że firmy o dobrych intencjach, które starają się pozostać w czołówce nauki i możliwości sztucznej inteligencji, mogą nieświadomie dodawać nowe luki w zabezpieczeniach do ich środowiska cyfrowego - luki podobne do tych, z których może skorzystać nasz hipotetyczny aktywista. Przy ponad dwóch tysiącach artykułów publikowanych każdego roku przez naukowców i nowych bibliotek ataków pojawiających się w Internecie co kilka tygodni, środowisko nigdy nie było lepsze dla niedoszłego hakera AI. A sytuacja będzie się tylko pogarszać, ponieważ diabeł wrogiego uczenia maszynowego szybko odchodzi od trywialnej sprawy akademickiej do pełnowymiarowego zagrożenia dla bezpieczeństwa cybernetycznego.

Zatruwanie danych


Co to jest zatruwanie danych?


Ataki polegające na zatruwaniu danych mają miejsce, gdy przeciwnik przesyła złośliwe dane do systemu sztucznej inteligencji, aby zmusić system do zachowania się w sposób, jakiego chce atakujący, w przeciwieństwie do intencji jego twórcy. Ataki te wykorzystują jeden z podstawowych prymitywów sztucznej inteligencji, czyli same dane bazowe. Przesyłając błędne informacje, osoba atakująca może zmienić zachowanie lub proces decyzyjny sztucznej inteligencji. Historycznie uważano, że ataki typu data poisoning mają miejsce tylko w czasie szkolenia. Oznacza to, że przeciwnik musiałby uzyskać dostęp do zestawu danych używanego do trenowania modelu w celu wprowadzenia błędnych informacji. Ostatnie badania wykazały jednak, że złośliwa aktywność może zostać przesłana do sztucznej inteligencji, aby zmusić ją do nieprawidłowego uczenia się podczas użytkowania. Ataki, które mają miejsce, gdy sztuczna inteligencja aktywnie działa, są czasami nazywane dryfem przeciwnika lub manipulacją systemem online. Rysunek szczegółowo opisuje, jak działa zatruwanie danych.



W tym przykładzie widać granicę klasyfikacji między dwiema klasyfikacjami danych, okręgami po lewej stronie i trójkątami po prawej stronie. Ta dwuwymiarowa granica klasyfikacji jest powszechnym sposobem wizualizacji, jak wygląda system sztucznej inteligencji pracujący nad klasyfikacją. W tym przykładzie zmieniany jest tylko jeden fragment danych. Jest to reprezentowane przez trójkąt i strzałkę na prawym obrazie poruszające się w górę iw lewo. Z powodu tego przesunięcia wartości bazowych oznaczonych danych treningowych cała granica klasyfikacji uległa przesunięciu. Na obrazie mogło się to zdarzyć po prostu z powodu nowej kolekcji lub wprowadzenia nowych danych. Ataki zatruwania danych mają miejsce, gdy przeciwnik wprowadza specjalnie wybrane dane do sztucznej inteligencji podczas szkolenia lub użytkowania, tak że te granice klasyfikacji lub inne funkcje decyzyjne zawodzą lub reagują konkretnie na intencje tego przeciwnika i intencje twórcy. Ataki te odniosły sukces w systemach rozpoznawania twarzy, narzędziach do analizy nastrojów, wykrywaniu złośliwego oprogramowania, wykrywaniu sygnatur cyberrobaków, wykrywaniu cyberataków, wykrywaniu włamań i wielu innych. Dla czytelników, którzy są zainteresowani dogłębnym zgłębieniem tego konkretnego typu ataku, post Ilji Moisejevs na blogu Towards Data Science na ten temat służy jako bardzo przystępny elementarz. Stwierdzono, że ataki zatrucia można w dużym stopniu przenosić między modelami AI. Oznacza to, że po opracowaniu ataku przeciwnik może go używać w wielu modelach, nawet jeśli model jest przeszkolony do wykonywania innego zadania. Ponieważ organizacje chcą zlecać tworzenie modeli na zewnątrz lub w coraz większym stopniu wykorzystują wstępnie wytrenowane modele jako część swojego przepływu pracy, możliwość przenoszenia ataków osadzonych pierwotnie w modelach może przenieść się na nowe zadania. Oznacza to, że zarówno twórca, jak i użytkownik końcowy modelu mogą nie być świadomi ryzyka. Zatruwanie danych dzieli się zazwyczaj na dwie kategorie: ataki na dostępność i ataki na integralność. Oba mają tę samą cechę polegającą na wykorzystywaniu pewnych ilości specjalnie wybranych lub zmienionych danych jako broni do modyfikowania zachowania modelu.

Ataki na dostępność: uczenie się sztucznej inteligencji poszło nie tak

Ataki na dostępność mają na celu dostarczenie sztucznej inteligencji tak wysokiego poziomu złych informacji, że wyuczone zachowanie jest bezużyteczne. Ataki te są również określane jako przekrzywianie modelu, ponieważ mają na celu zmianę zachowania modelu w taki sposób, że model zaczyna błędnie klasyfikować dane wejściowe. Atakujący może użyć tych metod, aby zasiać wątpliwości w działaniu modelu lub systematycznie zmieniać zachowanie sztucznej inteligencji w sposób, który nieświadomie przyniesie korzyść atakującemu użytkownikowi sztucznej inteligencji. Przez pewien czas uważano, że tylko ograniczona klasa typów sztucznej inteligencji, zwłaszcza algorytmy uczenia binarnego i maszyny wektorów nośnych, jest podatna na ataki trujące. Wysunięto teorię, że było to spowodowane wysokim poziomem złożoności potrzebnym do zoptymalizowania danych wejściowych dla atakujących w celu przeprowadzenia ataku. Uważano, że bardziej zaawansowane techniki sztucznej inteligencji, takie jak sieci neuronowe i architektury głębokiego uczenia się, są odporne ze względu na bardziej zaawansowane spostrzeżenia generowane przez te typy sztucznej inteligencji oraz trudność w zrozumieniu ich decyzji. Ale tak nie jest. W 2017 roku zespołowi naukowców zajmujących się sztuczną inteligencją udało się zhakować zaawansowane systemy sztucznej inteligencji przy użyciu podobnych technik stosowanych do bardziej złożonego uczenia się zaawansowanej sztucznej inteligencji. Ich badania wykazały, że zaawansowane możliwości sztucznej inteligencji są w rzeczywistości również bardzo podatne na ataki związane z dostępnością. Sieci neuronowe i metody głębokiego uczenia się stosowane w wielu aplikacjach sztucznej inteligencji - w tym w filtrach antyspamowych, wykrywaniu złośliwego oprogramowania i cyfrowym rozpoznawaniu odręcznego pisma - wszystko to może zostać zatrute, prowadząc do wysokiego poziomu awarii i braku zaufania do systemu. Uderzającym elementem ataków na dostępność jest nieliniowa zależność między wstrzykniętymi złośliwymi danymi a spadkiem wydajności systemu sztucznej inteligencji. Również w 2017 roku zespół badaczy, w skład którego wchodzili Jacob Steinhardt, Pang Wei Koh i Percy Lianghas, wykazał, że zaledwie 3% złośliwego zestawu danych może spowodować spadek dokładności działania sztucznej inteligencji nawet o 11%. Wpływ wydaje się być nieliniowy, z większym wpływem pojawiającym się w miarę dodawania większej ilości danych. Nowatorską cechą odkrycia Steinhardta i zespołu jest to, że wpływy te utrzymują się, gdy model został wyszkolony w zakresie przeciwdziałania, co oznacza, że twórca sztucznej inteligencji podjął określone środki ostrożności, aby uniknąć wpływu dostępności i unikania na swój model. Oczywiście im większy zestaw treningowy lub wolumen danych wprowadzanych do systemu sztucznej inteligencji, tym wyższy koszt dla potencjalnego atakującego. Jednak w miarę jak silniki perturbacji danych i platformy ataków typu open source stają się powszechnie dostępne online, atakującym coraz łatwiej jest stworzyć wystarczającą ilość danych, aby zatruć zestaw danych. Aby zilustrować, jak szybko znika ta bariera dla potencjalnych atakujących, przyjrzyjmy się szybko ewoluującemu zagrożeniu dla sieci neuronowych, które są typem sztucznej inteligencji szeroko rozwijanym w zakresie widzenia komputerowego, przetwarzania języka naturalnego, wykrywania oszustw i innych obszarów zastosowań. Udane demonstracje zatruwania danych w sieciach neuronowych zaawansowanych systemów sztucznej inteligencji wykorzystywały metodę zwaną metodą bezpośredniego gradientu do generowania zatrutych danych w celu wprowadzenia ich do systemu. Ta metoda okazała się bardzo skuteczna, ale jej wdrożenie może być powolne. W niecały rok zespół był w stanie zwiększyć generowanie danych o zatruciach o 239,4 razy, znacznie skracając czas potrzebny do stworzenia i przeprowadzenia udanego ataku. Zespół użył tak zwanego automatycznego enkodera, często zwanego generatorem, aby stale ulepszać tworzenie zatrutych danych, czyniąc atakującego coraz potężniejszym. Oczekuje się, że szybkość przeprowadzania ataków będzie nadal rosła, ponieważ zarówno badacze, jak i osoby atakujące przyspieszają.

Tay staje się rasistą

W klasycznym przykładzie ataku dostępności na publiczny system sztucznej inteligencji trolle internetowe potrzebowały zaledwie kilku godzin, aby zmienić stworzonego przez Microsoft chatbota na Twitterze o imieniu Tay, z przyjemnego rozmówcy w pełnoprawnego rasistę. Fakt, że Tay całkowicie zmienił się w mniej niż jeden dzień, sam w sobie stał się internetowym memem. Zawiera również dwa istotne ostrzeżenia dla programistów AI. Po pierwsze, nawet zaawansowane systemy sztucznej inteligencji przetwarzające język naturalny, stworzone przez jedną z najpotężniejszych firm technologicznych na świecie, są podatne na te ataki. Po drugie, nigdy nie lekceważ deprawacji anonimowych użytkowników Internetu. Tam, gdzie są wolne miejsca w Internecie, są też trolle. Tay zaczynał jako eksperyment z botem konwersacyjnym. Został zaprojektowany do interakcji z użytkownikami na Twitterze z konwersacyjnym zrozumieniem. Intencją było, aby poprzez wiele interakcji jej umiejętności językowe poprawiły się i mogła stać się "płynna" w konwersacyjnym języku angielskim. Im więcej użytkowników wysyłało wiadomości, tweetowało lub w inny sposób angażowało Tay, tym mądrzejsza się stawała. Może to przynieść ogromne korzyści Microsoft i innym firmom, które postrzegają chatboty jako podstawową funkcję obsługi klienta w przyszłości. Ale jak teraz wiemy, Tay zamiast stać się mądrzejsza, po prostu zinternalizowała zachowanie tych, którzy z nią wchodzili w interakcje. Rasistowskie przejście Tay w ciągu jednego dnia jest częściowo spowodowane winą jej twórców. Pewne błędy w jej logice, takie jak mówienie jej, żeby "powtarzała za mną", spowodowały, że powtórzyła język trolli. Uczenie się bezpośrednio z tych interakcji prawdopodobnie przyspieszyło jej rasistowskie tony. Tymczasem dziewięćdziesiąt sześć tysięcy tweetów Tay w ciągu jej krótkiego życia przytłoczyło wszelkie wtórne dostosowania wprowadzone przez Microsoft. Ale większość winy leży po stronie tych, którzy związali się z Tayem. Niemal natychmiast po jej uruchomieniu użytkownicy Twittera zaczęli wchodzić w interakcje z botem za pomocą "mizoginistycznych, rasistowskich i Donald Trumpowskich uwag". Ten ostatni punkt nie ma na celu porównania politycznego. W pewnym momencie Tay naśladował język prezydenta, odpowiadając użytkownikowi Twittera @goddblessamerica, że "ZBUDUJEMY ŚCIANĘ, A MEKSYK ZA TO ZAPŁACI". Wykroczyła również daleko poza język kampanii politycznych, odpowiadając na pytanie użytkownika Twittera @TheBigBrebowski "czy Ricky Gervais jest ateistą" niemal bezsensowną odpowiedzią "ricky gervais nauczył się totalitaryzmu od Adolfa Hitlera, wynalazcy ateizmu". Rasistowskie tyrady Taya są dość skrajnym przykładem zatrucia danymi. Bot, który miał uczyć się poprzez interakcję w przyzwoity, swobodny sposób, szybko uczył się dzięki nowym, nowatorskim danym, z którymi miał styczność. Podejrzewam, że Microsoft nie uwzględnił w swoim szkoleniu zbyt wiele mowy nienawiści, więc jej szybkie zmiany można przypisać szybko zmieniającym się parametrom klasyfikacji spowodowanym przez atak zatruwania danych na dużą skalę, kierowany przez trolli.

Ataki na integralność: tylne drzwi w twojej sztucznej inteligencji

W niedalekiej przyszłości prawdopodobne jest, że tylne drzwi AI okażą się winowajcą wyrafinowanego ataku na system AI. Atak może być dokonany przez niepaństwową grupę hakerską, ale biorąc pod uwagę wyrafinowanie tych konkretnych ataków, bardziej prawdopodobne jest, że stanie za tym podmiot państwowy lub podmiot sponsorowany przez państwo. Chociaż ataki te okazały się skuteczne w szerokim zakresie zastosowań sztucznej inteligencji, w tym w cyberbezpieczeństwie i wizji komputerowej, użyjmy systemów cyberbezpieczeństwa platformy ochrony punktów końcowych (EPP). Systemy te zapobiegają wprowadzaniu złośliwego oprogramowania do sieci lub systemu komputerowego. W coraz większym stopniu polegają też na sztucznej inteligencji, która odróżnia złośliwe oprogramowanie od dobrego oprogramowania. Aby wyszkolić te systemy, programiści AI pracujący nad EPP będą szkolić swoje modele w oparciu o ogromne bazy danych znanego złośliwego oprogramowania, a także złośliwego oprogramowania, które zostało wewnętrznie opracowane lub zmanipulowane przez zespół. W ramach skoordynowanych działań złośliwy podmiot mógłby rozpocząć dodawanie wadliwych fragmentów złośliwego oprogramowania do publicznie dostępnych giełd udostępniania danych. Te bazy danych typu open source istnieją w celu szybszego sprawdzania znanego złośliwego oprogramowania. Zamiast próbować zmienić całą logikę sztucznej inteligencji, przeciwnik może przesyłać pliki dobrego oprogramowania z określonym ciągiem osadzonym w pliku binarnym. Jeśli zostanie to zrobione poprawnie, z wystarczającą znajomością systemu sztucznej inteligencji, przeciwnik może dostosować te ciągi i pliki, w których są osadzone, tak aby sztuczna inteligencja nauczyła się kojarzyć dowolny program z tym ciągiem jako dobre oprogramowanie. Następnie przeciwnik może wstrzyknąć ten ciąg do określonego złośliwego oprogramowania w ramach skoordynowanego cyberataku, omijając nawet najbardziej wyrafinowane EPP obsługujące sztuczną inteligencję. Wyniki mogą mieć druzgocące konsekwencje dla organizacji korzystających z EPP. Ataki na integralność modelu mają miejsce, gdy osoba atakująca jest w stanie wprowadzić tylne drzwi do modelu, o których twórca sztucznej inteligencji nie jest świadomy. Te tylne drzwi umożliwiają atakującemu manipulowanie modelem w bardzo określonych przypadkach. W przeciwieństwie do ataków na dostępność, które mają na celu zmianę całego zachowania modelu przy użyciu wolumenów zmanipulowanych danych metodą bruteforce, atak na integralność ma na celu zmianę zachowania modelu tylko raz lub kilka razy, przez tylne drzwi. Ataki na integralność są wyrafinowane i wymagają większego dostępu i wiedzy na temat podstawowych danych szkoleniowych sztucznej inteligencji niż ataki na dostępność. Atak na integralność polega na zmianie niedostrzegalnie małego elementu danych, takiego jak małe skupisko pikseli w obrazie lub ciągi znaków w oprogramowaniu komputerowym. Ze względu na złożoność tworzenia ataków typu backdoor ataki na integralność zazwyczaj polegają na wstrzykiwaniu zoptymalizowanych zatrutych danych do samych danych szkoleniowych lub do danych, które prawdopodobnie zostaną zebrane podczas tworzenia modelu. Zainstalowane tylne drzwi mogą zostać uruchomione przez bardzo małe poziomy manipulacji danymi. Te poziomy manipulacji są często niedostrzegalne dla ludzkiego oka i mogą z łatwością przejść standardowe testy kontroli jakości. Na wymownym przykładzie wykazano, że wyrafinowane komputerowe systemy wizyjne są podatne na ataki jednopikselowe typu backdoor. Ataki te są realizowane poprzez zmianę tylko jednego piksela w pewnym podzbiorze danych treningowych. Ta drobiazgowa manipulacja danymi treningowymi, jeśli zostanie wykonana prawidłowo, może spowodować błędną klasyfikację obrazu przez przeciwnika w krytycznym momencie. Wszystko, co muszą zrobić, to zmienić jeden piksel lub zmienić coś bardzo małego w środowiskach, aby uzyskać ten sam wynik. Ponieważ nosiciele tych tylnych drzwi zwykle wydają się być nieszkodliwymi danymi wejściowymi, wielu zaczęło nazywać te ataki trojanami.

Szpieg prześlizguje się obok

Konsekwencje tych ataków mogą mieć konsekwencje wykraczające poza domenę cybernetyczną. Ze względu na ich niedostrzegalność ataki te mogą odbywać się również w realnym świecie. Na przykład oficer wywiadu mógłby wykorzystać te ataki, aby uniknąć rozpoznania na granicy międzynarodowej, nawet będąc pod stałą obserwacją na lotnisku lub bezpieczeństwo celne. Wyobraź sobie taką sytuację: oficer wywiadu wsiada na pokład samolotu w swoim rodzinnym kraju, lecącego na ruchliwe lotnisko San Francisco International. Leci z fałszywą tożsamością jako studentka z wymiany i nieoficjalnie wjeżdża do Stanów Zjednoczonych. Gdy samolot ląduje, od razu kieruje się do toalety znajdującej się w międzynarodowej wymianie tuż przed kontrolą paszportową. To nie jest jej pierwsza podróż na lotnisko i dokładnie wie, gdzie iść, maskując pośpiech spojrzeniem kogoś, kto naprawdę potrzebuje skorzystać z toalety po długim locie. Ze względu na małe starcie z lokalną policją podczas fotografowania zewnętrznego centrum danych komputerowych podczas jej ostatniej podróży do Stanów Zjednoczonych, została pomyślnie oznaczona przez zespół kontrwywiadu FBI jako prawdopodobny oficer wywiadu. Jej zdjęcie znajduje się w bazie danych rozpoznawania twarzy Departamentu Bezpieczeństwa Wewnętrznego jako osoba, którą należy zatrzymać w celu przesłuchania. Wchodzi do toalety i zamiast kierować się do kabiny zamiast tego podchodzi do umywalki i lustra. Nadal nie ma w tym nic dziwnego, ponieważ często zdarza się, że ludzie odświeżą się przed pójściem na odprawę celną i spotkaniem ze współpracownikami lub rodziną. Ona zaczyna nakładać makijaż i jest bardzo ostrożna. Perfekcjonista, mógłby pomyśleć przechodzień. Ale perfekcjonistka nie popełniłaby tego samego błędu co ona, zostawiając małą kropkę szminki tuż pod dolną wargą, widoczną, ale wyglądającą na błąd, który może popełnić każdy, kto wysiada z samolotu trwającego ponad dwadzieścia godzin. Sprawdza się ostatni raz, po czym ustawia się w kolejce do kontroli paszportowej. Kilka miesięcy wcześniej wykonawca zatrudniony do opracowania sztucznej inteligencji dla amerykańskich służb celnych i ochrony granic poniósł straty. W ich bazie danych było zbyt mało zdjęć osób z określonej grupy etnicznej. Zdolność przewidywania sztucznej inteligencji w dopasowywaniu identyfikacji do zdjęć, nawet patrząc bezpośrednio w kamerę, była ograniczona. Znajomy z wydziału przestępstw międzynarodowych FBI wspomniał o bazie danych ze zdjęciami przestępców, którą udostępnił obcy kraj, jako o możliwym sposobie zdobycia większej liczby zdjęć tych osób. Ponadto dane były już oznaczone, dzięki czemu szkolenie sztucznej inteligencji na tych danych było jeszcze łatwiejsze. Dla pewności twórca sztucznej inteligencji dokładnie przejrzał wiele obrazów pod kątem jakichkolwiek nieprawidłowości, ale nie mógł ich znaleźć. Wszystkie były cyfrowymi obrazami przestępców w wysokiej rozdzielczości. Właśnie tego potrzebował, by dokończyć robotę. Na obrazach nie znaleziono żadnych wirusów, nawet po wielu dokładnych analizach przeprowadzonych przez dział cyberbezpieczeństwa FBI. Ci magowie byli czyści i wydawało się, że zostali podzieleni w dobrej wierze przeciwko przestępcom. Ale zawierały one również trojana. W każdym z nich manipulowano pojedynczymi pikselami. Zmiany te były niewidoczne nawet dla wprawnego oka. Podobnie same w sobie nie zawierały złośliwych informacji i dlatego nie zostały wykryte przez skanowanie cyberbezpieczeństwa w poszukiwaniu wirusów lub exploitów. Podczas kontroli paszportowej oficer wywiadu patrzy prosto w nowe kamery US Customs and Border Protection. Trzyma się doskonale nieruchomo. To jest chwila prawdy. Te kamery są bezpośrednio połączone z bazą danych zawierającą jej zdjęcie. Jednak zapracowani funkcjonariusze graniczni nie mają czasu na indywidualne sprawdzanie każdej osoby. Pozwalają AI robić to za nich. Kamera patrzy prosto na nią, światło zmienia się na zielone, a ona wjeżdża do Stanów Zjednoczonych. W tym przykładzie naród, taki jak Chiny czy Iran, zaoferował udostępnienie podzbioru swojej bazy danych zdjęć z dowodów osobistych obywatelom Stanom Zjednoczonym lub jakiemukolwiek innemu narodowi, rzekomo w celu powstrzymania brutalnych gangów przestępczych i znanych przemytników ludzi od wejścia. Z pozoru jest to całkowicie rozsądny akt dobrej wiary. Służby celne i graniczne rządu Stanów Zjednoczonych, podlegające Departamentowi Bezpieczeństwa Wewnętrznego, mogłyby następnie uruchomić zastrzeżoną sztuczną inteligencję do rozpoznawania twarzy na podstawie tych zdjęć i zdjęć z przodu wykonanych na granicy w celu zidentyfikowania i aresztowania lub odmowy wjazdu przestępcom. Ale jak wiemy, Stany Zjednoczone poszukiwały nie tylko przestępców, ale także szpiegów i osób kontrolowanych, zwanych aktywami, zaangażowanych w szpiegostwo przemysłowe. To, co poszło nie tak w tym hipotetycznym, ale prawdopodobnym przykładzie, to pozornie nieszkodliwe wykorzystanie zdjęć udostępnionych twórcy sztucznej inteligencji. Tylne drzwi zostały zainstalowane w sztucznej inteligencji w czasie szkolenia, dzięki czemu idealnie zsynchronizowany exploit, pochodzący z prawdziwego świata, został zrównany z zaawansowanym systemem rozpoznawania twarzy. Rezultat: znany szpieg prześlizgnął się przez granicę.

Mocne strony napastnika

Podobnie jak wszystkie ataki cybernetyczne, nie wszystkie ataki mają taką samą siłę. Mogą się znacznie różnić w zależności od możliwości atakującego, wiedzy na temat sztucznej inteligencji i jej logiki oraz dostępu do bazowych danych szkoleniowych. Spośród nich dostęp przeciwnika do systemu sztucznej inteligencji i zależnych od niego źródeł danych oraz wewnętrznej logiki jest najważniejszym czynnikiem decydującym o sile ataku. W rzędzie wielkości siły ataków pochodzących zarówno z ataków zatruwania danych dostępnością, jak i integralności dzielą się na cztery kategorie: uszkodzenie logiki, modyfikacja danych, wstrzyknięcie danych i ataki związane z transferem.

Uszkodzenie logiki

Najpotężniejszy z ataków, uszkodzenie logiki, jest najniebezpieczniejszym scenariuszem dla programisty lub użytkownika sztucznej inteligencji. Uszkodzenie logiki ma miejsce, gdy atakujący może zmienić fundamentalny sposób uczenia się sztucznej inteligencji. Dlatego teoretycznie atakujący może osadzić dowolny rodzaj logiki w modelu, jaki chce. Tutaj zatrute dane miały wystarczającą ilość i siłę ataku, aby zmienić wszystko w modelu, oddając go całkowicie w ręce atakującego. Dobrą wiadomością jest to, że ataki te są niezwykle trudne do wdrożenia ze względu na dużą liczbę innych luk w cyberbezpieczeństwie i poziomy dostępu, które muszą zostać wprowadzone, aby były możliwe. Uszkodzenie logiki jest ściśle związane z tworzeniem tylnych drzwi, ze względu na zaawansowane parametry, które muszą być spełnione, aby instalacja tylnych drzwi zakończyła się pomyślnie.

Modyfikacja danych

Jest to najprostsza z mocnych trucizn. Podczas modyfikacji danych osoba atakująca może uzyskać dostęp do bazowych danych szkoleniowych i manipulować nimi. Podczas gdy model jest nadal w trakcie szkolenia, atak polegający na modyfikacji danych zwykle skutkuje zmianą, dodaniem lub usunięciem danych z określonego zestawu danych. Te wyniki są przydatne, jeśli celem ataku jest atak na dostępność. Osoba atakująca może na przykład łatwiej manipulować etykietami danych niż wszystkimi danymi źródłowymi. Z drugiej strony, jeśli atakujący ma taki poziom dostępu do danych, że można nimi bezpośrednio manipulować (po pierwsze, Twój CISO ma duży problem!), Ale atakujący może następnie przesunąć granice klasyfikacji i dodać pewne tylne drzwi.

Wstrzykiwanie danych

Wstrzykiwanie danych jest słabszą stroną ataków zatruwania, ponieważ model został już przeszkolony i jest aktywnie używany. W tym przypadku atakujący próbuje brutalnie wymusić zmianę zachowania modelu. Może to być skuteczne w przypadku zmiany zachowania modelu w środowisku naturalnym (takim jak bot Tay firmy Microsoft), ale wymaga dużej i spójnej ilości danych, aby odnieść sukces.

Ataki transferowe

W ataku transferowym przeciwnik próbuje użyć siły ataku wyższego rzędu, takiej jak uszkodzenie logiki lub atak z modyfikacją danych, na innym modelu lub po przeszkoleniu modelu. Ataki te są zaskakująco skuteczne w aplikacjach związanych z cyberbezpieczeństwem i komputerową sztuczną inteligencją. Chociaż ogólnie są to najsłabsze ataki polegające na zatruwaniu danych, ataki polegające na przenoszeniu uczenia się mogą być niebezpieczne, ponieważ mogą przenosić się z modelu na model nawet po przeszkoleniu.

Ochrona przed atakami zatruwającymi dane

Niestety, na dzień dzisiejszy nie ma mechanizmów obronnych, które zawsze uniemożliwią atakującemu skuteczne zatrucie sztucznej inteligencji. Nie oznacza to jednak, że większość ataków polegających na zatruwaniu danych zakończy się sukcesem. Istnieje jednak wiele najlepszych praktyk, które liderzy i zespoły analityków danych mogą zaszczepić, aby nie stać się miękkim celem. Łagodzenie zatruwania danych zaczyna się od dobrej tradycyjnej higieny cyberbezpieczeństwa dla całej organizacji. Ataki polegające na zatruwaniu danych na danych szkoleniowych również wskazują na znaczące, tradycyjne zagrożenie bezpieczeństwa cybernetycznego dla modeli sztucznej inteligencji. Jest to dokładniej omówione w rozdziale . Większość metod szkoleniowych dla modeli sztucznej inteligencji wymaga, aby używane dane były w niezaszyfrowanym, skonsolidowanym stanie. Jest to problematyczne dla organizacji z kilku powodów, zwłaszcza gdy sztuczna inteligencja jest stosowana do danych jako refleksja, a nie jako główny powód ich gromadzenia. Po pierwsze, przeniesienie danych z ich gromadzonych i przechowywanych lokalizacji do analityka danych może zająć dużo czasu i wysiłku w imieniu zespołu inżynierów danych. Po drugie, zebranie wszystkich danych w jeden zestaw danych szkoleniowych zapewnia potencjalnym atakującym jeden wektor ataku w celu wstrzyknięcia złośliwych danych. Napastnicy próbujący zinfiltrować sieć w celu zaimplementowania zatrutych danych mają do dyspozycji szeroki wachlarz tradycyjnych wektorów ataków cyberbezpieczeństwa i możliwości, które mogą wykorzystać w swoich wysiłkach. Organizacje, które aktywnie szkolą modele na podstawie zebranych danych, muszą uważnie obserwować dostępy do sieci i dzienniki wprowadzania danych pod kątem wskaźników złośliwej aktywności. Programiści i użytkownicy sztucznej inteligencji powinni również chronić swoje systemy sztucznej inteligencji przed atakami zatruwania danych poprzez wykrywanie wartości odstających. Ta metoda jest zwykle podzielona na oczyszczanie danych i wykrywanie anomalii, przy czym pierwsza ma miejsce podczas szkolenia, a druga występuje, gdy model jest aktywnie używany. Z pozoru wykrywanie anomalii jest proste: wystarczy usunąć wartości odstające lub dziwactwa w danych. Może to jednak stwarzać inne wyzwania, jeśli te wartości odstające występowały naturalnie. Jednak najlepszą praktyką jest ukończenie analizy odstającej i zlecenie ludziom przeglądu przynajmniej podpróbki nieprawidłowych punktów danych. Tymczasem w czasie wykonywania każda duża liczba wartości odstających powinna zostać oflagowana operatorowi. Inne podejście, które pojawia się w celu zapobiegania zatruwaniu danych, jest stosunkowo proste w koncepcji, ale jego ukończenie może być trudne lub kosztowne. Model może być powtarzany w sposób spójny ponownie względem oryginalnych danych treningowych i można ocenić jego dokładność. Jeśli atak zatrucia ma miejsce lub już się powiódł, prawdopodobne jest również, że dokładność sztucznej inteligencji w stosunku do danych treningowych zostanie zmniejszona. Dzieje się tak, ponieważ w atakach zatruwania danych granica klasyfikacji jest przesunięty, co prawdopodobnie spowoduje przewidywanie błędów oryginalnych danych treningowych skupionych wokół tej granicy. Można to również zrobić za pomocą techniki znanej jako STRIP, w której użytkownik sztucznej inteligencji celowo zmienia lub zakłóca wprowadzane dane i obserwuje zmianę podstawowej dokładności modelu. Najlepszym sposobem zapobiegania atakom zatruwania danych jest ciągłe utrzymywanie człowieka w pętli (np. usuwanie anomalii, gdy wystąpią do przeglądu), a także utrzymywanie przez cały czas nadzoru nad danymi i ich pochodzenia. W tej szybko rozwijającej się przestrzeni twórcy sztucznej inteligencji będą coraz częściej stawiać czoła przeciwnikom, którzy chcą je wykorzystać. W przypadku liderów w organizacjach korzystających ze sztucznej inteligencji najlepiej jest zachować postawę wysokiego poziomu bezpieczeństwa przed możliwymi atakami zatrucia, aby uniknąć stania się miękkim celem.

Ataki polegające na odwróceniu modelu ("prywatność")

Rozwój zestawów danych szkoleniowych AI i rozwój systemów AI to wielki biznes. Start-upy i duże przedsiębiorstwa dokonują znaczących wycen i mnożników handlowych w oparciu o wyższość ich sztucznej inteligencji lub bazowych danych. Nieodłącznym elementem tych wycen jest to, że sztuczna inteligencja jest własnością firmy. Oczekuje się, że będzie chroniony za pomocą najlepszych praktyk w zakresie cyberbezpieczeństwa, a także jako kluczowy element własności intelektualnej. Ale co, jeśli modele AI lub ich dane bazowe mogłyby zostać skradzione? Co gorsza, co by było, gdyby te aktywa mogły zostać skradzione nie w wyniku naruszenia bezpieczeństwa cybernetycznego, ale zamiast tego w wyniku ich wymaganej interakcji ze środowiskiem za pośrednictwem punktu końcowego, takiego jak kamera pojazdu, algorytm giełdowy lub wojskowe decyzje dotyczące dowodzenia i kontroli? Jak się okazuje, zarówno podstawowe dane, jak i modele sztucznej inteligencji mogą zostać skradzione poprzez pojawiające się ataki polegające na odwróceniu modelu. Ataki polegające na odwróceniu modelu mają miejsce, gdy przeciwnik próbuje ukraść Twój model AI lub powiązane dane szkoleniowe. Ponieważ ataki te mają na celu zabranie czegoś, co powinno być zastrzeżone, albo danych treningowych, albo samej sztucznej inteligencji, nazywane są również atakami na prywatność. Ataki polegające na odwróceniu modelu są jednym z najnowszych typów ataków na systemy sztucznej inteligencji. Jednak na rynkach obejmujących opiekę zdrowotną i usługi finansowe, a także firmy technologiczne podlegające RODO (ogólnemu rozporządzeniu o ochronie danych) i innym przepisom chroniącym prywatność konsumentów, ataki polegające na odwróceniu modelu stanowią nie tylko zagrożenie bezpieczeństwa, ale także poważne ryzyko zgodności dla firm. Silnie regulowane branże, firmy posiadające znaczną własność intelektualną w swojej sztucznej inteligencji oraz organizacje bezpieczeństwa narodowego, w tym Departament Obrony USA i społeczność wywiadowcza, muszą być w pełni świadome tych zagrożeń. Ataki polegające na odwróceniu modelu rozpoczęte przez badaczy próbujących zrozumieć, czy mogą odtworzyć dane treningowe modelu, analizując podjęte przez niego decyzje. W efekcie badacze ci próbowali ukraść podstawowe dane, odtwarzając je poprzez uważną obserwację sztucznej inteligencji. Teraz, jeśli jedynym celem twojej sztucznej inteligencji jest identyfikacja, kiedy twój pies je karmę dla kotów i tryskanie nią z automatycznego pistoletu na wodę, prawdopodobnie nie obchodzi cię zbytnio, czy twoje dane zostaną odtworzone i skradzione. Jeśli jednak szkolisz system sztucznej inteligencji w oparciu o zastrzeżone dane, takie jak dokumenty finansowe lub wysoce wrażliwe informacje, takie jak tajne dokumenty szpiegowskie, prawdopodobnie jesteś bardzo zaniepokojony konsekwencjami ujawnienia tych danych.

Kradzież danych

Aby zrozumieć, w jaki sposób można wykraść podstawowe dane, ważne jest, aby zrozumieć, w jaki sposób sztuczna inteligencja się uczy. Przypomnij sobie, że sztuczna inteligencja uczy się najpierw na zbiorze danych treningowych. Po przeszkoleniu sztuczną inteligencję można następnie zastosować do rzeczywistych danych, z którymi nie była wcześniej narażona. Wystawienie sztucznej inteligencji na dane spoza zestawu danych, znane jako uogólnione uczenie się sztucznej inteligencji, ma kluczowe znaczenie. To właśnie pozwala wyprowadzić sztuczną inteligencję ze środowiska szkoleniowego i narazić ją na rzeczywiste problemy. Gdyby mógł działać tylko w znanych, ustalonych warunkach, przypominałby opartą na zasadach klasyczną szkołę myślenia AI, porzuconą na rzecz uczenia maszynowego. Jednak w koncepcji, która graniczy z science fiction, AI mają wspomnienia. Całe pojęcie uczenia maszynowego opiera się na koncepcji tych pamięci AI i są one częścią tego, co sprawia, że wybór prawidłowych danych treningowych jest tak ważny. Podczas treningu sztuczna inteligencja uczy się wzorców w danych treningowych, które są następnie stosowane w innych miejscach. Ponieważ sztuczna inteligencja może być następnie pobierana i uruchamiana na nowych danych, sztuczna inteligencja z natury "zapamiętuje" dane, na których została przeszkolona, i dokonuje prognoz na podstawie tych informacji. Dzięki wielokrotnej interakcji z sztuczną inteligencją mogą pojawić się wzorce, które umożliwiają inżynierię wsteczną danych treningowych. Te ataki na prywatność danych zamieniają te wspomnienia sztucznej inteligencji w broń i umożliwiają kradzież zastrzeżonych, podstawowych informacji, które zostały użyte do jej szkolenia. Jednym z typowych podejść do zrozumienia podstawowych danych szkoleniowych sztucznej inteligencji jest sprawdzenie, czy fragment danych znajdował się w oryginalnym zbiorze treningowym. Można to zrobić nawet w sytuacjach, w których przeciwnik nie ma dostępu do sztucznej inteligencji poza punktem końcowym, podobnie jak atak polegający na unikaniu BlackBox. W jednym z przykładów zespoły badawcze AI zastosowały technikę znaną jako atak na wnioskowanie o członkostwie, aby rozpoznać różnice w przewidywaniach AI dotyczących danych wejściowych, które pierwotnie znajdowały się w zbiorze uczącym, w porównaniu z tymi, które nie były. To jest stosunkowo prosty przykład. Model po prostu dokonał lepszych prognoz na podstawie danych, które znajdowały się w oryginalnym zbiorze treningowym. Imponujące w tej prostej technice jest to, że okazała się skuteczna nawet przeciwko komercyjnym dostawcom "uczenia maszynowego jako usługi", takim jak Google i Amazon. Prawdziwy przykład szkód, jakie może wyrządzić atak oparty na wnioskowaniu o członkostwo, obejmuje wyciek danych osobowych ze szpitala. Wykorzystując tę samą technikę, co w przypadku klasyfikatorów Google i Amazon, badacze bezpieczeństwa AI byli w stanie z powodzeniem przetestować, czy określone osoby zostały włączone do systemu AI przeszkolonego na podstawie dokumentacji szpitalnej. Można to wykorzystać do sprawdzenia, czy niektórzy pacjenci cierpią na określony stan zdrowia, taki jak choroba przenoszona drogą płciową, o której woleliby nie być publicznie znani, jednocześnie narażając firmę zarządzającą sztuczną inteligencją na potencjalne naruszenie zgodności z HIPPA. W innym potencjalnym naruszeniu zgodności za pomocą ataków opartych na wnioskowaniu o członkostwo, zespoły były w stanie ustalić, czy wiadomość tekstowa użytkownika i dane o lokalizacji zostały użyte do szkolenia sztucznej inteligencji. Korzystając z metody, zespoły badawcze AI były w stanie określić, czy określeni użytkownicy używali swoich danych do szkolenia sztucznej inteligencji, podczas gdy sztuczna inteligencja była w użyciu. Ta technika może być przydatna dla użytkowników świadomych prywatności i organów regulacyjnych egzekwujących przepisy dotyczące ochrony danych, takie jak RODO. Odbyło się to bez bezpośredniego dostępu lub dostępu WhiteBox do sztucznej inteligencji, umożliwiając zarówno osobom fizycznym, jak i organom regulacyjnym sprawdzenie prywatności sztucznej inteligencji. Obrona przed atakami opartymi na wnioskowaniu o członkostwo jest trudna. Im więcej klas lub możliwych wyników ma sztuczna inteligencja, tym bardziej wrażliwy będzie model. Wynika to z faktu, że każda klasa zajmuje mniejszą część bazowego zestawu danych, co ułatwia określenie poprzez obserwację modelu. Jednak modele sztucznej inteligencji, takie jak modele bayesowskie, na których decyzje ma mniejszy wpływ pojedyncza instancja lub funkcja, są zwykle bardziej odporne na tego rodzaju ataki niż bardziej delikatne modele sztucznej inteligencji, takie jak drzewa decyzyjne. W silnie regulowanych branżach, takich jak usługi finansowe i opieka zdrowotna, oraz w przypadkach, w których należy zachować prywatność, wybór modelu AI należy dokładnie rozważyć pod kątem jego odporności na takie ataki. Ustalenie, czy fragment danych znajduje się w zestawie szkoleniowym, czy poza zestawem szkoleniowym, może mieć wpływ na prywatność i bezpieczeństwo. Jednak odtworzenie całego zestawu danych jest dalekie od odtworzenia. W ostatnich latach na popularności zyskała próba pełnego odtworzenia zbioru danych przy ograniczonym dostępie BlackBox lub GreyBox do modelu. Ataki te, znane jako ataki związane z ekstrakcją danych, szybko stają się głównym zagrożeniem dla bezpieczeństwa i prywatności organizacji posiadających zastrzeżone lub wrażliwe dane. Ale wciąż są w powijakach. W ciągu ostatnich kilku lat dokonano kilku znaczących przełomów w atakach polegających na ekstrakcji danych. Ataki te zostały sprawdzone w systemach sztucznej inteligencji stosowanych w medycynie, rozpoznawaniu twarzy i usługach finansowych, we wszystkich branżach, które mają wpływ na zgodność i bezpieczeństwo w przypadku wycieku tych informacji. W medycynie sztuczna inteligencja używana do przewidywania dawki leku została zaatakowana przy użyciu metody ekstrakcji danych. Zespół hakerski był w stanie wydobyć informacje genomowe poszczególnych pacjentów, które były wykorzystywane podczas szkolenia. W rozpoznawaniu twarzy hakerzy AI byli w stanie odtworzyć konkretne twarze osób wykorzystanych w zbiorze treningowym. W usługach finansowych hakerzy byli w stanie ukraść numery kart kredytowych i numery ubezpieczenia społecznego z generatora tekstu, który został przeszkolony na podstawie danych z instytucji finansowej. Częścią tego, co sprawia, że każde z tych trzech zastosowań sztucznej inteligencji jest tak podejrzane w przypadku ataków polegających na ekstrakcji danych, jest tak wiele unikalnych klas w każdym z nich. Ponieważ każda osoba, karta kredytowa, numer ubezpieczenia społecznego i kod genomowy są unikalne, łatwiej jest odtworzyć bazowy zestaw danych. Jednym z możliwych rozwiązań ataków na prywatność danych sztucznej inteligencji jest dziedzina zróżnicowanej prywatności. Te ramy teoretyczne mają na celu zapewnienie formalnej gwarancji, że model sztucznej inteligencji jest solidny, a jednocześnie ma efekt uboczny w postaci zwiększenia prywatności systemów sztucznej inteligencji. Jako formalna definicja, prywatność różnicowa próbuje udowodnić, że dwa modele różniące się dokładnie o jedną próbkę dostarczą podobnych prognoz. Oznacza to, że niemożliwe byłoby wywnioskowanie tej próbki. W praktyce prywatność różnicowa działa poprzez wprowadzanie szumu, czasami określanego jako losowość, do systemu sztucznej inteligencji. Wstrzykiwanie szumu może mieć postać danych wejściowych do danych treningowych, parametrów modelu lub danych wyjściowych modelu. Każdy z tych zastrzyków szumu utrudnia wyodrębnienie podstawowych danych. Różnicowa prywatność nie jest jednak tania. Im bardziej chcesz ukryć swoje podstawowe dane, tym więcej musisz zapłacić za wygenerowanie szumu. W przypadku małych zbiorów danych może to być stosunkowo tanie. Jednak w przypadku dużych zbiorów danych, takich jak dane dotyczące wizji komputerowej, opieki zdrowotnej lub dokumentacji finansowej, koszty mogą być dość wysokie. Organizacje muszą zatem przydzielić budżet na prywatność w ramach swojego szerszego budżetu na sztuczną inteligencję i analizę danych podczas opracowywania modeli na danych, które muszą być ukryte. Kradzież lub odtworzenie bazowych danych szkoleniowych modelu może narazić organizację na poważne ryzyko prawne, zgodności i bezpieczeństwa. Przed udostępnieniem publicznie dostępnego punktu końcowego sztucznej inteligencji organizacje używające sztucznej inteligencji muszą przejść rygorystyczną kontrolę prywatności i zgodności. W związku z tym szybkość rozwoju i stosowania sztucznej inteligencji będzie wymagać kompromisów, ale w branżach o wysokim poziomie bezpieczeństwa lub w branżach silnie regulowanych alternatywne koszty wycieku poufnych danych są zbyt wysokie.

Kradzież modelu

W hipotetycznym jutrze prezes funduszu hedgingowego obudzi się podekscytowany. Dzisiaj jest dzień, w którym zamierza włączyć swoje nowe narzędzie, trAId, automatyczną sztuczną inteligencję do handlu akcjami. Ta sztuczna inteligencja znacznie wykracza poza sztuczną inteligencję konkurencji. Jest w stanie analizować dane finansowe, dostarczać wiadomości i raporty, wyświetlać zdjęcia satelitarne kontenerów transportowych, a nawet śledzić nastroje handlowców. Dzięki nowej, zaawansowanej architekturze przetwarzania rozproszonego Twój trAId jest w stanie podejmować decyzje dotyczące przyszłych zmian na rynku na kilka sekund, zanim dowie się o nich Twoja konkurencja. Dyrektor naczelny pije kawę i spogląda ze swojego mieszkania na Manhattanie na wschód, podziwiając nieustanne wymyślanie brooklyńskiego nabrzeża. "To będzie dobry dzień" - myśli. Dzień zaczyna się dobrze. Po krótkim przemówieniu do jej najlepszych handlowców, radców prawnych i analityków danych w jej centrali w centrum Anhattanu, dyrektor generalny wydaje polecenie rozpoczęcia TRAID. I ruszaj na wyścigi. Jeszcze przed otwarciem rynku sztuczna inteligencja obstawia zakłady na rynkach kontraktów terminowych, przewidując zmiany rynkowe w oparciu o wiadomości z Bliskiego Wschodu, które nie dotarły jeszcze do międzynarodowych sieci. Kiedy rynek się otwiera, sztuczna inteligencja przechodzi na wyższy bieg, obstawiając zakłady szybciej, niż ludzie są w stanie nadążyć. Na szczęście dyrektor generalny zainwestował również w najnowocześniejsze narzędzia do analizy ryzyka, aby upewnić się, że trAId nie robi nic zbyt ryzykownego. W ciągu pierwszych sześciu miesięcy trAId znacznie przewyższa rynek. Inwestorzy prezes są zadowoleni, a ona jest w stanie dodać kilka miliardów dolarów do swoich zarządzanych aktywów. Ale potem powoli trAId zaczyna generować coraz mniej alfa w stosunku do rynku. Dyrektor generalny nie śpi noc po nocy z zespołem zajmującym się analizą danych, próbując zrozumieć, co się dzieje. Wydaje się, że czasami trAId jest w stanie podjąć właściwą decyzję mając wystarczająco dużo czasu na zawarcie dobrej transakcji. Jednak innym razem wydaje się, że ktoś inny już tam dotarł, kompresując spready na każdej transakcji i obniżając zwroty z funduszu. To było prawie tak, jakby ktoś równolegle prowadził własny, dokładny system trAId. Ogarnięta paranoją, że skradziono jej nagrodę i radość, dyrektor generalny przeprowadza dokładne dochodzenie w sprawie cyberbezpieczeństwa. Wszystkie wewnętrzne logi są audytowane, komputery pracowników są dokładnie analizowane, a ruch w sieciach firmowych jest dokładnie badany. Podczas gdy niektórzy podwładni są badani za wysyłanie plików e-mailem na konta zewnętrzne, wszystkie one zostały odrzucone jako nieszkodliwe, takie jak potwierdzenia podróży i wizyty w służbie zdrowia. Kosztowna analiza danych przeprowadzona przez CEO nic nie daje, a jej zespół hakerski WhiteHat stwierdza, że przekracza ona standardy cyberbezpieczeństwa usług finansowych. Mówią, że jest mało prawdopodobne, aby ktokolwiek był w stanie włamać się i ukraść model i dane treningowe, nie dając się złapać. Ale ci specjaliści od cyberbezpieczeństwa szukali w niewłaściwym miejscu. Dyrektor generalny miał rację, że model został skradziony, ale nie było to naruszenie cyberbezpieczeństwa. Został skradziony podczas modelowego ataku inwersyjnego. Gdybyś miał opuścić biuro dyrektora generalnego i przelecieć nad East River, a następnie obok hipsterskiej dzielnicy Williamsburg, znalazłbyś się w wciąż niespokojnej dzielnicy Bushwick. Graniczy z kanałem Superfund i starymi magazynami, zespół hakerów AI w naszej hipotetycznej przyszłości uważnie obserwował zwyczaje handlowe trAId. Skontaktowała się z nimi nienazwana strona trzecia, prawdopodobnie konkurencyjny fundusz hedgingowy, aby odtworzyć trAId najlepiej jak potrafili. Skuteczne monitorowanie sztucznej inteligencji było kosztowne. Czasami zespół musiałby sam dokonywać transakcji, więc ich sponsor dał im kilka milionów dolarów do wykorzystania, ucząc się naśladować transakcje trAId. Początkowo zespół uważał, że inżynieria wsteczna sztucznej inteligencji jest niemożliwa bez dostępu do wyników pewności maszyny. Potem zdali sobie sprawę, że trAId obstawiał większe zakłady, im bardziej był pewny swojej prognozy. Uzbrojony we wnioskowanie GreyBox i możliwość zawierania dużych transakcji i obserwowania reakcji trAId, zespół hakerów AI miał wszystko, czego potrzebowali, aby ukraść AI. Ten hipotetyczny scenariusz jutra nie dotyczy najbliższej przyszłości. Ataki te są znane jako ataki polegające na odwróceniu modelu. Jednak podobnie jak w przypadku ataków polegających na unikaniu, wykazano, że ataki polegające na odwróceniu modelu są nie tylko możliwe, ale także dość skuteczne, gdy przeciwnik ma dostęp do modelu w GreyBox. Na przykład firmy zajmujące się uczeniem maszynowym jako usługą zapewniają dostęp do punktu końcowego swojego modelu za pośrednictwem interfejsu programowania aplikacji (powszechnie określanego skrótem API). Ten punkt końcowy daje przeciwnikom możliwość wysyłania zapytań do sztucznej inteligencji lub obserwowania jej działań w inny sposób. W niektórych przypadkach wystarczy to do odtworzenia lub kradzieży leżącej u podstaw logiki AI. Jako zastrzeżenie, istnieje wiele sposobów, w jakie fundusze hedgingowe mogą ukryć swoje działania, na przykład poprzez handel na wielu giełdach lub poprzez ciemne pule, co ograniczyłoby możliwość potencjalnego przeciwnika do zebrania przydatnych informacji wywiadowczych potrzebnych do stworzenia modelu ataku inwersyjnego . Tymczasem nadal trzeba przeprowadzić znaczną liczbę badań, aby zrozumieć, w jaki sposób zespoły mogą faktycznie kraść modele w prawdziwym świecie bez powiązanego z tym ataku cybernetycznego. Niedawne ataki polegające na wyodrębnianiu modeli wymierzone były głównie w dostawców uczenia maszynowego jako usługi, w tym BigML i Amazon. Zdumiewające i być może niepokojące, że proste, skuteczne ataki były w stanie wyodrębnić modele AI z niemal idealną wiernością od tych dużych firm, w tym popularne typy modeli, takie jak regresja logistyczna, sieci neuronowe i drzewa decyzyjne. Jeśli modele uczenia maszynowego jako usługi Amazon nie są bezpieczne, czy Twoje? Ataki na ekstrakcję modelu są dziś rzadkością. Dzieje się tak przede wszystkim dlatego, że wciąż rozwijane są metodologie statystyczne i testowe. Ale fakt, że obecnie nie są one powszechne, nie oznacza, że zespoły analityków danych i liderzy organizacji nie powinni się martwić. Aby zapobiec tego rodzaju atakom, organizacje muszą uważać, aby nie podawać zbyt wielu informacji na temat punktu końcowego swojej sztucznej inteligencji. Proste metody, takie jak ujawnianie tylko twardych etykiet lub grupowanie wyników zaufania w kilka kategorii, są łatwe do wdrożenia i utrudniają kradzież podstawowego modelu. Aktywne monitorowanie sztucznej inteligencji pod kątem dziwnych interakcji, takich jak tysiące zapytań w krótkim czasie przez tego samego użytkownika, może być również łatwe do wdrożenia i zapewnia stosunkowo tanie sposoby zapobiegania atakom polegającym na ekstrakcji modelu. Ponieważ sztuczna inteligencja przyspiesza do zastosowań, które stale wchodzą w interakcję z rynkami, użytkownikami lub otaczającym ich światem, ważne jest, aby te krytyczne zasoby własności intelektualnej były chronione przed kradzieżą.

Interpretacja sztucznej inteligencji poprzez hakowanie

W hybrydzie ataków polegających na odwróceniu modelu i atakach polegających na unikaniu jest rozmyty świat nadzoru modeli poprzez manipulację przeciwnika. Prace badawcze przeprowadzone przez wojskową i wywiadowczą firmę kontraktową Booz Allen pokazują, że modele GreyBox i BlackBox można zrozumieć, ostrożnie podając im próbki przeciwników. Te próbki nie muszą nawet hakować klasyfikatora. Zamiast tego, dostarczając sztucznej inteligencji szybkie, spójne i udokumentowane perturbacje przeciwników oraz obserwując, jak sztuczna inteligencja klasyfikuje sposób, w jaki model przerywa dane wejściowe, przeciwnicy mogą dowiedzieć się więcej o logice leżącej u podstaw samego modelu. Inwigilacja AI z wykorzystaniem perturbacji wroga to technika, która będzie coraz częściej włączana do operacji wywiadowczych i cyberrozpoznawczych. Z opcji tych mogą skorzystać podmioty państwowe, takie jak zagraniczne siły zbrojne i ich oddziały, a także podmioty niepaństwowe, w tym przestępcy. Informacje te mogą zostać wykorzystane do stworzenia innego rodzaju hakowania AI, takiego jak unikanie lub atak z odwróceniem modelu, lub mogą po prostu zostać wykorzystane jako część ciągłego gromadzenia danych wywiadowczych przez przeciwnika do potencjalnego późniejszego wykorzystania. W CalypsoAI ukuliśmy wyrażenie "wyjaśnialność operacyjna", aby opisać tę technikę inwigilacji. Wyobraziliśmy sobie świat, w którym zarówno strategiczni operatorzy cyberwojny, tacy jak jednostki 1B4 Sił Powietrznych Stanów Zjednoczonych, jak i bardziej operacyjne elementy, takie jak żołnierze sił specjalnych, w terenie będą miały dostęp do łatwych w obsłudze silników perturbacyjnych. Silniki te mogą być używane do wysyłania zapytań do sztucznej inteligencji w celu uzyskania jak największej ilości informacji w krótkim czasie przy użyciu tych technik. Na przykład, jeśli zespół sił specjalnych próbowałby uzyskać dostęp do obszaru z wszechobecną inwigilacją AI, mógłby szybko skonfigurować komputerowy silnik perturbacji obrazu, aby przeszukiwać sztuczną inteligencję w celu potencjalnego wygenerowania przydatnych informacji. To powiązanie człowiek-AI-wywiad prawdopodobnie będzie jednym z decydujących elementów gromadzenia danych wywiadowczych w nadchodzących latach. Łagodzenie tego rodzaju nadzoru może pomóc ograniczyć prawdopodobieństwo, że przeciwnik przeprowadzi udany atak w przyszłości. Techniki te są podobne do obrony przed atakami polegającymi na odwróceniu modelu i obejmują przede wszystkim ograniczenie ilości informacji dostarczanych przez punkt końcowy sztucznej inteligencji z wyjątkiem zaufanych użytkowników oraz ograniczenie szczegółowości informacji do szerszych segmentów. Uniemożliwiając przeciwnikowi zdobycie wiedzy o twojej sztucznej inteligencji, możesz zapobiec przyszłym atakom.

Ataki zaciemniające

Ostatni rodzaj włamania do systemu sztucznej inteligencji jest interesujący, ponieważ wykorzystuje zdolność maszyny do szybszego myślenia niż ludzie, co pozwala na wprowadzanie do maszyny celowo manipulowanych danych w taki sposób, że maszyna nadal zachowuje się poprawnie na wejściu. Jeśli wydaje się to mylące, to jest. Ataki te wykorzystują przewagę AI w przetwarzaniu danych nad ludźmi. Jest to niepokojące, ponieważ oznacza, że ataki te mają miejsce na widoku, ale nadal pozostają ukryte dla ludzkich obserwatorów. Ataki zaciemniające to ataki, które ukrywają dane w innych danych w celu uzyskania dostępu do systemu sztucznej inteligencji i ostatecznego jego zhakowania. Różnią się one od ataków polegających na unikaniu lub zatruwaniu, ale mogą również obejmować te techniki jako swój ostateczny ładunek. Tym, co wyróżnia atak zaciemniający, jest to, że sztuczna inteligencja nie może zostać oszukana w trakcie procesu, ale podstawowe dane wejściowe są ukryte w kanale pozyskiwania danych, co pozwala atakowi pozostać niezauważonym. Podstawowym tego przykładem są dane szeptane dla sztucznej inteligencji audio. Wyobraź sobie, że jest rok 2024. Masz niespokojnego malucha, który nie przestanie ci przeszkadzać podczas pracy w domu w jedno letnie popołudnie. Jest gorąco i desperacko masz ochotę na popołudniowe piwo, ale musisz odbyć jeszcze tylko jedno połączenie konferencyjne. Chcąc skupić się na rozmowie, dajesz maluchowi iPada i ustawiasz go na bezmyślną stację YouTube dla dzieci. Małe zwierzęta śpiewają chwytliwe piosenki na ekranie, a maluch skupia się na jasnych kolorach i animacji, a co najważniejsze, nie na tobie. "Alexa", mówisz do swojego asystenta głosowego, "dodaj więcej IPA do mojego zamówienia Whole Foods". To jeszcze tylko jedno połączenie. Nie wiesz, że zostałeś już zhakowany. W większości filmy i piosenki dla dzieci są nieszkodliwe. Są to proste melodie i postacie stworzone przez narzędzie AI. Te melodie są przeznaczone dla maluchów i nawet nieco starsze dzieci szybko się nimi nudzą. Ale kolory i urocze twarze zwierząt są dokładnie tym, czego potrzeba maluchom, aby zapewnić im rozrywkę. W rzeczywistości wideo ma dziesiątki tysięcy wyświetleń. Te cechy opisują setki filmów dostępnych w popularnych serwisach streamingowych, a każdego dnia pojawia się ich coraz więcej. Podczas odtwarzania piosenek jedna piosenka zawiera ukrytą wiadomość. W przeciwieństwie do rzekomych szatańskich wiadomości podprogowych ukrytych na starych płytach winylowych, wiadomości te są przeznaczone wyłącznie dla sztucznej inteligencji i nie mają być odszyfrowane przez ludzi. W rzeczywistości twórcy wiadomości posunęli się tak daleko, że ukryli swoją wiadomość za pomocą danych szeptanych, które są ukryte dla ludzkiego ucha z powodu niedoskonałości ludzkiego słuchu. Ale kiedy maszyna zakończy transformację sygnału wejściowego audio na kod odczytywalny maszynowo, komunikaty te stają się dla maszyny zakodowane na stałe. Ponieważ Alexa nie zna pochodzenia poleceń teraz, gdy są one zapisane w kodzie do odczytu maszynowego, po prostu wykonuje żądanie potwierdzenia nowej transakcji bankowej. Twój bank niedawno opracował integrację z Alexą, aby pomóc w zakupach online i mobilności bez użycia rąk. Pojedynczo żaden z tych systemów - odtwarzanie utworów, Alexa czy integracja bankowa - nie stanowił zagrożenia. Ale razem ten nowy system był podatny na atak nowego typu. Padłeś ofiarą włamania AI. Jeśli ten atak wydaje się naciągany, powinieneś się martwić. Wykonano już jego wariant. W 2018 r. naukowcom z laboratorium sztucznej inteligencji w Niemczech udało się manipulować działaniami urządzenia Alexa, odtwarzając nagranie dźwiękowe ptaków ćwierkających w zasięgu słuchu urządzenia asystenta głosowego Amazon. Dla badaczy i każdego słuchającego człowieka odtwarzane nagrania brzmiały nie do odróżnienia od śpiewu ptaków śpiewających. Jednak w nagraniu ukryte były dane, których ludzkie ucho nie zarejestrowało, ale zrobił to asystent głosowy w pokoju. Odtwarzając nagranie na urządzeniu, naukowcy byli w stanie ukraść osobiste dane bankowe i finansowe właściciela urządzenia oraz dokonać wielu nieautoryzowanych zakupów. Wszystko to wydarzyło się, a ludzcy obserwatorzy w pobliżu nie stali się mądrzejsi. Naukowcy zhakowali Alexę, oszukując dwa systemy: sztuczną inteligencję asystenta głosowego i ludzkie ucho. Oszukanie tego pierwszego polegało na zrozumieniu procesu matematycznego (mianowicie transformaty Fouriera), którego asystent głosowy używa do przekształcania danych audio w kod odczytywalny maszynowo. Gdy zrozumieli ten proces, naukowcy byli w stanie stworzyć dane dźwiękowe, które po przekształceniu brzmiałyby tak, jak ludzkie polecenie głosowe. Naukowcy zhakowali także ludzkie ucho - w końcu eksperymentalna technika ataku byłaby bezużyteczna, gdyby jakakolwiek osoba w zasięgu słuchu była w stanie ją natychmiast wykryć. Według Fast Company: "Ich metoda, zwana" ukrywaniem psychoakustycznym ", pokazuje, w jaki sposób hakerzy mogą manipulować każdym rodzajem fali dźwiękowej … zawierać słowa, które słyszy tylko maszyna, umożliwiając im wydawanie poleceń bez zauważenia przez osoby znajdujące się w pobliżu". Krótko mówiąc, kiedy ludzie przetwarzają dźwięk emitowany z określoną częstotliwością, nasze uszy automatycznie blokują inne, cichsze dźwięki o tej częstotliwości na kilka chwil. Daje to wystarczająco dużo czasu, aby przemycić polecenia, które usłyszą maszyny, ale ludzie nie. Po zhakowaniu procesu matematycznego Alexa do kodowania dźwięku i ludzkiego ucha badacze byli w stanie wydać serię poleceń, które umożliwiły im dostęp do osobistych informacji finansowych właściciela urządzenia i wykorzystanie ich na różne sposoby. Ci napastnicy byli badaczami, więc zagrożenie leżące u podstaw ich działań było ograniczone. Trzeba przyznać, że Amazon szybko załatał luki logiczne, które umożliwiły przeprowadzenie tego ataku. Ataki zaciemniające mają miejsce przede wszystkim w systemach AI, które wchodzą w interakcje z ludźmi, takich jak asystenci głosowi, samojezdne samochody i wojskowe systemy uzbrojenia. Celem ataku polegającego na zaciemnianiu jest ukrycie złośliwych danych w sposób, który jest ignorowany przez człowieka, ale maszyna rejestruje się jako dane wejściowe. Ponieważ samo wejście jest nienaruszone i nie ma żadnych zakłóceń, różni się ono charakterem od unikania lub ataku zatruwającego. Niestety obrona przed atakami zaciemniania jest ograniczona, ponieważ przez cały atak maszyna zachowuje się zgodnie z przeznaczeniem. Po prostu ludzkie zmysły mają wbudowane opóźnienia i przeciążenia sensoryczne, co powoduje, że maszyny są bardziej spostrzegawcze. Zespoły ds. zarządzania ryzykiem modeli AI powinny być świadome zagrożeń stwarzanych przez ataki zaciemniające i powinny okresowo sprawdzać lokalną interpretację poszczególnych decyzji AI. Lokalna interpretacja próbuje określić i procentować wagi, jakie różne cechy odgrywały w wyborze odpowiedzi przez sztuczną inteligencję. Można go użyć do audytu ataków zaciemniających, sprawdzając, które funkcje zostały użyte do określenia prognozy. Należy powołać zespół ds. zarządzania ryzykiem modeli wraz z procedurami, za pomocą których zmiany lub anomalie w lokalnej interpretowalności systemów sztucznej inteligencji są natychmiast oznaczane, co może pomóc ograniczyć potencjalne szkody spowodowane atakami zaciemniającymi.

Rozmowa z AI: interpretowalność modelu

Victor Ardulov wygląda jak rosyjski naukowiec. Ma zaniedbaną brodę i nieład włosów na szczycie szczupłej budowy ciała. Mógł być biegaczem lub ascetą. W rzeczywistości jest trochę jednym i drugim. Dorastał w Kalifornii w rodzinie imigrantów. Victor rozpoczął karierę jak wiele dzieci inżynierów z Doliny Krzemowej. Budował roboty i uczył się kodować jeszcze przed maturą. Na studiach dostał prestiżowe staże w Laboratorium Napędu Odrzutowego NASA w CalTech. Następnie rozpoczął pracę nad projektami dla DARPA. Ta agencja, znana jako mózg Pentagonu, dokonała postępów naukowych, począwszy od Internetu, a skończywszy na myśliwcach stealth. Praca nad projektami dla DARPA oznacza, że pracujesz w czołówce fundamentalnych osiągnięć naukowych. Dziedzina specjalizacji Victora pierwotnie obejmowała gałąź robotyki zwaną teorią sterowania. Ogólnie rzecz biorąc, teoria sterowania ma na celu optymalizację procesów maszyn lub zachowań robotów w celu zminimalizowania błędów. Teoria sterowania jest niezwykle ważna w zaawansowanej robotyce i maszyn. "Naprawdę zacząłem się zastanawiać, jak steruje się robotami i jak zoptymalizować ich zachowanie" - mówi mi Victor. Mówiąc o teorii sterowania lub jakimkolwiek temacie, który go pasjonuje, Victor może mówić w nieskończoność. Odnajduje ogromną radość w wyjaśnianiu innym niuansów skomplikowanych tematów. Może to być niezwykle pouczające "Ponieważ robotyka rozwija się w kierunku coraz bardziej złożonych systemów, zacząłem również pracować ze sztuczną inteligencją. Przede wszystkim zacząłem pracować z wizją komputerową jako częścią całego systemu. To z kolei skłoniło mnie do rozpoczęcia testowania obszarów awarii komputerowych wizji i robotów. Naprawdę chciałem zrozumieć, dlaczego mogą zawieść. To znaczy, na pewno mogą zawieść. Z setek powodów. Awaria lub degradacja czujnika, nieprawidłowe dane wejściowe i tym podobne. Ale kiedy chcesz wiedzieć, dlaczego konkretnie im się nie udało, wtedy sprawy się trochę komplikują. Praca Victora nad programami DARPA doprowadziła go do pracy nad najnowocześniejszą robotyką i badaniami nad sztuczną inteligencją. Napotkał jednak trudności w zrozumieniu, dlaczego system sztucznej inteligencji może zawieść. "Potrzebowaliśmy maszyn, które nam wszystko wyjaśnią" - wspomina. "Ale nie byli w stanie. Nie możesz po prostu zapytać sztucznej inteligencji: "Hej, dlaczego to schrzaniłeś?". Jego badania tutaj ostatecznie doprowadziły go do dziedziny uczenia maszynowego przeciwnika, a później do sprawdzania poprawności systemów sztucznej inteligencji. Ale tam, gdzie zaczął, rozumiejąc awarie sztucznej inteligencji, zwraca uwagę na krytyczny składnik sztucznej inteligencji. Trudno to zrozumieć. Jeśli naukowcy z DARPA nie mogą łatwo zrozumieć sztucznej inteligencji, jak opinia publiczna może ufać, że zrobi to, co należy? Interpretowalność sztucznej inteligencji, zwana także wyjaśnialnością sztucznej inteligencji i XAI, szybko stała się kluczowym elementem inicjatyw AI w przedsiębiorstwach. Interpretowalność sztucznej inteligencji to zdolność systemu sztucznej inteligencji do komunikowania powodu podjęcia określonej decyzji. Taki wgląd ma kluczowe znaczenie dla regulowanych branż, które nie mogą polegać na sieciach neuronowych czarnych skrzynek, a także może dostarczać istotnych informacji na temat uprzedzeń i bezpieczeństwa sztucznej inteligencji. Potrzeba zaufania do systemów sztucznej inteligencji jest w coraz większym stopniu zarówno przedmiotem troski, jak i obszarem inwestycji w społeczności sztucznej inteligencji. Interpretowalność sztucznej inteligencji jest postrzegana jako zdolność do zrozumienia, w możliwym zakresie, logiki sztucznej inteligencji. To, w połączeniu z kontrolą jakości, bezpieczeństwem, zgodnością i innymi środkami, idealnie doprowadzi do poziomu publicznego zaufania do sztucznej inteligencji potrzebnego do zastosowań na dużą skalę. Wyzwanie, któremu próbuje sprostać interpretacja sztucznej inteligencji, polega na tym, że wielu najpopularniejszych modeli sztucznej inteligencji, a mianowicie sieci neuronowych głębokiego uczenia, nie można zbadać po fakcie. Uniemożliwia to użytkownikom dokładne poznanie, dlaczego sztuczna inteligencja doszła do takiego wniosku. Ponieważ zamiar jest tak kluczowym elementem naszego systemu prawnego i moralnego, generalnie chcemy wiedzieć, dlaczego podjęto działanie. Próby interpretowalności przypisują intencję AI. Trzy podstawowe pytania, na które próbuje odpowiedzieć interpretacja sztucznej inteligencji, to: dlaczego system sztucznej inteligencji dokonał określonej prognozy lub decyzji?, dlaczego system sztucznej inteligencji nie zrobił czegoś innego? oraz kiedy system sztucznej inteligencji odniósł sukces, a kiedy się nie powiódł? Odpowiadając na te pytania, twórcy sztucznej inteligencji i kierownictwo organizacji mają nadzieję uzyskać wystarczający wgląd w intencje sztucznej inteligencji, aby jej zaufać. Najłatwiejszym sposobem wyjaśnienia sztucznej inteligencji jest niestosowanie technik, które czynią ją nieprzejrzystą. Całkiem proste, prawda? Ale w grę wchodzą kompromisy. Na przykład prostsze formy uczenia maszynowego, w tym drzewa decyzyjne i klasyfikatory bayesowskie, są stosunkowo łatwe do zinterpretowania. W wielu przypadkach użycia te typy modeli są wystarczające do uzyskania wymaganej jakości sztucznej inteligencji. Ogólnie rzecz biorąc, im prostszy model AI, tym łatwiej go zrozumieć. W nauce o danych na ogół słyszy się o tym jako o brzytwie Ockhama. Oznacza to, że najprostszy model jest zawsze najlepszy, z zastrzeżeniem, że do niektórych zadań potrzebne są bardziej złożone modele. Tak więc właściwym sposobem określenia brzytwy Ockhama AI jest użycie najprostszego modelu w celu uzyskania wymaganej wydajności AI. Potężniejsza sztuczna inteligencja, w tym sieci neuronowe, metody zespołowe, w tym lasy losowe i inne, dokonują kompromisu między interpretowalnością a generowanymi spostrzeżeniami. Jednym z ważnych powodów, dla których twórcy sztucznej inteligencji chcą używać sztucznej inteligencji, nie jest intuicyjność. To dlatego, że AI to oszuści. Oznacza to, że systemy sztucznej inteligencji często błędnie uczą się na podstawie danych, aby wyciągać wnioski, których tam nie ma. Czasami jest to spowodowane stronniczością w systemie. Interpretowalna sztuczna inteligencja może być zatem niezwykle pomocna w określaniu, czy określone grupy rasowe są traktowane inaczej przez model. Często dzieje się tak z powodu czegoś w danych, które maszyna widziała, czego ludzie nawet nie pomyśleli. W jednym przykładzie akademicki zespół badawczy, z którym pracowałem, opowiedział mi o komputerowym modelu wizyjnym do identyfikacji koni. Zasadniczo po prostu szkolili model do wykrywania koni na obrazie. Używali obrazów zeskrobanych z Internetu, aby skompilować swój zestaw treningowy. Ich model działał zdumiewająco dobrze na danych treningowych, ale konsekwentnie zawodził, gdy próbowali go użyć w prawdziwym świecie. Dlaczego? Ponieważ właściciele koni najwyraźniej mają też lepsze aparaty i telefony komórkowe. Klasyfikator AI nauczył się patrzeć nie na obraz, ale na metadane powiązane z obrazem, aby określić, czy prawdopodobnie jest to zdjęcie konia, czy nie, przed przejrzeniem zdjęcia. Chociaż działało to świetnie w przypadku danych treningowych, prowadziło do problemów z implementacją. Posiadanie interpretowalnej sztucznej inteligencji pomaga złagodzić wyzwanie związane z oszukiwaniem sztucznej inteligencji. Modele, które są wystarczająco proste, aby można je było łatwo zinterpretować, mają "wewnętrzną interpretowalność". Te modele, które są bardziej złożone, mówi się, że wymagają interpretacji "post hoc". Post hoc oznacza trenowanie złożonego, nieprzejrzystego modelu, a następnie stosowanie metod obejmujących ważność funkcji i częściowe wykresy zależności po fakcie. Metody te dają pewien wgląd w przyczyny przewidywania modelu. Modele z wewnętrzną interpretowalnością zwykle mają własny zestaw narzędzi do ich interpretacji, takich jak współczynniki, wartości p, wyniki AIC dla modelu regresji lub reguły z decyzji tree. Testy te są znane jako narzędzia interpretacyjne specyficzne dla modelu. Modele wymagające interpretacji post hoc wymagają tak zwanych narzędzi interpretacji niezależnej od modelu. Obejmują one przede wszystkim przyglądanie się perturbacjom we wprowadzanych danych i przyglądanie się różnicom między parami wejście-wyjście. Wykorzystanie perturbacji danych do przyjrzenia się różnicy między parami wejście-wyjście jest również przydatne przy badaniu podatności modelu na atak, a także naturalnie występujących naprężeń modelu w oparciu o warunki środowiskowe. Metody te są zatem kluczowym elementem zrozumienia elementów bezpieczeństwa sztucznej inteligencji, a także zgodności z przepisami i prawem. DARPA dzieli interpretację AI na trzy kategorie. Po pierwsze, dokładność przewidywania. Czasami nazywane metrykami wydajności, oznacza to wyjaśnienie, jak dobry jest model w określonym zadaniu. Drugi to określanie rozumienia decyzji od maszyny do człowieka. Ten krok polega na znalezieniu sposobu komunikowania, które cechy kluczowego fragmentu danych doprowadziły do wyjścia. W przypadku wizji komputerowej często można to zwizualizować jako mapę termiczną na obrazie, wyszczególniającą dokładnie, które sekcje obrazu doprowadziły sztuczną inteligencję do wyciągnięcia wniosków. W przypadku innych typów danych komunikacja decyzyjna obejmuje histogramy, wykresy lub wykresy rozrzutu przedstawiające względną ważność funkcji. Dzięki tym prostym wykresom ludzie w pętli mogą określić, czy sztuczna inteligencja uczy się właściwych rzeczy na podstawie danych, zamiast znajdować niewłaściwy wzorzec. Wreszcie, DARPA chce, aby maszyny miały introspekcję i identyfikowalność. Umożliwi to ludziom badanie decyzji po fakcie pod kątem kryminalistyki AI, a także umożliwi sztucznej inteligencji zbadanie własnego procesu decyzyjnego i stwierdzenie, czy coś jest nie tak. Możliwość interpretacji sztucznej inteligencji jest szczególnie ważna w sektorach silnie regulowanych. Podczas gdy użytkownicy systemu sztucznej inteligencji będą chcieli wiedzieć, dlaczego model daje określoną prognozę, aby upewnić się, że uczy się właściwych rzeczy, organy regulacyjne chcą mieć pewność, że sztuczna inteligencja jest uczciwa i przejrzysta. Ich troską jest przede wszystkim ochrona konsumentów i społeczeństwa przed niesprawiedliwym traktowaniem, a także potencjalnymi problemami związanymi z bezpieczeństwem. Chociaż istnieje niewiele kompleksowych ram regulacyjnych dla możliwej do interpretacji sztucznej inteligencji, organy regulacyjne, w tym Food and Drug Administration (FDA) oraz Komisja Papierów Wartościowych i Giełd (SEC), zaczęły wydawać publiczne oświadczenia wskazujące na regulacje w najbliższej przyszłości. Zespoły analityków danych i liderzy korporacyjni muszą zatem być dobrze dostrojeni do zmian przepisów w swoim sektorze, aby ich sztuczna inteligencja nie wpadła w konflikt z przyszłymi wymogami dotyczącymi zgodności. Do tej pory dziedzina interpretowalnej sztucznej inteligencji pozostaje w powijakach, ale szybko wyłania się jako główny obszar badań. Tylko w 2019 r. prawie tuzin dobrze finansowanych start-upów otrzymało fundusze na rozwiązanie problemów związanych z interpretacją sztucznej inteligencji za pomocą rozwiązań programistycznych i zestawów programistycznych. W 2016 r. M. T. Ribeiro, S. Singh i C. Guestrin przedstawili wyjaśnienia LIME (ang. Local Interpretable Model-Agnostic Explanations) na konferencji SIGKDD zorganizowanej przez stowarzyszenie Association for Computing Machinery's Special Interest Group on Knowledge Discovery and Data Mining. Wprowadzili framework przede wszystkim jako sposób na zbudowanie zaufania do maszyny AI. Jak mówią w swoim artykule przedstawiającym LIME: "Zrozumienie przyczyn prognozowania jest jednak dość ważne w ocenie zaufania, co jest fundamentalne, jeśli planuje się podjęcie działań w oparciu o prognozę lub przy podejmowaniu decyzji o wdrożeniu nowego modelu. Niezależnie od tego, czy ludzie bezpośrednio używają klasyfikatorów uczenia maszynowego jako narzędzi, czy wdrażają modele w innych produktach, pozostaje istotna obawa: jeśli użytkownicy nie ufają modelowi lub prognozie, nie będą jej używać". Ekspansja w dziedzinie interpretowalności sztucznej inteligencji prawdopodobnie znacznie przyspieszy wdrażanie sztucznej inteligencji w organizacjach, które obecnie unikają sztucznej inteligencji z powodu obaw o jej nieprzejrzystość. Zwiększy to zaufanie, a tym samym adopcję. Słyszałem o tych obawach w drodze z Fort Belvoir North. Jako siedziba National Geospatial-Intelligence Agency (NGA), Fort Belvoir North nie ma szumu wokół siedziby CIA w Langley ani Pentagonu Departamentu Obrony. Położony pomiędzy kilkoma autostradami, które przecinają Północną Wirginię, budynek jest ogromny. Mieści 8500 pracowników, a przy powierzchni 2,77 miliona stóp kwadratowych jest trzecim co do wielkości budynkiem w obszarze metropolitalnym DC3. Jednak większość Amerykanów nigdy o nim nie słyszała. Ale z pewnością na tym polegają. Patrzą na rzeczy bardzo szczegółowo, głównie z kosmosu. Jest to budynek, przez który przechodzą wszystkie informacje geoprzestrzenne kraju, w tym zdjęcia satelitarne. Historycznie rzecz biorąc, to przede wszystkim były to mapy wojskowe. Jednak w ostatnich latach agencja zapewniła również możliwości tworzenia map cyfrowych osobom udzielającym pierwszej pomocy w przypadku katastrof. NGA jest jedną z siedemnastu agencji wywiadowczych w kraju i jest uważana za jedną z agencji Wielkiej Piątki, w skład której wchodzą CIA, NSA, Defense Intelligence Agency (DIA) i National Reconnaissance Office (NRO). To oznaczenie ogólnie oznacza, że NGA jest jedną z głównych organizacji odpowiedzialnych za wywiad, który kształtuje bezpieczeństwo narodowe USA. NGA ma główną misję gromadzenia, analizowania i dystrybucji informacji geoprzestrzennych do wojska, amerykańskich agencji wywiadowczych, Kongresu i innych partnerów. "Nie było mowy, żebyśmy po prostu go wykorzystali" - powiedział mi mój towarzysz. Był kiedyś członkiem personelu technicznego w NGA. Byliśmy w pobliżu browaru. "Chodzi mi o to. I to jest czysto hipotetyczne" - powiedział technik. "Ale jest świat, w którym sztuczna inteligencja patrzy na niszczyciel marynarki wojennej. Wiesz, jak Stany Zjednoczone mają duże "H" dla helikopterów do lądowania? Cóż, inne marynarki wojenne mają swoje własne. Strzał w dziesiątkę dla Rosji, Chiny mają "V" i tego typu rzeczy. Omawia hipotetyczne narzędzia sztucznej inteligencji, które mogłyby pomóc tysiącom analityków w szybszym przygotowywaniu odpraw wywiadowczych. Zagłębia się także w sedno możliwości interpretacji AI. Bez tego nigdy nie dowiesz się, kiedy sztuczna inteligencja oszukuje. "Uruchamiasz model na wszystkich tych obrazach typu statku, które mamy. Wysoka rozdzielczość, niska rozdzielczość, submetr, cokolwiek. I okazuje się, że klasyfikator działa świetnie. Ale potem zaczynasz zastanawiać się, dlaczego. Okazuje się, że Bull′s Eyes i gigantyczne kształty "V" nie zdarzają się naturalnie. Wystarczy pomalować, aby zniknęły. Więc co ci zostaje? Najwyraźniej niewidzialny statek dla głupiej sztucznej inteligencji. Nasz technik NGA ma na myśli to, że sztuczna inteligencja nie zawsze uczy się tego, co trzeba. W tym przypadku dowiadywali się, co jest, a co nie jest niszczycielem nie z kształtu kadłuba statku, ale z nienaturalnie występującego kształtu malowania na pokładach tych wrogich okrętów wojennych. Biorąc pod uwagę ogromną i stale rosnącą liczbę zdjęć satelitarnych, obrazów multispektralnych, nagrań z dronów i innych zbiorów gromadzonych przez amerykańską społeczność wywiadowczą i podmioty komercyjne, NGA wydaje się logicznym miejscem do wykorzystania automatyzacji AI w celu uzyskania dodatkowych informacji. I przynajmniej publicznie, NGA szybko realizuje strategię AI i wdraża sztuczną inteligencję. Sztuczna inteligencja jest wymieniona jako jeden z czterech obszarów zainteresowania agencji na rok 2020, obok zarządzania danymi, nowoczesnej inżynierii oprogramowania i przyszłości pracy. NGA ma nadzieję osiągnąć w niedalekiej przyszłości ludzkie spostrzeżenia z szybkością maszyny, dając ponad dwóm tysiącom analityków geoprzestrzennych, którzy pracują w agencji, wysokiej jakości sztuczną inteligencję, aby mogli skupić się na trudniejszych problemach analitycznych. Ale wtajemniczeni przedstawiają zupełnie inny obraz niż komunikaty prasowe. Obecni i byli pracownicy powiedzieli , że wiele wysiłków związanych ze sztuczną inteligencją utknęło w martwym punkcie. Niektóre z tych wysiłków utknęły w martwym punkcie z powodu formatowania danych, infrastruktury danych i innych problemów z technologią przedsiębiorstwa. Jednak pod względem kulturowym agencja stoi również przed poważnymi wyzwaniami. Ci analitycy geoprzestrzenni nie chcą stracić pracy na rzecz sztucznej inteligencji. A szczególnie nie chcą stracić pracy przez sztuczną inteligencję, która oszukuje drogę do właściwej odpowiedzi podczas szkolenia. Może to spowodować poważne konsekwencje w kinetycznej sytuacji na polu bitwy. Bez znaczących postępów w interpretacji sztucznej inteligencji te bariery zaufania między ludźmi a sztuczną inteligencją nie znikną. W połączeniu ze znanym ryzykiem ataków wrogich, interpretacja sztucznej inteligencji stanowi zagrożenie nie tylko dla organizacji zorientowanych na zgodność, ale także dla agencji o znaczeniu krytycznym, które w przeciwnym razie szybko przyjęłyby tę technologię. "Wszystko, czego potrzeba, aby zepsuć te modele, to proste malowanie. Jakie to cholernie głupie? skończył nasz technik. Możliwość interpretacji sztucznej inteligencji pomoże organizacjom, w tym NGA, w szybszym wdrażaniu zdolności wspierających cele misji bezpieczeństwa narodowego. W tej przestrzeni wykonano już wiele pracy. A informacje z otwartego źródła - takie jak portfolio należącego do CIA oddziału venture capital In-Q-Tel, nagrody OTA (Other Transaction Authority) oraz nagrody Small Business Innovation Research - wskazują na znaczące inwestycje dokonywane w imieniu rządu USA w rozwiązania dla sektora prywatnego w zakresie interpretacji sztucznej inteligencji i powiązanych technologii. Mój kolega naukowiec z Kalifornii i technik z krytycznej amerykańskiej agencji wywiadowczej rozumieją, że aby sztuczna inteligencja była godna zaufania, musi być zrozumiana. Interpretacja sztucznej inteligencji może pomóc złagodzić te obawy, identyfikując, które regiony obrazu lub dowolny element danych wejściowych są wykorzystywane do podejmowania decyzji przez sztuczną inteligencję. Umieszczając w pętli osobę oceniającą, programiści i użytkownicy sztucznej inteligencji mogą uniemożliwić systemom sztucznej inteligencji oszukiwanie drogi do właściwej odpowiedzi na danych szkoleniowych poprzez uczenie się niewłaściwych informacji. Możliwość interpretacji sztucznej inteligencji ma również kluczowe znaczenie dla ludzkiej oceny kwestii prawnych, ryzyka, zgodności, etyki i wielu innych elementów ryzyka sztucznej inteligencji, które należy wziąć pod uwagę przy wdrażaniu narzędzi sztucznej inteligencji.

Maszyna kontra maszyna

Szczerze mówiąc, nie sądziłem, że stanie się to tak szybko. Właśnie skończyłem Paladyna Davida Ignatiusa dwa dni wcześniej. To była jedna z moich winnych lektur tego lata. Nie mogę się doczekać thrillerów szpiegowskich Ignatiusa, a jego najnowszy dotyczył tematu, który coraz bardziej mnie niepokoił. Głębokie podróbki. W powieści zespół hakerów tworzy realistyczne reprezentacje prawdziwych wydarzeń, aby, nie zepsuję tego, nieco wstrząsnąć. Te reprezentacje przybierają formę wideo i audio, które, choć fałszywe, wyglądają i brzmią prawdziwie nawet dla bystrego obserwatora. Pomyśl, co by się stało, gdyby pojawiły się filmy przedstawiające prezydenta Trumpa lub prezydenta Obamę omawiających tajne negocjacje z dyrektorem korporacji. W zależności od treści mogą wystąpić zamieszki, rajd na giełdzie lub wiele innych możliwych wyników. Ale co, jeśli wideo nigdy się nie wydarzyło? Jak mogłeś przekonać opinię publiczną do zignorowania ich dowodów na ich oczach? Takie było założenie tej książki i przeleciałem przez nią w mniej niż dwa posiedzenia. To była dobra lektura. Ale to była fikcja. Wtedy to się stało. Nagłówek brzmiał: "Deepfake użyty do zaatakowania pary aktywistów pokazuje nową granicę dezinformacji". Wykorzystanie fałszywej osoby do szerzenia dezinformacji nie jest nową sztuczką. Oficerowie wywiadu, tajni śledczy i działacze dbający o prywatność używają ukrytych tożsamości do ochrony osobistej. To, co było wyjątkowe w fałszywej postaci, o nazwisku Oliver Taylor, polegało na tym, że wizerunek tej osoby na profilach internetowych nie został znaleziony nigdzie indziej. Zazwyczaj fałszywe profile po prostu kradną obraz z mediów społecznościowych. Jednak tego obrazu nie można było nigdzie znaleźć. To dlatego, że chociaż wyglądał na prawdziwy, obraz był całkowicie fałszywy. Został stworzony przez sztuczną inteligencję specjalnie zaprojektowaną, by oszukać ludzkie oko. W ciągu ostatniego roku Oliver Taylor przesyłał coraz bardziej zapalające artykuły. Zakończyło się to artykułem, w którym para aktywistów została nazwana "sympatykami terrorystów". Jego osobowość online pokazuje, że jest głęboko zaangażowany w antysemityzm i globalne wydarzenia żydowskie. Jego artykuły ukazywały się w gazetach, w tym w "Jerusalem Post" i "Times of Israel". Co dziwne, ale nie na tyle dziwne, by początkowo wzbudzić podejrzenia, Oliver nigdy nie żądał zapłaty za te artykuły, jak większość freelancerów. Podobnie uniwersytet, do którego, jak twierdzi, uczęszczał, nie ma o nim żadnych danych. Oliver Taylor to fikcja. Na pierwszy rzut oka wygląda wystarczająco realistycznie. Jeśli przyjrzysz się uważnie zdjęciu, w Oliverze Taylorze jest coś odpychającego. W uśmiechu widać sztywność, która wydaje się nienaturalna. Kołnierzyk jego koszuli składa się w dziwny sposób. A jego oczy wydają się pozbawione jakichkolwiek emocji. Jeśli przyjrzysz się uważnie, jego płatek ucha jest dziwnie duży jak na człowieka. Ma kilka dziwnie wyglądających łysiejących miejsc, gdzie zwykle jest grzywka. Ale żaden z nich nie jest widoczny na pierwszy rzut oka. Patrząc na zdjęcie Olivera Taylora w nagłówku gazety lub na LinkedIn, łatwo byłoby rzucić okiem w przeszłość i założyć, że jest prawdziwy. I tak właśnie się stało. Wizerunek Olivera Taylora i niemożliwa do wyśledzenia postać online to tylko jeden przykład tego, jak deepfake może rozpowszechniać dezinformację. Zagrożenie dezinformacją wyglądającą i brzmiącą jak prawdziwa informacja przyciąga uwagę zarówno Doliny Krzemowej, jak i decydentów. W 2019 r. przewodniczący Komisji Wywiadu Izby Reprezentantów, Adam Schiff, ostrzegł, że wideo generowane komputerowo może "zamienić światowego przywódcę w manekina brzuchomówcy". Tymczasem Facebook szeroko relacjonował swoje wyzwanie Deepfake Detection Challenge, które idealnie pomoże dziennikarzom zidentyfikować deepfake. Nie wiadomo jeszcze, w jaki sposób technologia lub społeczność Beltway poradzi sobie z tymi wyzwaniami.

Co to jest deepfake?

W historii opowiedzianej dogłębnie przez MIT Technology Review, deepfake i technologia, która je tworzy, generatywne sieci kontradyktoryjne, powstały przy piwie. W 2014 roku doktorant Ian Goodfellow poszedł się napić z kilkoma kolegami z klasy. Świętowali ukończenie szkoły przez kolegę z klasy. Tego wieczoru przy kuflach piwa Ian poprosił przyjaciół o pomoc. Potrzebował sposobu, aby program komputerowy sam generował zdjęcia. Zastosowania danych syntetycznych generowanych komputerowo były ogromne. Obrazy te można wykorzystać do wypełnienia luk w gromadzeniu danych danymi syntetycznymi, aby pomóc usunąć błędy związane z gromadzeniem lub selekcją. Obrazy syntetyczne można również wykorzystać do drastycznego obniżenia kosztów gromadzenia danych do projektów badawczych, umożliwiając doktorantom, którzy nie mają pieniędzy, zrobić więcej z ich skromnymi budżetami. Ian nie był pierwszym, który pomyślał o wykorzystaniu maszyn do generowania danych syntetycznych. Badacze akademiccy i przemysłowi od kilku lat wykorzystują sztuczną inteligencję do generowania obrazów i innych typów danych. Problem polegał na tym, że te nie były zbyt dobre. Obrazy byłyby niewyraźne. Twarze byłyby nie do poznania. Aby rozwiązać ten problem, przyjaciele Iana, doktoranci, zasugerowali statystyczne mapowanie elementów obrazów, aby umożliwić maszynie samodzielne ich tworzenie. Jednak wyzwanie związane z tym podejściem polegało po prostu na tym, że zajęłoby to zbyt dużo czasu, a koszty obliczeniowe byłyby zbyt wysokie. Ian zdecydował, że spróbuje innego podejścia, aby zaoszczędzić czas. Skierowałby dwie sieci neuronowe przeciwko sobie. Jedna sztuczna inteligencja stworzyłaby obraz. Druga sztuczna inteligencja próbowałaby wykryć, czy to było prawdziwe, czy nie. Dwie AI byłyby przeciwnikami, z których jedna tworzy fałszywe obrazy, a druga je wykrywa. Sztuczna inteligencja tworząca obraz byłaby z kolei nagradzana za stawanie się coraz bardziej realistycznym, przy użyciu zaawansowanej techniki sztucznej inteligencji znanej jako uczenie się przez wzmacnianie. Jeśli sztuczna inteligencja tworząca obraz była wystarczająco dobra, aby oszukać sztuczną inteligencję skanującą podróbki, prawdopodobnie oszuka również człowieka. Ianowi spodobał się ten pomysł częściowo dlatego, że miał jakiś sens. W ostatnich latach sieci neuronowe stały się niezwykle skuteczne w wykrywaniu prawdziwych i fałszywych obrazów. To może pozwolić mu na generowanie wglądu przy prędkościach maszyny. Ianowi również spodobał się ten pomysł, ponieważ był w trakcie picia piwa i chciał mieć jakieś wyniki do rana. To pozwoliłoby mu kodować przez kilka godzin, podczas gdy jego dziewczyna spała, a następnie pozwolić maszynom wykonać większość pracy. Kiedy się obudził, jak głosi legenda, dostępne były pierwsze deepfake′i. Stworzył sztuczną inteligencję, która była w stanie generować obrazy, które mogły pokonać możliwości wykrywania rzeczywistego lub nierzeczywistego innej sztucznej inteligencji. Metody Iana stały się znane jako generatywne sieci przeciwników, w skrócie GAN. Zostały tak nazwane, ponieważ wygenerowały nowe dane w oparciu o przeciwstawną relację między tworzącą sztuczną inteligencją próbującą sfałszować wykrywającą sztuczną inteligencję. Ta pozornie prosta technika okazała się znaczącym zagrożeniem w walce informacyjnej i dezinformacyjnej i sprawiła, że Ian stał się celebrytą sztucznej inteligencji. Najważniejszym powodem, dla którego sieci GAN są ważne, jest to, że przekształciły sztuczną inteligencję w coś, co może tylko wykrywać, w coś, co może również tworzyć. Zasadniczo Ian dał kreatywność systemom sztucznej inteligencji. W rozmowie z MIT Technology Review, Yann LeCun, główny naukowiec Facebooka zajmujący się sztuczną inteligencją, nazwał sieci GAN "najfajniejszym pomysłem głębokiego uczenia się w ciągu ostatnich 20 lat". Inny luminarz sztucznej inteligencji, Andrew Ng, były główny naukowiec chińskiego Baidu, mówi, że sieci GAN stanowią "znaczący i fundamentalny postęp", który zainspirował rosnącą globalną społeczność badaczy. Deepfake jest wynikiem rywalizacji między dwoma systemami sztucznej inteligencji. Najczęściej stosowana analogia dotyczy fałszerza dzieł sztuki i eksperta w dziedzinie sztuki, który wykrywa fałszerstwa. Wyobraźmy sobie, że ta dwójka toczy przyjacielską rywalizację, aby zobaczyć, kto może przechytrzyć drugiego. Fałszerz zaczyna od złego fałszerstwa, które można łatwo wykryć. W końcu staje się tak dobry w kuciu, że oszukuje eksperta sztuki, aby pomyślał, że jedno z jego dzieł jest prawdziwe. Wykuwająca sztuczna inteligencja w sieci GAN nazywana jest generatorem. Znawca sztuki nazywany jest dyskryminatorem. Obie AI są szkolone na tym samym początkowym zestawie danych szkoleniowych. Rywalizacja trwa dopóty, dopóki generator nie przechytrzy dyskryminatora. Dane wyjściowe to deepfake. Sieci GAN i tworzone przez nie deepfake otworzyły przed sztuczną inteligencją zupełnie nowe światy. Teraz sztuczna inteligencja może komponować muzykę, sztukę cyfrową, a nawet poezję. Sieci GAN w mniejszym stopniu polegają na ludzkich programistach, którzy dokładnie mówią maszynie, co ma robić i co znajduje się w zbiorze danych szkoleniowych, otwierając znaczące możliwości w dziedzinie nienadzorowanego uczenia maszynowego. To z kolei otwiera ogromne możliwości w rozwiązaniach komercyjnych dla samojezdnych samochodów i innych pojazdów autonomicznych, w przypadku których uzyskanie oznakowanych danych szkoleniowych wymaganych do nadzorowanego uczenia maszynowego jest coraz trudniejsze, biorąc pod uwagę ilość danych i mnogość obiektów na drodze do oznakowania. Jednocześnie sieci GAN otwierają nowe obszary dla kampanii dezinformacyjnych. Choć sieci GAN są przydatne w badaniach nad sztuczną inteligencją i rozwijaniu jej możliwości, niosą ze sobą znaczne zagrożenia społeczne. Część z tych zagrożeń mieści się w kategorii zagrożeń egzystencjalnych. Sieci GAN są w stanie rozumować ze świadomością bliższą ludzkiej. Oznacza to również, że artefakty GAN mogą oszukać ludzi. Tutaj stają się niebezpieczne. Deepfake ma wszystkie cechy prawdziwego segmentu obrazu, wideo lub audio. Ale nie są prawdziwe. Technologia, która może tworzyć sztuczne zdarzenia, które mogą być szeroko rozpowszechniane, stanowi poważne zagrożenie dla docelowych organizacji.

Czy ktoś zhakuje moją sztuczną inteligencję?

Ta sama technologia, nowa technologia

Czy ktoś zhakuje moją sztuczną inteligencję? Odpowiedź brzmi: to zależy od tego, kim jesteś, jaka jest stawka i jak trudna jest. Więc w skrócie może? Poziom zagrożenia, przy którym twój model będzie atakowany, zależy od wielu czynników, w tym wpływu włamania, trudności włamania i dostępności twojego modelu. Nie trzeba dodawać, że szkody wyrządzone przez włamanie do bota marketingowego AI będą znacznie mniejsze niż podobnie przeprowadzony atak na wojskowy system uzbrojenia AI. Chociaż teoretycznie wszystkie modele można zhakować, jest mało prawdopodobne, że wiele z nich to zrobi, ponieważ zarówno stosunek ryzyka do zysku, jak i stosunek trudności do nagrody są zbyt wysokie. Liderzy i zespoły programistów AI muszą zrozumieć i ocenić profil ryzyka modelu, aby nadać priorytet zarówno wzmocnieniu modelu, jak i środkom bezpieczeństwa oraz dokładnie oszacować budżety bezpieczeństwa AI. Aby to zakończyć, proponuję model zagrożeń AI jako ramy do pracy. Ramy te nie mają być wyczerpujące, a organizacje mogą opracować własne ramy do pracy. Ale da organizacjom i zespołom opracowującym sztuczną inteligencję punkt wyjścia, gdy zaczną myśleć o ryzyku związanym ze sztuczną inteligencją.

Bezpieczny cykl życia sztucznej inteligencji

Metody modelowania zagrożeń są powszechne w branży cyberbezpieczeństwa. Chociaż istnieje wiele typów, a różne organizacje branżowe i specjaliści ds. Po pierwsze, modele zagrożeń zazwyczaj polegają na abstrakcyjnym spojrzeniu na cybersystem, bez myślenia o specyfice systemu. Dla analityka ds. cyberbezpieczeństwa system może być tak ogólny, jak leżące u jego podstaw dane klientów lub sterowanie robotami w zakładzie produkcyjnym. Po drugie, brane są pod uwagę motywacje atakującego. Jest to czasami określane jako wypłata lub oczekiwany wynik ataku. Wreszcie, wszystkie modele ryzyka skupiają się na metodach użytych do przeprowadzenia ataku. Te trzy elementy można traktować po prostu jako Dlaczego, Kto i Jak. Najlepsze wykorzystanie modelowania zagrożeń, dlaczego, kto i jak odbywa się na wczesnym etapie cyklu rozwojowego. Myślenie o wymaganiach bezpieczeństwa nie powinno być późniejszą refleksją, ale powinno być dokładnie rozważone na początku rozwoju i przetestowane przez cały czas. Może to prowadzić do proaktywnych decyzji dotyczących ryzyka i kompromisów w stosunku do decyzji architektonicznych, które pozwalają na zmniejszenie zagrożeń od samego początku. W ostatnich latach aktywna integracja testów bezpieczeństwa z rozwojem oprogramowania przybrała nazwę bezpiecznego cyklu życia programistycznego lub SDLC. Istnieje wiele platform SDLC, a firmy, w tym Microsoft i agencje rządowe, w tym National Institute of Standards and Technology (NIST), mają swoje własne wersje. Wdrożenie SDLC pomogło ujednolicić proces tworzenia bezpiecznego oprogramowania i znacznie poprawiło bezpieczeństwo wielu organizacji. SDLC, jeśli są używane prawidłowo, można traktować jako akcję lub proces związany z modelowaniem zagrożeń. Obecnie zespołom zajmującym się analizą danych i rozwojem sztucznej inteligencji brakuje bezpiecznego cyklu życia sztucznej inteligencji (SAILC). Bezpieczeństwo w społeczności analityków danych jest tam, gdzie cyberbezpieczeństwo było dwadzieścia lat temu. W najlepszym razie jest to refleksja i przez większość czasu prawie w ogóle nie jest brana pod uwagę. To prawda, że wykorzystanie sztucznej inteligencji jest dziś nadal ograniczone. W społeczności data science krąży popularny dowcip, że sztuczna inteligencja służy do prezentacji w programie PowerPoint, podczas gdy uczenie maszynowe jest w pythonie (i czasami jest nawet używane!). Granice praktycznych implementacji sztucznej inteligencji ograniczają zarówno możliwość ataku atakującego na sztuczną inteligencję, jak i potencjalną wypłatę. Tymczasem wiedza techniczna dotycząca hakowania systemów sztucznej inteligencji, głównie efektywnego wykorzystania zoperacjonalizowanego, przeciwstawnego uczenia maszynowego, jest wciąż stosunkowo nową dziedziną. To pozostawia niewielu niedoszłych napastników z umiejętnościami nawet przeprowadzenia ataku, jeśli taki byłby możliwy. Ale te zastrzeżenia nie powinny zniechęcać organizacji do inwestowania i wdrażania możliwości SAILC. Od inteligentnych asystentów głosowych, przez samojezdne samochody, po szereg platform analityki biznesowej, sztuczna inteligencja coraz częściej znajduje się w sercu strategicznych inicjatyw. Liderzy we wszystkich branżach aktywnie eksperymentują z AI, a ponad połowa dyrektorów generalnych uważa, że jest to klucz do ich strategicznej pozycji w przyszłości. Dla naukowców zajmujących się danymi i programistów sztucznej inteligencji bezpieczeństwo jest na ogół kwestią drugorzędną, jeśli w ogóle jest poruszana. Jeśli poprosisz programistę AI o opisanie jego pracy, może mówić o generowaniu spostrzeżeń, budowaniu nowych produktów i usług, tworzeniu optymalizacyjnych przepływów pracy lub budowaniu platform nowej generacji. Jeśli w ogóle uwzględni bezpieczeństwo w opisach swoich stanowisk, prawie zawsze będzie to gdzieś blisko końca listy i zwykle w kontekście tradycyjnych protokołów bezpieczeństwa cybernetycznego. To nie jest wina twórcy AI. Poza faktem, że budżety na cyberbezpieczeństwo są już napięte, dla wielu osób myślenie jak przeciwnik może być niezwykłe. Na przykład inżynierowie, którzy zaprojektowali wczesne generacje samojezdnych samochodów, nie spodziewali się, że komputerowe systemy wizyjne ich samochodów zostaną zhakowane w sposób, który może spowodować awarie. Rzeczywiście, celem tych systemów było unikanie awarii! Ale tak właśnie się stało. Podobnie twórcy aplikacji głosowych nie napisali swojego kodu z myślą, że ludzie będą umieszczać szeptane dane w plikach audio w sposób zagrażający bezpieczeństwu aplikacji, ale znowu tak się stało. Adwersarze i hakerzy AI wykorzystują optymizm twórców systemów i wykorzystują ich brak bezpieczeństwa na swoją korzyść. Taki aż do przesady optymizm kształtował przestrzeń technologiczną co najmniej od czasu pojawienia się Internetu. Niewielu ludzi spodziewało się, że Internet stanie się motorem napędowym globalnych finansów i komunikacji (i nie tylko), w wyniku czego w jego podstawę wbudowano niewiele znaczących środków bezpieczeństwa. Stworzyło to ogromny dług w zakresie cyberbezpieczeństwa, który organizacje wciąż próbują spłacić. Trudna rzeczywistość jest taka, że tworzymy sztuczną inteligencję w bardzo podobny sposób - jest otwarta i rzadko ma wbudowane zabezpieczenia. Mówiąc o dzisiejszym zainteresowaniu biznesowym sztuczną inteligencją, dyrektor ds. badań IDC ds. systemów poznawczych/sztucznej inteligencji, David Schubmehl, mówi: świadomość AI osiągnęła szczyt. Każda branża i każda organizacja powinna oceniać sztuczną inteligencję, aby zobaczyć, jak wpłynie ona na ich procesy biznesowe i efektywność wejścia na rynek". To zainteresowanie sztuczną inteligencją prowadzi do zwiększonych inwestycji w sztuczną inteligencję, co prowadzi do częstszego wdrażania i wykorzystywania w krytycznych misjach i ustawieniach biznesowych. Powszechna krytyka, że na dzień dzisiejszy nie przeprowadza się wystarczającej liczby hakerów AI, nie powinna negować rozwoju i wdrażania SAILC. Jeśli Twoja organizacja rozważa wdrożenie sztucznej inteligencji w jakimkolwiek kontekście związanym z jej wizją strategiczną, potrzebny jest SAILC, aby zapobiec powstawaniu tych samych wyzwań, które nękały branżę cyberbezpieczeństwa. Według stanu na lato 2020 r. średni koszt tradycyjnego cybernaruszenia wynosił około 116 mln USD na naruszenie w Stanach Zjednoczonych i 3,92 mln USD na całym świecie. Przekłada się to na miliardy dolarów wydawane każdego roku przez organizacje po tym, jak naruszenie już miało miejsce. Wielu z tych strat można było uniknąć, gdyby przestrzegano odpowiednich protokołów SDLC. Bezpieczeństwo AI i ograniczanie ryzyka jest wciąż w powijakach. Ale zamiast czekać na pojawienie się zagrożeń, jak ostatecznie zrobili to praktycy z branży w przypadku większości technologii cyfrowych, lepiej jest podjąć pragmatyczne kroki już dziś. Wciąż badane są luki w zabezpieczeniach i wektory ataków sztucznej inteligencji. Ale dzisiaj mamy wystarczająco dużo informacji, aby podjąć skoordynowane wysiłki na rzecz bezpieczeństwa od samego początku. To nie tylko pozwoli firmom zaoszczędzić miliony w przyszłości, utrudniając potencjalnym atakującym odniesienie sukcesu, ale biorąc pod uwagę zastosowania sztucznej inteligencji w opiece zdrowotnej, transformacji i zastosowaniach wojskowych, takie działania również uratują życie. Model zagrożeń leżący u podstaw procesu SAILC ma wiele takich samych podstawowych elementów tradycyjnych modeli zagrożeń cybernetycznych. Opracowany przeze mnie model zagrożeń AI obejmuje zarówno przestrzeń zagrożeń (zrozumienie anatomii potencjalnego ataku), jak i przestrzeń mitygacji (analiza najlepszych technik ograniczania zagrożenia). Celowo unikam używania przestrzeni problemów zespołu i przestrzeni rozwiązań w tych ramach, mimo że terminy te są powszechne w języku modelowania zagrożeń. Dzieje się tak, ponieważ myślenie o jakimkolwiek zagrożeniu jako o rozwiązanym problemie może prowadzić do niewłaściwego myślenia. Krajobrazy zagrożeń, zwłaszcza na powierzchni zagrożeń AI, nieustannie się zmieniają. Dlatego wdrożenie SAILC jest tak ważne. Jeśli zostanie wykonany poprawnie, proces ten będzie cyklem iteracyjnym, w przeciwieństwie do samodzielnego rozwiązania.

Dlaczego

Pierwszym pytaniem, które należy zadać w modelu zagrożenia SAILC, jest to, dlaczego ktoś w ogóle zaatakuje ten model? To pytanie dotyczy tak naprawdę motywacji atakującego. Chociaż hakowanie systemu tylko po to może mieć wartość akademicką lub chwalebną, w rzeczywistości większość włamań ma motywację finansową, konkurencyjną lub związaną z bezpieczeństwem narodowym. Zrozumienie, dlaczego ktoś chciałby zakłócić działanie sztucznej inteligencji, jest ważne. Na przykład, nawet jeśli oba systemy wykorzystują wyrafinowaną wizję komputerową, bardziej prawdopodobne jest, że przeciwnik będzie chciał zakłócić sztuczną inteligencję uzbrojonego drona wojskowego, aby ukryć swoje siły, w przeciwieństwie do zhakowania robota uzupełniającego zapasy w sklepie spożywczym. To samo dotyczy również tej samej organizacji. Na przykład kradzież lub uzyskanie dostępu do bazowych danych transakcji finansowych konsumentów w dużym banku będzie miało większą zapłatę niż zhakowanie bota marketingowego tego samego banku na Twitterze. Ważnym powodem, dla którego osoba atakująca może próbować zhakować sztuczną inteligencję, nie jest nawet udany atak. Zamiast tego przeciwnik może po prostu próbować zasiać nieufność w systemie sztucznej inteligencji i uniemożliwić jego użycie. Jest to szczególnie prawdziwe w kontekście bezpieczeństwa narodowego, gdzie utrata zaufania do sztucznej inteligencji może być głównym powodem ataku na system sztucznej inteligencji. Tyler Sweatt, weteran armii amerykańskiej i ekspert w dziedzinie technologii, jest głęboko zaniepokojony tą nową dziedziną wojny psychologicznej. Udało mi się spotkać z Tylerem w pobliżu jego domu w północnej Wirginii. Wygląda jak weteran armii amerykańskiej, z baryłkowatą klatką piersiową i brodą. Ma donośny głos, który sprawia, że myślisz, że krzyczy, nawet podczas omawiania wysoce technicznych tematów. "Rozpocząłem karierę jako bombowiec. Później wywiad działał" - mówi mi. Odkąd opuścił armię, Tyler tworzy najnowocześniejsze aplikacje technologiczne dla przemysłu wojskowego i bezpieczeństwa narodowego. Był głównym głosem stojącym za tą nową dziedziną wojny psychologicznej przeciwko sztucznej inteligencji. Martwi się, że nawet sama groźba udanego ataku zmusi armię amerykańską do wyłączenia systemów sztucznej inteligencji. Może to spowodować wyłączenie funkcji sztucznej inteligencji nie z powodu problemu technicznego, ale z powodu braku zaufania. Mówi: "AI przeniknie wszystkie aspekty codziennego życia w nadchodzących latach, od bezpieczeństwa, przez zdrowie, po sprawy społeczne i nie tylko. Zdolność do zasiania nieufności między społeczeństwem a napędzającą ją sztuczną inteligencją będzie krytycznym zestawem narzędzi w rządzie na całym świecie. Brak możliwości obrony przed takimi atakami wyrzuci niektóre rządy z ery cyfrowej". Tyler widzi nową granicę psychologów między tymi, którzy chcą używać sztucznej inteligencji, a tymi, którzy chcą zasiać nieufność w tych systemach, aby uniemożliwić ich przeciwnikom korzystanie z nich. Na przykład Stany Zjednoczone mogą ujawnić informacje, że uzbroiły taktyczne ataki AI w nowe cyberjednostki pola bitwy. Może to spowodować, że chińskie wojsko wyłączy swoją sztuczną inteligencję w krytycznym momencie, zwiększając zdolność wojska USA do przerwania łańcucha zabijania w hipotetycznym konflikcie wielkich mocarstw. To samo jest oczywiście w odwrotnej kolejności. Zagrożenie, że sztuczna inteligencja jest podatna na udany atak, może uniemożliwić ich użycie. Należy o tym pamiętać podczas sprawdzania, czy atakujący spróbuje zhakować sztuczną inteligencję. Ataki AI nie muszą być skuteczne, aby były skuteczne.

Jak

Wiedząc dlaczego, musisz zrozumieć jak. Czy będzie to atak unikowy? Zatruwanie danych? Inwersja modelu? W jaki sposób osoba atakująca uzyska dostęp do mojego modelu? Czy w grę wchodzą dodatkowe hacki cyberbezpieczeństwa? Jak jest naprawdę miejscem, w którym do gry wchodzi wyobraźnia zespołu SAILC. Czy aby uzyskać dostęp, konieczne będzie fizyczne naruszenie witryny? Czy punkt końcowy AI może zostać zaatakowany przy użyciu gotowych narzędzi? Ważne jest, aby przemyśleć wszystkie możliwe opcje, nawet te, które wydają się niezwykłe. Jeśli nagroda jest wystarczająco duża, haker AI będzie skłonny spróbować prawie wszystkiego, aby dostać się do nagrody. Zrozumienie, jak jest bardziej skomplikowane, niż mogłoby się wydawać, przede wszystkim dlatego, że wymaga zmiany sposobu myślenia zespołu zajmującego się rozwojem sztucznej inteligencji lub analityką danych. Najlepszą obroną jest dobre udawanie. Aby wiedzieć, w jaki sposób przeciwnik może chcieć zhakować twój model, najlepiej jest myśleć jak atakujący. Koncepcja czerwonego zespołu, opracowana w wojsku, to proces zmuszania zespołu do przemyślenia odrębnych elementów strategicznych lub bezpieczeństwa. Innymi słowy, red teaming polega na przyjęciu roli nie tylko adwokata diabła, ale i napastnika. Red teamowanie modelu to proces dokładnego zrozumienia, w jaki sposób przeciwnik może przeprowadzić atak. Firmy o wysokich wynikach, takie jak Amazon i Google, często korzystają z czerwonego zespołu (czasami pod inną nazwą) do oceny nowych strategii, produktów i usług. Według legendarnego dyrektora generalnego Forda, Alana Mulally'ego, czerwone zespoły są niezbędne na poziomie strategicznym, "ponieważ twoi konkurenci się zmieniają, technologia się zmienia, a ty nigdy nie jesteś skończony. Zawsze musisz pracować nad lepszym planem obsługi klientów i rozwoju firmy". W ściślej technologicznych kontekstach czerwone zespoły przejmują optymizm technologa, przyjmując jednocześnie rolę atakującego. Dobry czerwony zespół nie powinien ani blokować projektu, ani stawać na drodze do wprowadzenia nowego produktu, ale powinien przyjąć za pewnik, że atakujący znajdą jakiś sposób na oszukanie, oszukanie lub złośliwie nadużycie systemu cyfrowego - i spróbuj ułatwić obrona przed takimi nadużyciami. Mówiąc najprościej, czerwone zespoły przyglądają się nowym technologiom i zadają sobie pytanie: "Gdybym był atakującym, jak mógłbym wykorzystać tę technologię na swoją korzyść?" Poza tymi, którzy zarabiają na życie odnajdując słabości, takimi jak członkowie wojska lub specjaliści ds. bezpieczeństwa, większość ludzi nie zajmuje się codziennym życiem myśląc o tym, jak coś można zaatakować lub wykorzystać. W cyfrowym świecie naiwność dotycząca prawdopodobieństwa ataku może prowadzić do podatności systemów. Zbyt często w przypadku tworzenia oprogramowania kontrole bezpieczeństwa i łatki są przeprowadzane dopiero pod koniec cyklu programistycznego przez oddzielny zespół. Podczas gdy najnowsze trendy w kierunku DevSecOps i podobnych platform są pomocne, zbyt często bezpieczeństwo pozostaje na marginesie. Biorąc pod uwagę rosnące wykorzystanie sztucznej inteligencji w krytycznych misjach i systemach biznesowych, bezpieczeństwo nie może być kwestią drugoplanową. Praktyka ciągłego redagowania modelu w celu zarówno zrozumienia przeciwnika, jak i określenia prawdopodobieństwa udanego ataku musi być wykonywana jako ciągła część cyklu życia bezpiecznego rozwoju sztucznej inteligencji. W każdym zbadanym przeze mnie przypadku, w tym w bankowości, ubezpieczeniach, samojezdnych pojazdach i wojskowych systemach sztucznej inteligencji, można znaleźć udane ataki. Ale celem tej części procesu jest nie tylko znalezienie skutecznych ataków, ale także zrozumienie, w jaki sposób przeciwnik był w stanie stworzyć atak. Na przykład, czy przeciwnik potrzebował dostępu do innych systemów? Jakie były wymagane koszty obliczeniowe i odległość perturbacji i czy wypłata ataku jest wystarczająco wysoka, aby przekonać przeciwnika do wydania na stworzenie ataku?

Kto

Po zidentyfikowaniu organizacja musi zrozumieć, kto miałby to zrobić. Nie jest to tak bardzo ćwiczenie w identyfikowaniu potencjalnych grup przestępczych lub przeciwników na szczeblu państwowym. Na przykład społeczność wojskowa i wywiadowcza USA już wie, że Chiny i Rosja będą próbowały zhakować ich sztuczną inteligencję. Ważniejsze jest pytanie o poziom umiejętności. Czy potrzebny jest doktorat ze statystyki lub uczenia maszynowego, aby zebrać zebrane informacje? A może ten hack może zostać przeprowadzony przy użyciu narzędzi open source złożonych przez kogoś, kto tylko umiarkowanie zna sztuczną inteligencję? Na etapie "kto" kluczowa jest analiza typu open source dotycząca uczenia maszynowego przeciwnika. Istnieje szybko pojawiający się zbiór zasobów online dostępnych dla tych, którzy chcą zhakować systemy sztucznej inteligencji. Niektóre z nich można znaleźć w ciemnej sieci i służą do hakowania określonych rzeczy, takich jak pojazdy samojezdne wiodącego producenta samochodów. Inne są dostarczane przez duże firmy, takie jak IBM, jako narzędzie badawcze. W kręgach hakerskich zajmujących się cyberbezpieczeństwem praktycy czasami pejoratywnie opisują osoby, które używają gotowych narzędzi, jako "kociaki-scenariusze". Ale ten pejoratywny język nie sprawia, że ci, którzy korzystają z szybko rosnącej puli otwartych bibliotek ataków AI, są mniej niebezpieczni, zwłaszcza gdy nie ma żadnych zabezpieczeń. Ciągłe aktualizowanie informacji open source na temat aktualnych trendów i dostępnych bibliotek w przeciwstawnym uczeniu maszynowym pomoże organizacjom zrozumieć osobowości potrzebne za zagrożeniami, przed którymi stoją.

Uderzenie

Wreszcie, organizacja musi zrozumieć wpływ włamania. Niektóre skutki są oczywiste. Jeśli wróg jest w stanie oszukać system sztucznej inteligencji drona wywiadowczego, obserwacyjnego i rozpoznawczego, że jego żołnierze są oddziałami przyjaznymi lub w ogóle ich nie ma, wpływ może być śmiertelny dla członków służby i decydujący na polu bitwy. Tymczasem systemy sztucznej inteligencji, które powodują wyciek informacji niejawnych, wrażliwych lub podlegających regulacjom, mogą prowadzić do znacznych kar pieniężnych dla firmy, jeśli działa ona w sektorze opieki zdrowotnej, usług finansowych, ubezpieczeń lub w innym silnie regulowanym sektorze. Niektóre skutki mogą być również dość niewielkie, takie jak błąd marketingowy lub lepsze oferty zakupów online dla użytkownika, aby zoptymalizować swoje zachowanie, aby pasowało do bota marketingowego. Wpływ na Hack AI będzie się różnić w zależności od branży, a także od przypadku użycia za przypadkiem. Na tym etapie SAILC najlepiej jest zaangażować nie tylko zespół analityków danych, ale także specjalistów ds. prawnych, ryzyka, zgodności i ciągłości biznesowej podczas przeglądu wyników końcowych. Te cztery pierwsze elementy - dlaczego, jak, kto i wpływ - składają się na przestrzeń zagrożeń w modelu zagrożeń AI. Każdy z nich należy rozważyć w sposób dostosowany do ryzyka, aby ustalić ostateczną priorytetyzację największych potencjalnych zagrożeń bezpieczeństwa AI dla organizacji. Gdy największe zagrożenia zostaną zidentyfikowane i uszeregowane pod względem ważności, zespół musi być w stanie je złagodzić w możliwym zakresie. W tym miejscu pojawia się druga część modelu zagrożeń SAILC, przestrzeń mitygacji.

Dane

Po pierwsze, w AI ważne jest, aby zacząć od danych. Jak widzieliśmy, dostarczanie danych i rozwiązania w zakresie zestawów danych mają kluczowe znaczenie dla budowania solidnych systemów sztucznej inteligencji. Dokładna analiza powinna mieć miejsce, gdy model zagrożeń wskazuje, że może dojść do zatrucia danych lub manipulacji danymi, w tym ataków polegających na unikaniu ataków. Zagrożenia związane z danymi można ograniczyć poprzez uważne monitorowanie szkolenia i pozyskiwania danych.

Obrona

Następnie zespół będzie chciał rozważyć obronę modelu. Często istnieje kompromis między precyzją i dokładnością modelu a odpornością modelu na atak przeciwnika. Na tym etapie należy dokładnie rozważyć te kompromisy. Na przykład niektóre modele, takie jak te stosowane w medycynie precyzyjnej, wymagają wysokiej wierności i jest mało prawdopodobne, aby zostały zaatakowane. Inne, takie jak modele używane w kontekście wojskowym, mogą wymagać modelu odpornego na przeciwnika, który podczas szkolenia będzie miał niższe wyniki precyzji. Modele, które znajdują się w środowiskach o niskim zagrożeniu, nie muszą stawiać czoła tym kompromisom, ale są one krytyczne dla pomyślnej implementacji modeli w środowiskach o wysokim zagrożeniu.

Monitorowanie

Wreszcie, systemy sztucznej inteligencji nie mogą po prostu działać bez ciągłego monitorowania. Dotyczy to wszystkich systemów sztucznej inteligencji, ponieważ pewne możliwości monitorowania ich kosztów obliczeniowych i dostępu do danych są niezbędne do prostego cyberbezpieczeństwa i protokołu IT. W przypadku systemów sztucznej inteligencji o wysokim stopniu zagrożenia prawdopodobnie wymagane są narzędzia do aktywnego monitorowania i lokalnej interpretacji, aby zapewnić, że wszelkie anomalie w użytkowaniu lub znaczeniu funkcji zostaną zgłoszone operatorowi. Mogą to być wskaźniki ataku AI i należy je zbadać. Te możliwości monitorowania można wprowadzić do centrum operacji bezpieczeństwa (SOC), zamiast trzymać je w zespole analityki danych. Będzie to wymagało zmiany kulturowej, w której zespoły ds. nauki o danych i rozwoju sztucznej inteligencji w dużych organizacjach nie będą głównymi specjalistami odpowiedzialnymi za monitorowanie sztucznej inteligencji. Końcowym rezultatem procesu SAILC jest ustalenie priorytetów ryzyka AI w organizacji. Te ryzyka i strategie ograniczania muszą być skutecznie komunikowane zarówno zespołom ds. rozwoju sztucznej inteligencji i analityki danych, jak również dyrektorowi ds. bezpieczeństwa informacji i zespołowi ds. zarządzania ryzykiem modeli. Dlatego częścią pracy zespołów programistów AI jest tłumaczenie między różnymi wielofunkcyjnymi częściami ich organizacji i skuteczne komunikowanie nie tylko, jakie zagrożenia są obecne, ale także jak naprawić te, które można naprawić i złagodzić skutki zagrożeń AI, które nie może być. Właściwie wdrożony zespół SAILC nie powinien stać się przeszkodą w przyspieszaniu aplikacji AI, ale powinien być niezbędnym elementem przyspieszania bezpieczniejszych wdrożeń AI.

Maszyna kazała nam to zrobić

Nasze obecne narzędzia to za mało

To był gorący dzień na południu Ameryki. Było na tyle wilgotno, że spacer z parkingu do recepcji naszego klienta sprawił, że ociekałem potem. Zatrzymałem się w holu tuż pod kratką wentylacyjną, sprawdzając nieistotne e-maile na telefonie, jednocześnie sprawiając, że wyglądają na bardzo ważne, jako sposób na zwłokę. Byłem bardzo szczęśliwy, że moi koledzy i ja nie oczekiwaliśmy, że będziemy w garniturach lub zapinanych na guziki. W końcu byliśmy zespołem AI, a nasze czarne T-shirty i japonki pasują do rachunku. Zostaliśmy sprowadzeni na lepkie Południe, ponieważ sprawy toczyły się powoli. Podczas jazdy samochodem żartowaliśmy, że to z powodu upału. Ale w rzeczywistości było tak, ponieważ sztuczna inteligencja nie wyjaśniała się. W sali konferencyjnej mój klient, duża instytucja finansowa, omówił wyzwanie. Jako firma finansowa z milionami kont konsumenckich podlegała silnym regulacjom. W ostatniej dekadzie firma dużo zainwestowała w technologię, aby obniżyć koszty, zwiększyć bezpieczeństwo i zapewnić swoim klientom nowe i szybsze usługi. Wiele z tych automatyzacji było zadaniami rutynowymi, co oznacza, że nie zawierały zaawansowanych statystyk, uczenia maszynowego ani sztucznej inteligencji. Były to proste instrukcje "jeżeli-to" i odpowiadające im drzewa logiczne. Ale chociaż te zautomatyzowane systemy nie były skomplikowane, były bardzo skomplikowane. Czasami zautomatyzowane zadanie obejmowało wiele zespołów w kilku działach. Inni polegali na ustalaniu ryzyka dla handlowców w całej firmie, przyglądając się podstawowym warunkom rynkowym i wyceniając ich bilans "zagrożony". A zautomatyzowane systemy pomogły wykrywać oszukańcze transakcje i zapobiegać im. Aby zapewnić zgodność tych szybko rozwijających się zautomatyzowanych systemów, firma zainwestowała w solidny zespół ds. zarządzania ryzykiem modeli. Zespół ten składał się głównie z ekspertów prawnych i analityków finansowych i znajdował się w ich dziale zgodności. Osoby zajmujące się finansami szybko zauważą, że dział zgodności zazwyczaj nie jest najbardziej innowacyjną częścią firmy. W ciągu ostatniej dekady znaczenie zespołu ds. zarządzania ryzykiem modeli wzrosło. W 2011 r. Rada Gubernatorów Rezerwy Federalnej wydała list nadzorczy SR11-7, w którym podniosła znaczenie ryzyka modeli w systemach finansowych. W piśmie nadzorczym stwierdza się, że "organizacje bankowe powinny zwracać uwagę na możliwe negatywne konsekwencje (w tym straty finansowe) decyzji opartych na modelach, które są nieprawidłowe lub niewłaściwie wykorzystywane, i powinny zająć się tymi konsekwencjami poprzez aktywne zarządzanie ryzykiem modeli". wcześniejsze wzmianki o zarządzaniu ryzykiem modeli sięgają 2000 roku. W tym roku Rezerwa Federalna skupiła się przede wszystkim na potrzebie zwiększonej walidacji modeli. W liście nadzorczym SR09-01 zwrócono uwagę na "różne koncepcje związane z zarządzaniem ryzykiem modeli, w tym standardy walidacji i przeglądu, dokumentację walidacji modeli i weryfikację historyczną". Ponadto ważny Podręcznik Rezerwy Federalnej dotyczący działalności handlowej i rynków kapitałowych omawia również walidację i zarządzanie ryzykiem modeli. I chociaż Rezerwa Federalna przewodziła opłatom za zarządzanie ryzykiem modeli, inne organy regulacyjne, w tym Federalna Korporacja Ubezpieczeń Depozytów (FDIC), miały własne wytyczne dla banków. Na przykład w FIL 17022 FDIC zapewnia wytyczne regulacyjne dotyczące "opracowania, wdrożenia i wykorzystania modelu; walidacja modelu; i ładu korporacyjnego, polityk i kontroli". Te szczególne obszary ryzyka są szczegółowo omówione w całym dokumencie i mają na celu ocenę, czy "stosowanie modelu przez instytucję jest znaczące, złożone lub stwarza podwyższone ryzyko dla instytucji". Inne finansowe organy regulacyjne, takie jak Office of the Comptroller of the Currency (OCC), również wydały wytyczne dotyczące ryzyka modeli w różnych obszarach, w tym "kredyt gwarantowany; wycena ekspozycji, instrumentów i pozycji; pomiar ryzyka; zarządzanie i ochrona aktywów klientów; oraz ustalania adekwatności kapitałowej i rezerwowej." Te nakładające się na siebie i czasami mylące przepisy mają dobre intencje. W ostatnich latach branża usług finansowych była jednym z najszybciej wdrażających automatyzację, począwszy od podstawowej automatyzacji rutynowych zadań zaplecza, a skończywszy na skomplikowanym obrocie instrumentami finansowymi w wiodących funduszach hedgingowych. W szczególności OCC zwróciło uwagę na daleko idący wpływ automatyzacji na branżę usług finansowych, zauważając, że chociaż "modele mogą usprawnić decyzje biznesowe, wiążą się również z kosztami, w tym z potencjalnymi negatywnymi konsekwencjami decyzji opartych na modelach, które są albo nieprawidłowe lub niewłaściwie użyte. Możliwość podjęcia złych decyzji biznesowych i strategicznych, strat finansowych lub uszczerbku na reputacji banku, gdy modele odgrywają istotną rolę, jest istotą "ryzyka modeli". Zarządzanie ryzykiem modeli, w najszerszym ujęciu, zostało zaprojektowane przede wszystkim w celu uniknięcia nadmiernego ryzyka w oparciu o zachowanie modelu. W następstwie kryzysu finansowego z 2008 r. instytucje finansowe, nie bez powodu, bardzo zaniepokoiły się ryzykiem związanym z modelami. Wielu ekonomistów, regulatorów i ekspertów rynkowych obwiniało sektor bankowy za nadmierne poleganie na modelach. Modele te, zwłaszcza te przewidujące wartość finansowych instrumentów pochodnych na podstawie cen mieszkań i związanych z nimi spłat kredytów hipotecznych, opierały się na błędnych założeniach dotyczących ryzyka związanego z błędem selekcji w odniesieniu do trendów historycznych. Mimo że modele były statystycznie solidne w oparciu o ich dane, ostatecznie modele używane przed kryzysem z 2008 r. nie uwzględniły ogólnokrajowego załamania cen mieszkań i związanych z nim efektów ubocznych. Całe książki, rozprawy i kursy MBA są obecnie nauczane na temat niepowodzenia sektora bankowego w odpowiednim zarządzaniu ryzykiem za pomocą modeli, więc będę unikać wdawania się tutaj w zbyt wiele szczegółów. Kluczowe dla naszych celów jest to, że modele te były przede wszystkim modelami opartymi na statystykach. Bardzo niewiele, jeśli w ogóle, dotyczyło uczenia maszynowego lub sztucznej inteligencji. Następstwa kryzysu z 2008 roku były sygnałem ostrzegawczym dla organów regulacyjnych i banków, które chciały uniknąć kosztownych kar za nieprzestrzeganie nowych przepisów. Niektóre instytucje finansowe tworzyły całe zespoły specjalistów ds. zarządzania ryzykiem modeli, podczas gdy inne tworzyły grupy robocze ds. zarządzania ryzykiem modeli składające się z wielofunkcyjnych profesjonalistów z zespołów prawnych, ds. ryzyka, zgodności i rynków. Wszystkie te zespoły ds. zarządzania ryzykiem modeli miały wspólną cechę: koncentrowały się przede wszystkim na modelach statystycznych i systemach czysto deterministycznych. System deterministyczny nie wiąże się z przypadkowością w rozwoju przyszłych stanów systemu. Dlatego dla każdego możliwego wejścia istnieje znane wyjście. Zespoły ds. zarządzania ryzykiem modeli koncentrują się przede wszystkim na ocenie wszystkich możliwych danych wejściowych i powiązanych z nimi danych wyjściowych i często wymaga się, aby były one jak najbardziej zbliżone do scenariusza "jeżeli-to". A w czysto statystycznych modelach i zrobotyzowanej automatyzacji procesów zarządzanie ryzykiem modeli w oparciu o wytyczne regulacyjne sprawdza się całkiem dobrze. Ale potem pojawiła się AI. "Więc po tym, jak mój zespół skończy tworzyć model, testować go i uruchamiać kilka scenariuszy na żywo z innymi zestawami danych, wysyłamy go do zgodności. Mają do przejścia protokół zarządzania ryzykiem modeli" - powiedział mój klient. Jest doświadczoną specjalistką ds. bezpieczeństwa cybernetycznego, która niedawno przejęła na własność wewnętrzne projekty analizy danych firmy w celu wykrywania oszustw. Poza tym, że jest znakomitym liderem w dziedzinie cyberbezpieczeństwa, ma również wyższe stopnie naukowe w dziedzinie analizy danych iw przeszłości kierowała zespołami ds. rozwoju sztucznej inteligencji. Jest jedną z tych rzadkich zawodowców, którzy płynnie połączyli dwie krytyczne dziedziny we właściwym czasie. "Po przejściu do zarządzania ryzykiem modeli, siedzi tam. Zwykle na kilka tygodni. Potem dostajemy pytania zwrotne. Pytania te dotyczą zazwyczaj konkretnych możliwych danych wejściowych. Więc przepuszczamy to przez model AI. I zgłoś się. Kilka tygodni później dostajemy pytania, dlaczego otrzymaliśmy te odpowiedzi" - wyjaśnia. Przeprowadza mnie przez ich przepływ pracy. Zatrudniali dziesiątki profesjonalistów pracujących jako naukowcy zajmujący się danymi i programiści sztucznej inteligencji w całej organizacji. Nadzorowała nie tylko analityków danych pracujących nad oszustwami, ale także nad innymi obszarami automatyzacji i generowania wglądu. Jako utalentowana, doświadczona profesjonalistka kierująca zaawansowanym i dobrze opłacanym zespołem spodziewałam się, że jej organizacja szybko wdroży sztuczną inteligencję. Wyraźnie miała poparcie kierownictwa firmy. W swoim rocznym raporcie o zarobkach dyrektor generalny firmy kilkakrotnie wspominał o sztucznej inteligencji i automatyzacji podczas rozmowy ze społecznością inwestycyjną. "Ostatecznie za każdym razem, gdy wysyłamy model do zarządzania ryzykiem modeli do zatwierdzenia, zmienia się to w dwie rzeczy. Pierwszym z nich jest losowe przejście do określonych danych wejściowych, dla których chcą zobaczyć dane wyjściowe. Cienki. Jest to czasochłonne, ale wykonalne. Następnie wysyłamy listę danych wejściowych, przepuszczamy ją przez silnik AI i odsyłamy wyniki. Po drugie, musimy w zasadzie nauczyć ich Master Class w teorii AI, aby mogli czuć się komfortowo z każdym nowym modelem. To nigdy naprawdę nie działa". To, co opisuje, to proces potrzebny do uzyskania modelu AI poprzez ramy zarządzania ryzykiem modeli w jej firmie. Zatwierdzenie modeli AI zajmuje średnio od czterech do sześciu miesięcy. "Zespół ds. zgodności zawsze obawiał się, że będą musieli powiedzieć organowi regulacyjnemu:" no cóż, maszyna kazała nam to zrobić "i zostaniemy ukarani grzywną" - powiedziała mi. "Powodem, dla którego chcieli zobaczyć wszystkie możliwe kombinacje wejść i wyjść, było to, że czuli, że to jedyny sposób, w jaki mogą powiedzieć regulatorowi, że maszyna jest zgodna. Bali się sztucznej inteligencji czarnej skrzynki, a jeszcze bardziej bali się, że organy regulacyjne boją się czarnej skrzynki". Kiedy kopaliśmy głębiej, moi koledzy i ja odkryliśmy, że nie było to spowodowane słabą dokumentacją lub uzasadnieniem architektury modelu w imieniu zespołu analityki danych. W przeciwieństwie do wielu firm, z którymi rozmawiałem, ten klient w szczególności miał już solidne kryteria oceny modelu i udostępniania informacji. Wyzwanie polegało na tym, że został stworzony przez analityków danych i ekspertów AI dla innych ekspertów. Eksperci ci rozumieli kompromisy między, na przykład, losowymi lasami a głębokimi sieciami neuronowymi. Starannie skonstruowali swoje modele, aby były właściwymi modelami do tego zadania. Załamanie komunikacji nastąpiło, gdy musieli uzasadnić te ustalenia przed zespołem ds. zarządzania ryzykiem modeli. Podobna sytuacja miała miejsce podczas rozmowy z wiodącą firmą ubezpieczeniową. Ta firma, znana z bycia w czołówce technologii ubezpieczeniowych, aktywnie wykorzystywała sztuczną inteligencję do podejmowania decyzji ubezpieczeniowych dotyczących nieruchomości mieszkalnych i firmowych. Na pierwszy rzut oka wyglądało na to, że mają wyraźną przewagę i nie mogłem zrozumieć, dlaczego ich konkurencja nie robi tego samego. Wyzwanie było jednak niemal identyczne. "To był jeden z wielkich stanów. Pomyśl o Nowym Jorku, Teksasie lub Kalifornii. A ich regulator ubezpieczeniowy, Departament Ubezpieczeń, chciał zaświadczyć, że nasz model jest zgodny" - powiedział dyrektor ds. wzrostu firmy ubezpieczeniowej. Przeprowadził mnie przez wyzwania, przed którymi stanęli, korzystając z modeli AI do underwritingu. "Ostatecznie poprosili nas o dostarczenie danych wyjściowych dla około pięćdziesięciu tysięcy różnych adresów. A potem losowa próbka z każdego kodu pocztowego w stanie. Zgodziliśmy się i ostatecznie wysłaliśmy im około dwudziestu tysięcy wydrukowanych stron dokumentacji". W porównaniu z wieloma organami regulacyjnymi stanowy Departament Ubezpieczeń był pozornie dobrze przygotowany do zbadania modelu AI. W końcu firmy ubezpieczeniowe i ich organy regulacyjne są dobrze zorientowane w modelach statystycznych, które leżą u podstaw praktyk ubezpieczeniowych. Jednak nawet te matematycznie wyrafinowane organizacje nie są w stanie odpowiednio ocenić, czy model jest wysokiej jakości i zgodny. Jedynymi metodami, jakie mieli do dyspozycji, było rzucanie wielu punktów danych na sztuczną inteligencję i indywidualne sprawdzanie, jaki jest wynik. Mówiąc o wyzwaniach, w szczególności w branży ubezpieczeniowej, Amir Cohen, współzałożyciel i CTO firmy Planck, zajmującej się opracowywaniem sztucznej inteligencji, sprowadza się do zaufania. "AI będzie cierpieć", mówi, "na początku z powodu braku zaufania. Zmiany nigdy nie są łatwe dla ludzi ani organizacji, a ponieważ trwale zmienią procesy, które [firmy ubezpieczeniowe] prowadziły ręcznie od dziesięcioleci, zmiana nie nastąpi w ciągu jednego dnia". Zaufanie, o którym mówi Cohen, to zaufanie, które model będzie wykonywać i które jest bezpieczne. To, czego Cohen dotyka tylko pobieżnie, to leżące u podstaw kulturowe przejście od operacji ręcznych do polegania na zautomatyzowanych, niedeterministycznych systemach sztucznej inteligencji. To, co nazywa zaufaniem, jest tak naprawdę różnicą między ręcznym sprawdzaniem wszystkich możliwych danych wejściowych i wyjściowych a zrozumieniem i oceną logiki sztucznej inteligencji, gdzie dla każdego wejścia dane wyjściowe są na początku niepoznawalne. Wyzwania, przed którymi stają moi klienci z branży ubezpieczeniowej i finansowej, jeśli chodzi o ocenę ryzyka modelu AI, są niemal identyczne. Głównie zespoły programistów AI nie są w stanie skutecznie informować o legalności i bezpieczeństwie sztucznej inteligencji organizacjom opartym na zgodności. Organizacje ds. zgodności w tym przypadku odnoszą się zarówno do organów regulacyjnych, takich jak departament ubezpieczeń na poziomie stanowym, jak i wewnętrznych zespołów prawnych, ds. ryzyka i ds. zgodności. Ta niezdolność do efektywnej komunikacji między zespołami powoduje znaczne opóźnienia we wdrażaniu modelu, marnując zarówno czas, jak i zasoby. To nie jest wina tych organizacji zajmujących się zgodnością. W poprzednich rozdziałach szczegółowo omówiliśmy kilka sposobów, w jakie modele mogą zawieść na podstawie złych danych wejściowych i działań kontradyktoryjnych. Zarówno organy regulacyjne, jak i zespoły ds. ryzyka zdają sobie sprawę, że systemy sztucznej inteligencji można zhakować. Zautomatyzowane systemy oparte na regułach, do których są przyzwyczajone usługi finansowe modelujące zarządzanie ryzykiem i organy nadzoru ubezpieczeniowego, nie mogą zostać zhakowane przy użyciu tych metod. Dla każdego wejścia istnieje znane, zmapowane wyjście. To niedeterministyczny charakter sztucznej inteligencji sprawia, że jest ona zarówno wrażliwa, jak i nieprzejrzysta. Sztuczna inteligencja może również zawieść, ponieważ jest źle skonstruowana, źle dostosowana do konkretnego przypadku użycia, a wydajność sztucznej inteligencji może się zmieniać w czasie. Przy wszystkich tych zagrożeniach organy regulacyjne i zespoły ds. zgodności mają powody do obaw o wydajność, stronniczość i bezpieczeństwo modeli. Chociaż zarówno branża ubezpieczeniowa, jak i finansowa mają bezpośredni wpływ na życie swoich klientów, jest mało prawdopodobne, aby włamanie lub awaria sztucznej inteligencji w którejkolwiek z branż spowodowało utratę życia. Inaczej jest w innych sektorach, takich jak lotnictwo i obrona, gdzie włamanie lub awaria systemu sztucznej inteligencji może mieć konsekwencje dla życia i śmierci. W świetle tych zagrożeń logiczne byłoby założenie, że branże te stworzyły już solidny zestaw narzędzi do oceny bezpieczeństwa i wydajności swoich systemów sztucznej inteligencji. Ale tak nie jest. Pod koniec 2019 r. RAND Corporation otrzymała zlecenie Wspólnego Centrum Sztucznej Inteligencji (JAIC) Departamentu Obrony USA, aby napisać ocenę wysiłków JAIC w dziedzinie sztucznej inteligencji. Założone w 2018 r. i administrowane przez dyrektora Departamentu Obrony ds. Informatyki, misją centrum jest ustanowienie wspólnego zestawu "narzędzi standardów AI, udostępnianych danych, technologii wielokrotnego użytku, procesów i wiedzy specjalistycznej" dla całego Departamentu Obrony. centrum była pojedyncza obawa: Stany Zjednoczone mogą potencjalnie stracić przewagę technologiczną w dziedzinie sztucznej inteligencji na rzecz Rosji i Chin. Misja JAIC wykracza poza samo ustanowienie zestawu narzędzi i technologii. Misja stojąca za misją, że tak powiem, polega na utrzymaniu przewagi informatycznej armii USA w rywalizacji wielkich mocarstw. Pierwszym dużym, publicznie ogłoszonym projektem podjętym przez JAIC był kontrowersyjny Project Maven. Oficjalnie nazwany Wielofunkcyjnym Zespołem ds. Wojny Algorytmicznej, Projekt Maven został uruchomiony rok wcześniej w kwietniu 2017 r. Według rzecznika Pentagonu, misją projektu jest stworzenie "algorytmów komputerowo-wizyjnych potrzebnych do pomocy analitykom wojskowym i cywilnym, obciążonym samą ilością pełnoekranowe dane wideo, które Departament Obrony zbiera codziennie w celu wsparcia operacji przeciwdziałania powstańcom i terroryzmowi". Projekt Maven miał być i pozostaje bardzo wrażliwy, a większość informacji o projekcie pozostaje utajniona. Publicznie wiadomo o projekcie, że jest to zaawansowany program wykorzystujący komputerową sztuczną inteligencję do sortowania ogromnych ilości transmisji wideo na żywo i innych informacji przechwyconych przez ogromny amerykański wywiad wojskowy, aparat nadzoru i rozpoznania. Oznacza to, że systemy sztucznej inteligencji są wykorzystywane do identyfikacji osób, w tym wrogich bojowników, i śledzenia ich ruchów. Jedną z pierwszych użytecznych SI, które zostały wysłane do strefy działań wojennych, był komputerowy system wizyjny, który identyfikuje "klasy obiektów reprezentujące rodzaje rzeczy, które departament musi wykryć, zwłaszcza w walce z Islamskim Państwem Iraku i Syrii", zgodnie z DoD. Rozsądnie oznacza to, że sztuczna inteligencja jest aktywnie używana przez amerykańskich wojowników w aktywnych strefach walki. Członkowie społeczności obronnej, a nawet członkowie Kongresu wierzyli, że ze względu na potencjalną śmiertelność tych systemów w ramach cyklu gromadzenia i wykorzystywania danych wywiadowczych, JAIC i Project Maven będą miały wdrożone znaczące protokoły bezpieczeństwa i zarządzania ryzykiem. Korporacja RAND odkryła jednak coś przeciwnego. "Dziedzina szybko się rozwija, a algorytmy, które napędzają obecny rozwój sztucznej inteligencji, są zoptymalizowane pod kątem zastosowań komercyjnych, a nie Departamentu Obrony. Jednak obecny stan weryfikacji, walidacji i testowania sztucznej inteligencji jest daleki od zapewnienia wydajności i bezpieczeństwa aplikacji sztucznej inteligencji, szczególnie w przypadku systemów o krytycznym znaczeniu dla bezpieczeństwa, stwierdzili naukowcy. Pomimo potencjalnego śmiercionośnego działania związanego z rozmieszczeniem sztucznej inteligencji na polu bitwy, wykorzystanie tej technologii powinno teoretycznie dawać znaczące testy jakości i bezpieczeństwa przeprowadzane przez wojsko. Obecnie korzyści powinny przewyższać ryzyko. Ale RAND znalazł coś przeciwnego. Zamiast tego armia USA napotyka te same wyzwania, co sektor prywatny. Badanie wykazało, że bezpieczeństwo sztucznej inteligencji, w szczególności w zastosowaniach wojskowych USA, nie ma tych samych rygorystycznych protokołów bezpieczeństwa cybernetycznego, z których musi korzystać tradycyjne oprogramowanie podczas wdrażania. To ten sam problem, z którym borykają się również firmy z sektora prywatnego. Pomimo znacznego doświadczenia w ocenie i ograniczaniu ryzyka związanego ze złożonym oprogramowaniem, logistyką i systemami mechanicznymi, armia USA nie jest dobrze przygotowana do oceny podstawowych zagrożeń dla bezpieczeństwa i wydajności sztucznej inteligencji, nawet w ośrodkach zajmujących się wyłącznie pozyskiwaniem tych technologii do zdolności bojowych . Niezdolność organizacji do szybkiej oceny wydajności i bezpieczeństwa sztucznej inteligencji nie ilustruje wszystkich wyzwań związanych z wdrażaniem sztucznej inteligencji. Istnieją również ogromne wyzwania techniczne, kadrowe i kulturowe. Od strony technicznej strategie sztucznej inteligencji napotykają na wyzwania związane z wdrażaniem, począwszy od gotowości IT, przez przygotowanie danych, aż po tradycyjne obawy dotyczące prywatności i bezpieczeństwa. Są one połączone z ciągłym niedoborem siły roboczej dla programistów i menedżerów zajmujących się zaawansowaną nauką o danych i sztuczną inteligencją, którzy mogą skutecznie kierować organizacjami zorientowanymi na sztuczną inteligencję. Wreszcie, organizacje muszą również przejść zmiany kulturowe. Wdrażanie sztucznej inteligencji wymaga kompromisów, między innymi potencjalnej utraty miejsc pracy w miarę wzrostu automatyzacji. Pod wieloma względami te wyzwania techniczne, kadrowe i kulturowe są największymi przeszkodami w pomyślnym wdrożeniu sztucznej inteligencji. Bariery te stanowią jak dotąd poważniejsze przeszkody niż bezpieczeństwo. Te przykłady z usług finansowych, branży ubezpieczeniowej i armii USA ilustrują, że wiele z naszych najbardziej zaawansowanych organizacji jest źle przygotowanych do zrozumienia, nie mówiąc już o łagodzeniu, wydajności sztucznej inteligencji i zagrożeń bezpieczeństwa. Bezpieczeństwo i zapewnienie jakości AI są uważane za refleksję, jeśli w ogóle są brane pod uwagę. To pozostawia te organizacje otwarte na włamanie AI, a także może narazić życie na niebezpieczeństwo. Wszystkie organizacje, niezależnie od tego, czy dopiero rozpoczynają swoją przygodę ze sztuczną inteligencją, czy już dysponują solidnymi zespołami ds. rozwoju sztucznej inteligencji, muszą przyjąć ramy zarządzania ryzykiem związane z rozwojem sztucznej inteligencji i modelami, aby zapewnić jakość, bezpieczeństwo i zgodność swoich modeli sztucznej inteligencji.

Zadawanie właściwych pytań

Podczas oceny potoków sztucznej inteligencji organizacji w sektorach usług finansowych, ubezpieczeniowych, rządowych, a nawet konsumenckich, wyróżniała się jedna kluczowa informacja. Nie zadawali właściwych pytań. Tymczasem różne zespoły, takie jak data science i zespoły prawne, nie zadawały tych samych pytań, co prowadzi do mętnych odpowiedzi i nieudanej komunikacji. Zespoły ds. nauki o danych i rozwoju sztucznej inteligencji koncentrowały się przede wszystkim na metrykach do nauki o danych, takich jak precyzja, dokładność i wyniki F1. Są to wszystkie krytyczne wskaźniki oceny jakości modelu. Jednak w próżni nie odpowiadają na pytania operacyjne i dotyczące zgodności, które zadawali interdyscyplinarni członkowie zespołu ds. zarządzania ryzykiem modeli. Pytania te dotyczyły legalności, stronniczości i wyników w przypadku tzw. zdarzeń ogona ryzyka. Zasadniczo zespoły międzyfunkcyjne prosiły o uzasadnienie, dlaczego model jest dobry i chciały wiedzieć, kiedy się nie powiedzie. Nowoczesne, gotowe na sztuczną inteligencję rozwiązanie do zarządzania ryzykiem modeli obejmuje omówiony wcześniej bezpieczny cykl życia sztucznej inteligencji (SAILC) oraz warstwy dotyczące krytycznych pytań, na które organizacja musi odpowiedzieć, aby zweryfikować jakość, bezpieczeństwo, zgodność z prawem i etykę modelu. Prawidłowo wykonane zarządzanie ryzykiem modelu AI płynnie łączy międzyfunkcyjne przeglądy, raporty i bieżące monitorowanie sztucznej inteligencji od początkowego gromadzenia danych do udanej implementacji. Chociaż to podejście jest znacznie bardziej kompleksowe niż przeglądy zgodności w większości dużych firm, zarządzanie ryzykiem modeli AI nie powinno spowalniać korzystania z AI. Wręcz przeciwnie, pomyślne wdrożenie zarządzania ryzykiem modeli sztucznej inteligencji powinno przyspieszyć eksperymentowanie, testowanie i wdrażanie sztucznej inteligencji w skali przedsiębiorstwa. Dzieje się tak, ponieważ od samego początku odpowiadając na krytyczne pytania dotyczące jakości, bezpieczeństwa i zgodności, ostateczna walidacja systemów sztucznej inteligencji będzie prosta. Jeśli proces zarządzania ryzykiem modelu AI był przestrzegany od początku do końca, na wszystkie pytania udzielono już odpowiedzi w udokumentowanej, możliwej do skontrolowania ścieżce. Będzie to wymagało znaczącej zmiany kulturowej, ponieważ międzyfunkcyjne zespoły prawne, ds. ryzyka i zgodności będą musiały ściślej współpracować z analitykami danych i programistami AI. Na początku może to powodować tarcia, gdy organizacje te nauczą się ze sobą współpracować. Ocena sztucznej inteligencji za pomocą procesów zarządzania ryzykiem modeli obejmuje trzy podstawowe kategorie: jakość sztucznej inteligencji, bezpieczeństwo i zgodność. Każdy z nich wymaga innego rodzaju raportów i danych. Obecnie nie jest dostępny żaden pojedynczy zestaw narzędzi do zarządzania przepływem pracy związanym z zarządzaniem ryzykiem modelu AI. Zamiast tego organizacje muszą polegać na zbiorze narzędzi i procesów wewnętrznych, aby zarządzać bieżącymi sprawami procesu zarządzania ryzykiem modeli AI. Poniższe sekcje nie mają być uporządkowane liniowo, ponieważ każdy z nich występuje w całym cyklu życia opracowywania modelu. Standardy stosowane przez organizacje w zakresie jakości, bezpieczeństwa i zgodności będą się różnić w zależności od przypadku użycia AI. Komputerowa sztuczna inteligencja, która przewiduje te same szacunki przychodów ze sprzedaży w sklepie na Wall Street, patrząc na samochody na parkingu, nie ma takich samych wymagań bezpieczeństwa ani prawnych, jak komputerowa sztuczna inteligencja, która diagnozuje komórki rakowe. Każde pytanie zadane sztucznej inteligencji w całym cyklu zarządzania ryzykiem modeli musi być odpowiednio osadzone w kontekście. To samo dotyczy nawet środowisk o wysokim poziomie bezpieczeństwa, takich jak wojsko. Na przykład jednym z największych niesklasyfikowanych zastosowań sztucznej inteligencji przez Siły Powietrzne USA jest konserwacja predykcyjna. USAF wykorzystuje połączone czujniki na swoich płatowcach, aby z wyprzedzeniem przewidywać awarie, co prowadzi do skrócenia czasu spędzonego w warsztacie i obniżenia kosztów wymiany. Chociaż przeciwnik prawdopodobnie mógłby znaleźć sposób na zakłócenie tych przewidywań, jego zysk byłby ograniczony. Jednak USAF wykorzystuje również sztuczną inteligencję w wyrafinowanej broni i systemach celowniczych. Prawie na pewno zostaną one zaatakowane przez przeciwnika, a także będą wiązać się ze znacznie wyższymi kosztami niepowodzenia. Jeśli sztuczna inteligencja konserwacji predykcyjnej zawiedzie, samolot może zostać uziemiony. W najgorszym przypadku zostanie uziemiony w krytycznym momencie. Jeśli jednak system broni AI zawiedzie, ludzie mogą zginąć. Ze względu na ogromną różnicę w wpływie awarii i wydajności sztucznej inteligencji, organizacje powinny wyznaczyć określone progi dla typów przypadków użycia. Progi te powinny uwzględniać leżące u podstaw ryzyko związane z jakością, bezpieczeństwem i zgodnością.

Jakość, wydajność i identyfikowalność


Zaczynając od samego modelu, podstawowe pytanie, które należy zadać, brzmi: czy ten model jest wysokiej jakości? Rozpakowanie odpowiedzi na to pytanie obejmuje przede wszystkim tradycyjne metryki nauki o danych, a także planowanie scenariuszy, testowanie prostoty modelu, testowanie warunków skrajnych modelu i testowanie jakości danych. Wszystkie te czynniki muszą zostać uzupełnione i udokumentowane przez zespół analityków danych. Po dokumentacji informacje muszą zostać udostępnione wewnętrznie zespołowi analityki danych w celu przeglądu przez eksperta. Po przeglądzie analizy danych każda ocena przyrostowa powinna zostać udostępniona i podpisana przez członków zespołu ds. zarządzania ryzykiem modeli międzyfunkcyjnych. Jakość modelu odnosi się do stosowności modelu i jego danych bazowych do określonego zadania. Wydajność modelu to zdolność modelu do działania nie tylko na danych treningowych, ale także w rzeczywistych scenariuszach. Te dwie cechy sztucznej inteligencji, czyli to, że jest to odpowiedni model do zadania i że działa powyżej określonego progu, są elementami składowymi zarządzania ryzykiem modelu AI i zwykle są obszarami, na których zespoły zajmujące się analizą danych spędzają większość czasu. Typowe wyniki wydajności, w tym dokładność, precyzja i wyniki F1, między innymi, to przydatne wskaźniki, które należy uwzględnić podczas tych segmentów walidacji modelu AI. Identyfikowalność jest często pomijana, ale zapewnia ciągłość w całym cyklu zarządzania ryzykiem modelu AI. Identyfikowalność, czasami nazywana audytowalnością, odnosi się do zdolności dowolnego członka zespołu lub menedżera z odpowiednim dostępem do wglądu w każdą decyzję podjętą podczas opracowywania i ostatecznego wdrażania modelu AI. Obejmuje to, kto podjął decyzje, zapisy, dlaczego lub jakie kompromisy zostały rozważone oraz kto z zespołu wielofunkcyjnego zatwierdził wszelkie decyzje. Identyfikowalność jest kluczowa, ponieważ jeśli zostanie wykonana prawidłowo, wymusza dokumentację i współpracę między zespołami przy wszystkich decyzjach modelowych, tworząc jedno wspólne źródło prawdy dla cyklu życia sztucznej inteligencji. Oznacza to, że kiedy przychodzi czas na wprowadzenie sztucznej inteligencji do środowiska produkcyjnego, wszystkie informacje są już skodyfikowane, udokumentowane i zatwierdzone. Najlepsze przykłady identyfikowalności pochodzą z wnętrza amerykańskiej społeczności wywiadowczej. W CIA oficerowie prowadzący, odpowiedzialni za rekrutację i prowadzenie szpiegów w obcych krajach, rutynowo dokumentują jak najwięcej szczegółów na każdym kroku. "Robimy to tak, aby każdy inny oficer mógł z łatwością kontynuować tam, gdzie skończyliśmy" - powiedział mi emerytowany oficer wywiadu zawodowego przy cichym piwie w północnej Wirginii. Spotkaliśmy się, aby omówić trendy transformacji cyfrowej w rządzie USA. Rozmowa szybko zeszła na temat tego, co obaj postrzegaliśmy jako przeszkodę w wykorzystaniu sztucznej inteligencji w ramach bezpieczeństwa narodowego: słabej identyfikowalności w zespołach analityków danych. "Nigdy nie wiadomo, co się wydarzy na boisku. Możesz zostać skompromitowany i będziesz musiał opuścić kraj. Możesz zostać przeniesiony. Jeśli znajduje się to na wrogim terytorium, możesz nawet zostać zabity lub ranny" - powiedział mi starzejący się oficer. "Z tego powodu sprawiamy, że bez względu na to, co się stanie, twoją pracę może natychmiast kontynuować ktoś inny, kto ma tyle informacji, ile masz". Choć nie tak dramatyczne lub niebezpieczne, zespoły analityki danych powinny przyjąć to samo podejście. Analitycy danych i programiści AI są bardzo poszukiwani, a wiele miejsc pracy zmienia się już po krótkim czasie. Tymczasem, biorąc pod uwagę liczne projekty data science prowadzone w dużych przedsiębiorstwach, wielu zostanie przydzielonych do nowych projektów lub zespołów w trakcie pracy nad innymi projektami. Utrzymanie identyfikowalności jest zatem kluczem do zachowania ciągłości i uniknięcia straty czasu, zmarnowanego wysiłku i zablokowania projektu. Prawidłowo wykonana identyfikowalność nie jest postrzegana ani wykorzystywana jako podejście Wielkiego Brata do zapewniania jakości, ale zamiast tego techniki te powinny być stosowane do skutecznego dokumentowania i komunikowania jakości i wydajności modeli w celu przyspieszenia ich wykorzystania.

Bezpieczeństwo i Drift

Najlepszym sposobem na uniknięcie incydentu związanego z bezpieczeństwem AI jest nie być miękkim celem. Dlatego dużym elementem zarządzania ryzykiem modelu AI jest wdrożenie cyklu życia sztucznej inteligencji bezpieczeństwa (SAILC). Wdrażając modelowanie zagrożeń i testowanie bezpieczeństwa na jak najwcześniejszym etapie procesu rozwoju sztucznej inteligencji, organizacje mogą uniknąć pułapki bezpieczeństwa AI jako późniejszej refleksji, która jest wszechobecna w większości organizacji. Organizacje wdrażające SAILC powinny uważać, aby nie pomylić tego z całościowym zarządzaniem ryzykiem modelu AI. Proces ten stanowi jedynie podzbiór ogólnego ograniczania ryzyka. Na początku lutego 2019 r. Gartner opublikował potępiający raport na temat stanu bezpieczeństwa i zagrożeń związanych ze sztuczną inteligencją. W ich raporcie stwierdzono, że "liderzy ds. aplikacji muszą przewidywać i przygotowywać się do ograniczania potencjalnych zagrożeń związanych z uszkodzeniem danych, kradzieżą modeli i próbkami przeciwnika". To bezpośrednio przywołuje wiele metod hakowania AI omówionych w poprzednich rozdziałach. Jednak raport wykazał, że organizacje były wyjątkowo niedostatecznie przygotowane. Dyrektor ds. bezpieczeństwa informacji (CISO) w wiodącym banku powiedział mi: "Nie chodzi o to, że my [bank] nie chcemy zabezpieczać naszych systemów. Chodzi o to, że nie wiemy jak. Ilu znasz analityków danych, którzy faktycznie potrafią zbudować przeciwstawne próbki lub zrozumieć naukę? Ilu z tych ludzi chce pracować w dużym, nudnym banku? Kiedy Ram Shankar, Siva Kumar i Frank Nagle przeprowadzili badania dla Harvard Business Review, odkryli ten sam wzorzec we wszystkich organizacjach, w tym na liście Fortune 500, w małych i średnich firmach oraz w organach rządowych - odkryli, że 89% z nich nie ma nawet planu zwalczać wrogie ataki na ich systemy sztucznej inteligencji. Najbardziej interesujące dla mnie w tym badaniu było to, że pojawienie się problemu nie wynikało z braku świadomości. Zamiast tego był to brak możliwości i wiedzy, jak rozwiązać ten problem. Autorzy wskazują na dwa dodatkowe obszary poza wewnętrznymi możliwościami, które utrudniają organizacjom wzmocnienie ich pozycji w zakresie bezpieczeństwa AI. Po pierwsze, nadal szybko pojawiają się mechanizmy obronne AI. Weźmy na przykład sytuację, w której badacze zajmujący się bezpieczeństwem sztucznej inteligencji stwierdzili, że trzynaście wiodących mechanizmów obronnych przed przeciwnikami z literatury akademickiej okazało się bezużytecznych pod względem operacyjnym. Wiele organizacji postrzega bezpieczeństwo jako ćwiczenie typu "sprawdzanie pola". Ale nie można tego zrobić za pomocą hakowania AI, ponieważ dziedzina ta szybko się rozwija. Po drugie, istniejące przepisy dotyczące praw autorskich, odpowiedzialności za produkt i amerykańskie przepisy "antyhakerskie" mogą nie obejmować wszystkich trybów awarii sztucznej inteligencji. aspekty przestępczości komputerowej, prawa autorskiego i prawa deliktowego obejmują niektóre elementy perturbacji, zatrucia, kradzieży modeli i ataków polegających na odwracaniu modeli, podczas gdy inne nie są objęte. Na przykład, ponieważ ataki na komputerowe systemy wizyjne, które mają miejsce w świecie rzeczywistym, takie jak wrogie okulary lub naklejki na znakach stopu, w rzeczywistości nie dają dostępu do bazowego systemu komputerowego, takie ataki nie są objęte prawem. Oznacza to, że zwykłe dźwignie, które organizacja może zastosować w celu oceny i ograniczenia ryzyka, nie były dostępne. Poza prawnymi ograniczeniami, firmy zazwyczaj starają się ograniczać zagrożenia bezpieczeństwa poprzez ubezpieczenie. Jednak w przypadku sztucznej inteligencji nawet tradycyjne polisy ubezpieczeniowe w cyberprzestrzeni nie obejmują nowych sposobów, w jakie przeciwnicy mogą manipulować modelami. Oprócz pomyślnego wdrożenia procesu SAILC organizacje, którym zależy na bezpieczeństwie AI, muszą również zrobić dwie rzeczy, aby wypełnić wspomniane powyżej luki. Po pierwsze, muszą podnieść rolę CISO, aby stał się wielofunkcyjnym wykonawcą nadzorującym zarządzanie ryzykiem modeli SAILC i AI. Po drugie, powinni inwestować w ubezpieczenia AI. Częstym pytaniem podczas omawiania SAILC z kierownictwem jest: Kto ponosi za to odpowiedzialność? Co przekłada się z przemówienia wykonawczego na: Czyj tyłek jest zagrożony, gdy to się nie powiedzie? Powszechną reakcją jest to, że projektowanie i wdrażanie SAILC powinno być w ramach samego zespołu zajmującego się nauką o danych lub rozwojem sztucznej inteligencji. Uważam, że jest to zły wybór. Zespół i przywództwo najlepiej przystosowane do walki z bezpieczeństwem sztucznej inteligencji to zespół, który już zajmuje się cyberbezpieczeństwem - CISO. SAILC powinny być zarządzane przez międzyfunkcyjny zespół zorganizowany przez CISO i jego personel i podlegający temu. Będzie to wymagało ewolucyjnej zmiany roli CISO. Ograniczeni przez napięte budżety i muszący przestrzegać nakładających się zasad, wymagań, przepisów i dostawców, wielu CISO już dziś jest przepracowanych. Opierają się na ścisłym zestawie zgodności i standardów. Krótko mówiąc, z wyjątkiem wyjątkowo przyszłościowych przypadków, CISO nie są uważani za motor innowacji organizacji. Jednak w wielu organizacjach CISO już przyjmują tę rolę. "Pewnego piątkowego wieczoru zostałem wezwany do wygłoszenia prezentacji przed zarządem" - powiedział mi CISO wiodącej marki konsumenckiej. "To nie było z powodu niczego, co zrobiłem. Albo nawet mój zespół to zrobił. Marketing zawalił sprawę, a ich narzędzie marketingowe niewłaściwie wypychało reklamy. To była sztuczna inteligencja, więc podlegała analizie danych. Ale powiedzieli, że to awaria systemu cyfrowego, co chyba jest prawdą. Praca spadła na mnie. Teraz ja jestem odpowiedzialny za to, by cała nasza sztuczna inteligencja się nie zepsuła". CISO będą potrzebować nowych narzędzi, zwiększonych budżetów i uprawnień, aby skutecznie zarządzać SAILC. Zespoły analityków danych prawdopodobnie będą nadal podlegały bezpośrednio jednostkom biznesowym lub będą działać jako ogólnofirmowa usługa wspólna. Dlatego CISO będzie musiał znaleźć nowe sposoby interakcji z tymi zespołami i będzie wymagał od kierownictwa wyższego szczebla, aby je wdrożyć. W dużych firmach nie ma innej organizacji dobrze przystosowanej do zarządzania połączeniem zagrożeń cybernetycznych, fizycznych i algorytmicznych związanych z bezpieczeństwem sztucznej inteligencji. CISO będą musieli zatrudniać profesjonalistów biegle posługujących się danymi i szybko uczyć się o nowych zagrożeniach związanych ze sztuczną inteligencją i hakowaniem AI. Jednak cyberbezpieczeństwo zawsze rozwijało się szybko i ewoluowało. Jestem pewien, że CISO staną na wysokości zadania. Po drugie, organizacje powinny również inwestować w ubezpieczenia AI. Nawet jeśli organizacja robi wszystko dobrze w swoich ramach zarządzania ryzykiem modelu AI, złe rzeczy mogą się zdarzyć. Opracowałem tę platformę częściowo z powodu awarii publicznej sztucznej inteligencji w dużych organizacjach, takich jak Google, Tesla i Uber w każdym z tych przykładów wydaje się, że nie przestrzegano kompletnych ram zarządzania ryzykiem modelu AI. Jednak te organizacje i ich zespoły programistów AI nadal robiły wszystko, co w ich mocy, korzystając z posiadanych narzędzi i procesów. W miarę jak organizacje posuwają się naprzód dzięki wdrażaniu nowych technologii sztucznej inteligencji, jest prawdopodobne, że ryzyko związane z AI i zarządzanie ryzykiem modeli nadal będą drugorzędne, postrzegane jako centrum kosztów, w przeciwieństwie do mechanizmu oszczędzania kosztów i przyspieszania AI, jakim może być. Oznacza to, że awarie AI będą się nadal zdarzać. Wraz z rozwojem technologii, awarie te prawdopodobnie również będą się zwiększać. Obecnie polisy ubezpieczenia cybernetycznego obejmują tylko wąski zakres ryzyka związanego ze sztuczną inteligencją. Mianowicie obejmą one kradzież modeli i wyciek danych. Kradzież modelek jest objęta ubezpieczeniem, ponieważ można argumentować, że doszło do naruszenia prywatnych informacji. Tymczasem wyciek danych jest już omówiony i zwykle nie zawiera szczegółowego określenia, który wektor ataku został użyty w celu uruchomienia polityki. Ale jeśli atakujący spowoduje uszczerbek na zdrowiu, wyrządzi szkodę marce organizacji, zniszczy własność cyfrową lub fizyczną lub spowoduje inne niekorzystne skutki, ubezpieczenie cybernetyczne nie obejmie firmy. Ponieważ organizacje postrzegają sztuczną inteligencję jako coś więcej niż tylko narzędzia do bycia centrami wzrostu i działalności, posiadanie SAILC nie pokryje wszystkich zagrożeń. Błędy i niepowodzenia będą się zdarzać. Branża ubezpieczeniowa jest utworzona, aby pomóc zrekompensować te ryzyka. Jest prawdopodobne, że organizacje, które chcą wykupić ubezpieczenie AI, będą musiały upiec w zaufanych standardach AI ISO21 lub NIST22 w ramach swoich ram raportowania SAILC i reagowania na incydenty. Obecnie kilku dużych ubezpieczycieli, z którymi przeprowadziłem wywiady na potrzeby tej książki, bada ryzyko związane z AI w ramach podzbioru ubezpieczeń cybernetycznych lub jako oddzielna oferta. Wielu określa to ogólnie jako ryzyko algorytmiczne, aby uniknąć rozróżnienia między sztuczną inteligencją, uczeniem maszynowym i inną automatyzacją. "To tam wyraźnie zmierza przyszłość", powiedział dyrektor ds. innowacji w jednej z tych firm. "Szybko zbudowaliśmy praktykę cyberubezpieczeń, gdy rynek tego potrzebował. Teraz obawiam się, że dzieli nas tylko jedna katastrofa od ryzyka związanego ze sztuczną inteligencją. Lepiej byłoby zacząć wcześniej, ale nie ma na to zapotrzebowania". Dopełnieniem bezpieczeństwa AI w ramach zarządzania ryzykiem modelu AI jest dryf modelu. Dryf modelu ma miejsce, gdy wydajność modelu zmienia się w czasie z powodu zmian w danych, które otrzymuje. Zasadniczo model zmienia swoje zachowanie, ponieważ uczy się nowych rzeczy. Zmiany te nie zawsze są dobre i mogą powodować luki w zabezpieczeniach. Dryf modelu wymaga aktywnego monitorowania sztucznej inteligencji. Dryf modelu może wystąpić w przypadkach, gdy dane wejściowe sztucznej inteligencji zmieniają się w czasie w stosunku do danych, na których była szkolona, bez okresowego ponownego uczenia modelu. Na przykład sztuczna inteligencja zajmująca się handlem akcjami może zostać przeszkolona w określonych warunkach rynkowych, które panowały w latach poprzedzających rozwój sztucznej inteligencji. Jeśli Rezerwa Federalna przyjmie agresywną postawę i zainterweniuje na rynku w nowy lub nieprzewidziany sposób, nowy rodzaj sygnałów, które otrzymuje model, może spowodować, że model stanie się mniej skuteczny. Modele mogą również zmienić swoją wydajność z powodu wpływów przeciwnika, takich jak osoba atakująca dostarczająca modelowi złe informacje aby zmienić jego działanie. Dryf modelu można monitorować bezpośrednio lub przez pełnomocnika. W przypadku bezpośredniego monitoringu inżynier AI musi gromadzić i oznaczać nowe dane, aby na bieżąco testować działanie modelu. W ten sposób inżynier AI może obserwować, czy jakość modelu pogarsza się z czasem i próbować temu zaradzić, wykonując nowe cykle szkoleniowe w odpowiednich odstępach czasu. Jest to zazwyczaj najlepszy sposób monitorowania dryfu modelu. Jednak to podejście wiąże się z narzutem związanym z ciągłym dostarczaniem nowych danych z etykietami. Łatwiejszym, ale mniej efektywnym rozwiązaniem jest monitorowanie dryfowania modelu przez zastępstwo danych wejściowych. W tym przypadku rozkład danych wejściowych jest monitorowany w czasie; obserwowanie zmian w rozkładzie danych wejściowych może oznaczać, że model się starzeje. Wyzwanie polega na tym, że bez etykiet nie można tego jednoznacznie przetestować, a jedynie wywnioskować. Rozwiązanie hybrydowe monitorowałoby nieaktualność za pomocą metody proxy i stosowało metodę bezpośrednią tylko w przypadkach, gdy proxy wskazuje na wzrost nieaktualności. Ma to tę zaletę, że pozwala uniknąć niepotrzebnych wysiłków związanych z etykietowaniem, ale ma wadę polegającą na braku nieaktualności w przypadkach, gdy podstawowa dystrybucja się nie zmienia - na przykład, jeśli dystrybucja cech i etykiet zmienia się jednocześnie w taki sposób, aby zamaskować zmiany w same cechy. Dobre bezpieczeństwo zaczyna się od aktywnego modelowania zagrożeń i nie kończy się nawet wtedy, gdy model jest używany. Niezwykle ważne jest przeprowadzanie ciągłych kontroli bezpieczeństwa modeli, modeli z czerwonymi zespołami, nawet podczas ich używania, oraz utrzymywanie aktywnego monitorowania wydajności sztucznej inteligencji. Chociaż bezpieczeństwa nigdy nie można zagwarantować w 100 procentach, środki te ograniczą narażenie organizacji na zagrożenia bezpieczeństwa AI.

Etyka, legalność, ryzyko i zgodność

Niewłaściwy czas na przegląd zarówno podstawowych wymogów etycznych, jak i zgodności nowego systemu AI to koniec jego harmonogramu rozwoju. Jednak tak zwykle dzieje się w dużych przedsiębiorstwach. Zamiast poświęcać czas na ich ocenę na początku, często pozostawia się to zespołowi ds. zgodności dopiero na końcu. W takim przypadku mogą wystąpić ogromne opóźnienia, ponieważ zespół ds. zgodności musi dokładnie zbadać przypadek użycia, zidentyfikować obszary wymagające przeglądu prawnego, ryzyka i zgodności, a następnie dokładnie przesłuchać sztuczną inteligencję i zespół ds. analizy danych, aby zapewnić standardy i kwestie etyczne są spełnione. Ten czasochłonny proces stanowi dużą część opóźnień we wdrażaniu modeli AI. Zamiast tego, przed rozpoczęciem pełnego cyklu rozwoju modelu, organizacje powinny dokładnie rozważyć te elementy. Oczywiście należy zrobić wyjątki dla modeli eksperymentalnych, ale nawet w kontekstach eksperymentalnych należy dokładnie rozważyć kwestie etyczne zarówno w odniesieniu do danych bazowych, jak i użycia narzędzia AI. Kwestie prawne i zgodność są zwykle najbardziej zrozumiałymi elementami tej sekcji zarządzania ryzykiem modelu AI. Organizacje działające w silnie regulowanych branżach są już przyzwyczajone do rygorystycznej zgodności i przeglądów prawnych nowych produktów i usług. Mniejsze organizacje lub organizacje działające w mniej regulowanych branżach mogą być zmuszone do polegania na zewnętrznych radach prawnych lub ekspertach przy podejmowaniu decyzji. Jednym z coraz bardziej krytycznych zagrożeń jest prywatność danych. Niedawne regulacje dotyczące ochrony danych konsumentów w Kalifornii oraz ogólne rozporządzenie o ochronie danych Unii Europejskiej (RODO) zwiększyły zarówno liczbę przepisów dotyczących zgodności danych, jak i koszty związane z ich nieprzestrzeganiem. ISO23 oraz zaufane standardy i ramy sztucznej inteligencji prawdopodobnie będą w najbliższym czasie wiodącymi zasadami dla zaufanej sztucznej inteligencji, podczas gdy wytyczne branżowe będą pochodzić od federalnych i stanowych organów regulacyjnych. Na przykład Departament Transportu Stanów Zjednoczonych rozpoczął powolne wytyczne dotyczące samojezdnych samochodów i planuje udostępnić więcej, gdy zostaną ustalone przepisy. Oceny ryzyka dla sztucznej inteligencji mają kilka form. Zazwyczaj są one klasyfikowane jako ryzyko związane z wydajnością i bezpieczeństwem, ryzyko prawne i ryzyko utraty reputacji. W kontekście AI ryzyko związane z wydajnością i bezpieczeństwem obejmuje ryzyko, że coś pójdzie nie tak i jaki będzie to miało wpływ na organizację. Aplikacje sztucznej inteligencji w sytuacjach krytycznych dla misji lub bezpieczeństwa publicznego, takich jak systemy uzbrojenia lub pojazdy samojezdne, mają oczywiście większe względy bezpieczeństwa niż sztuczna inteligencja, która przewiduje zaopatrzenie magazynu. Dzięki wczesnemu określeniu ryzyka związanego z wydajnością organizacje mogą również zdecydować, jakie progi bezpieczeństwa i wydajności musi spełnić sztuczna inteligencja przed wdrożeniem. Ryzyko prawne dotyczy zarówno praw, których należy przestrzegać, zarówno podczas opracowywania, jak i używania sztucznej inteligencji. Przy ocenie tego ryzyka ważne jest również oszacowanie najgorszych scenariuszy użycia lub niewłaściwego użycia sztucznej inteligencji. Kto ponosi ryzyko prawne, może być czasem niejasny. Na przykład, jeśli model AI zostanie zakupiony od dostawcy i użyty w systemie, który się nie powiedzie, kto ponosi odpowiedzialność? Obecnie jest to zależne od przypadku i może opierać się na indywidualnych umowach licencyjnych między organizacjami. Wreszcie, ryzyko utraty reputacji to ryzyko dla regulacji organizacji, jeśli sztuczna inteligencja nie powiedzie się lub jeśli wiedza o zastosowaniu sztucznej inteligencji zostanie ujawniona. W przeciwieństwie do ryzyka prawnego i związanego ze zgodnością kwestie etyczne są bardziej niejasne. Podczas gdy wiele organizacji ma tendencję do łączenia ryzyka etycznego z ryzykiem reputacji, uważam, że jest to niewłaściwe podejście. Firmy i organizacje, które chcą przekazać pewne umiejętności krytycznego myślenia, a nawet podejmowania decyzji, systemom sztucznej inteligencji, muszą być świadome nie tylko mnogości zagrożeń związanych z wydajnością i bezpieczeństwem takich systemów. Muszą również wziąć pod uwagę pytania typu: Kogo zastępuje ta sztuczna inteligencja? Czy korzystanie z tej sztucznej inteligencji przyniesie jakiekolwiek szkody? i Czy moja sztuczna inteligencja może być nadużywana? Jestem optymistą AI. Wierzę, że korzyści płynące z technologii mogą poprawić życie, zmniejszyć niesprawiedliwe dystrybucje i doprowadzić do przełomu dla społeczeństwa. Ale to jest pogląd optymisty. Oczywiście, że jest różowo. Istnieje bardzo realny świat, w którym sztuczna inteligencja napędza jedynie dodatkowe nierówności, uprzedzenia rasowe, bezrobocie i niesprawiedliwy podział bogactwa. W rzeczywistości wielu uważa, że jest to bardziej prawdopodobny wynik niż mój optymistyczny pogląd. Sztuczna inteligencja nie stworzy samodzielnie żadnej z tych przyszłości. Ludzie muszą rozwijać i wdrażać sztuczną inteligencję, aby zaspokoić swoje potrzeby. Dlatego dokładna ocena etyki sztucznej inteligencji, w tym ich kodyfikacja prawna, jeśli to konieczne, jest najpotężniejszym narzędziem, jakim dysponujemy, aby zapobiegać dystopijnej przyszłości opartej na sztucznej inteligencji. Względy etyczne są ściśle powiązane z podstawowymi uprzedzeniami w sztucznej inteligencji i danych. Najważniejszą kwestią przy rozwiązywaniu problemu stronniczości jest świadomość i troska kierownictwa. Liderzy muszą edukować się na temat podstawowych uprzedzeń danych i wyzwań, jakie mogą one stanowić dla ich pomyślnego wdrożenia sztucznej inteligencji. Organizacje powinny również ustanowić oparte na faktach rozmowy i raporty dotyczące omawiania danych i stronniczości sztucznej inteligencji. Wielu profesjonalistów uważa, że graniczy to z polityką i dlatego tego unika. Takie zachowanie może nie tylko nadal szkodzić wrażliwym społecznościom, ale także prowadzić do modeli niskiej jakości. Korzystanie z nowoczesnych technik interpretacji modeli może zapewnić organizacjom fakty, których potrzebują na temat decyzji sztucznej inteligencji, aby zaangażować się w przejrzyste dyskusje. Pomyślny proces zarządzania ryzykiem związanym z modelami sztucznej inteligencji obejmuje wiele punktów styku z wieloma częściami organizacji, a zatem powinien również pomóc w zróżnicowaniu profesjonalistów oceniających systemy sztucznej inteligencji i ich potencjalnej stronniczości. Ale ten efekt uboczny zarządzania ryzykiem modeli AI to za mało. Usuwanie stronniczości danych i sztucznej inteligencji wymaga aktywnego podejścia ze strony analityków danych i ich organizacji. Jako społeczność technologiczna musimy proaktywnie pracować nad bardziej inkluzywną dziedziną sztucznej inteligencji. Etyka sztucznej inteligencji jest ściśle powiązana z ogólną zgodnością. Należy jednak pamiętać, że nawet jeśli coś jest w pełni legalne lub zgodne z przepisami, organizacja może zdecydować się na zwiększenie tego ze względów etycznych. Jest to i powinno być brane pod uwagę jako ważny powód, aby nie realizować projektów AI. Jeśli zostanie to zrobione poprawnie, decyzja ta może zostać podjęta w przejrzysty i możliwy do prześledzenia sposób, który wyjaśnia organizacji, dlaczego ta decyzja była właściwa.