Systemy rozpoznawania mowy i rozumienie

Przetwarzanie mowy

Opisane ju� systemy NLP wymaga�y, aby ich angielski by� wprowadzany w formacie tekstowym. Istnieje jednak kilka przypadk�w, w kt�rych rozmowa z komputerem by�aby lepsza ni� pisanie na raz. Ludzie zazwyczaj m�wi� szybciej ni� potrafi� pisa� (oko�o trzech s��w na sekund� w por�wnaniu z jednym s�owem na sekund�) i mog� m�wi� podczas ruchu. Ponadto m�wienie nie wi��e r�k ani oczu. Przy omawianiu problemu komputerowego przetwarzania mowy wa�ne jest, aby wprowadzi� pewne rozr�nienia. Jedna dotyczy r�nicy mi�dzy rozpoznaniem izolowanego s�owa m�wionego a przetwarzaniem ci�g�ego strumienia mowy. Wi�kszo�� bada� nad AI koncentruje si� na drugim i trudniejszym z tych problem�w. Kolejnym rozr�nieniem jest rozpoznawanie mowy i rozumienie mowy. Przez rozpoznawanie mowy rozumie si� proces przekszta�cania strumienia akustycznego mowy wprowadzonej przez mikrofon i powi�zany sprz�t elektroniczny w tekstow� reprezentacj� s��w sk�adowych. Proces ten jest trudny, poniewa� wiele strumieni akustycznych brzmi podobnie, ale sk�ada si� z zupe�nie innych s��w. (Rozwa�my na przyk�ad wypowiadane wersje "Istnieje wiele sposob�w rozpoznawania mowy" i "Istnieje wiele sposob�w na zniszczenie �adnej pla�y"). Z kolei rozumienie mowy wymaga zrozumienia tego, co si� m�wi. Mo�na powiedzie�, �e wypowied� nale�y rozumie�, je�li wywo�uje ona odpowiednie dzia�anie lub odpowied�, a mo�e to by� nawet mo�liwe bez rozpoznania wszystkich jej s��w. Zrozumienie mowy jest trudniejsze ni� zrozumienie tekstu, poniewa� istnieje dodatkowy problem przetwarzania kszta�tu fali mowy w celu wyodr�bnienia wypowiadanych s��w. Mowa uchwycona przez mikrofon jest przekszta�cana na sygna� elektroniczny lub przebieg, kt�ry mo�na wy�wietli� na oscyloskopie. Na poni�szym rysunku pokazano przebieg wygenerowany przez osob� m�wi�c�: "To jest test".

Ten schemat pokazuje amplitud� (napi�cie) wykre�lonego sygna�u mowy w funkcji czasu. Sekcje kszta�tu fali odpowiadaj�ce s�owom s� oznaczone ramkami u g�ry diagramu. Pola u do�u pokazuj� akustyczne elementy tych s��w, kt�re nazywane s� "telefonami". Zasadniczo telefony to d�wi�ki odpowiadaj�ce samog�osek i sp�g�osek. Uwa�a si�, �e angielska mowa sk�ada si� z oko�o czterdziestu r�nych telefon�w. Opracowano specjalne alfabety do reprezentowania telefon�w. Jednym z nich jest Mi�dzynarodowy Alfabet Fonetyczny (IPA), kt�ry zawiera telefony wszystkich znanych j�zyk�w. IPA u�ywa kilku znak�w specjalnych, kt�re nie maj� standardowych kod�w komputerowych (ASCII). Kolejnym, zawieraj�cym tylko telefony u�ywane w ameryka�skim j�zyku angielskim i u�ywaj�cymi tylko standardowych znak�w, jest ARPAbet, kt�ry zosta� opracowany podczas bada� przetwarzania mowy sponsorowanych przez DARPA. Telefony pokazane na ryc. 17.1 u�ywaj� notacji ARPAbet. Tabela pokazuje telefony ARPAbet i przyk�adowe s�owa je zawieraj�ce.

Wczesne systemy rozpoznawania mowy pr�bowa�y najpierw podzieli� segment fali mowy na telefony sk�adowe, a nast�pnie z�o�y� telefony w porz�dki. Aby to zrobi�, sygna� mowy zosta� najpierw zdigitalizowany i wyodr�bniono r�ne parametry, takie jak cz�stotliwo�� lub wysoko�� tonu. Sposoby zmiany warto�ci tych parametr�w w czasie wykorzystano do podzielenia kszta�tu fali na jednostki zawieraj�ce telefony. U�ywaj�c s�ownik�w, kt�re ��cz� warto�ci parametr�w kszta�tu fali z telefonami i telefonami ze s�owami, kszta�t fali zosta� ostatecznie przekszta�cony w tekst. Proces ten wydaje si� prosty, ale w rzeczywisto�ci jest do�� z�o�ony, poniewa� mi�dzy innymi pocz�tki i zako�czenia wypowiadanych s��w oraz ich sk�adowe telefony nak�adaj� si� na siebie w z�o�one wzory, a ludzie cz�sto wymawiaj� te same s�owa na r�ne sposoby. Na przyk�ad s�owo "ty" mo�na wymawia� inaczej w "czy jeste�" [aa r y uw] i "did you" [d ih d jh uh]. Pr�by rozpoznania mowy rozpocz�y si� w Bell Laboratories ju� w latach 30. XX wieku. W 1952 r. In�ynierowie z Bell Labs zbudowali system rozpoznawania liczb od "zero" do "dziewi��" wypowiadanych przez jeden g�o�nik. Inne prace wykonano w latach 50. i 60. w RCA Laboratories, w MIT, w Japonii, w Anglii i w Zwi�zku Radzieckim Praca przyspieszy�a w latach 70. XX wieku, a niekt�re z nich opisz� p�niej.

Grupa analityczna rozumiej�ca mow�

Larry Roberts, kt�ry pod koniec 1966 r. Wyjecha� do DARPA jako "g��wny naukowiec" w biurze technik przetwarzania informacji (IPTO), a p�niej zosta� jego dyrektorem, zaintrygowa� pomys� budowy system�w, kt�re mog�yby rozumie� mow�. Cordell Green, pe�ni�c w�wczas funkcj� porucznika w armii ameryka�skiej, zosta� przydzielony do IPTO pod rz�dami Robertsa na pocz�tku 1970 r. I powierzono mu finansowanie i monitorowanie projekt�w badawczych dotycz�cych AI. Wed�ug Greena Roberts powiedzia� mu: "Wykonaj studium wykonalno�ci systemu rozpoznaj�cego mow�". A pod koniec marca 1970 roku Green zorganizowa� spotkanie na Carnegie Mellon University z kilkoma kontrahentami DARPA i innymi zainteresowanymi przetwarzaniem mowy, aby om�wi� wykonalno�� rozumienia mowy przez komputer. Uczestnikami spotkania byli badacze z SDC, Lincoln Laboratory, MIT, CMU, SRI i BBN. Na spotkaniu zdecydowano o utworzeniu "grupy analitycznej" w celu oceny stanu techniki i sformu�owaniu zalece� dotycz�cych uruchomienia du�ego projektu wspieranego przez DARPA w zakresie rozumienia mowy. Grupie mia� przewodniczy� Allen Newell z CMU. Podczas marcowego spotkania przekonano Robertsa do rozmowy o rodzaju systemu rozumienia mowy, kt�ry mia� na my�li. Zgodnie z interpretacj� uwag przedstawionych w raporcie, Roberts my�la� o systemie, kt�ry m�g�by zaakceptowa� ci�g�� mow� od wielu wsp�pracuj�cych u�ytkownik�w, przez telefon, przy u�yciu s�ownictwa 10 000 s��w, z mniej ni� 10% b��dem semantycznym, w kilku przypadkach realnego czasu. Grupa analityczna odby�a swoje pierwsze spotkanie w BBN w dniach 26 i 27 maja 1970 r. Podczas tego spotkania grupa rozwa�y�a niekt�re szczeg�lne zadania, w kt�re m�g�by si� zaanga�owa� system rozumienia. Odpowiadanie na pytania dotycz�ce zarz�dzania danymi, odpowiadanie na pytania dotycz�ce stanu operacyjnego komputera i konsultowanie systemu operacyjnego komputera. Ostatnie spotkanie grupy odby�o si� w SDC w Santa Monica w dniu 28 lipca 1970 r. Zaleceniem grupy (w skr�cie) by�o d��enie do systemu, kt�ry by�by w stanie zaakceptowa� nieprzerwan� mow� od wielu wsp�pracuj�cych m�wc�w "og�lnego dialektu ameryka�skiego" przez mikrofon dobrej jako�ci (nie przez telefon), przy u�yciu wybranego s�ownictwa z�o�onego z 1000 s��w (a nie 10 000 s��w), z "wysoce sztuczn� sk�adni�", obejmuj�c� zadania takie jak zarz�dzanie danymi lub status komputera (ale bez konsultacji), z mniejszym ni� 10% b��dem, kilka razy w czasie rzeczywistym, i by� mo�liwe do wykazania w 1976 (nie 1973) z umiarkowanym szansa na sukces. Raport ko�cowy grupy zosta� sporz�dzony po spotkaniu, dostarczony do DARPA i ostatecznie opublikowany w 1973 roku. Chocia� wcze�niej wiele bada� dotycz�cych przetwarzania mowy przez komputer (�adnie podsumowane w raporcie grupy analitycznej), nie wszyscy byli optymistami co do sukcesu . Jednym z niewiadomych by� John R. Pierce, badacz z Bell Laboratories, gdzie ju� wiele pracy nad rozpoznawaniem mowy mia�o miejsce. W 1969 r. Pierce napisa� list do Journal of Acoustical Society of America, w kt�rym stwierdzi�, �e wi�kszo�� ludzi pracuj�cych nad mow�

"zachowywa�o si� jak szaleni naukowcy i niewiarygodni in�ynierowie. Typowy rozpoznawca wpada mu do g�owy, �e mo�e rozwi�za� problem".

W tym samym li�cie napisa� r�wnie�, �e

"… wydajno�� by�aby nadal bardzo ograniczona, chyba �e urz�dzenie do rozpoznawania b�dzie rozumie�, co m�wi si� w jakim� sensie o rodzimym j�zyku m�wionym (to znaczy lepiej ni� obcokrajowiec, kt�ry zna j�zyk). Je�li tak, to czy ludzie powinni kontynuowa� prace nad rozpoznawaniem mowy? By� mo�e to decyzja nale�y do ludzi w tej dziedzinie."

Program badawczy dotycz�cy rozumienia mowy DARPA

Praca w BBN

SPEECHLIS by� pierwszym systemem rozumienia mowy opracowanym w BBN. Zosta� zaprojektowany, aby odpowiada� na pytania m�wione na temat bazy danych ska� ksi�ycowych (tej u�ywanej we wcze�niejszym systemie LUNAR BBN). By� raczej powolny i nie by� systematycznie testowany. HWIM zosta� zaprojektowany jako automatyczny asystent mened�era bud�etu podr�y i by� w stanie odpowiedzie� na pytania m�wione, takie jak "Ile pozosta�o w bud�ecie na rozumienie mowy?" W swojej ostatecznej wersji HWIM zosta� przetestowany na dw�ch wersjach, z kt�rych ka�da ma sze��dziesi�t cztery r�ne wypowiedzi przez trzy m�skie g�o�niki. Trzydzie�ci jeden z tych zda� by�o wcze�niej u�ywanych przez system w trakcie jego projektowania, wi�c mog�a istnie� jaka� domy�lna (cho� niezamierzona) wbudowana dodatkowa mo�liwo�� radzenia sobie z tymi zdaniami. Zdania mia�y d�ugo�� od trzech do trzynastu s��w. HWIM by� w stanie poprawnie odpowiedzie� na 41% zda� i "zamkn��" poprawnie na 23% wi�cej zda�. System w og�le nie zareagowa� na 20% zda�. Chocia� zar�wno SPEECHLIS, jak i HWIM by�y pionierami nowych i wa�nych metod rozumienia mowy, wydajno�� HWIM by�a og�lnie uwa�ana za niespe�niaj�c� pierwotnych cel�w DARPA. (Ich projektanci twierdzili, �e test nie wskazywa� na potencja� HWIM i �e mogliby zrobi� to lepiej, maj�c wi�cej czasu.)

Praca w CMU

W 1969 r. Raj Reddy opu�ci� Stanford, aby zosta� cz�onkiem wydzia�u Carnegie Mellon University. Jeden z pierwszych system�w mowy, nad kt�rymi pracowa� wraz z kolegami w CMU, nazywa� si� HEARSAY (p�niej przemianowany na HEARSAY-I) .1U�ywa� wielu niezale�nych proces�w obliczeniowych do rozpoznawania m�wionych ruch�w w szachach z danej pozycji na planszy, takich jak " pionek kr�la przenosi si� do go�ca czwartego. "Na wczesnych etapach tej pracy DARPA utworzy�a Grup� Badaj�c� Zrozumienie Mowy i rozpocz�a prac� nad rozumieniem mowy. W czerwcu 1972 r. odby�a si� publiczna demonstracja HEARSAY-I rozpoznawania powi�zanej mowy. Trzy r�ne systemy rozpoznawania i rozumienia mowy zosta�y opracowane w CMU pod patronatem wysi�k�w badawczych DARPA w zakresie rozumienia mowy. By�y to DRAGON, HARPY i HEARSAY-II i wszystkie one wnios�y wa�ne pomys�y na sztuczn� inteligencj�. Prace nad tymi systemami prowadzili Allen Newell, Raj Reddy, James Baker, Bruce Lowerre, Lee Erman, Victor Lesser i Rick Hayes-Roth.

DRAGON

We wczesnych dniach bada� nad zrozumieniem mowy CMU, doktorat. James K. Baker, rozpocz�� prac� nad systemem rozumienia mowy, kt�ry nazwa� "DRAGON". (Wed�ug Allena Newella nazwa DRAGON mia�a na celu "wskaza�, �e by�a to zupe�nie inna bestia ni� systemy AI rozwa�ane w pozosta�ej cz�ci mowy". Podobnie jak HEARSAY-I, DRAGON zosta� zaprojektowany tak, aby zrozumie� zdania o ruchy szachowe DRAGON wprowadzi� nowe, pot�ne techniki przetwarzania mowy - kt�rych opracowania s� stosowane w wi�kszo�ci nowoczesnych system�w rozpoznawania mowy. Wykorzysta� techniki statystyczne do zgadywania najbardziej prawdopodobnych ci�g�w s��w, kt�re mog�y wytworzy� obserwowany sygna� mowy. wczesny przyk�ad importu reprezentacji probabilistycznych i powi�zanych metod obliczeniowych do AI. Spr�buj� wyja�ni� g��wne idee bez u�ycia du�ej matematyki. Za��my, �e pozwalamy x sta� na ci�g s��w i y oznacza fal� mowy, kt�ra powstaje, gdy wypowiadane jest x. (W rzeczywisto�ci pozwolimy y by� pewn� zachowuj�c� informacj� reprezentacj� fali pod wzgl�dem jej �atwo mierzalne w�a�ciwo�ci, takie jak ilo�� energii zawartej w kszta�cie fali w r�nych pasmach cz�stotliwo�ci. Dla uproszczenia b�d� nadal nazywa� przebieg falowy, chocia� mam na my�li jego reprezentacj�, kt�ra mo�e by� r�na dla r�nych system�w rozumienia mowy.) Poniewa� ten sam m�wca mo�e wypowiada� te same s�owa nieco inaczej przy r�nych okazjach, a r�ni m�wcy z pewno�ci� b�d� powiedzmy inaczej, ci�g s�owa x nie okre�la ca�kowicie, jaki b�dzie przebieg fali mowy y. To znaczy, bior�c pod uwag� dowolny x, mo�emy jedynie powiedzie�, jakie s� prawdopodobie�stwa r�nych y. Te prawdopodobie�stwa zapisano w formie funkcjonalnej jako p(y | x) (odczytywane jako "prawdopodobie�stwo y podane x"). Zasadniczo rzeczywiste warto�ci p(y|x) dla niekt�rych szczeg�lnych x, powiedzmy x = X, mo�na oszacowa�, na przyk�ad, przez liczb� g�o�nik�w wypowiadaj�cych ci�g s��w X wiele razy i zestawienie, jak cz�sto r�ne przebiegi mowy y pojawi� si�. Ten proces musia�by zosta� powt�rzony dla wielu r�nych ci�g�w s��w. SMOK unikn�� tego �mudnego zestawienia w spos�b, kt�ry zostanie wkr�tce wyja�niony. Jednak do rozpoznawania mowy chcemy pozna� prawdopodobie�stwo ci�gu s��w x, bior�c pod uwag� sygna� mowy y, aby�my mogli wybra� najbardziej prawdopodobne x. Oznacza to, �e chcemy p (x | y) zamiast p (y | x). Mo�emy u�y� regu�y Bayesa jak wcze�niej, aby uzyska� po��dane prawdopodobie�stwo w nast�puj�cy spos�b:

p (x | y) = p (y | x) p (x) = p (y):

Po zaobserwowaniu okre�lonego kszta�tu fali, powiedzmy y = Y, oto, w jaki spos�b u�yjemy wielko�ci w tej formule, aby zdecydowa�, kt�ry ci�g s�owa x najprawdopodobniej zosta� wypowiedziany:

1. Wyszukaj wszystkie warto�ci p (Y | x) dla wszystkich rozwa�anych warto�ci x. (Nie musimy tego robi� dla wszystkich mo�liwych ci�g�w s��w, ale tylko dla tych dozwolonych przez s�ownictwo i sk�adni� specjalistycznego obszaru odpowiedniego do zadania rozumienia mowy - szachy porusza si� w przypadku DRAGON).

2. Pomn� ka�d� z tych warto�ci przez p(x). (Decyzja powinna by� stronnicza w stosunku do prawdopodobnych ci�g�w s��w).

3. Wybierz x, powiedzmy X, dla kt�rego produkt jest najwi�kszy. [Mo�emy zignorowa� dzielenie przez p (y), poniewa� jego warto�� nie wp�ywa na to, kt�re p (x | Y) jest najwi�ksze.]

Chocia� proces ten dzia�a�by w zasadzie, jest jednak niepraktyczny obliczeniowo. Zamiast tego DRAGON i inne nowoczesne systemy rozpoznawania mowy wykorzystuj� hierarchiczn� struktur� zaanga�owan� w spos�b, w jaki zak�ada si� spos�b generowania fali mowy. W tej hierarchii istniej� r�ne poziomy, kt�re mo�na zidentyfikowa�. Aby nieco upro�ci�, na szczycie hierarchii dana idea semantyczna jest wyra�ana przez ci�g s��w przestrzegaj�cych regu� sk�adniowych j�zyka. Z kolei ci�g s��w powoduje powstanie szeregu telefon�w (jednostek fonetycznych). Wreszcie, ci�g telefonu jest wyra�any przez przebieg mowy na dole hierarchii. Na ka�dym poziomie mamy sekwencj� byt�w, powiedzmy x₁; x₂; … x_n, wytwarzaj�c sekwencj� innych byt�w, powiedzmy y₁; y₂;… y_n. Mo�emy przedstawi� schemat procesu, jak pokazano poni�ej

System DRAGON przyj�� pewne uproszczenia. Zak�adano, �e na ka�dy x_i w sekwencji x wp�yw ma tylko jego bezpo�redni precedens, x_i-1, a nie �aden inny z x_i. To za�o�enie nazywa si� za�o�eniem Markowa. [Andrey Andreyevich Markov by� rosyjskim matematykiem. U�y� (jak si� p�niej nazwano) modelu Markowa do analizy statystyki sekwencji 20 000 rosyjskich list�w zaczerpni�tych z powie�ci Puszkina Eugeniusza Oniegina. Modele Markowa s� szeroko stosowane w fizyce i In�ynierii. Google wykorzystuje na przyk�ad za�o�enie Markowa obliczenie rangi strony.] Oczywi�cie wiemy, �e ka�de s�owo w sekwencji zale�y od czego� wi�cej ni� tylko s�owa bezpo�rednio poprzedzaj�cego. Mimo to za�o�enie Markowa upraszcza obliczenia i zapewnia dobr� wydajno��. Ponadto za�o�ono, �e na ka�dy y_i wp�ywaj� tylko x_i i x_i-1. Wszystkie te "wp�ywy" s� probabilistyczne. To znaczy, bior�c pod uwag� wielko�ci takie jak na przyk�ad x₃ i x₄, warto�� y₄ nie jest ca�kowicie okre�lona. Mo�na jedynie powiedzie�, jakie mog� by� prawdopodobie�stwa warto�ci y_i; s� one podane przez wyra�enie funkcjonalne p (y₄ | x₃; x₄). Warto�ci prawdopodobie�stwa dla y s� zatem podawane przez tak zwan� "funkcj� probabilistyczn� procesu Markowa". Aby uzyska� oszacowania tych prawdopodobie�stw, statystyki mog� by� gromadzone podczas "procesu uczenia si�" (w kt�rym m�wca wypowiada zestaw zda� szkoleniowych). DRAGON po��czy� te oddzielne poziomy w sie� sk�adaj�c� si� z hierarchii probabilistycznych funkcji proces�w Markowa. Elementy reprezentuj�ce segmenty fali mowy znajdowa�y si� na dole, podmioty reprezentuj�ce telefony znajdowa�y si� na �rodku, a podmioty reprezentuj�ce s�owa na g�rze. Na ka�dym poziomie zastosowano zasad� Bayesa do obliczenia prawdopodobie�stwa x dla danych y. Poniewa� faktycznie obserwowano tylko przebieg mowy na najni�szym poziomie, telefony i s�owa by�y "ukryte". Z tego powodu w ca�ej sieci zastosowano ukryte modele Markowa (HMM). DRAGON by� pierwszym przyk�adem u�ycia HMM w AI. Zosta�y one wcze�niej opracowane do innych cel�w. Korzystaj�c z tej sieci, rozpoznanie wypowiedzi zosta�o nast�pnie osi�gni�te przez znalezienie �cie�ki o najwy�szym prawdopodobie�stwie w sieci. Obliczanie zdolno�ci do syntaktycznie prawid�owych sekwencji s��w, bior�c pod uwag� sekwencj� segment�w obserwowanego kszta�tu fali mowy, jest problemem podobnym do tego, kt�ry opisa�em wcze�niej, a mianowicie obliczaniem konsekwencji ci�g�w znak�w na arkuszach koduj�cych FORTRAN Zn�w metoda wykorzystano programowanie dynamiczne. Jak napisa� Baker: "Optymaln� �cie�k� znajduje algorytm, kt�ry w efekcie bada r�wnolegle wszystkie mo�liwe �cie�ki". Pod koniec procesu identyfikowany jest najbardziej prawdopodobny sk�adniowo prawid�owy ci�g s��w. Operacje matematyczne do wykonania tych oblicze� s� zbyt skomplikowane, aby je tutaj wyja�ni�, ale mo�na je wykona� wystarczaj�co skutecznie, aby praktyczne rozpoznawanie mowy by�o praktyczne. Chocia� system DRAGON nie nale�a� do tych, kt�re zosta�y ostatecznie przetestowane pod k�tem cel�w systemu rozumienia mowy DARPA, Baker stwierdzi�, �e jego pocz�tkowe wyniki by�y "bardzo obiecuj�ce" i �e w "pierwszym te�cie z wprowadzaniem mowy na �ywo system rozpozna� ka�de s�owo we wszystkich dziewi�ciu zdaniach w te�cie. "DRAGON sta� si� podstaw� komercyjnego produktu Dragon Naturally Speaking", pierwszy opracowany i wprowadzony na rynek przez Dragon Systems, firma za�o�ona przez Bakera i jego �on� Janet.

HARPY

HARPY by� drugim systemem wyprodukowanym w CMU w ramach prac badawczych DARPA w zakresie rozumienia mowy. Bruce T. Lowerre zaprojektowa� i wdro�y� system jako cz�� swojego doktoratu. Badania. HARPY po��czy� niekt�re pomys�y HEARSAY-I i DRAGON. Podobnie jak DRAGON, przeszukiwa� �cie�ki w sieci, aby rozpozna� wypowiedziane zdanie, ale nie odnotowa� adnotacji po��cze� mi�dzy w�z�ami w sieci z prawdopodobie�stwem przej�cia, jak to zrobi� DRAGON. Podobnie jak HEARSAY-I, HARPY zastosowa� heurystyczne metody wyszukiwania. Wersje HARPY zosta�y opracowane w celu zrozumienia zda� wypowiadanych na temat kilku r�nych obszar�w zada�. G��wn� z nich by�a mo�liwo�� udzielenia odpowiedzi na pytania i odzyskania dokument�w z bazy danych zawieraj�cej streszczenia (zwane "streszczeniami") dokument�w AI. Oto kilka przyk�ad�w:

"Kt�re streszczenia odnosz� si� do teorii oblicze�?"
"Wymie� te artyku�y".
"Czy s� jakie� Feigenbaum i Feldman?"
"Co napisa� McCarthy od dziewi�tnastu siedemdziesi�ciu czterech?"

HARPY mo�e obs�u�y� zas�b 1011 s��w. Zamiast u�ywa� gramatyki z konwencjonalnymi kategoriami sk�adniowymi, takimi jak rzeczownik, przymiotnik itp., HARPY u�y� tak zwanej "gramatyki semantycznej", kt�ra rozszerzy�a kategorie takie jak temat, autor, rok i wydawca, kt�re by�y semantycznie powi�zane do jego obszaru tematycznego, a mianowicie danych o papierach AI. Gramatyka HARPY by�a ograniczona do obs�ugi zestawu zda� o autorach i artyku�ach, kt�re HARPY mia� by� w stanie rozpozna�. Sie� zosta�a zbudowana z tak zwanych "�r�de� wiedzy" (KS), kt�re sk�ada�y si� z informacji potrzebnych do procesu rozpoznawania. Pierwsza z tych zakodowanej wiedzy sk�adniowej o gramatyce. Drugie �r�d�o wiedzy u�ywane przez HARPY opisywa�o, w jaki spos�b ka�de s�owo. S�ownictwo HARPY mo�e by� wymawiane. A poniewa� granice s��w w j�zyku m�wionym pokrywaj� si� w spos�b zale�ny od u�ytych s��w, pomy�lne rozpoznanie wymaga trzeciego �r�d�a wiedzy zajmuj�cego si� takimi zjawiskami. Czwarte �r�d�o wiedzy wyszczeg�lni�o telefony zaanga�owane w wymow� s��w i przej�cia mi�dzy nimi. HARPY po��czy� ca�� t� wiedz� w gigantyczn� sie� telefon�w reprezentuj�cych wszystkie mo�liwe sposoby wypowiadania legalnych sk�adniowo. Ka�dy "w�ze� telefoniczny" w sieci zosta� sparowany z reprezentacj� odcinka fali mowy, zwanej "szablonem widmowym", kt�ry ma by� powi�zany z tym konkretnym telefonem. Szablony te uzyskano na pocz�tku, czytaj�c oko�o 700 zda� przez m�wc�. Mo�na by je "dostroi�" dla nowego m�wcy, czytaj�c oko�o 20 wybranych zda� podczas sesji "uczenia si�". Cz�ciow� sie� telefon�w pokazano poni�ej, aby zilustrowa� og�ln� ide�. Rzeczywista sie� HARPY mia�a 15 000 w�z��w. Sie� obejmuje te fragmenty zda�, kt�re zaczynaj� si� od "Powiedz mi …" i "Daj mi …" Symbole wewn�trz w�z��w reprezentuj� telefony, u�ywaj�c dla nich notacji DRAGON. Strza�ki oznaczaj� mo�liwe przej�cia z jednego telefonu do drugiego. Pami�taj, �e istnieje wiele �cie�ek odpowiadaj�cych r�nym sposobom wymawiania s��w.

Aby rozpozna� s�owa w m�wionym zdaniu, zaobserwowana mowa by�a najpierw podzielona na segmenty o zmiennej d�ugo�ci, kt�re odgad�y, �e odpowiadaj� sekwencji telefon�w w przebiegu. Dla ka�dego z tych segment�w obliczono szablon spektralny. Proces rozpoznawania przebiega� nast�pnie w nast�puj�cy spos�b: Szablon widmowy odpowiadaj�cy pierwszemu segmentowi widmowemu w fali mowy zosta� por�wnany ze wszystkimi szablonami odpowiadaj�cymi telefonom na pocz�tku sieci. W odniesieniu do powy�szego rysunku b�d� one obejmowa� por�wnania z szablonami dla - , T, G i IH2, poniewa� znajdowa�y si� w�r�d w�z��w w sieci, do kt�rych mo�na by�o dotrze� jednym krokiem od w�z�a pocz�tkowego, a mianowicie [. (Oczywi�cie, u�ywaj�c ca�ej sieci, a nie tylko zilustrowanego tylko cz�ciowego przyk�adu, dokonano by kilku dalszych por�wna� z szablonami dodatkowych w�z��w telefonicznych dost�pnych w jednym kroku od w�z�a pocz�tkowego.) Zauwa�ono kilka najlepszych dopasowa� i �cie�ki do tych w�z��w zosta�y wyznaczone jako najlepsze jednoetapowe �cie�ki cz�ciowe w sieci. W nast�pnym etapie szablon spektralny nast�pnego segmentu fali zosta� por�wnany z szablonami wszystkich tych dost�pnych w�z��w telefonicznych poprzez rozszerzenie najlepszych �cie�ek jednoetapowych o kolejny krok. Wykorzystuj�c obliczone dotychczas warto�ci por�wna�, zidentyfikowano zestaw najlepszych dwuetapowych �cie�ek cz�ciowych. Proces ten trwa do momentu osi�gni�cia ko�ca sieci. W tym czasie najlepsza znaleziona do tej pory �cie�ka mog�a by� powi�zana ze s�owami powi�zanymi z w�z�ami wzd�u� tej �cie�ki. Ta sekwencja s��w zosta�a nast�pnie wygenerowana jako decyzja rozpoznaj�ca HARPY. Metod� poszukiwania najlepszej �cie�ki przez sie� HARPY mo�na por�wna� z heurystycznym procesem wyszukiwania A* opisanym wcze�niej. Podczas gdy A* utrzymywa� ca�� "granic�" wyszukiwania do ewentualnego dalszego przeszukiwania, HARPY utrzymywa� na swojej granicy tylko te w�z�y na kilku najlepszych znalezionych dotychczas �cie�kach. (Liczba w�z��w utrzymywanych na granicy by�a parametrem, kt�ry mo�na ustawi� w razie potrzeby do kontrolowania wyszukiwania.) Projektanci HARPY nazwali t� technik� "wyszukiwaniem wi�zki", poniewa� w�z�y odwiedzane przez proces wyszukiwania by�y ograniczone do w�skiej wi�zki przez sie�. Poniewa� w�z�y nie znajduj�ce si� w wi�zce zosta�y wyeliminowane w trakcie tego procesu, mo�liwe, �e najlepsza pe�na �cie�ka znaleziona przez HARPY mo�e nie by� og�lnie najlepsz� w sieci. (Jeden z wyeliminowanych w�z��w mo�e znajdowa� si� na tej og�lnej najlepszej �cie�ce.) Mimo to znaleziona �cie�ka zwykle odpowiada poprawnej interpretacji wypowiadanego zdania. Pod koniec projektu rozumienia mowy DARPA, HARPY zosta� przetestowany na 100 zdaniach wypowiedzianych przez trzech m�czyzn i dwie kobiety m�wi�ce. By� w stanie poprawnie zrozumie� ponad 95% tych zda�, osi�gaj�c w ten spos�b cel DARPA dotycz�cy b��du poni�ej 10%. �rednio HARPY wykona� oko�o 30 milion�w instrukcji komputerowych, aby poradzi� sobie z jedn� sekund� mowy. Przy u�yciu 0,4 miliona instrukcji na sekund� (0,4 MIPS) (DEC PDP-KA10) przetworzenie sekundy mowy zaj�oby minut�; chocia� jest to nieco gorsze ni� wydajno�� w czasie rzeczywistym, osi�gn�o cel DARPA "kilka razy w czasie rzeczywistym" (je�li interpretujemy "kilka" nieco �agodnie). Aby spojrze� na spraw� czasu rzeczywistego z perspektywy, dzisiejsze komputery przetwarzaj� miliardy instrukcji na sekund� HARPY by� jedynym systemem spe�niaj�cym cele DARPA.

C. HEARSAY-II

Wreszcie HEARSAY-II, przeprojektowana i ulepszona wersja HEARSAY-I, by�a by� mo�e najbardziej ambitnym z projekt�w mowy CMU. Podobnie jak HARPY, HEARSAY-II zosta� zaprojektowany, aby odpowiada� na pytania i pobiera� dokumenty z bazy danych zawieraj�cej streszczenia dokument�w AI. (Wcze�niej rozwa�ano zadanie polegaj�ce na wyszukiwaniu wiadomo�ci z serwis�w elektronicznych). By�o ono r�wnie� ograniczone do s�ownika zawieraj�cego 1011 s��w i stosowa�o gramatyk� semantyczn� specjalizuj�c� si� w tej dziedzinie. Pierwsze kroki w przetwarzaniu wypowiedzi przez HEARSAY obejmowa�y segmentacj� fali mowy i etykietowanie telefon�w, kt�re wed�ug szacunk�w b�d� obecne w ka�dym segmencie. W ramach projektu HEARSAY zastosowano nowatorsk� metod� stopniowego przekszta�cania tych sk�adnik�w w sylaby, sylaby w s�owa, s�owa w sekwencje s��w, a w ko�cu sekwencje s��w w frazy. Nast�pnie frazy zosta�y przekszta�cone w odpowiednie procedury dost�pu do bazy danych dokument�w AI. Metoda przetwarzania zastosowana przez HEARSAY obejmowa�a warstwow� struktur� zwan� "tablic�". Szacuje si�, �e etykiety telefon�w, a tak�e liczby zwi�zane z prawdopodobie�stwem ich wyst�pienia, zosta�y "zapisane" w jednej z ni�szych warstw tablicy. Wyspecjalizowane procedury �r�d�a wiedzy, kt�re wiedzia�y o "sposobie budowania sylab z telefon�w", czyta�y te etykiety i oblicza�y domys�y na temat tego, jakie sylaby by�y w wypowiedzi. Te domys�y, wraz z liczbami mierz�cymi ich przekonania lub prawdopodobie�stwa, zosta�y nast�pnie zapisane w warstwa sylaby tablicy. Inne procedury �r�d�a wiedzy, kt�re wiedzia�y o tym, jak s�owa zosta�y zbudowane z sylab, czytaj� informacje ju� na tablicy i zapisuj� domys�y na temat s��w w warstwie s��w tablicy. I tak dalej. HEARSAY-II mia� oko�o 40 te �r�d�a wiedzy Og�lny pogl�d ilustruje rysunek

Zasadniczo �r�d�o wiedzy mo�e odczytywa� lub zapisywa� informacje na dowolnej warstwie tablicy, kt�ra by�a dla niego istotna. Co wi�cej, mo�e to robi� w spos�b tzw. "asynchroniczny" (niezale�ny od tego, kiedy inne �r�d�a wiedzy czyta�y i pisa�y). Istnieje kilka �r�de� wiedzy, kt�re mog� pisa� prognozy dotycz�ce nowych s��w na podstawie s��w zapisanych ju� w warstwie s��w i informacji w innych warstwach. �r�d�a wiedzy mog� nawet pisa� domys�y na temat s��w w warstwie s��w w oparciu o sekwencje s��w ju� zapisane (z du�� si��) w warstwie sekwencji. Ten proces wnioskowania, co musi znajdowa� si� w dolnej warstwie (mimo �e pomini�te przez wst�pne przetwarzanie) z tego, co (z innych dowod�w) jest obecne w wy�szej warstwie, jest temat, kt�ry cz�sto powraca w p�niejszych badaniach nad AI. O ile mi wiadomo, ta niezwykle wa�na innowacja AI pojawi�a si� po raz pierwszy w systemie HEARSAY-II. Wed�ug Raj Reddy, jednego z wynalazc�w architektury tablicy (wraz z Victorem Lesserem, Lee Ermanem i Frederickiem Hayes-Rothem), Herbert Simon cz�sto u�ywa� s�owa "tablica", aby opisa� element "pami�ci roboczej" systemu produkcyjnego architektura, z kt�r� on i Allen Newell pracowali. System produkcyjny u�ywa� regu� IF {THEN (zwanych produkcjami), kt�re by�y uruchamiane przez zawarto�� pami�ci roboczej i zapisywa� w niej nowe dane. Reddy i zesp�, rozpoznaj�c r�norodno�� r�nych �r�de� wiedzy zwi�zanych z przetwarzaniem mowy, uog�lnili ide� systemu produkcyjnego, rozszerzaj�c regu�y produkcji na wi�ksze programy, nazywaj�c je "�r�d�ami wiedzy" i opracowali pami�� robocz� w warstwowej strukturze tablicy. Pod koniec projektu rozumienia mowy DARPA, HEARSAY-II zosta� przetestowany na dwudziestu trzech wypowiedzianych zdaniach, zupe�nie nowy w systemie, maj�c �rednio siedem s��w na zdanie, a 81% z nich zosta�o poprawnie rozpoznanych s�owo po s�owie , chocia� 91% doprowadzi�o do tego samego zapytania do bazy danych, kt�re zawiera�oby poprawne zdanie s�owo w s�owo. Projektanci HEARSAY twierdzili, �e ten wyst�p jest bliski osi�gni�cia ambitnych cel�w. . . ustanowiony dla programu DARPA w 1971 roku. "Chocia� HEARSAY-II zbli�y� si�, wyniki nie by�y tak dobre jak HARPY. Chocia� architektura tablicy nie jest ju� stosowana w nowoczesnych systemach rozpoznawania mowy, zosta�a przyj�ta przez kilka innych program�w AI. Wed�ug Russella i Norviga "Systemy tablicowe s� podstaw� nowoczesnej architektury interfejsu u�ytkownika".

Podsumowanie i wp�yw programu SUR

CMU HEARSAY-II i HARPY zosta�y zademonstrowane na CMU 8 wrze�nia 1976 r., A HWIM BBN zademonstrowano na BBN 10 wrze�nia. W raporcie podsumowuj�cym projekty Dennis Klatt napisa�, �e "nie jest jasne, czy istniej� du�e r�nice w umiej�tno�� w�r�d [tych] trzech system�w. Jednak tylko [HARPY] by� w stanie osi�gn�� cele ARPA ". Tw�rcy HEARSAY-II przypisali najwy�sz� wydajno�� HARPY trzem czynnikom: dok�adniejszemu poszukiwaniu potencjalnych rozwi�za� (dozwolonym przez wst�pnie obliczon� sie� wszystkich zda�, kt�re mo�na wypowiedzie�), bardziej szczeg�owej wbudowanej wiedzy na temat zjawisk przej�ciowych mi�dzy s�siaduj�cymi s�owami i jego dok�adniejsze testowanie, strojenie i debugowanie. Jednak niekt�rzy badacze i mened�erowie programu DARPA spierali si� o spos�b przeprowadzenia test�w i stwierdzenie, �e �aden z system�w nie spe�nia cel�w programu SUR. W ka�dym razie DARPA postanowi�a nie finansowa� proponowanego programu kontynuacji. Program pokaza� jednak, �e rozumienie mowy by�o rozs�dnym celem technicznym i stymulowa�o post�p w technologiach przetwarzania mowy, zw�aszcza w organizacji systemu, sk�adni i semantyce oraz przetwarzaniu akustycznym. Raport National Research Council stwierdzi�, �e finansowanie przez "DARPA bada� nad rozumieniem mowy jest niezwykle wa�ne.…" wyniki tych bada� zosta�y w��czone do produkt�w uznanych firm, takich jak IBM i BBN, a tak�e start-up�w, takich jak Nuance Communications (spinoff SRI) i Dragon Systems. Wiod�cy na rynku program do rozpoznawania mowy na rynku, oprogramowanie Dragon "NaturallySpeaking" , wywodzi si� bezpo�rednio z pracy wykonanej w CMU w latach 1971-1975 w ramach SUR

P�niejsza praca nad rozpoznawaniem mowy

Badania rozpoznawania mowy by�y r�wnie� prowadzone w innych laboratoriach opr�cz tych, kt�re by�y bezpo�rednio zaanga�owane w program SUR DARPA. Na przyk�ad Frederick Jelinek z Speech Processing Group w Departamencie Nauk Komputerowych IBM w Thomas J. Watson Research Center w Yorktown Heights w Nowym Jorku jest jednym z pierwszych zwolennik�w stosowania metod statystycznych (w tym ukrytych modeli Markowa) w rozpoznawanieu mowy. Podej�cie HMM zosta�o ostatecznie przyj�te przez wszystkie wiod�ce firmy rozpoznaj�ce mow�. W 1984 r. DARPA ponownie zacz�a finansowa� prace zwi�zane z rozpoznawaniem mowy w ramach programu "Strategic Computing". Uczestnikami byli CMU, SRI, BBN, MIT, IBM i Dragon Systems. W�r�d system�w opracowanych w CMU w ci�gu nast�pnych kilku lat by�y na przyk�ad SPHINX autorstwa Kai-Fu Lee i innych oraz JANUS, wieloj�zyczny system rozpoznawania i t�umaczenia mowy przez Alexa Waibela i innych. (Te i inne systemy s� dost�pne jako oprogramowanie typu open source ze strony internetowej "Speech at CMU", http://www.speech.cs.cmu.edu/. Strona zawiera r�wnie� linki do wielu innych laboratori�w rozpoznaj�cych mow�.) W oparciu o swoj� prac� nad DRAGON w CMU, James i Janet Baker za�o�yli Dragon Systems w 1982 r. W 1997 r. Dragon wprowadzi� "Dragon NaturallySpeaking", program do rozpoznawania mowy dla komputer�w osobistych. Mia� zas�b 23 000 s��w. IBM wraz z ViaVoice, oraz inne firmy, w tym Microsoft, r�wnie� maj� oprogramowanie do rozpoznawania mowy. Transkrypcja zda� m�wionych na ich tekstowe odpowiedniki jest obecnie w du�ej mierze rozwi�zanym problemem. Na przyk�ad w wielu zautomatyzowanych systemach odpowiedzi telefonicznej powszechnie stosuje si� dzi� wysokiej jako�ci rozpoznawanie mowy. Jednak zrozumienie mowy (lub tekstu) w j�zyku naturalnym, aby na przyk�ad umo�liwi� og�lne dialogi z systemami komputerowymi, pozostaje d�ugoterminowym problemem badawczym.

Historia Sztucznej InteligencjiArtificial Intelligence Experts

Systemy rozpoznawania mowy i rozumienie