Slovenec, ki uči umetno inteligenco govoriti

AVTOR: KAJA GALIČ LENKIČ

Gašper Beguš je docent na Oddelku za lingvistiko kalifornijske univerze Berkeley. Po študiju slovenistike in primerjalnega jezikoslovja na Filozofski fakulteti v Ljubljani ga je pot peljala čez lužo, kjer je doktoriral na slavni univerzi Harvard, nato je na Univerzi v Washingtonu ustanovil fonološki laboratorij, trenutno pa je v Kaliforniji, kjer je ustanovil in vodi laboratorij za govor in računalništvo na Berkeleyju. V svojih raziskavah se osredotoča na razvoj modelov, ki se učijo globokega učenja izgovora besed iz neobdelanih zvočnih vhodov. Strojno učenje kombinira z vedenjskimi eksperimenti in statističnimi modeli, s čimer spoznava, kako se nevronske mreže učijo notranjih reprezentacij v govoru in kako se ljudje učijo govoriti. V mesecu, ko pri LanguageSitterju® nagovarjamo ravno razvoj maternega jezika in govora pri otrocih (in kasnejše učenje tujih jezikov pri odraslih), nas Gašperjevo delo še posebej zanima.

Gašper Beguš na kalifornijski univerzi Berkeley raziskuje jezikoslovje v povezavi s strojnim učenjem.

1. Gašper, kako si s študija »človeških jezikov« prišel do strojnega učenja in nevrolingvistike? Te je to področje zanimalo že na dodiplomskem študiju?

Jezik lahko raziskujemo na mnoge načine. Opazujemo lahko, kako otroci usvajajo jezik, kako se odrasli učijo tujih jezikov, analiziramo lahko besedila, posnetke govora itd. V našem laboratoriju izvajamo tudi eksperimente, v katerih se subjekti učijo umetnih (izmišljenih) jezikov, mi pa potem opazujemo, katerih pojavov se je težje ali lažje naučiti. Vendar smo pri raziskovanju jezika tudi zelo omejeni. Nekateri eksperimenti so nemogoči zaradi etičnih ali fizioloških omejitev. V takih primerih se znanstveniki radi zatekamo k računalniškemu modeliranju in simulacijam. V našem laboratoriju, recimo, razvijamo modele strojnega učenja, ki se učijo jezika na nenadzorovan način samo iz posnetkov govora. Pri tem lahko primerjamo, katere značilnosti govora se pojavijo v modelih, ki nimajo organov za govor in ki nimajo nobenih predispozicij za jezik. Takšne informacije nam lahko pomagajo pri zahtevnih vprašanjih, kot so, kako se jezik razvija, kako otroci usvajajo jezik, kakšna je vloga možganov pri produkciji in percepciji govora. Ravno sem začel tudi s projektom, v okviru katerega bomo primerjali posnetke možganskih valov z numeričnimi vrednostmi v računalniških modelih usvajanja jezika. Če povzamem, vse te različne metode in pristopi imajo en sam vir zanimanja, in sicer bolje razumeti človeški jezik, ki je izjemen in zelo kompleksen sistem.

Cilj vseh računalniških metod je razumeti kompleksen človeški jezik.

2. Kako v tvojem laboratoriju učite umetno inteligenco govoriti? Kaj pomeni globoko strojno učenje?

Večina naših modelov temelji na osnovi tako imenovanih umetnih nevronskih mrež, ki so se prvič pojavile v 60. letih prejšnjega stoletja, ogromen razvoj pa doživele v zadnjih nekaj letih. Večina napredka se je zgodila na vizualnem področju, na področju človeškega govora pa je še veliko dela. Eno najbolj perečih vprašanj je, kako se umetna inteligenca dejansko uči. To je pomembno, ker so ti modeli prisotni pravzaprav že povsod (od prepoznavanja slik in avtomatskih medicinskih diagnoz do samovozečih avtomobilov), hkrati pa prinašajo kup etičnih in družbenih vprašanj. Nevronske mreže so odlične pri opravljanju nalog, ki jim jih damo, po drugi strani pa so zelo težko razložljive. Ne moremo namreč ugotoviti, zakaj nekaj naredijo tako, kot naredijo. V mojem laboratoriju uporabljamo človeški govor, ki ga izjemno dobro razumemo, saj ga preučujemo že stoletja, da bi bolje razumeli, kako se nevronske mreže učijo. Razumevanje vzročno-posledičnih razmerij v teh modelih bo izjemnega pomena, ker nam bo pomagalo ugotoviti, zakaj modeli opravijo neko nalogo, ne samo kako dobro jo opravijo.

Poleg vodenja fonološkega laboratorija Gašper tudi predava na drugih univerzah po svetu.

3. Kdo se trenutno še bolje uči? Otroci v socialnem okolju in interakciji z živimi osebami ali računalnik? Bi lahko rekli, da bo za časa našega življenja učenje umetne inteligence postalo enakovredno človeškemu?

Zaenkrat brez dvoma otroci. Otroci se jezika ne učijo samo iz posnetkov govora, ampak tudi iz drugih podatkov. Model strojnega učenja je zaenkrat zelo usmerjen k točno določenim ciljem. Je pa vse več modelov, ki se učijo predstav o svetu iz raznih vrst podatkov, recimo iz videa, zvoka, 3D-predstav. Pomemben napredek v strojnem učenju je tudi prestop od nadzorovanega k nenadzorovanemu učenju. Nadzorovano učenje pomeni, da treniramo modele, tako da vsaki sliki ali zvoku dodamo informacijo, kaj ta slika ali zvok predstavlja. Pri nenadzorovanem učenju se morajo modeli sami naučiti, kaj slike ali zvoki predstavljajo. Otroci se učijo bolj na nenadzorovan način. V zadnjih letih so se zgodili veliki preboji na področju nenadzorovanega učenja. Tudi naši modeli se tako učijo. To pomeni, da slišijo samo posnetke govora, pri tem pa se morajo sami naučiti, kaj so besede, in jih označiti z neko unikatno informacijo.

Zaenkrat se otroci v socialni interakciji s starši učijo še veliko bolje kot stroji.

4. Zanimiv se mi zdi pojem rekurzije in ideje, da jezik ni omejen, naše razumevanje jezika pa je. Kako lahko to razumemo, saj smo vendar ljudje tisti, ki produciramo jezik?

Rekurzija je res zanimiva in eden od redkih pojavov, ki verjetno nima ekvivalenta v drugih oblikah komunikacije. Kot primer lahko vzamemo poved Kaja je rekla, da je Gašper rekel, da je danes četrtek. Ta stavek lahko vedno postavimo v nov stavek, recimo Petra je rekla, da je Kaja rekla, da je Gašper rekel, da je danes četrtek, podobno kot lahko vsakemu številu dodamo 1 in tako dobimo še večje število. Jezik kot sistem je tega seveda zmožen, vprašanje pa je, če in kako naši možgani procesirajo take rekurzivne stavke. Razlog, zakaj je rekurzija tako zanimiva, je, da druge oblike komunikacije ne poznajo rekurzije.

Jezik ni omejen, naše razumevanje jezika pa je. Kako je to mogoče?!

5. Ukvarjaš se tudi z jezikom kitov glavačev. Kako in zakaj?

Sem del projekta CETI, ki združuje biologe, računalničarje, kriptologe in jezikoslovce z namenom, da bi bolje razumeli komunikacijo kitov glavačev. Ti kiti imajo izjemno zanimivo komunikacijo, ki je na videz podobna Morsejevi abecedi. Preko foničnih ustnic oddajajo klike, s katerimi lovijo plen, podobno kot netopirji oddajajo zvok, da se orientirajo v prostoru. Poleg tega s temi kliki tudi komunicirajo. O tej komunikaciji vemo zelo malo, ker je snemanje kitov glavačev zelo zapleteno. Projekt CETI bo prvič v zgodovini prinesel ogromne količine podatkov kitov glavačev, hkrati pa bomo uporabili napredke v umetni inteligenci, ki nam bodo pomagali razvozlati to izjemno kompleksno komunikacijo. Kiti glavači so vrsta presežkov — imajo zelo velike možgane, njihovi kliki so izjemno glasni, poleg tega pa imajo zelo kompleksno socialno strukturo. Eden od namenov projekta je torej pokazati, da nam lahko jezikoslovje in umetna inteligenca pomagata pri razumevanju komunikacije, o kateri vemo zelo malo.