Computermodellen van taal

Als kennis van een taal wordt gevangen in een computerprogramma, kan dit niet alleen leiden tot praktische toepassingen van kunstmatige intelligentie, zoals vertaalmachines en chatbots, maar ook tot een beter begrip van hoe taal werkt en hoe mensen taal gebruiken.

Wat is een computermodel?

Sommige systemen zijn te ingewikkeld  om intuïtief (of met pen-en-papier) te doorgronden. Als er een theorie bestaat van de principes die aan zo een systeem ten grondslag liggen, en deze theoretische principes precies en formeel te maken zijn, kan de theorie worden geïmplementeerd in de vorm van een computerprogramma, oftewel: een computermodel. Een succesvol computermodel kan het gedrag van een systeem nabootsen, maakt voorspellingen over hoe het systeem zich zal gedragen in de toekomst of in nieuwe omstandigheden, en leidt tot een beter wetenschappelijk begrip van hoe het systeem werkt. Elk model is echter een simplificatie en abstractie van de werkelijkheid: een computermodel van taal bevat niet alle details van (een) taal, net zoals meteorologen geen perfect en volledig model van het weer hebben.

Hoe werken computermodellen van taal?

De ontwikkeling naar probabilistische modellen

De eerste computermodellen van taal (of beknopter: taalmodellen) waren zogeheten n-gram modellen. Die doen in feite niets anders dan tellen hoe vaak specifieke woorden elkaar opvolgen in een tekstcorpus. Het nut van dat soort modellen is beperkt en ze verschaffen nauwelijks inzicht in de werking van taal.

De eerste taalkundige interessante modellen werden in de jaren 1950 en ’60 ontwikkeld door de pioniers op het gebied van kunstmatige intelligentie. Deze modellen volgden inzichten uit de generatieve (Chomskiaanse) syntaxis: Ze maakten vooral gebruik van productieregels zoals

“een zin (S) kan bestaan uit een nominaal zinsdeel (NP) gevolgd door een werkwoordelijk zinsdeel (VP)”,

of in de gebruikelijke notatie:

S → NP VP.

De verzameling van alle (aangenomen) productieregels van een taal vormt een grammatica. Met zo een grammatica kunnen generatieve taalmodellen bepalen welke zinnen wél en welke níet deel uitmaken van de taal, en wat de mogelijke syntactische structuren zijn van een zin.

Het succes van deze modellen bleef echter zeer beperkt totdat ze in de jaren 1990 werden verbouwd tot probabilistische generatieve modellen (Bod, 1992). Simpel gezegd komt dit erop neer dat elke regel wordt verrijkt met een kans:

S → NP VP (0.20)

betekent bijvoorbeeld:

“Er is 20% kans dat deze S bestaat uit een NP gevolgd door een VP.”

Deze kansen (evenals de regels zelf) kun je automatisch laten afleiden uit een tekstcorpus van zinnen die zijn geannoteerd met hun aangenomen syntactische structuur. Bijvoorbeeld, als in de structuren van het corpus een S vaak bestaat uit een NP gevolgd door een VP en zelden uit enkel een VP, dan krijgt de productieregel

S → NP VP

een veel hogere kans toegekend dan

S → VP.

Het grote voordeel van probabilistische modellen is dat ze niet alleen de mogelijke zinsstructuren identificeren, maar deze ook waarschijnlijkheden toekennen. Op die manier wordt bijvoorbeeld duidelijk gemaakt dat (en waarom) de zin “De hond die de kat ruikt, rent weg” waarschijnlijk betekent dat de hond de kat ruikt, in plaats van andersom: in een zin van de vorm “NP1 die/dat NP2 VP” is het veel vaker het geval dat NP1 onderwerp is en NP2 lijdend voorwerp, dan andersom. Bovendien kunnen probabilistische modellen ook de kans berekenen dat een zin voorkomt en zelfs wat de kans is dat een bepaald woord voorkomt op een bepaald punt in de zin. Deze kansen volgens een probabilistisch model blijken samen te hangen met de mate waarin een zin als correct wordt beschouwd (Lau et al., 2017) en hoe moeilijk het is om een zin te begrijpen (Brouwer et al., 2010; Jurafsky, 1996; Levy, 2008). Om een voorbeeld te geven: de zin

(1) “de honden die de kat ruiken, rennen weg”

is eenvoudiger te begrijpen dan

(2) “de honden die de kat ruikt, rennen weg”

omdat zin (1) begint met het onderwerp, wat in het Nederlands veel vaker voorkomt dan beginnen met het lijdend voorwerp zoals in zin (2) gebeurt.

Neurale netwerken

De volgende revolutie volgde rond het jaar 2010, toen taalmodellen gebaseerd op neurale netwerken doorbraken in de Kunstmatige Intelligentie. Een neuraal netwerk is losjes gebaseerd op de werking van het brein, met een groot aantal eenvoudige units die elkaar (de)activeren via verbindingen die zwakker of sterker kunnen worden. Sinds een paar jaar wordt ook de Taalwetenschap beïnvloed door deze modellen (zie bijvoorbeeld Linzen & Baroni, 2021). In tegenstelling tot regel-gebaseerde modellen (en net als de eerdergenoemde n-gram modellen) zijn neurale netwerken niet gestoeld op taalkundige ideeën (Frank et al., 2019). Ze maken bijvoorbeeld geen expliciet onderscheid tussen taalkennis (de grammatica) en taalgebruik (het verwerken van een zin), en maken geen gebruik van syntactische geannoteerde zinnen. In plaats daarvan zijn neurale netwerken breed inzetbare modellen die een taak leren uitvoeren door een groot aantal voorbeelden waar te nemen. Zo kunnen ze syntactische patronen van een taal leren door op elk punt van voorbeeldzinnen te proberen het volgende woord te voorspellen. Deze voorspellingen worden dan vergeleken met de werkelijke woorden, waarna de sterktes van de verbindingen tussen de units in het netwerk telkens zó worden aangepast dat de voorspellingen een tikkeltje nauwkeuriger worden. Wanneer het netwerk vervolgens zin (1) verwerkt, kent het niet expliciet “onderwerp-NP” toe aan “de honden” (wat een regelgebaseerd model wel zou doen). In plaats daarvan is zin (1) moeilijker te begrijpen dan (2) omdat in een zin die begint met “de honden” het woord “ruiken” voorspelbaarder is dan “ruikt”.

Vanaf ongeveer 1990 werden neurale netwerkmodellen zeer populair in de Cognitieve Psychologie, waar ze aantoonden dat veel cognitieve processen gebaseerd kunnen zijn op patroonherkenning in plaats van het toepassen van een soort mentaal algoritme. Lange tijd waren dit soort modellen echter ongeschikt om te kunnen omgaan met taal op realistische schaal. Dankzij verbeteringen in de techniek en de beschikbaarheid van zeer grote databases waarvan neurale netwerken kunnen leren, zijn deze modellen tegenwoordig dominant in de in de computationele taalkunde. Huidige toepassingen van kunstmatige intelligentie zijn vrijwel zonder uitzondering gebaseerd op neurale netwerken.

Zoals gezegd zijn neurale netwerkmodellen niet speciaal ontworpen om met taal om te gaan. Desondanks blijken ze verrassend gevoelig voor syntaxis, hoewel dat momenteel vrijwel alleen in het Engels is onderzocht. Op talktotransformer.com is te zien hoe een modern neuraal netwerk willekeurige maar grammaticaal correcte Engelse teksten produceert als vervolg op een door de gebruiker gegeven begin. Het model moet dus kennis van Engelse grammatica bevatten, maar deze kennis is impliciet in de waarden van miljoenen modelparameters (de sterktes van de verbindingen tussen de units), in plaats van expliciet in de vorm van productieregels. Dit maakt het erg moeilijk om te achterhalen welke taalkennis het model precies heeft.

Omdat neurale netwerken niet specifiek zijn ontwikkeld om taal te leren en gebruiken, zijn deze taalmodellen relatief eenvoudig te combineren met andere aspecten van cognitie. Zo zijn neurale netwerken bijvoorbeeld gebruikt om afbeeldingen te associëren met gesproken beschrijvingen van die afbeeldingen, waardoor modelrepresentaties van zinsbetekenis ontstaan (Merkx et al., 2021).

Hoe worden taalmodellen gebruikt?

In de eerste plaats zijn er veel praktische toepassingen van taalmodellen, zoals automatisch vertalen, chatbots, en tekstvoorspelling bij online-zoekfuncties. Daarnaast leveren ze belangrijke bijdragen aan de taalwetenschap. Met behulp van taalmodellen is bijvoorbeeld aangetoond dat talen zijn geëvolueerd om beter geleerd te kunnen worden en om efficiënte (snelle en robuuste) communicatie mogelijk te maken (Gibson et al., 2019). Neurale netwerkmodellen kunnen laten zien welke eigenschappen van taal in principe geleerd kunnen worden zonder dat daar aangeboren kennis voor nodig is, en die daarom niet universeel hoeven te gelden voor alle talen. Op deze manier is inderdaad de claim weerlegd dat een bepaald syntactisch fenomeen niet leerbaar is en daarom bewijs vormt voor aangeboren kennis van zinsstructuur (Wilcox et al., 2021).

Tenslotte worden taalmodellen gebruikt om inzicht te krijgen in de cognitieve processen voor taal. Resultaten van taalexperimenten (zoals metingen van leessnelheid of hersenactiviteit) kunnen direct worden vergeleken met modelvoorspellingen. Op deze manier is het soms mogelijk om de oorzaak te vinden voor bepaalde patronen in taalgedrag of taalcognitie. Specifiek voor het Nederlands hebben Mandera et al. (2017) computationele modellen van woordbetekenis gebruikt om te voorspellen hoe lang het duurt om een woord te herkennen, en hebben Frank en Hoeks (2019) laten zien dat een neuraal netwerk kan nabootsen hoe structuur en betekenis samen het lezen van bepaalde complexe zinnen beïnvloeden.

Referenties

Bod, R. (1992). A computational model of language performance: Data Oriented Parsing. In Proceedings of COLING 1992 Volume 3: The 14th International Conference on Computational Linguistics. https://aclanthology.org/C92-3126

Brouwer, H., Fitz, H., & Hoeks, J. (2010). Modeling the noun phrase versus sentence coordination ambiguity in Dutch: Evidence from surprisal theory. In Proceedings of the 2010 Workshop on Cognitive Modeling and Computational Linguistics (pp. 72–80). Association for Computational Linguistics. https://aclanthology.org/W10-2009.pdf

Frank, S. L., & Hoeks, J. C. J. (2019). The interaction between structure and meaning in sentence comprehension: Recurrent neural networks and reading times. In Proceedings of the 41st Annual Conference of the Cognitive Science Society (pp. 337–343). https://psyarxiv.com/mks5y/download

Frank, S. L., Monaghan, P., & Tsoukala, C. (2019). Neural network models of language acquisition and processing. In P. Hagoort (Ed.), Human Language: From Genes and Brains to Behavior (pp. 277–291). The MIT Press. http://stefanfrank.info/pubs/FrankMonaghanTsoukala.pdf

Gibson, E., Futrell, R., Piantadosi, S. T., Dautriche, I., Mahowald, K., Bergen, L., & Levy, R. (2019). How efficiency shapes human language. Trends in Cognitive Sciences, 23, 389–407. https://tedlab.mit.edu/tedlab_website/researchpapers/gibson et al TICS 2019.pdf

Jurafsky, D. (1996). A probabilistic model of lexical and syntactic access and disambiguation. Cognitive Science, 20, 137–194. https://doi.org/10.1207/s15516709cog2002_1

Lau, J. H., Clark, A., & Lappin, S. (2017). Grammaticality, acceptability, and probability: A probabilistic view of linguistic knowledge. Cognitive Science, 41, 1202–1241. https://doi.org/10.1111/cogs.12414

Levy, R. (2008). Expectation-based syntactic comprehension. Cognition, 106, 1126–1177. https://psyarxiv.com/byhxq/download/?format=pdf

Linzen, T., & Baroni, M. (2021). Syntactic structure from deep learning. Annual Review of Linguistics, 7, 195–212. https://doi.org/10.1146/annurev-linguistics-032020-051035

Mandera, P., Keuleers, E., & Brysbaert, M. (2017). Explaining human performance in psycholinguistic tasks with models of semantic similarity based on prediction and counting: A review and empirical validation. Journal of Memory and Language, 92, 57–78. https://www.montana.edu/attmemlab/documents/Manderaetal_predictingSPP.pdf

Manning, C. D., & Schütze, H. (1999). Foundations of statistical natural language processing. Cambridge, MA: MIT Press.

Merkx, D., Frank, S. L., & Ernestus, M. (2021). Semantic sentence similarity: Size does not always matter. In Proceedings of Interspeech (pp. 4393–4397). https://doi.org/10.21437/Interspeech.2021-1464

Wilcox, E., Futrell, R., & Levy, R. (2021). Using Computational Models to Test Syntactic Learnability. https://ling.auf.net/lingbuzz/006327

Graag als volgt naar deze bijdrage verwijzen: Frank, S. (2022). Computermodellen van taal. In WODN Werkgroep Onderzoek Didactiek Nederlands (Ed.), Handboek Didactiek Nederlands. Levende Talen. Geraadpleegd [datum] via: https://didactieknederlands.nl/handboek/2022/12/computermodellen-van-taal/

Auteurs:

Stefan Frank
+ posts

Stefan Frank is Universitair Hoofddocent aan de opleiding Nederlandse Taal en Cultuur van de Radboud Universiteit. Met een combinatie van computermodellen en laboratoriumexperimenten onderzoekt hij menselijk taalgedrag en taalcognitie, in het bijzonder de psycholinguïstiek van syntactische verwerking en van meertaligheid.

Delen: