De schrijver typt zijn tekst op de tekstverwerker. Of dicteert de tekst. Laat dan de begrijpelijkheid van de tekst meten, door een programma op de tekstverwerken of op het web. Dat programma geeft dan scores, en de schrijver denkt te weten of zijn tekst inderdaad het beoogde publiek zal bereiken. Voor het zover is, heeft de taaltechnoloog flink wat onderzoek verricht.
Om te onderzoeken of de ene tekst begrijpelijker is dan de andere, combineren onderzoekers twee gegevens: tekstkenmerken en menselijke oordelen over de kwaliteit van teksten. Die twee gegevens worden aan elkaar gekoppeld: hoe beter je tekstkenmerken selecteert, en beter je die in een wiskundige formule giet, hoe beter je het oordeel van mensen voorspelt over de begrijpelijkheid van een tekst.
Eerst bepalen onderzoekers dus welke kenmerken van teksten de begrijpelijkheid ervan zouden kunnen voorspellen. Zij stellen voorspellers of indicatoren vast, vaak op basis van wat bekend is uit de taalwetenschap. Ze laten de computers los op teksten, en met wat rekenwerk komt er dan een voorspelling uit van begrijpelijkheid. De ene formule zal dan beter voorspellen dan de andere. Als een formule niet goed voorspelt, kan dat aan drie zaken liggen; de kenmerken zijn niet goed gekozen, de weging van die kenmerken is niet goed (de ‘formule’), of het menselijk oordeel dat voorspeld moet worden is niet bijster goed. Er komt dus een flinke portie statistiek bij kijken om een goede formule te maken. In het laatste decennium is er ook sprake van machine learning, een proces om de formule steeds te verbeteren, zodat de voorspelling steeds preciezer wordt. Dat betekent dat het prototype van het instrument op grote bestanden met teksten eindeloos veel voorspellingen doet en telkens feedback krijgt op de kwaliteit van die voorspelling. Op die manier gebruiken de ontwerpers kunstmatige intelligentie om het systeem te leren patronen in teksten te herkennen die kunnen leiden tot betere voorspellingen van de begrijpelijkheid.
Maar ook machine learning kan alleen goed werken als de feedback over de kwaliteit van de voorspelling heel goed is. De onderzoekers moeten dus ook beschikken over een score ‘begrijpelijkheid van deze tekst’. Die ontlenen zij aan het menselijk oordeel over teksten.
Hierna komen die twee onderzoeken aan bod:
1. Tekstkenmerken die ertoe doen: de voorspellers
2. De mens als begrijper: het criterium
1. Tekstkenmerken die ertoe doen
Toen Rudolf Flesch in 1948 zijn leesbaarheidsformule publiceerde, moest alles nog met de hand berekend worden. Van elke tekst moest Flesch dus de lengte van de woorden (in lettergrepen) en de lengte van de zinnen bepalen, de gemiddelden berekenen en die invoeren in zijn formule:
Factor A x gemiddelde woordlengte + Factor B x gemiddelde zinslengte = leesbaarheidsscore
Men ging natuurlijk niet de hele tekst tellen: men beperkte zich bij zulke berekeningen meestal tot een steekproef van tien regels uit de tekst, bij een lange tekst nam men een paar steekproeven. Tegenwoordig doet de computer het rekenwerk. Sinds de eeuwwisseling voeren we dat rekenwerk op veel meer kenmerken uit dan alleen de woord- en zinslengte. Dankzij enorme ontwikkelingen in taaltechnologie kunnen we nu elke zin in een tekst automatisch laten ontleden en moeiteloos op honderden kenmerken analyseren. Voor een belangrijk deel zijn dat kenmerken die we al lang gebruiken in de taalkunde en die de complexiteit van woorden en zinnen bepalen. Maar sommige instrumenten analyseren teksten ook op de samenhang tussen zinnen. Ook meer inhoudelijke kenmerken, komen aan bod, zoals de mate waarin de tekst gaat over het dagelijks leven van mensen. Ik bespreek hier vier verschillende kenmerken van tekstcomplexiteit.
- Moeilijke woorden
- Moeilijke zinnen
- Samenhang in de tekst
- Het persoonlijke karakter van de tekst
2. Vaststellen van het criterium: de mens als begrijper
Om goed te kunnen voorspellen of een tekst begrijpelijk is, heb je een criterium nodig waarmee je kunt kalibreren. Zoals we vroeger een weegschaal ijkten met een officieel goedgekeurd gewicht van een kilo om na te gaan of een kilo boter wel echt een kilo woog, zo hebben de onderzoekers een begrijpelijkheidskilo nodig als standaard voor de kalibratie. Maar waar halen ze die kilo vandaan? Er zijn drie mogelijkheden:
- experts beoordelen een reeks teksten
- leken beoordelen teksten op begrijpelijkheid
- of proefpersonen doen een test op een reeks teksten
De eerste mogelijkheid komt in Nederland het meest voor. De ontwerpers schakelen een groep experts in die een grote verzameling teksten scoren op begrijpelijkheid. Meestal zijn dat mensen die beroepshalve met taal en communicatie te maken hebben. Voor elke tekst wordt de gemiddelde score berekend en die geldt als standaard waar het instrument mee gevoed wordt. Als de formule va de tools het expertoordeel goed voorspelt, kan men tevreden zijn over de formule.
Expertoordelen
De crux is dan de kwaliteit van de oordelen van deze experts. Hoe goed is die? We weten uit veel onderzoek dat experts sterk verschillen in hun oordelen (Lentz, 2005). Dat komt omdat zij ertoe neigen, afhankelijk van hun achtergrond, de eigen taalervaring als maatgevend te zien. Slechts weinigen kunnen zich echt goed inleven in de problemen die andere lezers met een tekst zouden kunnen ervaren. Een tweede kritiekpunt is, dat zulk expertonderzoek geen uitspraken doet over hoe verschillende lezersgroepen de tekst begrijpen: hoger en lager opgeleide lezers, meer en minder ervaren lezers, lezers met veel of weinig voorkennis. Het criterium via expertoordelen wordt dan wel heel erg algemeen.
Leken oordelen
De tweede mogelijkheid is dat de teksten door leken beoordeeld worden. Die optie heeft hetzelfde nadeel dat ook leken moeite zullen hebben zich in andere lezers in te leven. Maar wat de onderzoeker kan doen, is lezers uit verschillende groepen te betrekken en die informatie mee te nemen in de berekeningen. Zo zou je dus een score kunnen berekenen die de lager opgeleide leken aan de tekst gaven en een van de hoger opgeleide leken. Ik ken geen voorbeelden van die werkwijze. Maar een groot nadeel blijft dat je nooit weet hoe goed lezers het eigen tekstbegrip kunnen schatten. Daartoe moeten lezers over metakennis beschikken. Niet iedereen is even goed in het bepalen van het eigen tekstbegrip.
Prestaties van lezers: tekstbegrip
De derde mogelijkheid test een verzameling teksten op begrijpelijkheid bij verschillende groepen lezers. Nu gaat het niet om oordelen, maar om een prestatie van lezers in een testsituatie. Daarmee hebben we echt een indicatie van de begrijpelijkheid, vooral als we verschillende groepen lezers aan het werk zetten. Een voorbeeld. Suzanne Kleijn (2018) zette voor haar onderzoek ruim tweeduizend scholieren uit verschillende schoolklassen aan het werk. Elke leerling werkte aan vier teksten met een zogenaamde cloze-toets (Lentz, 2021). Klein zette daarnaast 181 leerlingen achter een eye-tracker, met dezelfde teksten. Daardoor kon zij op basis van de leestijden nagaan op welke plaatsen in de tekst de leerlingen problemen hadden. Met die data creëerde zij een standaardwaarde voor elke tekst, gespecificeerd naar leerlingniveau (school en klas).
Er is veel kritiek geweest op het testen met die cloze-toets, zie methoden voor lezersonderzoek elders in dit handboek. Kleijn laat echter overtuigend zien dat je met een paar slimme aanpassingen wel degelijk de begrijpelijkheid van teksten bij lezers kunt onderzoeken.
Literatuur
Lentz, L.R. (2005). Anticipating reader problems: cognitive shortcuts that prevent experts from focusing on readers. In IPCC (Eds.), Proceedings of the International Professional Communication Conference, July 10-13 2005 (pp. 649-652) (4 p.). Limerick: IPCC.
Lentz, L. (2021). Methoden. Didactiek Nederlands – Handboek. Geraadpleegd 3 juni 2021 via https://didactieknederlands.nl/handboek/2021/01/lezersonderzoek-deel-2-methoden.
Lees verder:
- Inleiding
- Leesbaarheid en begrijpelijkheid (deel 2)
- Wat zijn tekstbegrijpelijkheidsvoorspellingen waard? Een vergelijkend onderzoek (deel 4)
- Keuzehulp (deel 5)
- Conclusies
Graag als volgt naar deze bijdrage verwijzen: Lentz, L. (2021). Taaltechnologie: Wat doen instrumenten die begrijpelijkheid voorspellen? In WODN Werkgroep Onderzoek Didactiek Nederlands (Ed.), Handboek Didactiek Nederlands. Levende Talen. Geraadpleegd [datum] via [https://didactieknederlands.nl/handboek/2021/10/taaltechnologie-wat-doen-instrumenten-die-begrijpelijkheid-voorspellen-deel-3/]
Auteurs:
Leo Lentz
Leo Lentz is hoogleraar aan de Universiteit Utrecht op het terrein van taal en communicatie. Hij doet onderzoek naar de begrijpelijkheid van teksten en de gebruiksvriendelijkheid van digitale documenten. Dat zijn meestal alledaagse teksten, zoals bijsluiters bij medicijnen, kookrecepten of formulieren en websites; maar hij doet ook onderzoek naar minder alledaagse documenten die te maken hebben met financiën: hypotheekaktes, pensioendocumenten, aanmaningen en verzekeringen.