Vier kenmerken van tekstcomplexiteit

Moeilijke woorden

Wat is precies een moeilijk woord? Dat lijkt een makkelijke vraag, maar welk kenmerk van een woord bepaalt precies of het moeilijk is?

Woordlengte

Volgens Flesch (1948) was een moeilijk woord een lang woord. Maar het is de vraag of de lengte van de woorden invloed heeft op de leesbaarheid en begrijpelijkheid van de tekst. Onderzoek daarover is niet eenduidig. Rello e.a. (2013) vonden dat dyslectische lezers teksten met kortere woorden beter begrepen. Maar Farjallo e.a. (2014) vonden juist dat kortere woorden geen effect hadden op de begrijpelijkheid bij lezers met een laag niveau van leesvaardigheid. Crossley e.a. (2017) vonden geen enkel verband tussen woordlengte en oordelen van volwassen lezers over de begrijpelijkheid van een reeks teksten. Ook in het onderzoek van Suzanne Kleijn (2018) bij scholieren bleek woordlengte geen serieuze voorspeller van tekstbegrip. Twee onderzoeken vonden daarentegen wel degelijk een relatie tussen woordlengte en tekstbegrip (gemeten met een cloze-toets): Kraf en Pander Maat (2009) bij kinderen en Jansen en Boersma (2013) bij volwassenen.

Abstractie

Volgens Pander Maat en Dekker (2016) gaat het vooral om de vraag of woorden concreet of abstract zijn als we iets over de complexiteit willen zeggen. Hoe hoger het aandeel van abstracte woorden (zoals discussie, idee, democratie, tevredenheid, waarneming) in een tekst, des te moeilijker is die tekst. Moderne taaltechnologie classificeert vrijwel alle woorden in een tekst als concreet of abstract.

Frequentie

Van werkwoorden kun je een zelfstandig naamwoord maken. Zoals: bedoelen – bedoeling, veroorzaken – veroorzaking. De eerste is makkelijker dan de tweede, want het woord bedoeling komen we vaker tegen in teksten. De vraag is of nominalisatie inderdaad verschillen in begrijpelijkheid veroorzaakt. Vermoedelijk is het eerder een effect van frequentie; de vorm komt vaker voor in de functie van werkwoord. Niet elke nominalisatie is per se moeilijker dan het werkwoord. Maar een hoge dichtheid van nominalisaties wijst wel op een afstandelijke en meer abstracte beschrijving.

Moeilijke zinnen

Ingebedde zinnen

Ook bij zinnen is het niet zozeer de lengte die de moeilijkheid bepaalt, maar een andere factor: de in de zin ingebouwde deelzin. Veelal onderbreekt die deelzin het leesproces. Hoe langer die onderbreking duurt en hoe ingewikkelder de deelzin zelf is, des te moeilijker wordt het voor de lezer om de draad vast te houden.

De lengte van de onderbreking noemen we de afhankelijkheidslengte. Dat is de afstand die de lezer moet overbruggen tussen twee onderdelen die elkaars complement zijn. Zo kunnen we in de zin Jan ging voetballen, zowel tussen Jan en ging, als tussen ging en voetballen een heleboel informatie toevoegen die de afhankelijkheidslengte tussen het ene en het andere element vergroot:

Jan,

die nog een boel huiswerk te doen had,
maar daar zo tegenop zag
dat hij het telkens uitstelde,

ging,

hoewel het pijpen met stelen regende
en er een ijzige wind stond,
naar het pleintje op de hoek
om daar met zijn vrienden te

voetballen.

Tussen de eerste twee elementen zitten drie deelzinnen met een persoonsvorm (had, zag, uitstelde). Daardoor moet de lezer na het onderwerp Jan maar liefst achttien woorden verwerken voordat hij de verbinding kan maken met de persoonsvorm ging die daarbij hoort. En omdat die persoonsvorm ook weer om een complement vraagt (voetballen), de lezer vraagt immers wat Jan zou gaan doen, moet hij nog weer ruim twintig woorden lezen voordat aan die behoefte wordt voldaan. In die twintig woorden treft hij een opsomming (regen en wind), een plaatsbepaling, een bijwoordelijke bepaling, beeldspraak en een conditionele bijzin die allemaal tussendoor verwerkt moeten worden. De tekst bevat geen moeilijke woorden, het zijn allemaal concrete en frequente woorden, verwijzingen naar mensen en alledaagse activiteiten, maar is toch moeilijk te begrijpen door de zinscomplexiteit.

Er zijn nog wel andere kenmerken waarvan beweerd wordt dat zij zinnen complex maken, zoals bijvoorbeeld de passiva (of lijdende vorm), dubbele ontkenningen en de hoeveelheid voorzetsels in de zin. Sommige tools voeren daar ook een analyse op uit. Telkens is natuurlijk de vraag of die kenmerken echt de begrijpelijkheid beïnvloeden.

Samenhang in de tekst

Als de zinnen in een tekst goed op elkaar aansluiten dan is die tekst makkelijker te begrijpen. Een goede schrijver van een begrijpelijke tekst slaat bij elke nieuwe zin, meestal in het begin van de zin, een bruggetje naar de vorige zin. Als dat bruggetje er niet is, stokt het leesproces even.

Jan ging voetballen. Hij fietste met zijn tas achterop over het fietspad op de dijk naar het terrein van de IJsselmeervogels. Dat zat vol kuilen.

In de tweede zin slaat hij een bruggetje naar Jan. En in de derde zin slaat dat een bruggetje naar het fietspad op de dijk. Of zat het terrein van de club misschien vol kuilen? De samenhang tussen de derde en de tweede zin wordt simpeler als het laatste stukje zou luiden: zodat hij zijn stuur goed vast moest houden. Nu weten we zeker dat de kuilen in het fietspad zaten. Samenhang in de tekst is cruciaal als we de relaties tussen de zinnen goed willen begrijpen.

Taaltechnologie biedt diverse mogelijkheden om teksten op samenhang te analyseren. De vakterm daarvoor is de type-token-ratio. Die kan bepaald worden door het aantal verschillende woorden in de tekst (die dus van elkaar verschillen qua betekenis) te delen door het totaal aantal woorden. De maximale waarde is 1: dan komt elk woord maar een keer voor in de tekst. In bovenstaand tekstje is dat voor alle inhoudswoorden het geval, want behalve de lidwoorden de en het wordt geen enkel woord herhaald. Hoe vaker woorden terugkeren, hoe meer samenhang de tekst vertoont en hoe makkelijker die te begrijpen is. Maar je zou kunnen zeggen dat fiets toch twee keer voorkomt? Dus zomaar tellen is er niet bij: taaltechnologie heeft nauwkeurige definities nodig. Wat rekenen we als hetzelfde woord? Fietste is een ander woord dan fietspad, maar beide hebben hetzelfde morfeem (fiets).

Een morfeem is het kleinste betekenisdragende element in de taal: ‘fiets’ is zo’n morfeem, het bestaat niet uit nog kleinere delen. Het morfeem ‘fiets’ kun je zelfstandig gebruiken (‘deze fiets is van mij’) maar ook met allerlei toevoegen (fietstas, fietste, fietsje, driewielerfiets.)

En als het stuur van de fiets ook nog een keer in beeld komt in de tekst, wordt de samenhang nog sterker.

Er is nog een andere maat voor samenhang: geringe variatie in woorden. Hoe meer van de woorden in een passage in de tekst al eerder voorkwamen, hoe eenvoudiger de tekst te begrijpen is. Meer begrip met minder woorden. Taaltechnologie berekent van elke opeenvolgende zin hoeveel van de inhoudswoorden en voornaamwoorden voorkomen in de voorgaande 50 woorden. Hoe groter het aandeel woorden overeenkomt, hoe eenvoudiger de tekst te begrijpen is. De tekst gaat dan blijkbaar wat langer door over hetzelfde (deel)onderwerp, zonder dat er veel nieuwe woorden bij komen tijdens het lezen.

Het persoonlijke karakter van de tekst

Teksten over mensen of dieren die alledaagse dingen beleven en daar emoties bij hebben, zijn eenvoudiger te begrijpen dan partijprogramma’s van politieke partijen of beleidsnota’s over het klimaat. Dat komt omdat we ons beter kunnen verplaatsen in de personages en omdat de belevenissen dichter aansluiten bij onze eigen ervaringen. Taaltechnologie kan bepalen hoe “persoonlijk” een tekst is door de woorden te tellen die verwijzen naar personen, zoals bezittelijke voornaamwoorden, namen van personen en andere soorten verwijzingen naar mensen. De relatieve hoeveelheid van zulke woorden bepaalt in hoeverre de tekst “persoonlijk” is. Onderzoek van Ham, Lentz, Pander Maat en Stolk (2018) liet zien dat romans wel twee keer zo persoonlijk zijn als kranten. In een vergelijking tussen NRC Handelsblad en De Telegraaf bleek de tweede krant persoonlijker te zijn. Teksten verschillen dus op dit punt zowel tussen genres (roman – krant) als binnen een genre (NRC – Telegraaf).

Literatuur moeilijke woorden

Crossley, S. A., Skalicky, S., Dascalu, M., McNamara, D. S., & Kyle, K. (2017). Predicting text comprehension, processing, and familiarity in adult readers: New approaches to readability formulas. Discourse Processes, 54(5-6), 340-359.

Jansen, C. & Boersma, N. (2013). Meten is weten? Over de waarde van de leesbaarheidsvoorspellingen van drie geautomatiseerde Nederlandse meetinstrumenten. Tijdschrift voor Taalbeheersing, 35(1), 47-62.

Kleijn, S. (2018). Clozing in on readability: How linguistic features affect and predict text comprehension and on-line processing. LOT.

Kraf, R.& Pander Maat, H. (2009), ‘Leesbaarheidsonderzoek : oude problemen , nieuwe kansen’. Tijdschrift voor Taalbeheersing, 31 (2), 97-123.

Pander Maat, H.L.W., & Dekker, N. (2016). Tijdschrift voor Taalbeheersing, 38(3), 263 – 304.

Rello, L., Baeza-Yates, R., Dempere-Marco, L., & Saggion, H. (2013). Frequent words improve readability and short words improve understandability for people with dyslexia. In Human-Computer Interaction – INTERACT 2013 (pp. 203-219). Berlin: Springer.

Literatuur samenhang in de tekst

Land, J., Sanders, T., Lentz, L., & van den Bergh, H. (2002). Coherentie en identificatie in studieboeken. een empirisch onderzoek naar tekstbegrip en tekstwaardering op het vmbo. Tijdschrift Voor Taalbeheersing, 24(4), 281-302.

Literatuur het persoonlijke karakter van de tekst

Ham, Laurens, Lentz, L.R., Pander Maat, H.L.W. & Stolk, F.R.W. (2018). Zijn romans en kranten sinds 1950 eenvoudiger geworden? Tijdschrift Voor Nederlandse Taal-en Letterkunde, 134(4), 300-324.


Graag als volgt naar deze bijdrage verwijzen: Lentz, L. (2021). Vier kenmerken van tekstcomplexiteit. In WODN Werkgroep Onderzoek Didactiek Nederlands (Ed.), Handboek Didactiek Nederlands. Levende TalenGeraadpleegd [datum] via [https://didactieknederlands.nl/bijlages/2021/10/vier-kenmerken-van-tekstcomplexiteit/]

Auteurs:

Leo Lentz

Leo Lentz is hoogleraar aan de Universiteit Utrecht op het terrein van taal en communicatie. Hij doet onderzoek naar de begrijpelijkheid van teksten en de gebruiksvriendelijkheid van digitale documenten. Dat zijn meestal alledaagse teksten, zoals bijsluiters bij medicijnen, kookrecepten of formulieren en websites; maar hij doet ook onderzoek naar minder alledaagse documenten die te maken hebben met financiën: hypotheekaktes, pensioendocumenten, aanmaningen en verzekeringen.

Delen: