Hieronder volgt een vergelijking van Nederlandse instrumenten die zeggen de begrijpelijkheid van een tekst te meten. Deze vergelijking hoort bij deel 4 uit een reeks artikelen over de begrijpelijkheid van teksten.
Vraag 1 Naar welke tekstkenmerken kijken de tools?
Alle tools kijken naar moeilijke woorden, maar dat doen ze op verschillende manieren. Vermoedelijk werken ze allemaal met een frequentielijst, maar dat leidt tot verrassende verschillen. Zie de tabel hieronder, waar ALT ontbreekt, omdat die niet laat zien welke woorden moeilijk zijn. Welke woorden uit mijn voorbeeldtekst vinden de overige tools moeilijk? Hieronder zie je de resultaten, waarbij ik, als ik die optie had, de tool liet werken op niveau B1/B2.
Moeilijk woord | KT | LiNT | SA | Texamen | Textmetrics | Wize |
overeenkomen | X | X | X | |||
betrekken | X | X | ||||
inzetten | X | |||||
uitnodigen | X | |||||
vermoedelijk | X | X | ||||
methode | X | X | ||||
term | X | X | ||||
vervolg | X | |||||
communicatie | X | |||||
allerlei | X | |||||
media | X | X | ||||
bijsluiter | X | |||||
begrijpelijkheid | X | X | X | |||
overkoepelend | X | X | X | X | ||
Ikea-meubel | X | X | ||||
wanneer | X | |||||
welke | X | |||||
telkens | X | |||||
farmaceutisch | X | X | X | |||
samenwerken | X |
Zeer verrassend is dat er geen enkel woord door alle tools gezamenlijk als moeilijk wordt beoordeeld. Evenmin is er een moeilijk woord waar vijf van de zes het over eens zijn. Er is een woord waar vier tools het over eens zijn: overkoepelend. Acht van de twintig woorden kregen een unieke beoordeling als moeilijk. Daaronder woorden als samenwerken en uitnodigen die naar mijn idee op elke kleuterschool regelmatig gebruikt worden.
Klinkende Taal maakt onderscheid tussen moeilijke woorden en vaktermen, zoals gebruikelijk in bijvoorbeeld het medische of juridische domein. LiNT biedt zicht op de laag frequente woorden, maar ook op de abstracte woorden in de tekst. Dat zijn er nogal wat, zo laten de rode woorden zien in de figuur hieronder.
LiNT pretendeert niet dat al die woorden vervangen zouden moeten worden, maar claimt dat het aandeel van abstracte woorden een indicatie biedt van de moeilijkheidsgraad van de tekst.
De Schrijfhulp markeert de zogenaamde lege woorden, die net zo goed weggelaten zouden kunnen worden. Dat zijn er vier in mijn voorbeeldtekst: misschien, eigenlijk, veel, ruime. Volgens de Schrijfhulp is dat allemaal ballast in de tekst die geen betekenis toevoegt. Dat vind ik (dus eigenlijk best wel misschien) een zinnige suggestie. De Schrijfhulp markeert ook hoera-woorden. Dat zijn overdreven superlatieven (heel erg, spetterend) waarmee de tekst aan kracht verliest. Zulke woorden stonden niet in mijn voorbeeldtekst.
Klinkende Taal maakt onderscheid tussen dure woorden en vaktermen. Gebruikers van de tool kunnen zelf een lijst maken met vaktermen die nu eenmaal bij hun branche horen en waarop niet telkens gecontroleerd hoeft te worden. Die mogelijkheid bieden LiNT, Texamen en Textmetrics eveneens. Texamen maakt onderscheid tussen moeilijke woorden en formele woorden. Uitnodigen is blijkbaar een formeel woord. Textmetrics maakt een vergelijkbaar onderscheid tussen moeilijke woorden en ouderwetse of formele woorden.
Conclusie
Mijn conclusie over de analyse van moeilijke woorden is niet positief. Er is een groot gebrek aan overeenstemming tussen de tools. Van de twintig zogenaamd moeilijke woorden is er niet een waar de tools het over eens zijn. En er zijn slechts twee woorden waar drie tools het over eens zijn. Kortom, de uitkomst van de analyse lijkt zeer willekeurig.
Vraag 1 Naar welke tekstkenmerken kijken de tools?
Het tweede tekstkenmerk waar alle tools naar kijken is de begrijpelijkheid van de zin. Zes van de zeven tools markeren de zinnen waar iets mee aan de hand is. ALT geeft alleen een score en geen diagnose. Mijn voorbeeldtekst bevat 16 zinnen. Zijn de zes overige tools het eens over de vraag welke van die zestien zinnen moeilijk zijn? In Tabel 2 zie je het antwoord. Daarbij moet ik opmerken dat de Schrijfassistent alleen analyseert op passieve zinnen en verder niks meldt over zinscomplexiteit. Er zaten geen passieve zinnen in mijn tekst, dus blijft de Schrijfassistent verder buiten beschouwing. Blijven er vijf tools over die het opnieuw nogal oneens zijn met elkaar. Vier van de tien zinnen hebben geen probleem volgens deze tools. Maar van de overige zinnen is er geen enkele waar ze het allemaal over eens zijn. Er is slechts één zin die van vier tools gezamenlijk een waarschuwing krijgen. Dat is zin 11:
Er zijn veel redenen om te twijfelen of hun oordeel zal overeenkomen met het oordeel van patiënten die de bijsluiter lezen
Zin 11 is niet de langste zin, de drie zinnen erna zijn langer. Hij bevat drie bijzinnen, maar dat doet de volgende zin ook. Toch is dat vermoedelijk de reden voor de markering door de vier tools. En om dezelfde reden zal LiNT zin 16 ook markeren, maar waarom zin 12 dan niet? De andere drie tools markeren die zin wel als complex.
Wizenote markeert drie andere zinnen als het moeilijkst (onderstreept in de tabel). Texamen en Wizenote zijn het gulst met hun markeringen van moeilijke zinnen. Hoe guller de tool is met het markeren van zinnen, des te groter is de kans op false alarms: eenvoudige zinnen die ten onrechte gemarkeerd worden als complex en zo de schrijver ten onrechte tot revisie stimuleren. Zeven van de zestien zinnen worden ten onrechte op die manier gemarkeerd. Wat zou er toch moeilijk kunnen zijn aan de volgende zinnen?
Stel, een farmaceutisch bedrijf wil weten of een nieuwe bijsluiter begrijpelijk is.
Er is een klein potje met geld om er lezers bij te betrekken.
Hoe pakken we dat aan?
Op het eerste gezicht misschien een simpele vraag.
We nodigen een groepje lezers uit en vragen of ze de tekst begrijpelijk vinden.
Maar kunnen die proefpersonen eigenlijk wel goed beoordelen of de tekst begrijpelijk is?
Ik spreek in het vervolg trouwens telkens over een tekst, maar dat kan ook een website zijn, of een formulier, of een handleiding bij een Ikea-meubel.
Het lijkt erop dat elke bijzin als een rode vlag werkt in de tools. En ook een opsomming, zoals in de laatste zin hierboven, wordt vermoedelijk direct als complex gemarkeerd, ook al gaat het hier om een eenvoudige nevenschikking. De kampioen is de derde zin, die Wizenote moeilijk vindt. Wat zou het algoritme zijn achter die kwalificatie voor Hoe pakken we dat aan?
Klinkende Taal ziet pas twee moeilijke zinnen als ik de tool op B1 laat werken, op niveau B2 zijn er wel lange, maar geen moeilijke zinnen. Dat lijkt overigens een zinnig onderscheid, wat Texamen en Textmetrics ook maken, want niet elke lange zin is ook moeilijk. Over de vraag wat een lange zin is, zijn Texamen en Klinkende Taal het grotendeels eens met een score van zes versus vier zinnen. Bij Textmetrics wordt het onderscheid wel gemaakt, maar in de output kan ik het verschil niet goed zien: de tool zegt dat ik twee ingewikkelde zinnen eenvoudiger moet maken, maar markeert er vijf.
zin | Lengte | Bijzinnen | KT | LiNT | Texamen | Txtmetr | Wize | |
1 | Stel, een farmaceutisch bedrijf wil weten of een nieuwe bijsluiter begrijpelijk is | 12 | 1 | X | ||||
2 | Er is een klein potje met geld om er lezers bij te betrekken | 13 | 1 | X | ||||
3 | Die kunnen we dus inzetten voor een test | 8 | 0 | |||||
4 | We hebben twee weken de tijd gekregen | 7 | 0 | |||||
5 | Hoe pakken we dat aan? | 5 | 0 | X | ||||
6 | Op het eerste gezicht misschien een simpele vraag | 8 | 0 | X | ||||
7 | We nodigen een groepje lezers uit en vragen of ze de tekst begrijpelijk vinden | 14 | 1 | X | ||||
8 | Maar kunnen die proefpersonen eigenlijk wel goed beoordelen of de tekst begrijpelijk is? | 13 | 1 | X | ||||
9 | Hoe komen zij tot een oordeel? | 6 | 0 | |||||
10 | Waar letten ze dan precies op? | 6 | 0 | |||||
11 | Er zijn veel redenen om te twijfelen of hun oordeel zal overeenkomen met het oordeel van patiënten die de bijsluiter lezen | 21 | 3 | X | X | X | X | |
12 | Als je dit hoofdstuk gelezen hebt, zul je begrijpen dat er een ruime hoeveelheid methoden beschikbaar is om antwoord te geven op de vraag over de begrijpelijkheid | 27 | 3 | X | X | X | ||
13 | En vermoedelijk weet je dan ook wanneer je welke methode het best kunt gebruiken, want er bestaat niet één heilige methode die altijd de beste is | 26 | 2 | X | X | X | ||
14 | Ik spreek in het vervolg trouwens telkens over een tekst, maar dat kan ook een website zijn, of een formulier, of een handleiding bij een Ikea-meubel | 26 | 0 | X | X | |||
15 | Er is geen goede overkoepelende term voor al die vormen van communicatie waar tekst en beeld samenwerken in allerlei media | 20 | 1 | X | X | |||
16 | Wie wil weten welke methode geschikt is om een antwoord te krijgen op de vraag of een tekst begrijpelijk is, moet eerst twee andere vragen beantwoorden | 26 | 3 | X | X | X | X |
Conclusie
Mijn conclusie over de analyse van moeilijke zinnen is niet positief. Net als bij de moeilijke woorden is ook hier een groot gebrek aan overeenstemming tussen de tools, hoewel vier zinnen door alle tools als onproblematisch beschouwd worden. Van de twaalf “moeilijke” zinnen is er niet een waar de tools het over eens zijn. Er is één zin die door vier tools als moeilijk wordt gekwalificeerd. En er zijn te veel false alarms. Kortom, de uitkomst van de analyse lijkt opnieuw nogal willekeurig.
Vraag 1. Naar welke tekstkenmerken kijken de tools?
Zijn er nog andere aspecten van begrijpelijkheid waar de tools naar kijken? Jazeker.
Klinkende Taal en Textmetrics kijken ook naar passieve zinnen en naar lange alinea’s.
Daarnaast biedt Klinkende Taal een extra pakket waarmee je ook kunt kijken naar naamwoordstijl, tangconstructies, dubbele ontkenningen, opsommingen en hulpwerkwoordstapeling.
De Schrijfassistent kijkt behalve naar passieve zinnen ook naar herhaling van woorden, naar herhaling van woorden, naar naamwoordstijl en de toon van de tekst.
Texamen kijkt ook naar passieve zinnen en naamwoordstijl.
Textmetrics controleert de tekst ook op spelling, grammatica, maar biedt daarnaast enkele vernieuwende opties: de tekst wordt ook beoordeeld op geloofwaardigheid, sentiment en op gender.
Het eerste kenmerk blijkt in de praktijk neer te komen op een analyse van de bijvoeglijke naamwoorden. Blijkbaar heeft mijn tekst een goed gebruik van dit soort woorden. Mij wordt niet duidelijk waarop deze claim is gebaseerd. Ik ken geen onderzoek waaruit zou blijken dat een bepaalde hoeveelheid bijvoeglijke naamwoorden bijdraagt aan de geloofwaardigheid. De voorbeeldtekst is ook goed qua gender-neutraliteit. Een factor die belangrijk wordt geacht bij advertenties voor vacatures. Qua sentiment is de tekst positief (de andere opties zijn negatief en neutraal). En tenslotte zou ik minimaal een bulletpoint moeten gebruiken, hoewel ik met witregels blijkbaar goed ben omgegaan. Dit lijkt een advies dat vooral aan de orde is bij vacatureteksten, waar Textmetrics zich onder andere op richt. Niet elk genre is geschikt voor bulletpoints.
LiNT levert ook nog beoordelingen op het persoonlijke karakter van de tekst (human interest), waardoor de tekst meestal makkelijker wordt, bijvoeglijke bepalingen die de tekst meestal moeilijker maken, opsommingen binnen de zin (ook moeilijk) en tenslotte herhaling van woorden uit de voorgaande 50 woorden als indicatie van samenhang, waardoor de tekst begrijpelijker wordt. Verder geeft LiNT naast de gemiddelde zinslengte ook nog een score voor de gemiddelde lengte van deelzinnen.
Wizenote kijkt ook naar voornaamwoorden, een categorie die zo ruim is dat ik niet goed snap welke bijdrage die levert aan de beoordeling van de leesbaarheid of begrijpelijkheid.
Klink Ta | LiNT | Texamen | Textmetr | Schrijfass | Wizenote | |
Passiva | X | X | X | X | x | |
Lange alinea | X | X | ||||
Naamwoord-stijl | X | X | X | |||
Tangconstructie | X | |||||
Dubb ontkenning | X | |||||
Opsommingen | X | X | ||||
Hulpww. | X | |||||
Woordherhaling | X | X | ||||
Toon | X | |||||
Spelling | X | |||||
Grammatica | X | |||||
Bijvoeglijke bep. | X | |||||
Persoonlijkheid | X |
Vraag 2 Levert de tool een score op voor begrijpelijkheid en op wat betekent die score?
ALT, Klinkende Taal en Texamen leveren een score van de tekst in termen van het Europees referentiekader voor de talen, die oploopt van A1 tot C2. Wizenote biedt die optie ook aan, maar geeft je ook de mogelijkheid van een score van de eigen Wizenoze leesbaarheidsindex of een leeftijdsgroep waarvoor de tekst geschikt is. Textmetrics komt ook met een score van A1 tot C2, maar classificeert die in termen van leeservaring: beginnende lezers op A1 en niveau C2 voor de meest ervaren lezers. Deze tools zijn het erover eens dat mijn voorbeeldtekst geschreven is op niveau B2, hoewel ALT zegt B1/B2. Dat is bij Wizenote het een na hoogste leesniveau en komt overeen met een leeftijdsgroep van 13-15-jarigen. De Schrijfassistent biedt geen score.
De output van LiNT ziet er volkomen anders uit dan bij de andere tools. LiNT werkt niet met de schaal van het Europees Referentiekader, maar met een schaal van vier niveaus, gebaseerd op een score die gaat van 1 tot 100 (100 is het moeilijkst).
- Niveau 1: een score lager dan 34
- Niveau 2: een score tussen 34 en 53
- Niveau 3: een score tussen 53 en 61
- Niveau 4: een score boven de 61
Mijn voorbeeldtekst krijgt de score 48, dat is dus niveau 2. Daarnaast biedt LiNT een unieke optie: hij plaatst de tekst op een positie in het Nederlandse genrelandschap. Dat wil zeggen dat de tekst vergeleken wordt met de scores van een grote hoeveelheid Nederlandse teksten in diverse genres op twee kenmerken: woordfrequentie en zinscomplexiteit, zoals de figuur hieronder laat zien. Uit dit plaatje blijkt dat mijn ingevoerde tekst qua moeilijkheid het meest lijkt op Nederlandse romans (mijn voorbeeldtekst is Tekst 1 in Figuur 3). De zinnen in mijn tekst (zie de x-as) zijn iets makkelijker dan VMBO-schoolboeken en reisblogs, maar er staan meer moeilijke woorden in mijn tekst dan in die schoolboeken en blogs. De moeilijkste genres zijn de onderzoeksartikelen uit Nederlandse wetenschappelijke tijdschriften.
Vijf van de zeven tools geven dus een score die verwijst naar het Europees Referentiekader voor talen (ERK). Wat betekent zo’n score voor de beoordeling van teksten? De makers van ALT zeggen in alle bescheidenheid dat de tool slechts een indicatie geeft van de technische leesbaarheid. Het resultaat kan voor de schrijver een waarschuwing zijn dat er verbetering nodig is. Toch gebruikt men de scores van het ERK als referentiekader, waarmee de suggestie wordt gewekt dat het om begrijpelijkheid gaat. De vraag is dan welke criteria een tool gebruikt om die scores aan begrijpelijkheid van teksten te koppelen.
Als criterium voor de eerder genoemde begrijpelijkheidskilo werkt ALT met de oordelen van experts, die werkzaam zijn bij de Stichting Eenvoudig Lezen, over een verzameling teksten. Bij Textmetrics vind ik geen toelichting op de achtergrond van de score. Bij Klinkende Taal en Texamen zijn de scores ook gebaseerd op oordelen van experts over een verzameling teksten. Op beide aspecten van deze werkwijze is in de wetenschappelijke literatuur regelmatig kritiek geuit. Zo zouden de oordelen van de experts allerminst betrouwbaar zijn als indicatie van begrijpelijkheid. En daarnaast is de score in termen van het Europese referentiekader bekritiseerd, omdat dit kader ontwikkeld is met een heel andere functie. Dat erkent een van de aanbieders van Klinkende Taal ook ruiterlijk in een recent interview in Onze Taal:
Sindsdien zie je dat de taalniveaus steeds vaker worden ingezet om iets te zeggen over welk taalniveau een tékst heeft”, zegt Jacobs. “Terwijl het niet gaat om het niveau van de tekst, maar om het taalniveau van de lezer ten opzichte van zijn moedertaal. Het is jammer dat die nuance verloren is gegaan. Aan de andere kant heeft het wel gezorgd voor meer aandacht voor duidelijke teksten.
J. Marcus (2021). Duidelijke taal. Wat hebben we er precies aan? In: Onze Taal 90 (2/3), p. 5.
De makers van de tools claimen dat die scores van B1 tot C2 inmiddels volkomen ingeburgerd zijn en dat zij die dus prima kunnen gebruiken. Een derde punt van kritiek betreft de claim van Texamen dat een tekst met de score B1 door 80-95 prochttps://www.dbnl.org/tekst/_taa014201301_01/_taa014201301_01_0039.phpent van de lezers begrepen zal worden. Die uitspraak berust volgens Carel Jansen, hoogleraar Taalbeheersing aan de Rijksuniversiteit Groningen, op onnavolgbaar gegoochel met cijfers (zie 1 en 2). Ik besteed er elders in dit handboek ook aandacht aan.
Bij LiNT is de indeling in vier niveaus gebaseerd op onderzoek naar de begrijpelijkheid van 120 teksten, die zijn getest onder 2700 leerlingen in het voortgezet onderwijs. De teksten werden eveneens met T-Scan geanalyseerd over talloze tekstkenmerken. Er waren vier tekstkenmerken die het best de prestaties van de leerlingen voorspelden:
- woordfrequentie
- het aantal inhoudswoorden per deelzin
- de proportie concrete zelfstandige naamwoorden
- de hoeveelheid tangconstructies.
Van die vier kenmerken zijn er twee die in de bovenstaande figuur gebruikt worden voor de genrevergelijking. Zo kan de gebruiker van LiNT dus zien of de ingevoerde tekst hoort bij de eenvoudige of bij de moeilijke genres. Dat biedt een aardige indicatie van de begrijpelijkheid. Als ik met mijn tekst in de buurt zit van de vmbo-schoolboeken, mag ik erop vertrouwen dat die voor de meeste Nederlanders redelijk begrijpelijk zal zijn. Ik zou nog eens kunnen kijken of ik sommige moeilijke woorden kan vervangen door eenvoudiger woorden.
Mijn tekst had bij LiNT een score van niveau 2 (48 op de schaal van 1-100). Wat zegt dat over de begrijpelijkheid? In een toelichting op de tool presenteren de makers onderstaand grafiekje met een antwoord op die vraag. We zien er de gemiddelde goed-score op de tests die leerlingen behaalden met de teksten op de vier niveaus. Mijn tekst had dus een score van 70 voor VWO-scholieren en 38 voor VMBO-bb scholieren. De onderzoekers claimen dat een score van minimaal 50 nodig is voor de verwachting dat je tekst begrijpelijk is voor een bepaalde groep. Dan zou mijn tekst begrijpelijk zijn vanaf het hoogste VMBO-niveau.
Een groot bezwaar bij alle tools is dat zij geen aandacht hebben voor de opbouw van de tekst. Wanneer ik de zinnen van mijn voorbeeldtekst in een willekeurige volgorde aanbied, zoals in het plaatje hieronder, dan krijg ik precies dezelfde score. Het is volgens de tools nog steeds een heel begrijpelijke tekst. Volgens LiNT, de enige tool die iets met samenhang doet (op basis van een berekening van woordherhaling), is de tekst nu zelfs begrijpelijker geworden. Kortom, schrijvers die een rommeltje maken van hun tekst, zouden moeten snappen dat de score voor hun tekst uitsluitend over woorden en zinnen gaat, terwijl de opbouw toch echt een fundamenteel aspect is van begrijpelijkheid. Probeer maar eens de volgende tekst begrijpend te lezen.
Er is geen goede overkoepelende term voor al die vormen van communicatie waar tekst en beeld samenwerken in allerlei media. En vermoedelijk weet je dan ook wanneer je welke methode het best kunt gebruiken, want er bestaat niet één heilige methode die altijd de beste is. Op het eerste gezicht misschien een simpele vraag. Als je dit hoofdstuk gelezen hebt, zul je begrijpen dat er een ruime hoeveelheid methoden beschikbaar is om antwoord te geven op de vraag over de begrijpelijkheid. Maar kunnen die proefpersonen eigenlijk wel goed beoordelen of de tekst begrijpelijk is? Hoe komen zij tot een oordeel? Stel, een farmaceutisch bedrijf wil weten of een nieuwe bijsluiter begrijpelijk is. Ik spreek in het vervolg trouwens telkens over een tekst, maar dat kan ook een website zijn, of een formulier, of een handleiding bij een Ikea-meubel. Wie wil weten welke methode geschikt is om een antwoord te krijgen op de vraag of een tekst begrijpelijk is, moet eerst twee andere vragen beantwoorden. En vermoedelijk weet je dan ook wanneer je welke methode het best kunt gebruiken, want er bestaat niet één heilige methode die altijd de beste is. Die kunnen we dus inzetten voor een test. Er is een klein potje met geld om er lezers bij te betrekken. We nodigen een groepje lezers uit en vragen of ze de tekst begrijpelijk vinden. Hoe pakken we dat aan? Waar letten ze dan precies op? We hebben twee weken de tijd gekregen. Er zijn veel redenen om te twijfelen of hun oordeel zal overeenkomen met het oordeel van patiënten die de bijsluiter lezen.
Figuur 5. De voorbeeldtekst in omgekeerde volgorde leidt tot dezelfde begrijpelijkheidsscore
Conclusie: wat betekenen de scores van de tools?
Alle tools, behalve de Schrijfassistent, werken met een score op een schaal van meestal vier of vijf posities. De betekenis van die schaal is misschien niet de grootste zorg van veel gebruikers van de tools, als zij maar een indicatie krijgen van de globale moeilijkheidsgraad van de tekst. Maar de claim dat de tekst met een score X door Y percent van de lezers begrepen zal worden is onverantwoord.
Wat zou wel een redelijke claim zijn van deze tools? Mij lijkt de claim zinvol dat de tekst met een bepaald gemak of ongemak gelezen zal worden door lezers met een bepaald opleidingsniveau. Wizenote biedt de gebruiker de optie om te kiezen voor een leeftijdsgroep. Dat lijkt me discutabel, omdat die groepen absoluut niet homogeen zijn qua leesvaardigheid. De classificatie van Textmetrics op basis van leeservaring lijkt zinvol, want er is een directe relatie tussen de leeservaring en tekstcomplexiteit. Maar onduidelijk is hoe zij een score als B2 verbinden met een bepaald type leeservaring. Bij LiNT is de claim dat de tekst met een bepaalde score geschikt is voor een bepaald opleidingsniveau wel betekenisvol, omdat die gebaseerd is op wetenschappelijk onderzoek met een grote hoeveelheid teksten en scholen. Ook de claim dat de tekst in het genrelandschap van Nederlandse teksten een bepaalde positie inneemt, en dus bijvoorbeeld lijkt op reisblogs of verkiezingsprogramma’s, lijkt om dezelfde reden zinvol.
Vraag 3 Is er aandacht voor verschillende groepen lezers?
Hierboven zagen we vier groepen passeren: leeftijdsgroepen (Wizenote), schoolniveaus (Wizenote en LiNT), groepen met verschillende leeservaring (Textmetrics), en de groepen die in het Europees Referentiekader worden onderscheiden (KT en Texamen). Hoewel bij die laatste twee er een transfer plaatsvindt van taalvaardigheidsniveau van mensen in een vreemde taal naar taalniveau van een tekst.
Daarmee komt een vierde manier van groeperen in zicht: het onderscheid tussen lezers in de moedertaal en lezers in een voor hen vreemde taal. Dat onderscheid maakt geen van de tools, maar de Schrijfassistent heeft een aparte tool ontwikkeld voor NT2. Interessant om te verkennen, maar ik laat hem hier buiten beschouwing. Geen van de tools biedt de optie om de tekst te analyseren op geschiktheid voor anderstalige lezers.
Je kunt je tekst natuurlijk nog met talloze andere criteria richten op specifieke groepen lezers: lezers met veel en weinig voorkennis over het onderwerp, voor- en tegenstanders van je standpunt, online en print-lezers, oudere en jongere lezers. Maar geen van de tools biedt een dergelijke optie. Alleen Textmetrics biedt nog een laatste optie aan: gender. Elke ingevoerde tekst wordt automatisch geanalyseerd op de beoogde sekse van de doelgroep. Als ik instel dat mijn voorbeeldtekst voor vrouwelijke lezers is bedoeld, krijg ik de volgende feedback.
Wanneer ik de tekst laat markeren op vrouwelijke woorden, krijg ik het volgende resultaat.
De tool classificeert woorden als geschikt, trouwens, telkens, heilige, ruime, precies en nieuwe als vrouwelijke woorden. Om de tekst meer mannelijk te maken zou ik ze moeten verwijderen of 22 mannelijke woorden moeten toevoegen. Een nadere toelichting ontbreekt helaas. Maar wanneer ik vraag hoe ik het vrouwelijke woord precies dan zou moeten vervangen, krijg ik de volgende suggestie.
Blijkbaar is correct het mannelijke alternatief. Als ik die suggestie opvolg, luidt de zin: Waar letten ze dan correct op? Uit andere aangeklikte woorden blijkt dat de tool soms alternatieven voorstelt van een andere grammaticale categorie. Vier “mannelijke” alternatieven voor een bijvoeglijk naamwoord goed zijn een zelfstandig naamwoord: zaak, bezitting, object, landgoed. Textmetrics zegt in een persoonlijk commentaar:
Dit is een classifier die, overall gezien, is gebaseerd op significante afwijkingen in schrijfstijlen tussen mannelijke en vrouwelijke auteurs en de perceptie van mannelijke of vrouwelijke lezers. Er is ook divers wetenschappelijk onderzoek naar verschillen tussen mannelijke en vrouwelijke lezers en schrijfstijlen. Hiermee kun je dus aangeven welke woorden een meer mannelijke dan wel vrouwelijke lading hebben. De “regel” in Textmetrics kijkt vervolgens naar de verhouding tussen deze woorden en geeft daarop suggesties.
Deze redenering is te simpel. Wanneer op basis van een grote hoeveelheid teksten van mannen en vrouwen blijkt dat de woorden uit verzameling A meer bij teksten van vrouwen voorkomt dan die van mannen, moet de gebruiker van de tool niet denken dat het toevoegen van zulke woorden één specifieke tekst vrouwelijker maakt. Als uit een analyse blijkt dat vrouwen meer drop eten dan mannen, wordt een man niet vrouwelijker door drop te gaan eten.
Conclusie
De tools bieden geen serieuze hulp voor de schrijver die zich wil richten op specifieke doelgroepen, behalve wat betreft die ene factor die beslissend is in al het leesonderzoek: leeservaring. En omdat de meeste oudere mensen nu eenmaal meer leeservaring hebben dan jongere (en een ruimere woordenschat) en omdat leerlingen in de hogere klassen van het VWO nu eenmaal meer oefening hebben met teksten dan VMBO-leerlingen, helpen de tools dus wel bij het maken van een onderscheid tussen hoger en lager opgeleiden, tussen oudere en jongere leerlingen, en tussen oudere en jongere volwassenen van hetzelfde opleidingsniveau.
Vraag 4 Hoe transparant is de tool over de techniek die erachter zit?
De vraag naar transparantie is om diverse redenen complex. In de eerste plaats is de gebruikte taaltechnologie inherent complex en dus moeilijk uit te leggen aan gebruikers. Sommige tools werken met automatische ontleedprogramma’s, wie daar iets van wil begrijpen moet dus ook taalkundige kennis paraat hebben. En dan opereren sommige aanbieders op een commerciële markt, waardoor ze hun gouden formule liever niet met concurrenten delen.
LiNT laat precies zien welke vier tekstkenmerken gebruikt worden voor de berekening van de score. Ook zien we bij deze tool hoe de validatie ervan is uitgevoerd: door een grote hoeveelheid teksten bij leerlingen van verschillende niveaus en verschillende opleidingen te testen (met een cloze-toets). Alle teksten zijn eerst via T-scan geanalyseerd op honderden tekstkenmerken. Vervolgens is via statistische analyse nagegaan welke tekstkenmerken het best die scores van de leerlingen voorspellen. Die transparantie van deze tool is goed te begrijpen: LiNT is ontstaan in een academische context en wetenschappers worden nu eenmaal geacht alle keuzes zo helder mogelijk toe te lichten.
Ook ALT schept helderheid over de manier van rekenen in een publicatie die online is te raadplegen. Hier zien we dat elke tekst voor elke zin op zes kenmerken een score van 1 tot 10 krijgt en dat vervolgens met een algoritme berekend wordt wat de score is, gebaseerd op de oordelen over vijftig teksten van een team proeflezers van Eenvoudig Communiceren. Van de overige tools die een score leveren is de aard van de berekening niet openbaar gemaakt.
Een ander punt van transparantie betreft de claim dat een tekst met een bepaalde score voor een specifiek percentage lezers begrijpelijk zal zijn. Zo’n claim formuleren de makers van Texamen: een tekst met de score B1 wordt door 95% van de lezers begrepen, zie de afbeelding hieronder die afkomstig is van de website van Bureau Taal.
Over deze claim is veel gedebatteerd in de vakliteratuur. Carel Jansen voerde in 2006 een fel debat met Wessel Visser, de directeur van Bureau Taal, over deze claim en kwalificeerde die als onnavolgbaar gegoochel met cijfers.
Klinkende Taal zegt in een persoonlijke toelichting dat de ingevoerde teksten grammaticaal geanalyseerd worden (POS-tagging en dependency parsing) en met andere taalmodules op woordniveau, zinsniveau en paragraafniveau beoordeeld worden. Met de module Helder Schrijven kan de gebruiker op meer tekstkenmerken zijn werk analyseren. Men houdt de woordenlijsten actief bij, o.a. op basis van input van gebruikers. De eindscore is gebaseerd op oordelen van taalcoaches op een verzameling proefdocumenten.
Textmetrics zegt in een persoonlijke toelichting dat zij een inschatting maken op basis van de onderliggende “regels”: gebruik van moeilijke woorden, lange en complexe zinnen (bijzinnen en tangconstructies), passief taalgebruik en de lengte van de tekst.
Conclusie
Twee tools geven een heldere verantwoording op de vraag met welke tekstkenmerken, met wat voor soort berekening, en op basis van welke data een score tot stand komt (ALT en LiNT). Klinkende Taal en Textmetrics bieden geen openbare verantwoording, maar in een persoonlijke toelichting geven zij een beknopte beschrijving van hun werkwijze. Van Wizenote en Texamen ontbreekt zo’n toelichting.
Vraag 5 Hoe flexibel is de tool voor aanpassingen voor eigen gebruik?
Bij ALT is er geen enkele flexibiliteit in het gebruik van de tool. Bij alle overige tools is er een optie om in het resultaat van de analyse te klikken op een specifiek tekstkenmerk en dan zichtbaar te maken waar in je tekst iets aan de hand is op dat kenmerk, zoals moeilijke woorden of ingewikkelde zinnen.
Bij Klinkende Taal, LiNT, Texamen, Textmetrics en Wizenote heb je de mogelijkheid om een lijst te maken met woorden die je regelmatig gebruikt en die niet herkend worden door de tool. Op die manier voorkom je dat de tool telkens die woorden markeert als moeilijk.
Klinkende Taal levert bovendien een Plugin voor Word en Outlook (ook voor de Mac); daarnaast is Klinkende Taal geïntegreerd in verschillende content-management-systemen en zijn er browser plugins beschikbaar. Textmetrics levert diverse plugins, ook om websites te analyseren, maar ook om te werken in Word, Outlook, Google Docs, Chrome en andere systemen, vooral in het domein van vacatures. Bovendien biedt de tool ondersteuning voor twaalf talen. Bij Wizenote kan je de tool in Chrome als plug-in installeren en daar een hele website door de tool laten analyseren. Tenslotte biedt Wizenote ook de optie om teksten in het Engels te analyseren.
Vraag 6. Biedt de tool een diagnose van onderdelen van de tekst op specifieke kenmerken?
Alle tools, behalve ALT, tonen de ingevoerde tekst en laten zien waar de problemen zitten per tekstkenmerk. Zo kun je zien wat volgens de tool moeilijke woorden zijn en welke zinnen te lang of te ingewikkeld zijn.
Vraag 7. Biedt de tool suggesties voor verbetering?
Vijf tools geven suggesties om moeilijke woorden te vervangen: KT, Texamen, Textmetrics, Wizenote en de Schrijfassistent. Bij Texamen moet je daarvoor wel de tool verlaten en naar een andere (gratis) applicatie gaan.
Er gaat vaak iets mis bij de suggesties voor eenvoudige woorden. De Schrijfassistent kwalificeert bijvoorbeeld de woorden wanneer, welke, telkens als moeilijk. De alternatieve suggesties laten zien dat de tool de zin verkeerd heeft geanalyseerd. Soms heeft het zin om welke te vervangen, bijvoorbeeld als het als betrekkelijk voornaamwoord wordt geïnterpreteerd. Schrijf dus niet de tools welke zo vreemd scoren, maar de tools die zo vreemd scoren. Maar in mijn voorbeeldzin stond: dan weet je welke methode geschikt is om… Het is onzinnig om welke daar als een probleem te markeren.
De alternatieven die de tools voor moeilijke woorden suggereren zijn erg interessant. Welke suggesties vinden we voor samenwerken en overeenkomen? Hieronder de suggesties van Wizenote voor overeenkomen en voor samenwerken.
In mijn voorbeeldtekst ging het om de zin: Er zijn veel redenen om te twijfelen of hun oordeel zal overeenkomen met het oordeel van patiënten. Dat is de eerste betekenis uit de figuur hierboven. Alle alternatieven vindt Wizenote zelf ook moeilijk. De woordwolk ernaast biedt suggesties voor samenwerken die evenmin erg verrijkend zijn.
De Schrijfassistent biedt ook concrete suggesties voor verbetering bij herhaling van woorden of zinsdelen, bij passieve zinnen, naamwoordstijl en bij de toon van de tekst. Wanneer ik het voorbeeldtekstje op die laatste mogelijkheid laat beoordelen, krijg ik het volgende te zien.
De tekst bevat blijkbaar enkele formele of moeilijke woorden en enkele zogenaamde lege woorden. Zulke woorden zouden zonder bezwaar geschrapt kunnen worden. Ik had vier van zulke woorden in dit korte tekstje. De Schrijfassistent zet mij dus aan tot wat zuiniger formuleren. Er zijn twee woorden die eenvoudiger kunnen: wanneer en welke. Als ik dit advies opvolg, luidt deze zin: En vermoedelijk weet je dan ook als je die methode het best kunt gebruiken. Beide adviezen berusten op een verkeerde analyse van de zin. Het advies voor de vervanging van wanneer lijkt voort te komen uit zinnen die een conditie bevatten. Als je verkouden bent, blijf je thuis is misschien beter dan Wanneer je verkouden bent. De vervanging van welke door die berust op formuleringen als de brief welke ik stuurde… Daar kun je inderdaad beter die ik stuurde van maken.
En dan zijn er dus ook nog taaltips die je bij de ingevoerde tekst kunt opvragen. Hieronder zie je wat ik te zien kreeg toen ik de tips opvroeg voor mijn voorbeeldtekst. Bij het woord gezicht verschijnt een scherm met allerlei semantische informatie, die irrelevant is voor mijn Op het eerste gezicht.
Maar misschien verschijnt er een zinvolle tip bij het volgende woord groepje. Zie de volgende figuur voor het resultaat.
Blijkbaar heeft de tool niet gezien dat het groepje in mijn voorbeeldzin niet het onderwerp van de zin is, waardoor het een advies is dat niet van toepassing is op mijn tekst. Onderaan het advies zien we een verwijzing naar de website www.taaladvies.net met meer informatie over de kwestie een aantal mensen was of waren…
Texamen heeft een gratis tool om moeilijke woorden te vervangen: www.zoekeenvoudigewoorden.nl. Als ik daar uitnodigen en overkoepelend invoer, krijg ik als resultaat de figuur hieronder.
Ook Texamen helpt mij dus niet veel verder. Opeens is uitnodigen toch een makkelijk woord. En voor overeenkomen en overkoepelend weet de tool geen alternatieven. Toch zijn de suggesties in de rechter figuur beslist zinvol.
Klinkende Taal en Textmetrics bieden (soms) ook suggesties, niet voor een woord als uitnodigen, hoewel dat bij de eerste als een moeilijk woord is gemarkeerd, maar wel voor overeenkomen. Zie de figuur hieronder.
Hier wint Klinkende Taal de eerste plaats voor alternatieven, omdat hetzelfde zijn een heel goede vervanger is voor overeenkomen in mijn voorbeeldtekst. Opmerkelijk is dat de beide tools het over geen enkel alternatief eens zijn. Voor de overige gemarkeerde woorden bieden beide tools overigens herhaaldelijk zinvolle alternatieven. De gebruiker moet dus goed in staat zijn om het kaf van het koren te scheiden.
Conclusie
Het is een mooi streven om de gebruiker van de tools alternatieven te bieden voor moeilijke woorden en complexe zinnen, maar veel van die suggesties slaan de plank mis.
Auteurs:
Leo Lentz
Leo Lentz is hoogleraar aan de Universiteit Utrecht op het terrein van taal en communicatie. Hij doet onderzoek naar de begrijpelijkheid van teksten en de gebruiksvriendelijkheid van digitale documenten. Dat zijn meestal alledaagse teksten, zoals bijsluiters bij medicijnen, kookrecepten of formulieren en websites; maar hij doet ook onderzoek naar minder alledaagse documenten die te maken hebben met financiën: hypotheekaktes, pensioendocumenten, aanmaningen en verzekeringen.