Frequentieonderzoek van het Nederlands

Publicatie datum: 1971-01-01
Collectie: 02
Volume: 02
Nummer: 1
Pagina’s: 116-122

Documenten

bleek te zij n en niet ee n lou ter individu el e affaire het l aatste zou je verwachten toch voltrekt het zelf worden zich in menselijke relatie mijn ervar i ng i s nog maar hee l pril de reden dat ik er nu al in dit uiterst prille stadium mee voor de dag kom is dat iedereen er naar hartelust tegenaan kan schoppen ik van mijn kant zal heel erg graag terugschoppen niet alleen op de basis van wat ik hier verteld heb maar op de basis van de gehele ervaring met de kleine chomskyaantjes heemstede 25 september 1 97 1 frequentieonderzoek van het nederlands a j vervoorn bij het onderwijs in het nederlands is de laatste paar jaar de vraag wat er nu eigenlijk onderwezen moet worden sterk op de voorgrond gekomen de bunde ling van leraren op alle niveaus in de von heeft daartoe in sterke mate bij gedragen het is een van de weinige maatschappelijke gebeurtenissen geweest waarbij confrontatie niet in een conflict maar in constructief handelen resul teert het is overigens voor mij nog een vraag of het vak taal de speciale positie van het moedertaalonderwijs toch niet beter weergeeft dan het vak nederlands de von zou een vom moeten worden vereniging voor het on derwijs in de moedertaal maar dit terzijde een van de hoofddoelen van het moedertaalonderwijs zal uitbreiding van de taalschat zijn het is intussen ruim voldoende aangetoond welke ernorme maatschappelijke consequenties een beperkte taalbeheersing en als belangrijk onderdeel daarvan een beperkte woordenschat voor een leerling heeft beschik king over ee n ruime voorraad woorden en zinsconstructies is dus een ideaal einddoel voor elke vorm van moedertaalonderwijs de vraag is dan hoe kan dat ideaal zo systematisch en dus zo efficient mogelijk bereikt worden inzicht in wat gewoon en wat ongewoon is in de taal in de frequenties van woorden en constructies is daarvoor een eerste vereiste het frequentieonder zoek i s van gr o te be t ekenis voor de didactiek van het taalo n derwi j s daar het een wetenschappelijke basis verschaft voor de keuze van de woorden die men de leerlingen het eerst moet bijbrengen merkt staal in zijn interessante maar weinig gebruikte boek op lit 10 pg 16 oude frequentieonderzoekinge n de behoefte aan een goed inzicht in de frequentie van het nederlands en dit geldt min of meer ook voor andere talen ontstond niet vanuit het moedertaal onderwijs het eerste frequentieonderzoek van het nederlands werd in opdracht van het departement van onderwijs en eeredienst de tijden zijn wel veran derd in het toenmalige nederlands indie ondernomen het verslag van dat 11 6 onderzoek publiceerde j f h a de la court in 1937 te batavia onder de ti tel de meest voorkomende woorden en woordcombinaties in het nederlandsch daar deze woorden moesten dienen bij het onderwijs in het nederlands in indie werden eenvoudige teksten samen 1 000 000 woorden omvattend on derzocht namelijk kinderlectuur en eenvoudige lectuur voor volwassenen op grond hiervan werden twee lijsten samengesteld 1 een alfabetische lijst van 3296 woorden die in de teksten het frequentst waren en 2 een lijst van de zelfde woorden gerangschikt naar frequentie en verdeeld in zeven radii bij elke radius worden de woorden weer in alfabetische volgorde gegeven lit 10 pg 12 vooral in belgie heeft deze lijst op indirecte wijze veel diensten bewezen voor het onderwijs in het nederlands als tweede taal heeft g vannes er na melijk zijn veel gebruikte vocabulaire du neerlandais de base antwerpen 1949 op gebaseerd nog steeds is er voor het nederlands geen materiaal beschikbaar dat in om vang of in methode het werk van de la court overtreft noch formal proper ties of newspaper dutch door van berckel brandt corstius e a amsterdam 1965 noch w martins werk uit 1968 lit 7 geven daarvoor voldoende en vol doende gespreid materiaal toch zou liet om verschillende redenen plezierig zijn als voor de lijsten van de la court een beter materiaal in de plaats ge steld kan worden beter omdat niet alleen woorden geteld moeten worden maar ook syntactische ver schijnselen omdat niet alleen maar kinderboeken en eenvoudige lectuur bestreken moeten worden maar ook andere taalvelden beter omdat de taal van nederlandsch indie anno 1937 niet meer gelijk is aan het nederlands van nu in 1965 merkte prof dr engels op liet vlaams filologencongres over een te ondernemen frequentieonderzoek van liet nederlands op dit wetenschappelijk onderzoek wil eerst en vooral een didactisch resultaat opleveren zo noodzake lijk in belgie een deugdelijke lijst van frequente woorden en vooral van fre quente constructies voor het nederlands als tweede taal de frequentie van de constructies in de levende talen werd tot nu toe nooit onderzocht nochtans hebben didactische experimenten ons geleerd dat de loutere frequentie van notionele woorden geen oplossing biedt en alleen een degelijke graduering van frequente constructies doeltreffend kan werken in het vreemde talenonder wijs de bestaande frequentielijsten zijn trouwens van weinig nut meer vooral ten gevolge van he verouderde taalmateriaal dat werd onderzocht ook wordt in die lijsten het notionele woord alleen geteld het structurele woord wordt buiten beschouwing gelaten lit 5 pg 230 waarop moet frequentieonderzoek antwoord geven hoe zou men zich nu een frequentieonderzoek van het nederlands wensen welke vragen mogen er aan de uitkomsten gesteld worden en wat kan me n 11 7 met die uitkomsten doen welke methodische problemen doen er zich zo voor bij de opzet van e en fr equentieonderzoek naar taalverschijnselen dit zijn een p aar vragen waar ik iets n ade r op wil ingaa n een eerste voorwaarde di e aan een fr equentieonderzoek van het n eder l a n ds ge steld moet worden is dat het mat eriaal inderdaad het n eder l ands omvat dat wil dus ze ggen niet alleen maa r k i nderboeken plu s eenvoudige lect uur niet alleen maar krantentaal en romans een vo l ledig onderzoek zal zowel de ge schreven in de praktijk all ee n de gedrukte al s de gesproke n taal moeten omvatten elk van die twee hoofdgroepen zal weer zo g oed mogelijk i n taal velden verdeeld moete n zij n o m de ruimte va n het volle dige leven t e bevat ten deze taa lverkaveling zal boven dien voor de gedrukte en de gesproke n taal niet op dezelfde ma n ier kunne n gebe uren voor de laatste categorie spe len b v locale en leeftijdsversch illen een vee l gr otere rol terwijl bij gedruk te taal het gebruiksdoel de belan grijkste verschill en geeft zowel de foru mdiscussie al s het buurpraatje zowel de poezie als het handboek voor duivenliefhebbers vormen een deel va n het nederlands nu is het onmogel ijk om de vol l edige taalproductie van een bepaalde tijd b v 1 97 1 te tell en daarvoor zijn de hoeveelheden te groot van het werk van kaeding die in 1 898 voor het duits een frequentiewoordenboek uitgaf op basis van ongeveer e l f miljoen woorden wordt ge zegd dat hij de beschikking had over een k rij gsgevan genenkamp voor het telwerk kaeding wilde overi gen s e en nieuw stenografiesysteem opzetten men zal dus moeten probere n uit d e g ekozen taalvelden een representatieve steekproef te nemen de sample di ent zo gekoz e n te zij n dat hij de grotere verzameling representeert de sta tistische metho d e is j uist als de werkelijkhei d l ijkt op een veelvoudig vergro te proj ecti e van de samp l e zoals j j m bakker het in zijn dissertatie formu leert lit 2 pg 4 0 een moeilijkheid hierbij is dat men niet het totaal kent en dus ook n i e t kan zeggen hoe representatief b ijvoorbeeld een miljoen woo rden eig e nlijk zijn voor het nederlands als men dan zoals nu b ij het in gang zij n de proj ect fre qu enti eonderzoek van he t n ederl ands eenmaal zo n to taal aantal g efixeerd h e eft moet daarbinnen we er ee n verdere verdeling plaatsvinden p c uit de n boogaart die met een subsidie van zwo aan de technische hogeschool te ei n dhoven bezi g is met de uitvoering van het pro j ect heeft over de ma nier om tot een verantwoor de verkaveling te komen reeds een gedetaill eerd artike l geschreven lit 3 r eeds eerder had trou wens prof dr engel s een globale schets gegeven we kiezen ons materiaal zorgvul di g uit vo lg en s de pri ncipes van een goede sa mpl ing een vol doe n de aantal woo rden per taalsoort of taa l vel d daarna moeten al die taalvelden met el k aar k unne n verg elek en worden zodat de constanten of de overlappe nde ge deelte n voor a l le of sommige taalvelden gemeenschappe l ij k of voor een reeks vel d en afzonderlijk aan het licht kome n ook de voll edi g eigen woorden schat of typisch eige n str u cturen van de ve r sch illende taalvel den k omen dan te voorschij n om d e taalve l d en met elkaar t e ver g elijk e n m oeten we een even groot aantal woorde n per t aalveld en ee n 118 even groot aantal woorden per auteur onderzoeken deze groepen woorden worden blind getrokken uit het werk van een auteur er wordt natuurlijk re kening gehouden met semantische verschillen met samenstellingen en collo caties door het feit dat we het materiaal trekken uit verschillende taalvel den en de verhoudingen willen onderzoeken van die taalvelden onderling en afzonderlijk gaan we verder dan de vroegere onderzoekers van de frequentie die zich blijkbaar hebben tevreden gesteld met de misleidend hoge frequentie ongeveer 959 van het 3000 tal frequente woordeenheden die hun tellingen hadden opgebracht over de overblijvende 5 0 g die nochtans 297 000 woorden bevat als de taal wordt verondersteld nagenoeg 300 000 woorden te bezitten is er na de freqentietellingen tussen 1930 en 1940 nooit meer gesproken lat 4 pg 86 gebruik van onderzoeksresultate n met de laatste opmerking van prof engels komt de vraag naar voren vat kun je nu met uitkomsten van frequentieonderzoek doen wat mag ervan ver wacht worden dat hangt natuur l ij k af van de manier waarop iemand met taal bezig is inderdaad zal voor liet onderwijs van liet nederlands als tweede taal een lijst van de 1000 2000 of 3000 meest frequente ivoorden een uiter mate nuttig hulpmiddel zijn toch zijn bij de uitkomsten van een frequentieonderzoek niet de lijsten met de meest frequente woorden liet interessantst het onderwij s in het nederlands als vreemde taal zal altijd vel van betrekkelijk bescheiden omvang blijven ook al is de belangstelling ervoor groeiende maar er i s nog iets a n ders wanneer de uitkomsten van een aantal frequentieonderzoeken voor diverse ta len vergeleken worden blijken juist de meest frequente woorden voor een groot deel dezelfde te zijn m a w de vertaalde lijst van de 1000 meest fre quente engelse woorden vormt ook een zeer goede basis voor het onderwijs in liet nederlands voor de eerste 6000 woorden uit het en gel s frans duits en spaans is een dergelijke vergelijking al gemaakt door helen s eaton lat 11 voor liet moedertaalonderwijs lijkt me dit minder interessant ik zeg niet oninteressant en wel om twee redenen ten eerste omdat een groot deel van de zeer frequente woorden behoort tot de lidivoorden voornaamwoorden voorzetsels voegwoorden wann eer het gaat om taalarmoede denkt men toch niet in eerste instantie aan de het van op die ik etc staal lat 10 pg 18 wijst er ook al op dat juist in de kindertaal substantiva adjectiva en werkwoorden de belangrijkste woordgroe pen zijn ik zie geen reden om aan te nemen dat het nederlands af zal wij ken van frans duits of engels voor welke talen cijfers bekend zijn staal haalt daarbij cijfers aan uit een artikel van margaret m nice zij vond van ongeveer drie tot ongeveer zeven jaar een vrij vaste verhouding van de percentages der verschillende woordsoorten e n wel voor zelfstandige en bij voeglijke naamwoorden samen 50 a 60 q werkwoorden 2 0 a 2 4 men kan dus en dit ten tweede zeggen dat voor het moedertaalonderwijs d e 11 9 uitgebreidere tweede laag van de woordvoo r raad meer perspectief biedt dan de toplaag wanneer er inderdaad een goed overzicht van deze tweede laag beschikbaar is en dan verdee l d over de verschillende taalvelden omdat het t otaal onhandelbaar groot za l bl ij ken kan e r met meer syst eem aan u itbrei ding van de taalschat gewerkt worden men moet dan bij het onderwijs bij het verwerken van die woorden met een paar factoren rekening houden want de frequentie kan of mag niet het enige criterium zijn om de belangrijkste woorden van een taal te bepalen daarnaast spelen o m ook de range het aantal verschillende teksten waar men een woord vindt de disponibiliteit de bruikbaarheid van een woord binnen een semantis ch veld de val entie de mogelijkheid om andere woor den te vervangen e coverage en de bruikbaarheid voorkomen van een woord in samenstellingen en afleidingen een rol lit 7 pg 15 deze op merking maakte w martin met een zekere vooruitziende blik in zijn boek over de inhoud van krant en roman want toen hij een jaar later lit 9 de be sprekingen van zijn boek op een rij zette kon hij er direct naar verwijzen vanuit didactisch perspectief merkt hij trouwens op het lijkt ons van belang te weten welke frequentie die voegwoorden en die pronomina hebben om ze tevens rekening houdend met hun fonetische moeilijkheidsgraad te gepaster tijd te kunnen introduceren lit 8 pg 28 a nd e r e freq u en t ieonderzoeks t erre in e n met die fonetische moeilijkheidsgraad wordt terloops een enigszins andere frequentie binnengehaald natuurlijk is het ook vooral voor iet nederlands voor anderstaligen zeer plezierig een overzicht te hebben van de frequentie der fonemen in het nederlands welke klanken of klankcombinaties zijn erg gewoon en welke zeldzaam is scheveningen een fonetisch curiosum of zijn de scherpe ch en de ng belangrijk genoeg om als eerste op het lesprogram te verschijnen daarvoor hoeven we geen miljoen woorden te tellen de woord voorraad van b v het groene boekje de woordenlijst der nederlandse taal is daarvoor voldoende voor een overzicht van de nederlandse klanken doet het er niet toe of een bepaald woord heel veel gebruikt wordt het gaat er om in hoeveel verschillende woorden een klank voorkomt een goed ir zicht daarin geven de publicaties van j j m bakker lit 1 en 2 de uitkomsten van frequentieonderzoek kunnen ook nog voor een heel ander facet van het moedertaalonderwijs i nteressante gegevens opleveren nl voor de behandeling van teksten voor het literatuuronderwij s wanneer het woord frequentie gebruikt wordt gaan de gedachten min of meer automatisch naar grote aantallen uit we hebben a l gezien dat echter juist de iets minder grote frequenties interessant zijn voor het inzicht in en de waarde ring van een schrijver zijn zelfs de woorden die maar e e n keer gebruikt worden in teressant martin zegt over deze unica uit de woordvoorraad in de vorige para graaf noteerden wij dat de hapax l egomena een speciale p l aats in het vocabu larium van een auteur innemen meer nog dan de andere woorden lichten zij 120 ons in over het lexicon waaruit de auteur put inderdaad hoe groter de con centratie van de hapax in een deel van de tekst hoe ruimer het lexicon is dat de auteur in dat gedeelte ter beschikking heeft lit 9 pg 77 juist wanneer we spreken over taalschat en de uitbreiding ervan over de rijkdom van een auteur gaat het erom hoeveel verschillende woorden iemand gebruikt en niet hoe vaak h ij sommige woorden herhaalt nog veel boeiender zal inzicht in frequentieverschijnselen zijn die meer dan het woord omvatten zinslengte s syntactische structuren stilistische kenmerken een statistische interpretatie zal uiteraard beperkter zijn in toepassingsmoge lijkheden dan een literaire analyse vermits lang niet al l e kwalitatieve gege vens kwantitatief meetbaar zijn maar de dingen die zij kan aantonen zullen dan ook met onweerlegbare wetenschappelijke strengheid bewezen zijn ten minste indien de statistische spelregels in acht genomen werden statische beschrijving en interpretatie van taalkundige en literaire variabelen staat nog in de kinderschoenen uit de enkele aangehaalde voorbeelden mag wel blijken dat de toepassingsmogelijkheden talrijk zijn maar dat het gebied nog weinig ontgonnen is de moeilijkheden zijn niet zo groot voor de beschrij ving van taalkundige frequenties omdat men daar van meet af te doen heeft met kwantitatieve gegevens de eigenlijke moeilijkheden beginnen pas bij de interpretatie ervan vooral dan wanneer die gegevens betrekking hebben op kwalitatieve aspecten van de taal aldus twee citaten van a keuleers lit 6 pg 45 en 47 die mij de moeite waard leken het eerste om de beperking die aangelegd wordt het tweede om de perspectieven die geboden worden want in die perspectieven zit een raakvlak tussen taalkundig onderzoek aan de ene kant en taalonderwijs aan de andere kant het frequentieonderzoek van liet nederlands is in volle gang wellicht zullen binnen een jaar de eerste resultaten gepubliceerd zijn de interpretatie van de resultaten zal voor een belangrijk deel in het onderwijs van het nederlands moeten gebeuren taalkundige frequenties zullen gebruikt kunnen worden als bewijsmateriaal voor literaire interpretaties de waardering voor een auteur kan uit de subjec tieve waarderingssfeer gehaald worden en bewezen met geconstateerde feiten maar bovendien zal een veel vastere basis gegeven kunnen worden voor b v de beschrijving van een ontwikkelingsgang bij een auteur door nauwkeurige vergelijking zullen invloeden precies vastgelegd en aangetoond kunnen worden leerlingen zullen aan de hand van frequentieverschijnselen zelf kunnen ontdek ken waarin het taalgebruik van de ene auteur afwijkt van dat van de ander en zo ook een gefundeerde waardering kunnen uitspreken juist in het onder wijs zull en de uitkomsten van een uit de aard der zaak algemeen gericht frequentieonderzoek op hun toepasbaarheid getoetst kunnen worden aan indivi duele auteurs daar zullen ook de vragen uit voortvloeien naar de niet behan delde aspecten naar frequenties die over het hoofd gezien zijn the proof of the pudding is in the eating 121 gebruikte liter a tuur 1 b akker j j m frequency in usage and in the lexicon lingua 21 1968 pg 13 2 2 2 b akker j j m constant en variabe l dissertatie amsterdam 1 97 1 3 boogaam p c uit den sampling van tekstfragmenten uit nederlandse dagbladen itl review for applied linguistics 1 0 1970 pg 25 3 3 4 engels l k automering en mathematisatie uit een linguistisch oog punt wetenschappelijke tijdingen 2 1 967 pg 82 9 2 5 engels l k electrotechnische machines en taalonderzoek handelingen xxve vlaams filologencongres 1965 pg 229 23 7 6 keuleers a beschrijving en interpretatie van li nguistische frequenties itl 1 1968 pg 33 4 8 7 martin w de inhoud van krant en roman een frequentieonderzoek antwerpen 196 8 8 mar tin w kanttek eningen bij een frequentieonderzoek itl 4 1 969 pg 25 3 3 9 martin w an alyse van een vocabu l a rium m et behu lp van ee n com pu ter bru ssel 1 970 10 staal a j de methoden van psychologisch taalonderzoek enschede 1 946 1 1 eaton h s an fnglish french german spanish word frequency dictionary dover publications new york 196 1 lexicale en syntactische coderin g van het secretariaat van de werkgroep frequentieonderzoek ontvingen we nog wat gegevens over de verwerking van het materiaal het zal lexicaal en gedeeltelijk ook syntactisch gecodeerd worden dit laatste gedeeltelijk we gens het arbeidsintensieve karakter ervan de 1 e x i c a 1 e code bestaat uit drie cijfers achter het woord de eerste twee duiden de woordsoort aan en geven soms al enige syntactische informa tie het tweede cijfer is een nadere specificatie van het eerste het derde cijfer biedt morfologische categorieen een voorbeeld all e 1 pro n omin a b 2 ind efi n it a bijv 3 verbogen vogels substantief gewoon subst meervoud vli egen p ersoonsvorm i n t ra nsi tief pres plur de syntactische code is gecompliceerder men kan er o m mee aangeven de zinsdelen als onderwerp en gezegde onderdelen van het gezegde onderdelen van bijwoordelijke bepalingen enz en structuurverschijnselen als nevenschikking inbedding disjunctie e d het secretariaat van de werkgroep p a keizersgracht 569 571 amsterdam 122