Publicatie datum: 1993-01-01
Auteur: Bert Meuffels
Collectie: 11
Volume: 11
Nummer: 1
Pagina’s: 49-69
Documenten
bert meuffels cijfers en cijferschalen iedereen die heeft schoolgegaan is vertrouwd met de cijferschaal van 1 tot 10 ook buiten het onderwijs wordt deze cijferschaal trouwens veelvuldig gebruikt ten behoeve van allerlei soorten evaluatieve doeleinden amper is een baby ter wereld gekomen of hij of zij krijgt al een cijfer opgeplakt de zogenaamde apgar score genoemd naar de grondlegger van dit systeem de amerikaanse virginia apgar met dit cijfer wordt uitgedrukt in welke conditie de pasgeborene verkeert voor elk van vijf functies hartslag ademhaling spierspanning reactie op externe prikkels en kleur van de huid kan de baby maximaal 2 punten krijgen behaalt hij of zij minder dan 6 punten in totaal dan is extra oplettendheid geboden cijfers blijven de jonggeborene zijn verdere leven achtervolgen als zuigeling wordt zijn functioneren tijdens de visites op het consultatiebureau opnieuw in cijfers uitgedrukt en vervolgens volgt een lange schoolloopbaan waarbij het cijfers regent de school ontgroeid en opgenomen in een passende werkkring blijven cijfers in het leven van de volwassen geworden burger een rol spelen nu bij de zogenaamde functionerings en beoordelingsgesprekken die tegenwoordig in het bedrijfsleven en bij de overheid tot de standaardprocedures van het personeels beleid gerekend mogen worden eenmaal met pensioen is men nog niet van cijfers bevrijd is de levensfase aangebroken waarin opname in een bejaardenhuis aan de orde is dan kan men enkel worden toegelaten wanneer men eerst een voldoende aantal punten heeft behaald op een aantal verschillende controle punten ons hele leven lijkt doordrenkt te zijn van cijfers van de wieg tot het graf wordt elke nederlander geconfronteerd met de over bekende cijferschaal van 1 tot 10 waarom drukken wij een beoordeling in de vorm van een cijfer uit welke interpretaties kun je aan zo n cijfer toekennen en wat betekent het eigenlijk wanneer je een zes voor je opstel krijgt deze vragen betreffende de interpretatie van cijfers op een cijferschaal vormen de achtergrond van dit artikel waarin de betrouwbaarheid van opstelbeoordeling centraal staat betoogd wordt dat een interpretatie van cijfers in termen van het daaraan ten grondslag liggende type meetschaal nominaal ordinaal interval en ratio van doorslaggevende betekenis is voor de mate van betrouwbaarheid van opstelbeoordeling een nominale interpretatie van cijfers leidt tot een volstrekt ander beeld van de mate van betrouwbaarheid dan een ordinale of een interval in terpretatie voorts zal onder andere betoogd worden dat de in nederland gebruike lijke manier om de betrouwbaarheid te berekenen namelijk in termen van een correlatie grotendeels bepaald is door traditie opvoeding en onderwijs en dat deze berekeningswijze tot grove vertekening kan leiden in het beeld wat we van de betrouwbaarheid van opstelbeoordeling voorgeschoteld krijgen spiegel 11 1993 nr 1 49 69 de interpretatie van opstelcijfers en de betrouwbaarheid van die opstelcijfers staan in dit artikel weliswaar centraal maar dat betekent natuurlijk niet dat de bevindin gen en conclusies zich zouden beperken tot de sc irzj vaardigheid en de beoorde ling van juist die vaardigheid ze gelden onverkort voor de beoordeling van alle taalvaardigheden 1 het systeem van merckteekenen en van notae onze cijferschaal is van een historisch dateerbare oorsprong en kent een lange voorgeschiedenis tegen het eind van de 16de eeuw werd op de latijnse scholen in de vroege middeleeuwen gesticht door de kloosters of bisschop en later ook wel door de steden het systeem van merckteekenen ingevoerd de eerste rudimentaire vorm van een verbaal beoordelingssysteem om leerlingen tot gehoorzaamheid te dwingen en in het gareel te houden brachten de leermeesters vrijwel dagelijks de stelling een goed leermeester spare de roede niet in praktijk andere middelen stonden niet of nauwelijks tot hun beschikking om uitwassen te voorkomen en om een vermindering van die lijfstraffen te bewerk stelligen werden de merckteekenen ingevoerd aantekeningen over negatief en ongewenst gedrag van de leerling liepen die aantekeningen voor een bepaalde leerling de spuigaten uit dan volgde er straf op de latijnse school in zwolle hanteerde men in de 16de eeuw 1563 de volgende drie merckteekenen 1 van alle soorten baldadigheid en van ongeschikte manieren spreeckingen en daden 2 van gebreck en versuim aangaande boecken inckt schrijfpennen en andere schoolgeredschappen 3 van nederduitsch spreecken op de straten en in de school de merckteekenen werden in de loop van de 17de en 18de eeuw op de schola latina uitgewerkt tot het systeem van notae dat de basis zou gaan vormen voor de dagelijkse beoordeling van de leerlingen in dit systeem werd een onderscheid gemaakt tussen notae bonae goede aantekeningen en notae malae slechte aantekeningen de specifieke notae die konden worden toegekend en de wijze van verrekening varieerde van school tot school maar de opzet van het systeem was overal dezelfde in haarlem hanteerde men in 1802 drie verschillende soorten notae bonae 1 notae diligentiae aantekeningen van attentheid 2 notae industriae aantekeningen van ijver 3 notae modestiae aantekeningen van goed gedrag daar tegenover stonden drie verschillende notae malae 1 notae negligentiae aantekeningen van onattentheid 2 notae pigritiae aantekeningen van luiheid 3 notae petulantiae aantekeningen van brutaliteit aan de verschillende notae werd een verschillend gewicht toegekend een nota petulentiae bij voorbeeld stond gelijk met twee notae pigritiae met deze laatste nota werd elke leerling gestraft die weerspannig of ongehoorzaam gedrag vertoonde of die zich te buiten ging aan onbetamelijke tegenspraak of wanordelijk gedrag binnen of buiten de school een nota diligenti ae verdiende een leerling wanneer hij gedurende 14 dagen geen boete had 50 opgelopen wegens het niet spreken van latijn of wanneer hij gedurende een hele week geen notae negligentiae had opgelopen met een nota diligentiae kon een leerling zijn foutentotaal met 1 12 terugbrengen van al die verschillende notae met hun verschillend gewicht werd door de docenten nauwkeurig boek gehouden niet alleen bepaalden de notae de rangorde de plaats in de klas de primus kwam de eer toe helemaal vooraan in de klas te mogen zitten de secundus daar vlak achter enzovoort terwijl voor de mindere goden de achterste rijen waren gereserveerd maar ook vormden ze de basis voor de bevordering van een leerling bevordering was immers alleen mogelijk bij een zeker overwicht van notae bonae boven notae malae om voor bevordering in aanmerking te komen moest een leerling in gouda 1816 minstens 2 3 meer goede dan slechte notae hebben met dit stelsel van notae was aldus fortgens de beoordeling van leerlingen zeer vergemakkelijkt daar alle prestaties themafouten en gedragingen op een noemer waren gebracht fortgens 1958 179 van een examen in de eigenlijke zin des woords was dus geen sprake aangezien de uitslag reeds van tevoren vaststond als we fortgens mogen geloven is onze gewoonte om school prestaties in cijfers uit te drukken iets meer dan honderd jaar oud een beoordeling in cijfers trof ik voor het eerst in doesburg aan cursus 1874 1875 deze verving nu de opgave van het aantal fouten gemaakt in de latijnse en griekse themata men beperkte zich tot de volgende predikaten 4 zeer goed 3 goed 2 voldoende 1 gebrekkig fortgens 1958 182 dit systeem van notae dat in de loop der tijden uitgroeide tot een volwaardig cijfersysteem heeft het zij het in sterk gemitigeerde vorm zelfs tot in de jaren vijftig en zestig van deze eeuw uitgehouden op veel lagere scholen was het de gewoonte om op overgangsrapporten van de leerlingen niet alleen cijfers voor de reguliere vakken te vermelden maar ook cijfers of verbale mededelingen voor de categorieen gedrag nota modestiae vlijt nota industriae en orde en netheid nota diligentiae 2 de geboorte van onze cijferschaal vanaf 1815 vindt er via de reeks zogeheten onderwijswetten hubrecht 1881 een steeds verdergaande standaardisering en uniformering van het nederlandse schoolwezen plaats inclusief de te hanteren beoordelingsschaal leerplannen aantal klassen bevoegdheden van de leerkrachten en aard en inrichting van de toelatingsexamens worden aan een uniforme regeling onderworpen idenburg 1964 28 niettemin behielden de scholen in het organiek besluit van 2 augustus 1815 no 14 een zekere vrijheid in het toelatingsbeleid en in de samenstelling van hun leerplan maar met die vrijheid was het althans wat de door de landelijke overheid gecontroleerde hogere burgerscholen betreft vanaf 2 mei 1863 definitief gedaan de op die dag gedateerde wet op het middelbaar onderwijs van de hand 51 van de liberaal thorbecke bepaalde onverkort het aantal te onderwijzen vakken op 18 de verplichting om die 18 vakken te onderwijzen gold slechts voor de rijks scholen want de provinciale gemeentelijke en bijzondere scholen mochten die vakkenlijst naar omstandigheden uitbreiden of inkrimpen de leerlingen op de rijksscholen waren overigens niet verplicht alle lessen te volgen alleen die welke ze nuttig vonden en ook mochten ze plaatsnemen in de klas van hun eigen keuze in dit relatief liberale systeem pasten uiteraard geen verplichte overgangs en eindexamens maar thorbecke besefte dat de maatschappij waarborgen nodig had dat wie de middelbare school verliet tot min of meer zelfstandige denkarbeid in staat zou zijn er moest dus een eindexamen komen o c 41 dat zou worden afgenomen door externe examencommissies benoemd door de commissarissen des konings toen begon de druk van het eindexamen op het leerprogramma der school welke nimmer meer zou aflaten de leerplan en toelatingsvrijheden verdwenen als sneeuw voor de zon reeds na enkele jaren kwamen er nauwkeuri ge regels voor de inrichting van het eindexamen een omschrijving van de kennis welke per vak zou worden verlangd en voorschriften omtrent de beoordeling o c 41 in mei 1868 vaardigde de toenmalige minister van onderwijs heemskerk een voorschrift uit betreffende de wijze van beoordeling van de eindexamens in 1869 volgde hierop een ontwerp van algemeen reglement dat bij koninklijk besluit van 10 maart 1870 tot wet werd verheven op deze datum werd de cijferschaal van 1 tot en met 10 officieel ingevoerd zij het alweer uitsluitend voor de eindexamens van de hogere burgerscholen het eindoordeel over de kennis der kandidaten wordt uitgedrukt door een der cijfers van 1 tot 10 aan welke de volgende beteekenis is te hechten 10 uitmuntend 9 zeer goed 8 goed 7 ruim voldoende 6 voldoende 5 even voldoende 4 onvoldoende 3 gering 2 slecht 1 zeer slecht is aan eenen kandidaat het cijfer 5 of hooger toegekend dan wordt hem het getuigschrift wegens voldoend afgelegd examen uitgereikt staatsblad 49 art 22 23 dat fortgens pas in 1874 voor het eerst een beoordeling in cijfers aantreft dus vier jaar na de officiele invoering van de cijferschaal op de hogere burgerschool heeft waarschijnlijk te maken met het feit dat hij zich in zijn geschiedschrijving van het nederlandse schoolwezen beperkt tot de schola latina zoals gezegd voor andere dan de burgerscholen gold de wet uit 1870 immers nog niet ook 52 toen de tiendelige cijferschaal al was doorgedrongen tot vrijwel alle lagen van ons onderwijsbestel hanteerden de gymnasia de opvolgers van de vroegere scholae latinae een afwijkende vorm van beoordeling tot aan de jaren dertig van deze eeuw toe beoordelingen vonden plaats op een 5 punt schaal met de 1 als hoogste en de 5 als laagste kwalificatie de tiendelige cijferschaal die op 10 maart 1870 officieel in nederland werd ingevoerd heeft sinds haar invoering maar een belangrijke wijziging ondergaan bij koninklijk besluit van 8 juni 1929 werd bepaald dat de 5 die voor een even voldoende prestatie stond i c net voldoende de betekenis kreeg van even onvoldoende dus net niet voldoende een beslissing van hogerhand over de betekenis van de 5 was noodzakelijk omdat er een vrij grote onzekerheid heerste aan welke kant de 5 nu eigenlijk stond cf de groot 1968 45 een stroom van artikelen werd in de vakpers en ook daarbuiten aan dit feit gewijd zelfs in de tweede kamer werd het ter sprake gebracht zodat het waarlijk leek alsof de zegsman van minister waszink gelijk had die van mening was dat deze wijzi ging de belangrijkste was in de wetgeving op het middelbaar onderwijs sinds 1863 bartels 1947 126 de reglementen en de programma s voor de eind examens van de hogere burgerscholen werden in 1943 als gevolg van de conjunctureel penibele situatie en in 1962 als gevolg van de sterke stijging van het aantal eindexamenkandidaten nogal ingrijpend gewijzigd de cijferschaal werd daarbij ongemoeid gelaten 3 cijferschalen over de grens het is onduidelijk waarom minister heemskerk voor een cijferschaal koos die uit 10 categorieen bestond met klassen oplopend van 1 tot 10 waarom niet een schaal van bij voorbeeld 1 tot 100 of van 1 tot 5 in andere landen binnen en buiten europa figureren heel andere typen schalen zie tabel 1 ter toelichting op deze tabel waarin de landen alfabetisch gerangschikt zijn het volgende van de in de verschillende landen gehanteerde schaal worden alleen de extremen weergegeven tenzij de schaal uit letters bestaat en wel zo dat het eerste getal verwijst naar het laagste en het tweede getal naar het hoogste cijfer con creet voor de in duitsland gehanteerde schaal van 6 1 geldt dus dat 6 het laagste en 1 het hoogste cijfer vormt verder staat in de tabel de bij elke schaal behorende caesuur de grens tussen voldoende en onvoldoende voor de neder landse cijferschaal ligt die caesuur bij de 6 6 tot 10 voldoende 1 tot en met 5 onvoldoende voor duitsland bij voorbeeld bij de 5 alleen de 6 fungeert daar als onvoldoende verdere differentiaties in onvoldoende kent de duitse schaal niet 1 in alle landen lopen de cijfers op de schaal netjes op of af zoals in duitsland maar zo niet in denemarken althans op het gymnasium aldaar daar bevat de schaal van 0 tot 13 niet veertien cijfers zoals je zou verwachten maar slechts tien 0 volledig onacceptabel 3 erg zwak 5 zwak 6 enigszins zwak en vervolgens 7 8 9 10 en 11 excellent de 12 ontbreekt weer net zoals de 1 2 53 en 4 en tot slot de 13 briljant excellent werk waarom juist de cijfers 1 2 4 en 12 ontbreken is niet geheel duidelijk cf schultze 1969 408 409 tabel 1 cijferschaal extremen met de caesuur in verschillende landen schaal caesuur belgie mo 6 denemarken 0 13 6 duitsland 6 1 5 frankrijk 1 20 20 20 12 20 groot brittannie 1 100 41 fe dc b a e ierland 1 100 41 italie 0 10 6 luxemburg 0 60 30 nieuw zeeland fdcb a d noorwegen 0 6 2 oostenrijk 6 1 5 portugal 0 20 5 mmsb mb m sovjet unie 1 5 3 spanje 1 10 5 verenigde staten 0 100 65 fdc b a d zweden 1 5 c bc b ba ab a a bc zwitserland 6 1 5 in de meeste landen bestaat er anders dan de suggestie die in tabel wellicht wordt gewekt geen uniforme cijferschaal voor zowel het primair secundair als tertiair onderwijs in noorwegen bij voorbeeld worden op de basisschool geen cijfers gegeven maar alleen verbale beoordelingen als goed kan beter enzovoort op de noorse middelbare school wordt daarentegen wel gebruik gemaakt van een cijferschaal van 0 t m 6 maar deze schaal verschilt dan weer van die in het hoger onderwijs van 1 t m 4 waarbij de 4 voor onvoldoende staat en de overige drie cijfers voor graden van voldoende hove 1958 zelfs binnen een type onderwijs bestaan soms zoals in de verenigde staten op de high school verschillende cijferschalen of beter uitgedrukt beoordelingssys temen naast elkaar de letteraanduiding a t m f en de cijferschaal 0 t m 100 die letteraanduiding heeft in landen als de verenigde staten het verenigd koninkrijk en nieuw zeeland uitsluitend een symbolische betekenis waarbij de a staat voor outstanding de b voor very good de c voor satisfactory de d voor generally unsatisfactory en de f voor failed de letter e komt op de betreffende schaal niet voor vanwege de verwarring met de letter a die bij het uitspreken ervan zou kunnen ontstaan crombag de gruyter 1974 in portugal daarentegen staan de letters m m s b en mb voor afkortingen van respectieve 54 lijk mau slecht mediocre middelmatig sufficiente bevredigend bom goed en muito bom zeer goed i can think of less confusing systems aldus newcombe 1977 171 over dit portugese afkortingen stelsel tussen 1930 en 1940 veranderden de meeste onderwijsinstellingen in de v s het toen vigerende cijfersysteem percentage grading in het beoordelingssysteem met letteraanduiding geisinger 1982 1142 in het eerstgenoemde cijfersysteem van 0 tot 100 werd elk aan een leerling toegekend getal cijfer geacht te corres ponderen met het percentage stof materiaal dat de betreffende leerling zou beheersen getallen lager dan 50 werden zelden gegeven tegenwoordig wordt nog maar op 16 percent van de amerikaanse high schools het percentage grading gebruikt de overgrote meerderheid hanteert het letter grade systeem terwilliger 1966 in vrijwel alle landen worden er overigens voortdurend meer of minder grote veranderingen in de bestaande cijferschalen en beoordelingssyste men aangebracht het is dan ook nog maar de vraag of de in tabel getabelleerde cijferschalen waarvan het bestaan vaak achterhaald is uit literatuur van enkele decennia oud nog wel als zodanig dienst doen en niet door modernere varianten zijn achterhaald op het eerste gezicht lijkt het er veel op dat de amerikaanse high schools met de introductie van het letter grade systeem heel wat differentiatiemogelijkheden overboord hebben gegooid bestond het oude systeem nog uit 100 klassen het nieuwe bevat er slechts vijf dit bezwaar wordt echter sterk afgezwakt als men beseft dat uit onderzoek is gebleken dat leerkrachten niet of nauwelijks in staat zijn om betrouwbare differentiaties aan te brengen die kleiner zijn dan 3 tot 7 percentage punten starch 1913 de effectieve differentiatiemogelijkheden reduceren daarmee tot 20 voeg daar nog bij dat het nieuwe beoordelingssysteem met letteraanduiding in de praktijk vaak gemodificeerd wordt door aan de letters de symbolen en toe te voegen zodat het aantal differentiatiemogelijkheden niet uit vijf maar uit 15 klassen bestaat en het wordt duidelijk dat beide beoorde lingssystemen feitelijk nog maar weinig van elkaar verschillen het vergroten van het aantal differentiatiemogelijkheden van een bestaande beoordelingsschaal met een aantal extra klassen door gebruik te maken van symbolen als de plus de min de schuine streep a b het vraagteken of simpelweg decimalen is karakteristiek voor de manier waarop de schalen in vrijwel alle landen uit tabel 1 in de praktijk gebruikt worden het halfje schijnt een typisch nederlandse verworvenheid te zijn nergens anders ben ik dit tegenge komen dat impliceert dat het aantal klassen per schaal zoals weergegeven in tabel 1 in feite als een absolute ondergrens moet worden gezien weer een andere relevante opmerking naar aanleiding van tabel 1 betreft het volgende ook de schalen die gekenmerkt worden door letters zoals in de v s portugal en zweden worden vaak in een numerieke vorm gegoten zo worden in de v s de afzonderlijke letters gemiddeld tot een totaalindex de zogeheten gpa grade point average door respectievelijk de getallen 4 3 2 1 en 0 toe te kennen aan a b c d en f 55 een van de conclusies die men naar aanleiding van het ontstaan van de cijfer schaal in nederland en naar aanleiding van al deze opmerkingen over de beoorde lingsschalen in tabel 1 kan trekken is dat de in verschillende landen gehanteerde systemen min of meer arbitrair zijn op conventies berusten en dat de betekenis van de in die schalen figurerende cijfers of letters een strikt geconventionali seerd karakter hebben die in beginsel althans niets van doen hebben met ons numerieke stelsel en de daaruit voortvloeiende interpretatie van getallen een ruim voldoende prestatie uitdrukken in de vorm van het cijfer 7 is niets anders dan een short cut symbolischgetalsmatige weergave van de evaluerende kwalificatie ruim voldoende dit heeft zoals in de volgende paragraaf nader zal worden toegelicht vergaande consequenties voor de interpretatie van cijfers en voor de analyse van de betrouwbaarheid van opsteloordelen een andere conclusie die naar aanleiding van tabel 1 kan worden getrokken is dat ondanks hun grote verscheidenheid de gehanteerde beoordelingsschalen niettemin drie fundamentele kenmerken gemeen hebben 1 alle schalen maken een differentiatie mogelijk in het prestatieniveau 2 alle schalen leggen een rangorde in de prestaties vast 3 alle schalen bevatten een caesuur tussen voldoende en onvoldoende prestaties ook aan deze kenmerken zijn consequenties verbonden voor de betrouw baarheidsproblematiek 4 schaaltypen stel dat een leerling voor zijn opstel een 8 heeft gekregen is deze leerling nu twee keer zo goed als iemand met een 4 kan men met andere woorden staande houden dat de schrijfvaardigheid van deze persoon met een 8 twee keer zo groot is als die met een 4 het hoeft weinig betoog gelet op het arbitraire karakter van cijferschalen dat een dergelijke interpretatie niet adequaat is het zou bij voor beeld impliceren dat in theorie in amerika de ene persoon 100 maal zo schrijfvaardig kan zijn dan de ander in luxemburg daarentegen slechts 60 maal terwijl men in nederland niet verder zou komen dan de een is tien maal zo schrijfvaardig dan de ander en hoe zou je wanneer je uitgaat van dit type interpretaties dan moeten omgaan met de noorse cijferschaal gebruikt op de toelatingsexamens voor de universiteit hylla wrinkle 1953 92 die de cijfers 4 3 2 1 2 en 3 bevat hoeveel beter is nu de persoon met het cijfer 4 dan degene met bij voorbeeld het cijfer 3 de hier gewraakte interpretatie gaat er ten onrechte van uit dat cijfers absolute grootheden zijn en miskent hun relatieve karakter de interpretatie van cijfers op een cijferschaal of om het even letters op een letterschaal waaraan men een numerieke interpretatie heeft toegekend is afhanke lijk van het type meetschaal in de regel worden er vier verschillende typen meetschalen onderscheiden 1 een nominale schaal 2 een ordinale schaal 3 56 een intervalschaal en 4 een ratioschaal op elk van deze vier meetschalen hebben getallen c q cijfers telkens een heel andere interpretatie getallen op een nominale schaal hebben als functie objecten of individuen te identificeren een getal op een nominale schaal kent aan een individu of object een naam nomen toe een label en in deze zin fungeert een dergelijk getal als kengetal voorbeelden van getallen op een nominale schaal zijn rugnummers van voetballers kentekennummers van auto s telefoonnummers getallen die worden gebruikt om individuen of objecten te identificeren en daarnaast relaties tussen de betreffende individuen of objecten te symboliseren constitueren een ordinale schaal kenmerkende relaties voor een ordinale schaal zijn relaties als groter dan beter dan meer dan enzovoort zulk soort relaties leggen een volledige rangorde van de individuen of objecten vast en de getallen op een ordinale schaal zijn derhalve rangnummers illustratieve voorbeelden van getallen op een ordinale schaal vormen huisnummers of de nummers 1 2 en 3 in de sportwereld een intervalschaal is een schaal waarvoor geldt dat de getallen nominale en ordinale eigenschappen bezitten en waarvoor bovendien geldt dat de afstand tussen twee getallen een reele betekenis heeft voorbeelden van een intervalschaal zijn de temperatuurschaal en de jaartelling een gebeurtenis die in het jaar 2000 plaatsvindt treedt niet alleen in een ander jaar op dan bij voorbeeld in het jaar 1000 nominale interpretatie maar ook later ordinale interpretatie bovendien is de afstand het verschil tussen het jaar 2000 en het jaar 1000 even groot als het verschil tussen het jaar 1000 en het jaar 0 interval interpretatie men kan echter niet beweren dat het jaar 2000 twee maal zo laat plaatsvindt als het jaar 1000 net zo min als men kan volhouden dat een temperatuur van 20 graden twee keer zo warm is als die van tien graden dat dergelijke beweringen onzinnig zijn is een gevolg van het feit dat het jaar 0 in onze jaartelling of een temperatuur van nul graden geen echt absoluut nulpunt constitueert immers ook het jaar 25 voor christus of een temperatuur van min drie graden behoort tot de mogelijkheden op een intervalschaal is het nulpunt met andere woorden arbitrair bevat een schaal alle eigenschappen van zowel een nominale een ordinale als een intervalschaal en bevat die schaal daarnaast een absoluut nulpunt dat reele betekenis heeft dan wordt zo n schaal een ratioschaal genoemd het is deze schaal waarmee elke nederlander in het lager onderwijs in de rekenles kennis heeft gemaakt en die hem zo vertrouwd voorkomt dat hij bij getallen niet of nauwelijks nog kan denken in termen van andere schalen en daarmee van andere interpretaties dan die welke op een ratioschaal van toepassing zijn voorbeelden van een ratioschaal zijn de gewichtschaal en de lengteschaal omdat de gewicht schaal een absoluut nulpunt kent kan men anders dan bij getallen op een intervalschaal beweren dat een gewicht van 10 kg twee maal zo zwaar is als een gewicht van 5 kg het onderscheid tussen de hier genoemde schaaltypen is uiteraard van belang voor een adequate interpretatie van getallen in het algemeen en van schoolcijfers op een cijferschaal in het bijzonder de nummer 3 in een hardloopwedstrijd is niet 57 drie maal zo langzaam als de nummer 1 maar van een gewicht van 3 kg kan wel volgehouden worden dat het drie maal zo zwaar is als een gewicht van 1 kg evenmin kan men staande houden dat het verschil tussen de nummers 1 en 2 in de sportwereld even groot is als dat tussen de nummers 2 en 3 of dat een voetbalspeler met rugnummer 14 twee keer zo goed is als die met rugnummer 7 maar het is wel zinvol om bij voorbeeld te beweren dat het verschil tussen 80 cm en 70 cm even groot is als dat tussen 50 en 40 cm op welk type schaal moeten onze schoolcijfers nu gesitueerd worden schoolcij fers laten in ieder geval een nominale interpretatie toe de persoon met een 5 heeft een andere prestatie geleverd dan die met een 8 bovendien impliceert een nominale interpretatie dat de leerlingen die eenzelfde cijfer hebben gekregen een identieke prestatie hebben geleverd ook een ordinale interpretatie is zinvol een 8 staat voor een betere prestatie dan een 7 een 7 voor een betere dan een 6 enzovoort het zijn deze twee eigenschappen van het ons bekende tientallig numerieke stelsel i c identiteit en ordening die maken dat cijfers bij uitstek geschikt zijn om er kort en krachtig en zonder veel omhaal van woorden prestaties mee aan te duiden het feit dat in verschillende landen over de hele wereld zonder uitzondering a erschalen worden gebruikt om er graden van prestaties mee uit te drukken moet dan ook verklaard worden uit deze nominale en ordinale eigenschappen van ons getallenstelsel verder kan gesteld worden dat een ratio interpretatie van schoolcijfers ontoe laatbaar is de vraag echter of schoolcijfers getallen op een intervalschaal constitueren is veel lastiger te beantwoorden waarom zou het verschil tussen de kwalificatie ruim voldoende en voldoende even groot moeten zijn als het verschil tussen ruim voldoende en goed aan de oplopende reeks verbale aanduidingen uit het besluit van den loden maart 1870 is geen enkel argument te ontlenen waarom dat noodzakelijk zo zou moeten zijn dat impliceert dat in beginsel althans onze cijferschaal geen interpretaties op intervalniveau toelaat in de praktijk echter zullen de meeste leerkrachten juist krachtens het feit dat ze bij het beoordelen van prestaties gebruik maken van het numerieke stelsel en weten dat de afstanden tussen opeenvolgende getallen even groot zijn er voor zorgen dat die afstanden bij benadering corresponderen met min of meer identieke verschillen in beoordeelde prestaties anders uitgedrukt bij het toekennen van een 6 en een 7 waken ze ervoor dat het prestatieverschil tussen de leerlingen met een 6 en met een 7 min of meer even groot is als het prestatieverschil tussen leerlin gen met bij voorbeeld een 8 en een 9 maar nogmaals uit de gegeven verbale omschrijvingen van de klassen van onze cijferschaal 10 uitmuntend 9 zeer goed enzovoort valt geenszins dwingend af te leiden dat onze cijferschaal interval eigenschappen bezit het is de psychologie van de beoordelaar cijferaar die een dergelijke interval interpretatie mogelijk maakt maar zelfs de leerkracht die bewust bij zijn cijfergeving geen interval eigen schappen nastreeft gaat er bij de berekening van de jaarlijkse eindcijfers ten behoeve van de overgang nolens volens vanuit dat de getalsmatige prestaties van 58 de leerlingen de facto op een intervalschaal zijn uitgedrukt immers het optellen van de cijfers voor de prestaties die de leerlingen in de loop van het jaar op verschillende gelegenheden geleverd hebben en het middelen daarvan vooronder stelt dat de afzonderlijke prestaties op een intervalschaal gesitueerd kunnen worden middelen op een ordinale of een nominale schaal is zinloos twijfel over de rechtmatigheid van het toekennen van een interval interpretatie aan schoolcijfers is onder meer gebaseerd op het cijfergedrag van leerkrachten rond de fatale caesuur de 6 is de afstand tussen het cijfer 5 en 6 wel even groot als die tussen de 6 en de 7 gelet op de onmiskenbare en in pedagogisch opzicht begrijpelijke neiging van leerkrachten om in twijfelgevallen niet voor een onvol doende maar voor een mager zesje te kiezen empirisch onderzoek naar het cijfergedrag van leerkrachten van den ende 1954a van den ende 1954b de groot 1968 92 93 maakt duidelijk dat de bedoelde afstanden beslist niet even groot zijn en dat dus de aanname van een intervalschaal i c gelijke afstanden niet terecht is of het nu wel of niet gerechtvaardigd is om aan opstelcijfers interval eigen schappen toe te kennen een empirisch te constateren feit is dat in het gros van het empirisch onderzoek naar de betrouwbaarheid van opstelbeoordeling er zonder meer vanuit wordt gegaan dat opstelcijfers op een intervalschaal gesitueerd kunnen worden 5 drie vormen van betrouwbaarheid volgens de groot heeft de hier behandelde materie de keuze van een meetschaal niets te maken met het probleem van de objectiviteit en van de betrouw baarheid van schoolcijfers de groot 1968 34 in abstracto mag deze bewering wel waar zijn maar als we de betrouwbaarheid concretiseren op het niveau van schoolcijfers en daaraan een kwantitatieve interpretatie moeten geven dan is die bewering hoe apodictisch ook geformuleerd apert onjuist wat moeten we onder betrouwbaarheid verstaan wanneer kunnen we opstelcij fers betrouwbaar noemen betrouwbaarheid is een vrij omvattend en gecompli ceerd begrip in veel boeken wordt uitgebreid en diepgaand op verschillende aspecten van dit begrip ingegaan davis 1964 horst 1966 lord novick 1968 nunnaly 1967 rozeboom 1966 en in maar liefst drie tijdschriften psychometrika educational and psychological measurement journal of educational stalistics houdt men zich intensief bezig met de betrouwbaarheids problematiek het spreekt voor zich dat de hier te presenteren behandeling van betrouwbaarheid toegespitst op opstelbeoordeling niet anders dan onvolledig kan zijn er komt slechts een beperkt aantal aspecten van de betrouwbaarheidsproble matiek aan de orde daar komt nog bij dat betrouwbaarheid een sterk geformali seerd begrip is dat definitorisch is vastgelegd in axioma s en daarvan afgeleide mathematische formuleringen de hier te presenteren behandeling van het begrip 59 betrouwbaarheid is echter niet formcel zodat onvermijdelijk enige precisie en exactheid verloren gaat wat houdt betrouwbaarheid nu in wat betekent het eigenlijk wanneer we een persoon een politicus bijvoorbeeld betrouwbaar noemen we zijn geneigd een politicus het predicaat betrouwbaar te verlenen als bij herhaling gebleken is dat hij zich aan zijn woord houdt betrouwbare politici komen hun verkiezingsbelof ten na verdedigen tegenover een hen welgezind publiek precies hetzelfde stand punt als tegenover een vijandig auditorium liegen niet zijn geloofwaardig kortom men kan staat op hen maken hoe globaal deze karakterisering van het begrip betrouwbaarheid ook moge zijn een aspect daarvan komt toch duidelijk naar voren konsistentie betrouwbare personen handelen zowel in verbaal als niet verbaal opzicht konsistent en daarom zij hun gedragingen en handelingen gegeven zekere restricties voorspelbaar een onbetrouwbaar iemand daarentegen zegt a maar doet b of c of misschien ook wel a zijn gedrag is niet of nauwe lijks voorspelbaar de overwegingen die bij het toekennen van het predicaat betrouwbaar aan personen een rol spelen namelijk konsistentie en voorspelbaarheid zijn evenzeer van belang wanneer het gaat om de betrouwbaarheid van meetinstrumenten we noemen een weegschaal betrouwbaar indien dit instrument op konsistente wijze iemands gewicht bepaalt heeft de weegschaal uitgewezen dat iemands gewicht 65 kg bedraagt dan zal die weegschaal aangenomen dat hij betrouwbaar is bij een herhaalde weging die onmiddellijk na de eerste plaatsvindt datzelfde gewicht aangeven de eerste en de tweede weging zijn onderling konsistent en de tweede weging is perfect voorspelbaar op basis van de eerste conform de voorgaande beschouwing noemen we de beoordeling van opstellen betrouwbaar wanneer de resultaten van een eerste meting konsistent zijn met die van een tweede maar anders dan bij de konsistentie van de weegschaal kan de konsistentie bij de beoordeling van opstellen verschillende dingen betekenen die ook verschillende vormen van betrouwbaarheid inhouden wanneer een beoorde laar met een tussenperiode van twee of drie weken dezelfde opstellen beoordeelt en hij bij die twee gelegenheden hetzelfde oordeel over de kwaliteit van die opstellen velt dan is hij een betrouwbaar beoordelaar in dat geval is hij immers konsistent met zichzelf deze specifieke vorm van betrouwbaarheid wordt stabiliteit genoemd een tweede vorm van betrouwbaarheid die bij de beoordeling van opstellen onderscheiden kan worden betreft de interbeoordelaarsovereenstemming ook wel intersubjectieve overeenstemming genoemd hierbij is de vraag niet zozeer of een beoordelaar het met zichzelf eens is maar of hij het met anderen eens is komen zijn beoordelingen overeen met die van anderen die onafhankelijk van hem en van elkaar dezelfde opstellen hebben beoordeeld zelfs als het mogelijk zou zijn om een perfecte stabiliteit en interbeoordelaars overeenstemming te bereiken dan nog hoeft de beoordeling daarmee niet per se in alle opzichten betrouwbaar te zijn dit hangt samen met de variabiliteit in prestatie als men iemands rijvaardigheid wil beoordelen krijgt men natuurlijk 60 geen betrouwbaar beeld wanneer die persoon alleen in een relatief kort tijdsbestek en in een specifieke situatie geobserveerd wordt gedurende die korte observatie periode kan de persoon in kwestie net even wat minder geconcentreerd zijn of door de toevallige verkeersdrukte in de stad kan hij net even enigszins verkrampt rijden het beeld dat wij op basis van de observaties in dat korte tijdsbestek en in die specifieke situatie van zijn rijvaardigheid krijgen hoeft niet representatief te zijn voor zijn rijvaardigheid op andere momenten en in andere situaties afhanke lijk van het tijdstip waarop en de situatie waarin we iemand aantreffen fluctueert het te beoordelen gedragsaspect in zekere mate kortom er is variabiliteit in de prestatie en dat maakt dat beoordelingen die op verschillende momenten en in verschillende situaties plaatsvinden niet volledig konsistent hoeven zijn dat geldt ook bij de beoordeling van schrijfvaardigheid iemands schrijfprestatie kan afhankelijk van zijn kennis over het specifieke onderwerp waarover hij schrijft van de tijd die hij ervoor tot zijn beschikking heeft van zijn interesse in het te behandelen onderwerp enzovoort varieren hier gaat het bij de betrouwbaarheid dus om de vraag in hoeverre iemands prestaties bij het verrichten van een specifieke taak konsistent zijn met zijn prestaties in een veel groter assortiment gelijksoortige taken deze vorm van betrouwbaarheid wordt teststabiliteit ge noemd soms ook wel testvariabiliteit de drie hier onderscheiden vormen van betrouwbaarheid stabiliteit interbeoor delaarsovereenstemming en test stabiliteit zijn met het oog op de betrouwbaar heid van opstelbeoordeling weliswaar de belangrijkste maar zeker niet de enige vormen die onderscheiden zouden kunnen worden cf meuffels 1983 hoe het ook zij betrouwbaarheid is in elk geval geen eendimensioneel begrip there is no single universal and absolute reliability coefficient stanley 1971 363 we beperken onze beschouwingen over betrouwbaarheid en meetschalen verder tot de eerste twee vormen van betrouwbaarheid i c stabiliteit en intersubjectieve overeenstemming namelijk die vormen van in konsistentie die het gevolg zijn van het feit dat menselijke beoordelaars imperfecte meetinstrumenten zijn 6 betrouwbaarheid op niveaus anders dan de groot betoogt heeft het bepalen van de betrouwbaarheid aan de hand van gegeven cijfers juist alles te maken met de keuze van een meetschaal i c met de vraag welke schaaleigenschappen cijfers kunnen worden toegekend nominale ordinale of ook interval eigenschappen stel dat twee leraren a en b elk onafhankelijk van elkaar dezelfde drie opstellen nakijken oordelen zij betrouwbaar dat wil zeggen is er sprake van intersubjectieve overeenstemming aan geen enkel opstel wordt door beoordelaar a en b hetzelfde cijfer i c label toegekend zodat een onderzoeker die opstelcijfers op nominaal niveau analyseert tot de conclusie moet komen dat de beoordelingen volledig inkonsistent met elkaar zijn dus absoluut onbetrouwbaar een onderzoeker echter die ordinale eigenschappen aan opstelcijfers toekent trekt de diametraal tegenovergestelde 61 conclusie namelijk dat de beoordeling perfect betrouwbaar is immers de rangorde die elk van de twee beoordelaars heeft toegekend de relatieve positie van de drie opstellen ten opzichte van elkaar is bij elke beoordelaar exact dezelfde weer een andere onderzoeker die interval eigenschappen aan opstelcij fers toekent komt weer tot iets andere conclusies hij zal betogen dat de twee beoordelaars weliswaar betrouwbaar zijn voorzover het gaat om de rangorde en om het algemene niveau zowel bij a als bij b is het gemiddelde van de drie opstellen een 6 maar dat ze onbetrouwbaar beoordelen wat betreft de range i c het verschil tussen het beste en het slechtste opstel voor a bedraagt die range 5 voor b 4 verder zal hij misschien betogen dat a en b onbetrouwbaar beoorde len omdat ze andere minimum eisen hanteren a kent slechts een onvoldoende toe b daarentegen twee kortom de mate van betrouwbaarheid van schoolcij fers is anders dan de groot ons wil doen geloven juist volledig afhankelijk van de keuze van een meetschaal tabel 2 cijfers voor drie opstellen toegekend door twee beoordelaars a en b opstel 8 5 4 5 uiteraard blijven de hier gemaakte opmerkingen onverkort van kracht wanneer men niet de intersubjectieve overeenstemming maar de stabiliteit van een beoordelaar onder de loep zou nemen i c de konsistentie van de door een beoordelaar gegeven cijfers voor dezelfde drie opstellen op twee verschillende tijdstippen in tabel 2 leze men dan in plaats van beoordelaar a en b het tijdstip a en b waarop de drie opstellen door dezelfde beoordelaar beoordeeld zijn wat is nu de betrouwbaarheid van de beoordelingen in bovenstaande tabel het antwoord is simpel de betrouwbaarheid bestaat niet een van de bedoelingen van de bovenstaande exercitie op het vlak van betrouwbaarheidsanalyse is te laten zien dat de oordelen van beoordelaars op heel veel verschillende manieren al of niet konsistent met elkaar kunnen zijn beoordelaars kunnen van mening verschil len over de kwaliteit van een opstel of over de relatieve positie van de opstellen ten opzichte van elkaar of over het maximale verschil in kwaliteit of over het niveau van de groep als geheel of over de te hanteren minimum eisen enzovoort het punt waar het hier nu om gaat is dat het merendeel van al deze onderschei den aspecten van de betrouwbaarheid onafhankelijk van elkaar is een uitzonde ring op deze claim vormt de afhankelijkheid tussen het niveau en het aantal onvoldoendes iemand die het niveau erg laag inschat zal door de bank genomen veel onvoldoendes geven onafhankelijk betekent hier dat uit het feit dat twee beoordelaars bij voorbeeld niet unaniem oordelen dus aan geen enkel opstel 62 precies hetzelfde cijfer toekennen nominale interpretatie men geen enkele conclusie kan trekken over de mate van betrouwbaarheid op ordinaal niveau neem ter illustratie van deze onafhankelijkheid de volgende drie situaties waarin twee beoordelaars elk dezelfde vijf opstellen beoordelen tabel 3 drie verschillende vormen van konsistentie opstel situatie i situatie ii situatie hl a b a b a b 1 1 6 4 1 6 10 2 2 7 4 5 3 7 9 3 3 8 5 5 8 8 4 4 9 5 5 7 9 7 5 5 10 6 9 10 6 a en b zijn het in situatie i niet eens over het niveau van de groep als geheel maar ze zijn daarentegen wel volledig konsistent in hun oordeel over de rangorde van de vijf opstellen en ook in hun oordeel over de spreiding de range geheel anders dan in situatie i blijkt er in situatie ii volledige overeenstemming te bestaan over de rangorde en het niveau maar niet over de spreiding in situatie iii ten slotte bestaat er wel overeenstemming over het niveau en de spreiding maar niet over de rangorde deze voorbeelden maken opnieuw duidelijk dat verschillende aspecten van betrouwbaarheid onderling onafhankelijk zijn dat het ene betrouwbaarheidsaspect niet voorspeld kan worden op grond van kennis van het andere betrouwbaarheids aspect en dat uitspraken in de trant van die beoordeling is onbetrouwbaar of die beoordelaars zijn het niet met elkaar eens zonder verdergaande specificatie misleidend onvolledig zijn there is no single universal and absolute reliability coefficient stanley o c op abstract niveau is betrouwbaarheid al geen eendi mensioneel begrip gelet op de differentiatie van dit begrip in stabiliteit interbe oordelaarsovereenstemming en test stabiliteit laat staan wanneer dit begrip in kwantitatieve zin geconcretiseerd wordt aan de hand van gegeven cijfers 7 analyse culturen een andere implicatie van de in tabel 2 en 3 gegeven voorbeelden is dat een cijferschaal op zichzelf niets dwingends voorschrijft over hoe we de daarop gegeven cijfers moeten interpreteren een nominale en ordinale interpretatie is toegestaan en soms ook een interval interpretatie afhankelijk van die interpreta tie varieert het beeld wat we van de betrouwbaarheid van opstelbeoordelaars voorgeschoteld krijgen een onderzoeker die opstelcijfers uitsluitend op nominaal niveau analyseert presenteert bewust dan wel onbewust een veel negatiever beeld en in ieder geval een onvolledig beeld van die betrouwbaarheid dan een 63 onderzoeker die bij zijn analyse ook het ordinale karakter van opstelcijfers betrekt het is deze analyse vrijheid inherent aan elke cijferschaal die door sommige onderzoekers van opstelbeoordeling willens en wetens is misbruikt ten behoeve van propagandistische doeleinden een voorbeeld in de jaren zestig deed schroter onderzoek naar de betrouw baarheid van opstelbeoordeling in totaal 1113 leraren duits beoordeelden 617 opstellen met dien verstande dat elk opstel door gemiddeld 18 docenten werd nagekeken per opstel ging schroter na wat het verschil was tussen het hoogste en het laagste daaraan toegekende cijfer door de opstellen op deze manier te analyseren wordt niet alleen een extreem beeld van de mate van overeenkomst tussen beoordelaars geschetst immers uitsluitend de twee meest extreme cijfers worden in de beschouwing betrokken terwijl alle daartussen liggende cijfers worden veronachtzaamd maar bovendien een beeld waarin het accent op het gebrek aan overeenstemming ligt en last but not least het geschetste beeld van de betrouwbaarheid van opstelbeoordeling is ook nog eens verre van volledig het is eenvoudigweg niet mogelijk zoals eerder betoogd om alle denkbare vormen van konsistentie of inkonsistentie bij gegeven beoordelingen in een enkel getal te gieten een getal dat indicatief zou zijn voor de betrouwbaarheid toch wordt in de onderzoekspraktijk van opstelbeoordeling net gedaan alsof dat wel zou kunnen althans die suggestie wordt sterk gewekt onderzoekers in het angelsaksische taalgebied en in navolging daarvan de onderzoekers in nederland analyseren de betrouwbaarheid vrijwel zonder uitzondering in termen van een correlatiecoefficient een getal dat varieert tussen de 0 en 1 wanneer wij nu van betrouwbaarheid spreken aldus de groot 1968 119 dan bedoelen wij alleen die verschillen die het gevolg zijn van een niet perfecte correlatie men kan ook zeggen met betrouwbaarheid bedoelen wij die correlatie coefficient zelf gegeven onze eerdere conceptuele analyse van betrouwbaarheid i c konsisten tie en gegeven de bovenstaande cijfervoorbeelden van verschillende vormen van konsistentie komt deze opvatting neer op een ontoelaatbare inperking van het begrip betrouwbaarheid immers de door de groot bedoelde coefficient voor de berekening waarvan moet worden uitgegaan van de veronderstelling dat de opstelcijfers op intervalniveau liggen houdt alleen rekening met de inconsis tentie wat betreft de rangorde en de spreiding van de cijfers verschillen in bij voorbeeld het niveau of in het percentage onvoldoendes komen daarin helemaal niet tot uitdrukking betrouwbaarheid behelst beslist meer dan deze twee typen in konsistentie tot welke warwinkel van misverstanden over de betrouwbaarheid van beoordelingen deze visie leidt mogen de onderstaande twee voorbeelden verdui delijken berekenen we de groots correlatie voor het linker voorbeeld dan vinden we als uitkomst 1 conclusie a en b oordelen perfect betrouwbaar terwijl de correlatie in het rechter voorbeeld 0 bedraagt conclusie absoluut onbetrouwbaar de absolute grootte van de correlatie varieert tussen 0 en 1 bij 1 is er sprake van een perfecte samenhang bij 0 van geen enkele maar iedereen die beide voor 64 beelden aan een nadere beschouwing onderwerpt moet toch tot de conclusie komen dat hiermee de werkelijkheid ernstig geweld wordt aangedaan tabel 4 betrouwbaarheid van twee beoordelaars uitgedrukt in termen van een correlatie opstel a b a b 1 8 5 8 7 2 7 4 7 8 3 6 3 6 7 r 1 0 r 00 wordt in nederland en in de angelsaksische landen de betrouwbaarheid in het gros van de gevallen als een correlatie opgevat in het duitse taalgebied bestaat een heel andere analyse cultuur daar gaan onderzoekers in de regel uit van een nominale interpretatie door te berekenen wat het percentage opstellen is wat van verschillende beoordelaars exact hetzelfde cijfer heeft gekregen of door te berekenen hoe groot hel percentage van door leraren gegeven cijfers is wat een 1 een 2 enzovoort heeft gekregen zie bij voorbeeld ulshofer 1963 weiss 1965 het spreekt voor zich dat het beeld van de betrouwbaarheid van opstelbeoorde ling wat uit deze berekening van de unanimiteit resulteert heel wat negatiever is dan dat uit de angelsaskische landen sterk uitgedrukt de analysepraktijk in de angelsaksische landen geeft door de bank genomen een te optimistisch beeld van de betrouwbaarheid van opstelbeoordeling die in het duitstalige landen een te pessimistisch beeld hoe men opstelcijfers analyseert dient idealiter af te hangen van de specifieke functie die een betrouwbaarheidsberekening geacht wordt te vervullen voor bepaalde specifieke situaties is er niets op tegen wanneer onderzoekers opstelcij fers enkel op bij voorbeeld intervalniveau analyseren en dus de betrouwbaarheid uitdrukken in een enkel getal de correlatiecoefficient koppelt men echter waar de oordelen en kwalificaties over de ter zake kundigheid van opstelbeoordelaars aan de resultaten van een dergelijke analyse dan gaat het niet aan een door traditie en cultuur bepaalde eenzijdigheid te betrachten die tot ernstige vertekening kan leiden de cijfers dienen in een dergelijk geval zowel op nominaal ordinaal als intervalniveau geanalyseerd te worden 8 psychometrie versus pedagogiek de zo van elkaar verschillende analyse culturen in de verenigde staten en in duitsland staan overigens niet op zichzelf maar vormen een integraal onderdeel van de bestaande onderwijskundige orientaties in de betreffende landen die op hun beurt weer het resultaat zijn van historische omstandigheden traditie 65 opvoeding en onderwijs in amerika ontstond tussen 1910 en 1920 de zogeheten educational measurement movement smith dobbin 1960 784 een onder wijskundige beweging waarin sterk de nadruk werd gelegd op het gebruik van scorings objectieve toetsen en de daarmee onlosmakelijk verbonden begrippen als validiteit en betrouwbaarheid het afwijzen van schoolcijfers als basis voor bij voorbeeld selectie en het benadrukken van het idee dat zeker niet elk kind even goed presteert als een ander wanneer het maar genoeg zijn best doet er zijn verschillen in aanleg en deze kunnen moeten wetenschappelijk gemeten worden via scorings objectieve tests en toetsen zodat elk kind dat onderwijs ontvangt dat het beste aansluit bij zijn capaciteiten in dit alles speelt de correlatie als betrouw baarheidsmaat een centrale rol met deze maat wordt immers aangegeven hoe goed een test toets kan discrimineren tussen leerlingen met een verschillende aanleg de nadruk in de duitse onderwijskunde althans die in de jaren zestig en zeventig ligt daarentegen juist niet op psychometrische kwesties als het gebruik van scorings objectieve toetsen integendeel zelfs deze worden openlijk afgewe zen en tot nu toe met succes maar op het individu met zijn specifieke moge lijkheden en beperkingen die een eigen unieke pedagogische aanpak vereisen die beperkingen zijn niet zozeer het resultaat van aanleg maar vloeien veeleer voort uit het maatschappelijk systeem bij de analyse van dit systeem wordt sterk de nadruk gelegd op de onrechtvaardigheid van bestaande instituties en praktijken voor het individuele kind bij voorbeeld het zitten blijven vanuit deze optiek wordt het wellicht begrijpelijk dat in duitsland cijfers op nominaal niveau geanalyseerd worden uitgangspunt vormt het opstel van het individuele kind waarvan bekeken wordt hoe verschillend met als implicatie onrechtvaardig dit door verschillende beoordelaars nagekeken wordt de hier geschetste analyse culturen in het angelsaksische en het duitse taalgebied en de daaraan ten grondslag liggende psychometrische en pedagogische orientaties zijn uiteraard abstracties waarop vele uitzonderingen en nuanceringen mogelijk zijn maar dat neemt niet weg dat algemeen gesproken uitgangspunten perspectieven beschouwingswijzen aard van de onderzochte problemen en de gehanteerde data analysetechnieken in de onderwijsresearch van beide landen sterk van elkaar verschillen en dat de communicatie tussen beide onderwijskundige polen zo niet afwezig dan toch wel uiterst problematisch is vele onderzoekers die zoals gebruikelijk zich slechts op een van beide onderwijskundige polen baseren beseffen niet of onvoldoende hoezeer het beeld dat zij van de betrouw baarheid van cijfers geven door traditie bepaald is en evenmin beseffen ze hoezeer dat beeld vertekend kan zijn noot 1 het is geen eenvoudige opgave om de in verschillende landen gehanteerde cijferschalen te achterhalen een standaardwerk waarin al die schalen netjes 66 worden opgesomd ontbreekt een deel van de informatie in tabel 1 putte ik uit lauwerys scanion 1969 voor de landen rusland frankrijk oostenrijk en duitsland voor portugal uit newcombe 1977 en schultze 1970 voor zweden uit orring 1967 marklund e a 1967 velema 1959 en hettema 1965 voor noorwegen hove 1958 en hylla wrinkle 1953 voor italie newcombe 1977 voor ierland en groot brittannie heywood 1977 voor denemarken schultze 1969 voor spanje newcombe 1977 voor de vs onder andere geisinger 1982 thorndike 1972 en voor nieuw zeeland uit clift imrie 1981 benadrukt moet worden dat de hierboven aangehaalde auteurs in lang niet alle gevallen precies duidelijk maken op welk onderwijs niveau primair secundair of tertiair de betreffende schaal gehanteerd wordt ook is het vaak niet te achterhalen waar precies de caesuur ligt in evidente twijfelgevallen raadpleegde ik de culturele dienst van de ambassade bij voorbeeld die van frankrijk noorwegen ierland en luxemburg zo ligt volgens de culturele dienst van de franse ambassade de caesuur op de franse middelbare scholen waar men de typische gewoonte heeft een cijfer uit te drukken als een deel van het maximum te behalen punten i c 20 zoals dix sur vingt 10 20 strikt genomen niet vast op de ene school vinden ze 11 20 onvoldoende en hogere cijfers voldoende op de andere 9 20 onvol doende en 10 20 tot 20 20 voldoende op de lagere school in frankrijk gebruiken ze doorgaans de schaal 1 10 maar dit systeem is aan het verande ren steeds meer scholen gaan gebruik maken van letters bibliografie bartels a 1947 75 jaar middelbaar onderwijs 1863 1938 groningen wolters clift j c b w imrie 1981 assessing students appraising teaching new york halsted press combag h f d n de gruyter 1974 eds contemporary issues in educatio nal testing den haag mouton davis f b 1964 educational measurements and their interpretation bellmont calif wadsworth ende j n van den 1954a cijfers op de middelbare school in pedagogische studien 31 p 69 86 ende j n van den 1954b cijfers op de middelbare school in pedagogische studien 31 p 112 129 fortgens h w 1958 schola latina uit het verleden van ons voorbereidend hoger onderwijs zwolle tjeenk willink geisinger k f 1982 marking systems in h e mitzel ed encyclopedia of educational research fifth ed vol 3 1139 1149 new york the free press groot a d de 1968 vijven en zessen cijfers en beslissingen het selectiepro ces in ons onderwijs groningen wolters noordhoff 67 hettema h 1965 het beoordelingssysteem in het zweedse lager onderwijs in pedagogische studien 42 p 393 399 heywood j 1977 assessment in higher education london etc wiley sons horst p 1966 psychological measurement and prediction bellmont calif wadsworth hove 0 1958 an outline of norwegian education 2nd rev ed oslo the royal norwegian ministry of foreign affairs hubrecht p f 1881 de onderwijswetten en hare uitvoering c derde afdeling lager onderwijs tweede deel den haag stemberg hylla e w l wrinkle 1953 die schulen in westeuropa bad neuheim lm christian verlag idenburg ph j 1964 schets van het nederlandse schoolwezen groningen wolters lauwerys j a d g scanion 1969 eds the world year book of education 1969 examinations london evans lord f m m r novick 1968 statistical theories of mental test scores reading mass addison wesley marklund s p soderberg 1967 the swedisch comprehensive school london longmans green co meuffels b 1983 hoe meer hoe beter in tijdschrift voor taalbeheersing 5 p 243 256 newcombe n 1977 europe at school a study of primary and secundary schools in france west germany italy portugal and spain london methu en nunnaly j c 1967 psychometrie theory new york mcgraw hill orring j 1967 die schule in schweden eine ubersicht uber das unterrichts wesen bis zur gymnasialen stufe skoloverstyrelsen so forlaget roozeboom w w 1966 foundations of the theory of prediction homewood 111 dorsey schroter g 1971 die ungerechte aufsatzzensur bochum verlag kamp schultze w 1969 ed schools in europe vol i part a weinheim berlin verlag julius beltz schultze w 1970 ed schools in europe vol ii part a weinheim berlin verlag julius beltz smith a z j e dobbin 1960 marks and marking systems in c w harris ed encyclopedia of educational research third edition 783 791 new york macmillan stanley j c 1971 reliability in r l thorndike ed educational measure ment 2nd ed p 356 443 washington d c one dupont circle starch d 1913 reliability and distribution of grades in science 38 p 630 636 68 terwilliger j s 1966 self reported marking practices and policies in public secundary schools in national association of secundary school principals bulletin 50 p 5 37 thorndike r l 1972 marks and marking systems in g bracht e a eds perspectives in educational and psychological measurement p 164 180 englewood cliffs new jersey prentice hall ulshofer r 1963 welcher grad von objectivitat lasst sich bei der beurteilung deutscher aufsatze erreichen in der deutschunterricht 75 p 104 108 velema e 1959 de comprehensive school in zweden en noorwegen gronin gen wolters weiss r 1965 uber die zuverlassigkeit von ziffernbenotung bei aufsatzen in schule und psychologie 9 p 257 269 manuscript binnengekomen 14 juni 1993 manuscript aanvaard 12 juli 1993 69 70