Talige bronnen van itembias voor allochtone leerlingen in de Eindtoets Basisonderwijs

Publicatie datum: 1994-01-01
Collectie: 12
Volume: 12
Nummer: 2
Pagina’s: 9-29
henny uiterwijk ton vallen talige bronnen van itembias voor allochtone leerlingen in de eindtoets basisonderwijs 1 inleiding in deze bijdrage wordt gerapporteerd over een gedeelte van een door het cito samen met het werkverband taal en minderheden van de letterenfaculteit van de kub uitgevoerd taalkundig onderwijskundig onderzoek naar de bruikbaarheid van de eindtoets basisonderwijs voor allochtone leerlingen in dat project stonden twee thema s centraal allereerst is nagegaan hoe hoog de voorspellende waarde van de eindtoets basisonderwijs is voor allochtone en autochtone leerlingen in vergelijking met de voorspellende waarde van het schoolkeuze advies van de basisschool dit onderzoeksgedeelte heeft met andere woorden betrekking op een vergelijking van de trefzekerheid waarmee door toets en advies het schoolsucces van beide subgroepen van leerlingen in het voortgezet onderwijs wordt ingeschat wanneer er wat de trefzekerheid van de eindtoets als voorspeller van schoolsucces betreft verschillen tussen de onderscheiden subgroepen bestaan is er sprake van toetspartijdigheid of toetsonzuiverheid kortweg aangeduid met de term toetsbias dit deel van het uitgevoerde project blijft in onderhavig artikel verder buiten beschouwing wel kan er samenvattend over worden opgemerkt dat het advies van de basisschool voor zowel autochtone als allochtone leerlingen een iets hogere voorspellende waarde heeft dan de eindtoets en dat zowel het advies als de eindtoets het schoolsucces van allochtone leerlingen in het voortgezet wat minder trefzeker voorspellen dan dat van autochtone leerlingen uiterwijk 1994 biedt uitvoerige informatie over dit gedeelte van het onderzoek de tweede een u ale onderzoekscomponent binnen het project was niet gericht op de toets als geheel maar op de afzonderlijke opgaven items waaruit de eindtoets basisonderwijs bestaat daarbij werd in eerste instantie statistisch onderzocht of de toets items bevat waarbij allochtone leerlingen in vergelijking met autochtone leerlingen die over dezelfde vaardigheden beschikken toch nog een ongelijke kans hebben om die items goed te beantwoorden bij die items waarbij dat het geval is kan in navolging van kok 1988 gesproken worden van vraagpartijdigheid ook wordt hiervoor wel de aanduiding vraagonzuiverheid gehanteerd de internationaal gangbare term voor dit fenomeen is itembias en deze zal naast het nederlandse equivalent partijdigheid in de rest van dit artikel worden gebruikt in een tweede fase van dit onderzoeksgedeelte is een poging ondernomen om na te gaan wat bij de statistisch gebiaste items de inhoudelijke met name talige oorzaken van de partijdigheid zouden kunnen zijn in het onderstaande zal hierop het accent liggen behalve via een zoekexercitie in de literatuur werden de voor dit gedeelte van het onderzoek relevante gegevens vooral ingewonnen door middel van een tweetal spiegel 12 1994 nr 2 9 29 procedures waarmee getracht werd talige bronnen van itembias op het spoor te komen na de start van het project bleek al snel dat met name het onderzoek naar itembias in meerdere opzichten een ontdekkingsreis vol voetangels en klemmen zou worden zo werd duidelijk dat in de verenigde staten weliswaar veel aandacht is geschonken aan statistische procedures voor het opsporen van itembias teneinde partijdige items uit toetsen te kunnen verwijderen maar tevens bleek dat vergelijkbare procedures vaak niet tot identieke resultaten leiden op de vraag bij hoeveel items van een bepaalde toets sprake is van bias zijn dan ook verschillende antwoorden mogelijk verder bleek dat met het zoeken van inhoudelijke oorzaken van itembias zowel in als buiten nederland bijzonder weinig ervaring is opgedaan goed gefundeerde taalkundige verklaringen inzake itembias voor allochtone leerlingen ontbreken geheel en al door de afwezigheid van een theoretisch kader voor inhoudelijke bronnen van itembias voor allochtone leerlingen dragen de conclusies die op basis van het onderhavige onderzoek in dit verband worden getrokken dan ook een voorlopig karakter in de volgende paragrafen worden van de beide procedures ter detectie van inhoudelijke bronnen van itembias in het kort de opzet en de belangrijkste resultaten besproken daaraan voorafgaand wordt in paragraaf 2 allereerst nader ingegaan op het onderscheid tussen de moeilijkheidsgraad van een item en itembias 2 1 en op de opzet en de resultaten van het uitgevoerde statistisch onderzoek naar itembias 2 2 in paragraaf 3 geven we eerst een korte samenvatting van de belangrijkste resultaten van een literatuurstudie naar potentiele talige en culturele bronnen van itembias 3 1 daarna beschrijven we doelstelling en opzet 3 2 en de resultaten 3 3 van een bij leerlingen uitgevoerde hardop denken procedure in paragraaf 4 komen doelstelling en opzet 4 1 en de resultaten 4 2 aan de orde van een procedure waarmee een aantal experts is gevraagd naar hun oordelen over problemen met het maken van eindtoetsitems voor allochtone basisschoolverlaters in paragraaf 5 ten slotte zal een samenvattend overzicht worden gegeven van de belangrijkste potentiele talige bronnen van itembias en zullen enkele suggesties worden gedaan ter voorkoming van dit soort ongewilde benadelingen voor allochtone kinderen in toetsen en andere evaluatie instrumenten 2 probleemstelling opzet en resultaten van het statistisch itembias onderzoek 2 1 probleemstelling hoewel de schoolresultaten in het basisonderwijs en de doorstroming van de basisschool naar het voortgezet onderwijs bij de meeste groepen allochtone leerlingen de laatste jaren wat zijn verbeterd blijven hun scores nog steeds beduidend achter bij die van hun autochtone klasgenoten zie bijvoorbeeld calo 1992 en tesser 10 1993 ook de scores op de eindtoets basisonderwijs waarvan het jaarlijks aantal deelnemers inmiddels tot boven de 100 000 gestegen is laten dit beeld zien zoals bekend bestaat deze toets uit 180 items evenredig verdeeld over de onderdelen taal rekenen en informatieverwerking gemiddeld hebben de marokkaanse en turkse leerlingen de meeste moeite met deze opgaven maar ook de kinderen van surinaamse en antilliaanse afkomst scoren door de bank genomen toch ook gemiddeld nog een standaarddeviatie onder het gemiddelde van de autochtone leerlingen zie uiterwijk vallen 1991 en uiterwijk 1994 bij het zoeken naar verklaringen voor de soms aanzienlijke verschillen in eind toetsscores tussen autochtone en allochtone leerlingen moet rekening worden gehouden met twee principieel van elkaar verschillende mogelijkheden de eerste is dat de scoreverschillen veroorzaakt worden door de uiteenlopende mate waarin juist die vaardigheden worden beheerst die de toets beoogt te meten dit is op zich niets bijzonders en geen reden tot twijfel over de kwaliteit constructvaliditeit van de toets het komt regelmatig voor dat de resultaten van verschillende bevolkingsgroepen i c subgroepen van leerlingen op toetsen toetsitems verschillend zijn omdat de ene subgroep gemiddeld vaardiger in het te meten construct is dan de andere als bijvoorbeeld de items van een taaltoets voor bepaalde subgroepen leerlingen moeilijker zijn dan voor andere wordt in de meeste gevallen voldaan aan de functie van die items of de taaltoets als geheel het discrimineren tussen meer en minder taalvaardige groepen leerlingen met betrekking tot de taal die wordt getoetst de tweede mogelijkheid is dat scoreverschillen tussen subgroepen veroorzaakt worden door verschillen die de toets een item niet beoogt te meten maar die ongewild toch meespelen of gemeten worden wanneer voor het juist beantwoorden van de items nog andere vaardigheden nodig zijn dan de vaardigheden die de items beogen te meten kan afbreuk gedaan worden aan de constructvaliditeit van het meetinstrument de constructvaliditeit is in het geding wanneer die benodigde additionele vaardigheden niet bij alle onderscheiden subgroepen bijvoorbeeld autochtonen en allochtonen in gelijke mate aanwezig zijn in dat geval is er sprake van itembias dat kan bijvoorbeeld het geval zijn wanneer het niet tot het te meten construct behorende taalgebruik in een rekenitem voor bijvoorbeeld allochtone leerlingen dermate ingewikkeld is dat ze daardoor niet of in onvoldoende mate aan het uitvoeren van de beoogde rekenoperatie toekomen of daaraan onvoldoende aandacht kunnen besteden allochtone leerlingen die over dezelfde reken vaardigheid beschikken als autochtone hebben dan ten onrechte en onbedoeld een geringere kans op een goed antwoord bij dit voorbeeld is er sprake van itembias ten nadele van allochtone leerlingen maar het kan natuurlijk ook voorkomen dat een toets items bevat die partijdig zijn ten voordele van deze subgroep van leerlingen dat is het geval wanneer voor het correct kunnen oplossen van een item additionele vaardigheden vereist zijn waarover allochtone leerlingen in grotere mate beschikken dan gelijkpresterende autochtone uit het bovenstaande zal duidelijk zijn dat itembias niet hetzelfde is als de moeilijkheidsgraad van een item daarnaast is gebleken dat het alvorens onderzoek 11 naar itembias van start kan gaan allereerst duidelijk moet zijn welke specifieke vaardigheid toetsitems beogen te meten zoals uit 1 reeds naar voren is gekomen was de bedoeling van het uitgevoerde onderzoek niet alleen om in de eindtoets opgaven op te sporen waarbij van itembias sprake is maar ook om potentiele inhoudelijke met name talige bronnen daarvan aan te geven 22 opzet en resultaten van het statistisch itembias onderzoek ten behoeve van het totale project zijn over alle leerlingen die in 1987 n 80 685 en 1989 n 92 448 aan de eindtoets basisonderwijs deelnamen via een schriftelijke vragenlijst die samen met de toetsopgaven aan hun leerkrachten was toegestuurd een aantal achtergrondgegevens ingewonnen de respons op deze vragenlijst bedroeg respectievelijk 73 2 1987 en 67 8 1989 in het kader van het deelonderzoek naar itembias voor allochtone leerlingen was het uiteraard van belang om via de betreffende vragenlijst na te gaan tot welke etnische groepen de toetsdeelnemers behoren de vaststelling daarvan is een ingewikkelde opgave zie o a extra verhoeven 1993a zeker wanneer daaromtrent slechts een vraag gesteld kan worden die voor leerkrachten snel en eenduidig beantwoordbaar moet zijn uiteindelijk werd besloten deze vraag te operationaliseren door te vragen naar het herkomstland van beide ouders waarbij echter aangetekend moet worden dat bij eenouder gezinnen het herkomstland van de ouder bij wie het kind woont gold en bij tweede generatiekinderen bijvoorbeeld bij chinezen en molukkers de herkomst van de grootouders in de beschouwing werd betrokken bij de indeling in etnische groepen werd in eerste instantie aangesloten bij de zesdeling van extra vallen 1985 en extra verhoeven 1993b nederland mediterrane landen ex koloniale gebieden chinezen politieke vluchtelingen en overige landen deze zes globale en intern zeer heterogene hoofdgroepen werden op basis van een schatting van het aantal te verwachten leerlingen in groep acht van het basisonderwijs en rekening houdend met het feit dat voor de geplande statistische analyses een ondergrens van zo n 500 leerlingen per subgroep nodig is vgl bijvoorbeeld intraprasert 1986 en zieky 1993 opgesplitst in twaalf subgroepen nederlanders turken marokkanen chinezen molukkers antillianen surinamers creolen surinamers hindoestanen en vier meerdere herkomstlanden omvattende restgroepen uiteindelijk bleken slechts de subgroepen van leerlingen uit twee etnische minderheidsgroepen omvangrijk genoeg n 500 om in de statistische itembiasanalyses te kunnen worden betrokken turkse leerlingen n 797 in 1987 en n 919 in 1989 en marokkaanse leerlingen n 720 in 1987 en n 907 in 1989 als referentiegroep werd een steekproef van autochtone leerlingen genomen n 4969 in 1987 en n 5000 in 1989 voor statistisch onderzoek naar itembias zijn verschillende procedures beschikbaar die in twee groepen verdeeld kunnen worden procedures die werken volgens 12 klassieke testtheorie en procedures die werken volgens itemresponsetheorie irt zonder hier nader op de ins en outs en de pro s en contra s van en de verschillen tussen beide typen procedures in te gaan zie daarvoor uiterwijk 1994 zij opgemerkt dat uit eerder uitgevoerd statistisch itembiasonderzoek naar voren is gekomen dat irt en klassieke testtheorieprocedures niet tot identieke resultaten leiden daarom werden in het onderhavige onderzoek technieken gebruikt die op beide typen procedures gebaseerd zijn als klassieke testtheorieprocedure werd de in de laatste jaren veel gebruikte mantel haenszel techniek mh toegepast zie o a verhelst 1988 voor het itembiasonderzoek onder het irt model werd het computerprogram ma one parameter logistic model oplm gebruikt verhelst 1992 zoals verwacht laten de resultaten van de statistische analyses naar itembias zien dat het uitermate lastig is om exact aan te geven hoeveel opgaven van de eindtoets 1987 en 1989 in totaal 360 items partijdig zijn de beide typen analyses laten namelijk een verschillend beeld zien globaal samengevat zie voor verdere uitwerkingen uiterwijk 1994 komt dit op het volgende neer uit de analyses met de irt procedure blijkt dat 20 van de in totaal 360 geanalyseerde items 6 partijdig zijn voor turkse en of marokkaanse leerlingen de analyses met de mh procedure leveren een aantal van 45 partijdige items op 13 voor turken en of marokkanen in totaal zijn er 13 items 4 partijdig bij zowel de irt als de mh procedure bij alle analyses werd een significantiegrens van 1 gehanteerd het zal duidelijk zijn dat de irt procedure minder gebiaste items opspoort dan de mh techniek een gegeven dat ook uit ander onderzoek naar voren komt zoals reeds aangegeven in 2 1 kunnen gebiaste items partijdig zijn in het voordeel of in het nadeel van turkse en marokkaanse leerlingen uit de analyses komt naar voren dat van de 13 items die volgens de beide statistische procedures gebiast zijn er drie partijdig zijn in het voordeel van een of beide etnische groepen en tien in het nadeel verder blijken gebiaste items nooit partijdig te zijn in het voordeel voor turkse leerlingen en tegelijkertijd in het nadeel voor marokkaanse en omgekeerd omdat ondanks de kleine overlap de resultaten op de beide gehanteerde statistische biasdetectieprocedures nogal verschillend zijn en omdat niet eenduidig kan worden vastgesteld welke van beide procedures duidelijk de voorkeur verdient zie voor een vergelijking en een afweging van de voor en nadelen uiterwijk 1994 zijn de opgaven die volgens beide procedures partijdig zijn betrokken in de activiteiten die in het kader van het project werden uitgevoerd om de inhoudelijke oorzaken van itembias op het spoor te komen de twee experimenten die in dat opzicht werden ontwikkeld en uitgevoerd staan in de volgende paragrafen centraal 13 3 doelstelling opzet en resultaten van een bij leerlingen afgenomen hardop denken procedure 3 1 potentiele bronnen van item bias voorafgaand aan en tijdens de statistische biasanalyses werd op basis van een uitgebreide literatuurstudie een inventarisatie gemaakt van de problemen die allochtone basisschoolverlaters met het nederlands als t2 ondervinden en van de problemen waarmee ze mogelijk geconfronteerd worden op grond van het feit dat hun culturele achtergrond verschillend is van de autochtone mainstream in nederland uiteraard werd daarbij speciaal aandacht geschonken aan problemen die relevant geacht kunnen worden wanneer betreffende kinderen de eindtoets moeten maken de linguistische en culturele factoren die uit die inventarisatie naar voren kwamen kunnen uiteraard niet zonder meer als inhoudelijke biasbronnen worden beschouwd maar ze geven wel een indruk van de richting waarin gedacht moet worden voor het verkrijgen van een beeld omtrent potentiele linguistische en culturele bronnen van itembias in de jong vallen 1989 coenen vallen 1991 uiterwijk vallen 1991 en uiterwijk 1994 is uitvoerig verslag gedaan van deze inventarisatie daarom kan hier worden volstaan met een opsomming van de belangrijkste linguistische en culturele probleemvelden wat het eerste betreft doen zich vooral problemen voor op het terrein van de nederlandse woordenschat o a woordkennis en kennis van woordcombinaties moeilijkheidsgraad van woorden mede in samenhang met woordfrequentie woordambiguiteit woordsamenstelling zinscom plexiteit o a zinslengte onderschikking inbedding vraagzinnen en tekstcomple xiteit o a tekstuele referenties verwijswoorden tekstsignalen wat de potentiele culturele biasbronnen betreft wordt in de literatuur vooral gewezen op de culturele lading van teksten en op cultureel bepaalde toetservaring de elementen van deze groslijst kunnen elkaar op verschillende punten overlappen of met elkaar samenhan gen het is dan ook niet toevallig dat bijvoorbeeld in veel onderzoek culturele voorkennis wordt gemeten met behulp van een woordenschattoets vanwege de grote hoeveelheid en diversiteit van factoren was het noodzakelijk in het verdere onderzoek een inperking aan te brengen in de inhoudelijke biasanaly ses besloten werd een accent op de linguistische factoren te leggen en in een eventueel vervolgonderzoek de culturele factoren nader onder de loep te nemen 3 2 doelstelling en opzet de bedoeling van het uitgevoerde hardop denken experiment was om na te gaan of en hoe vaak door qua niveau vergelijkbare allochtone en autochtone leerlingen bij een aantal oorspronkelijke statistisch sterk ten nadele van allochtonen partijdige opgaven van de eindtoets 1987 een fout antwoord wordt gegeven ten gevolge van itemelementen die op grond van de uitgevoerde literatuurstudie als potentiele biasbronnen werden beschouwd tevens werd middels het experiment beoogd te 14 onderzoeken of en hoe vaak bij gemanipuleerde items ten gevolge van de itemmanipulatie een goed antwoord wordt gegeven dezelfde items werden dus in hun oorspronkelijke en in een gemanipuleerde vorm aan de leerlingen voorgelegd ter verduidelijking zij opgemerkt dat het bij gemanipuleerde items gaat om items waarbij het itemelement dat als potentiele biasbron wordt beschouwd bijvoorbeeld hoeveel moet hij betalen inclusief b t w is vervangen door een itemelement waarvan verwacht wordt dat het geen bias veroorzaakt bijvoorbeeld hoeveel moet hij betalen met b t w de deelnemende autochtone en allochtone leerlingen moesten eerst de hen voorgelegde oorspronkelijke respectievelijk gemanipuleerde items goed bestuderen daarna het naar hun oordeel goede antwoord aankruisen en tot slot zo uitgebreid en nauwkeurig mogelijk mondeling toelichten hoe ze de taakstelling van elk item opgelost hadden als een leerling een item fout oploste of een onduidelijke toelichting gaf werd door de proefleidster doorgevraagd enerzijds om achter de foutenbron te komen en anderzijds om na te gaan of de leerling de door het item gemeten vaardigheid beheerste de gesprekken werden op audio cassette vastgelegd bij het afluisteren van de opnamen werd er vooral op gelet of de itemelementen die een potentiele biasbron konden zijn voor de leerlingen inderdaad een probleem vormden bij het oplossen van het item tegen de achtergrond van de problematiek bias versus moeilijkheidsgraad zie 2 1 is het volgende nog van belang met het oog op de uitgevoerde itemmanipulaties er mag in verband met de constructvaliditeit verondersteld worden dat in bijvoorbeeld rekenopgaven de talige context in hoge mate communaal is of op z n minst niet zo n hoge taalvaardigheid nederlands veronderstelt dat hij op grond daarvan discrimineert tussen allochtone en autochtone leerlingen indien de talige context wel tussen beide subgroepen van leerlingen zou discrimineren dan moeten de in talig opzicht lastige itemelementen vervangen worden door talige elementen die wel communaal zijn bij taalopgaven kan ook onderscheid gemaakt worden tussen de taal vaardigheid die het item beoogt te meten en de daarvoor benodigde talige context een taaiitem moet de verschillen tussen leerlingen blootleggen in zoverre het gaat om hetgeen het item wil meten maar net als bij rekenen moet ook hier de talige context communaal zijn in het onderdeel taal van de eindtoets staan teksten waarin opzettelijk talige tekortkomingen zijn aangebracht deze taalopgaven vragen aan de leerlingen om te beoordelen of een woord of een zinsconstructie in een bepaalde tekst of de opbouw van die tekst al dan niet in orde is in een aantal gevallen moeten de leerlingen daarbij ook verbeteringen in de tekst aanbrengen in de praktijk is het bij taalopgaven vaak moeilijk om aan te geven waar de scheiding ligt tussen de taalvaardigheid die een item meet en de talige context ervan zo kan een item vragen na te gaan of in een tekst een bepaald verwijswoord juist gebruikt is de inhoud van de tekst als geheel alsmede die van de zin nen waarin het verwijswoord en zijn referent staan de talige context spelen voor het correct beantwoorden van de opgave een belangrijke rol naast inzicht in de linguistische conventies inzake de relatie verwijswoord en referent de te meten vaardigheid de verwevenheid van context 15 en te meten taaj vaardigheid maakt het bij een groot deel van de taalopgaven uitermate moeilijk om deze te manipuleren zonder de constructvaliditeit aan te tasten als partijdige opgaven op de juiste wijze gemanipuleerd worden is te verwachten dat allochtone leerlingen bij de gemanipuleerde opgaven minder fouten maken dan bij de oorspronkelijke items en dat allochtone en autochtone leerlingen met hetzelfde reken vaardigheidsniveau ongeveer evenveel gemanipuleerde opgaven goed maken wellicht dat de items dan bij beide subgroepen leerlingen beter de vaardigheid meten die ze beogen te meten van belang hierbij blijft uiteraard wel dat het oorspronkelijke en het gemanipuleerde item dezelfde vaardigheid blijven meten ten behoeve van het hardop denken experiment werden 17 opgaven uit de toetsonderdelen taal 5 items rekenen 8 items en informatieverwerking 4 items van de eindtoets 1987 geselecteerd die bij de mh analyses sterk partijdig in het nadeel van turkse en of marokkaanse leerlingen waren bij de keuze van de items speelde tevens een rol dat ze zodanig gemanipuleerd moesten kunnen worden dat de vaardigheid die ze in hun oorspronkelijke vorm pretenderen te meten door de manipulatie niet werd aangetast dit had tot gevolg dat de opgaven slechts minimaal gemanipuleerd werden de manipulaties hadden vooral betrekking op onnodig moeilijke woorden complexe grammaticale en of ambigue zinsconstructies en op impliciete zins en tekststructuren in enkele gevallen vonden ook manipulaties van de grafische contexten plaats om veronderstelde onduidelijkheden in tekeningen kaarten en tabellen te verwijderen de gekozen items kunnen niet beschouwd worden als een representatieve steekproef uit alle eindtoetsopgaven de 17 items zijn in toetsversie a in hun oorspronkelijke vorm getoetst en in toetsversie b in de gemanipuleerde vorm ze zijn voorgelegd aan 44 leerlingen uit groep acht van vijf basisscholen in concreto ging het daarbij om 22 paren van telkens qua niveau vergelijkbare autochtone en allochtone leerlingen aan de ene helft van de paren werden de oorspronkelijke items toetsversie a ter oplossing en bespreking voorgelegd aan de andere helft de gemanipuleerde toetsversie b om het effect van de manipulaties goed te kunnen nagaan hadden in principe beide toetsversies aan dezelfde leerlingen moeten worden voorgelegd uiteraard met een interval van enkele maanden het nadeel van een dergelijke opzet is echter dat er dan een grote kans bestaat dat de leerlingen zich bij de tweede afname bepaalde opgaven herinneren met andere woorden de geheugenfactor speelt dan een niet te controleren rol in overleg met de leerkrachten werd daarom telkens bij elke allochtone leerling een autochtone leerling geselecteerd die vergelijkbaar was op factoren die voor schoolsucces van belang zijn zoals sociaal economische achtergrond taalvaardigheid nederlands tekenvaardigheid motivatie doubleergeschiedenis eindtoetsscore en schoolkeuze advies van de basisschool alle allochtone leerlingen moesten bovendien voldoen aan twee criteria ze moesten thuis een etnische minderheidstaal spreken en ze moesten minimaal vanaf groep drie het nederlandse basisonderwijs volgen bij de verdeling van de leerlingen over beide toetsversies is erop gelet dat het prestatieniveau van beide groepen leerlingen zoveel mogelijk vergelijkbaar was 16 onder de leerlingen die toetsversie a dan wel b maken zitten evenveel leerlingen met een lbo mavo of havo advies bij de autochtone en allochtone leerlingen was het aantal jongens en meisjes gelijk de groep allochtone leerlingen bestond uit elf turkse en acht marokkaanse leerlingen en een chinese een antilliaanse en een braziliaanse leerling de turkse en marokkaanse leerlingen waren nagenoeg gelijk verdeeld over beide toetsversies 33 resultaten de gemiddelde scores van de autochtone en allochtone leerlingen die toetsversie a respectievelijk toetsversie b maakten geven een eerste indicatie voor het effect dat de itemmanipulatie heeft gehad het betreft slechts een indicatie omdat het aantal leerlingen per cel n l 1 en het aantal items k 17 gering is en omdat niet met volledige zekerheid kan worden gezegd of de onderscheiden subgroepen exact even vaardig zijn in wat de items beogen te meten in tabel 1 staat per onderscheiden subgroep het gemiddelde percentage goed gemaakte opgaven tabel 1 gemiddeld percentage goed gemaakte antwoorden per subgroep toetsversie allochtonen n 11 autochtonen n 11 taal versie a k 5 58 2 78 2 versie b k 5 67 3 87 3 verschil b a 9 1 9 1 rekenen versie a k 8 36 4 55 7 versie b k 8 53 4 58 0 verschil b a 17 0 2 3 informatieverwerking versie a k 4 52 3 84 1 versie b k 4 72 7 84 1 verschil b a 20 4 0 totaal versie a k 17 46 5 69 0 versie b k 17 62 0 72 7 verschil b a 15 5 3 7 uit tabel 1 blijkt dat de allochtone leerlingen die de gemanipuleerde items gemaakt hebben in totaal gemiddeld 15 5 meer items goed maken dan de allochtone leerlingen die de oorspronkelijke items hebben gemaakt bij de autochtone leerlingen bedraagt het verschil slechts 3 7 het verschil tussen het gemiddelde percentage goed van de allochtone en autochtone leerlingen die de oorspronkelijke toetsversie maakten is 22 5 bij de gemanipuleerde versie bedraagt het gemiddeld 17 verschilpercentage tussen beide groepen nog 10 7 de gegevens uit tabel 2 laten verder zien dat de allochtone leerlingen grosso modo meer geprofiteerd hebben van de itemmanipulaties dan de autochtone verder lijken de itemmanipulaties differentiele effecten te hebben voor de items uit de drie toetsonderdelen van de eindtoets bij het onderdeel informatieverwerking maken de allochtone leerlingen alle gemanipuleerde items beter dan de oorspronkelijke wat een toename in het gemiddeld aantal goed gemaakte opgaven van ruim 20 oplevert terwijl de autochtonen geen profijt van de manipulaties hebben gehad hun score blijft hetzelfde ook drie van de acht rekenitems zijn door de allochtone leerlingen in de gemanipuleerde versie beter gemaakt dan in de oorspronkelijke versie bij de overige rekenitems zijn er nauwelijks verschillen de toename in de correctscore bij de gemanipuleerde rekenitems bedraagt voor de allochtonen 17 terwijl de correctscore voor de autochtonen nauwelijks stijgt ruim 2 zowel de oorspronkelijke als de gemanipuleerde items worden door de autochtonen beter gemaakt dan door de allochtonen maar het verschil tussen beide subgroepen is bij de gemanipuleerde items veel kleiner geworden bij rekenen is het verschil gedaald van 19 3 naar 4 6 en bij informatieverwerking van 31 8 naar 11 4 de itemmanipulaties bij het onderdeel taal zijn minder succesvol geweest de autochtonen lijken er in gelijke mate van te hebben geprofiteerd als de allochtonen ruim 9 toename van de correctscore dit zou erop kunnen wijzen dat met de talige manipulatie van de taaiitems niet de mogelijke biasbron geelimineerd is maar dat de moeilijkheidsgraad van de items veranderd is de items zijn voor iedereen gemakkelijker geworden ook het gegeven dat er naast de drie gemanipuleerde taaiitems die door de allochtone leerlingen beter werden gemaakt twee zijn die in hun oorspronkelijke vorm beter werden gemaakt zou een indicatie in die richting kunnen geven over de vraag of de veronderstelde inhoudelijke biasbronnen in de 17 bij het hardop denken experiment betrokken opgaven ook werkelijk voor allochtonen een rol speelden moesten de geregistreerde leerlinguitspraken en de op basis daarvan gemaakte protocolanalyses uitsluitsel geven dat was geen eenvoudige opgave omdat uit de protocollen voor de afzonderlijke items en de afzonderlijke kinderen verschillende beelden naar voren kwamen bij sommige items die door allochtone leerlingen vaker fout werden beantwoord dan door autochtone bestond wel de indruk dat de te meten vaardigheid werd beheerst maar bij andere niet bij sommige items die in afzonderlijke concrete stappen opgelost moeten worden konden deze deel vaardigheden apart bevraagd worden maar dat was minder eenvoudig of onmogelijk bij items waarbij dat niet het geval is om een zo duidelijk mogelijke indruk te geven behandelen we daarom in het onderstaande bij wijze van voorbeeld twee rekenopgaven en een opgave voor informatieverwerking de doelstelling van die drie statistisch sterk in het nadeel van allochtone leerlingen gebiaste items heeft primair met de meting van andere vaardigheden van doen dan met de meting van taalvaardigheid nederlands de kwestie van interferentie van taalbias en beoogde moeilijkheid behoort daarom bij deze items niet aan de orde te zijn de items worden 18 telkens eerst in hun oorspronkelijke en daarna in hun gemanipuleerde vorm gepresenteerd het gemanipuleerde deel van het item is steeds gecursiveerd oorspronkelijke versie 1987 rekenen 57 vader koopt een naaimachine deze kost 800 zonder b t w de b t w is 20 hoeveel moet vader betalen inclusief b t w a 160 b 640 c 820 d 960 gemanipuleerde versie vader koopt een naaimachine deze kost 800 zonder b t w de b t w is 20 wat moet vader voor de naaimachine betalen met b t w a 160 b 640 c 820 d 960 de talige manipulatie van dit rekenitem bestaat met name hierin dat de vraag anders is geformuleerd o a een w vraag in plaats van een h vraag en dat het woord inclusief is vervangen door het woord met de oorspronkelijke versie wordt door zes van de elf allochtone leerlingen fout beantwoord en door twee van de elf autochtone bij de gemanipuleerde versie geven nog twee allochtone leerlingen en een autochtone leerling een fout antwoord uit de protocol analyses blijkt dat bij drie allochtone leerlingen en een autochtone het woord inclusief duidelijk de oorzaak van de fout is waarvan er een allochtone echter ook problemen heeft met het berekenen van procenten als in plaats van inclusief de aanduiding met in het oorspronkelijke item zou zijn gebruikt had dat naar het eigen oordeel van de leerlingen voor twee allochtone leerlingen geen verschil uitgemaakt maar vier allochtone en twee autochtone leerlingen geven te kennen dat de opgave daardoor voor hen begrijpelijker zou zijn geweest 19 oorspronkelijke versie 1987 rekenen 52 per jaar gaf een gezin gemiddeld 1500 uit aan aardappels en groenten ze wilden bezuinigen ze huurden een jaar een tuin van 200 vierkante meter voor 2 per vierkante meter de overige onkosten waren 80 ze moesten nog voor een bedrag van 400 aan aardappelen en groenten in de winkel kopen de rest kwam uit de tuin hoeveel had dat gezin bespaard met tuinieren a 620 b 820 c 920 d 1020 gemanipuleerde versie per jaar koopt mevrouw knol voor 1500 groenten dat vindt ze teveel geld daarom huurt ze voor een jaar een groentetuin van 200 vierkante meter die tuin kost f2 per vierkante meter de spullen die ze voor de tuin nodig heeft kosten nog 80 omdat de tuin veel groenten oplevert hoeft mevrouw knol nog maar voor f 400 aan groenten in de winkel te kopen hoeveel geld heeft mevrouw knol met haar groentetuin bespaard a 620 b 820 c 920 d 1020 de leerlingen moeten bij dit item uit de tekst opmaken welke bewerkingen ze achtereenvolgens moeten uitvoeren door het relatief grote aantal getallen dal in een omvangrijke talige context is ingebed en gebruikt moet worden doet deze rekenopgave een groot beroep op taalvaardigheid nederlands het is dan ook niet zo verwonderlijk dat de meerderheid van de allochtone leerlingen grote problemen met de oorspronkelijke opgave heeft daarom is in de gemanipuleerde versie die met name door de allochtonen beduidend beter werd gemaakt met meer expliciete en duidelijker op elkaar aansluitende formuleringen gewerkt daarnaast heeft personificatie plaatsgevonden mevrouw knol in plaats van de verzamelnaam gezin verder bevat de oorspronkelijke opgave niet alleen veel maar ook een aantal complexe verwijzingen bijvoorbeeld het verwijswoord ze in de tweede zin dat getalsmatig afwijkt van zijn antecedent in de eerste zin een gezin uit de literatuur is het bekend dat de verwijzingssystematiek van het nederlands voor allochtonen een specifiek probleem vormt dat ze pas in een vrij laat t2 verwervingsstadium onder de knie krijgen 20 oorspronkelijke versie 1987 informatieverwerking 40 sterfte en geboortecijfers in vier landen 60 65 70 75 80 85 60 65 70 75 80 85 landb land d 80 66 70 75 80 85 60 65 70 75 80 85 geboorte sterfte van welk land kan men zeggen dat het aantal geboorten toeneemt en het aantal sterfgevallen afneemt a van land a b van land b c van land c d van land d gemanipuleerde versie zie de grafieken sterfte en geboortecijfers in vier landen van de bovenstaande oorspronkelijke versie van het item in welk land is tussen 1960 en 1985 het aantal geboorten gestegen en het aantal sterfgevallen gedaald a in land a b in land b c in land c d in land d bij de overige rekenitems doen zich soortgelijke en andere talige problemen bij allochtonen voor bij een opgave waarin de vraag gesteld wordt welk bootje heeft in verhouding tot zijn lengte de langste mast wordt zijn lengte vaak opgevat als de lengte van de mast ook blijkt een aanduiding de overige onkosten zie hiervoor bij het ongemanipuleerde rekenitem 52 zorg voor heel wat problemen en de aanduiding 21 een halfprocent wordt door sommige allochtone leerlingen begripsmatig verward met de helft zo nu en dan leveren ook de bij de rekenitems behorende tekeningen problemen voor allochtonen op in de gemanipuleerde versie van item informatieverwerking 40 zie vorig pagina is de vraagstelling meer expliciet gemaakt en zijn toenemen en afnemen vervangen door respectievelijk stijgen en dalen de oorspronkelijke versie wordt door vijf van de elf allochtone leerlingen fout beantwoord en door geen enkele autochtone leerling uit de protocol analyses blijkt dat twee allochtone leerlingen de legenda niet meteen opmerken omdat die erg dicht op de grafieken staat vier allochtone leerlingen hebben problemen met de woorden toenemen en afnemen een van deze leerlingen die aan afnemen de betekenis iemand zijn spullen afpakken toekent komt via de redenering dat de drie andere grafieken raar zijn toch uiteindelijk op het goede antwoord uit alle vier de allochtonen die problemen hebben met de betekenis van de oorspronkelijke combinatie van werkwoorden begrepen het begrippenpaar stijgen dalen wel bij de gemanipuleerde versie gaven twee allochtone leerlingen en een autochtone een fout antwoord bij de overige opgaven voor informatieverwerking spelen vooral visuele onduidelijkheden een rol maar het kon niet vastgesteld worden of dat voor allochtonen en autochtonen in verschillende mate geldt met inachtneming van de in het voorafgaande genoemde beperkingen o a klein aantal deelnemers en items geen complete zekerheid of de oorspronkelijke en de gemanipuleerde items hetzelfde meten en of de leerlingen die beide versies maakten even vaardig zijn in wat de items beogen te meten kan gezegd worden dat de hardop denken procedure aanwijzingen heeft gegeven dat talige biasbronnen voor allochtone leerlingen voor een groot deel op het gebied van woordgebruik en impliciete zins en tekstverbanden gezocht moeten worden daarnaast leiden ongebruikelijke uitdrukkingen en woordvormgelijkenissen tot problemen de complexiteit van de opgaven speelt eveneens een rol complexe items vereisen doorgaans meer context en voor het oplossen van dergelijke items moet de leerling meestal een aantal tussenstappen maken welke dat zijn moet meestal uit de talige context afgeleid worden door hun geringere taalvaardigheid nederlands kunnen allochtone leerlingen derhalve meer moeite met complexe items hebben dat geldt des te meer wanneer er in dergelijke items veel verwijswoorden voorkomen verder blijft het uiteraard mogelijk dat de itemcontext voor allochtone leerlingen minder herkenbaar is dan voor autochtone dat geldt met name voor contextmateriaal dat cruciaal is voor het oplossen van een item meer uitgebreide informatie over het hardop denken experiment wordt gegeven in coenen vallen 1991 en uiterwijk 1994 22 4 doelstelling opzet en resultaten van de expert bevraging 4 1 doelstelling en opzet de expert bevraging had een tweeledige doelstelling binnen het project werd de noodzaak ingezien om na te gaan of de door de onderzoekers op basis van de uitgevoerde literatuurstudie voorlopig geformuleerde zie 3 1 en via het hardop denken experiment op beperkte schaal tentatief onderzochte zie 3 3 potentiele bronnen van itembias aansluiten bij de oordelen die ter zake deskundigen hebben over de problemen die turkse en marokkaanse leerlingen ondervinden bij het maken van statistisch gebiaste eindtoetsitems daarnaast werd met dit deelonderzoek nagegaan in hoeverre de oordelen van de bevraagde experts onderling overeenstemmen in totaal werden 84 items uit de eindtoetsen van 1987 en 1989 aan 16 experts voorgelegd deze items bestonden voor verreweg het grootste deel uit opgaven die bij minimaal drie van de uitgevoerde mh analyses zie 2 2 significant partijdig zijn in het voordeel of het nadeel van turkse en of marokkaanse leerlingen om het aandeel van de items ten voordele van beide groepen leerlingen wat te verhogen bestond een relatief klein deel van de items uit opgaven die bij alle mh analyses niet significant in het voordeel van beide groepen leerlingen zijn de totale aan de experts voorgelegde itemlijst bestond uit 37 taalopgaven 31 rekenopgaven en 16 opgaven voor informatieverwerking de experts is gevraagd om kenbaar te maken welke items en itemelementen naar hun oordeel moeilijker dan wel gemakkelijker zijn voor allochtone leerlingen en om de oorzaken daarvoor zo uitgebreid mogelijk te expliciteren bovendien werd hen gevraagd om bij hun beoordeling en explicatie zoveel mogelijk te differentieren naar turkse en marokkaanse kinderen de experts wisten uiteraard vooraf niet of een item partijdig is ten voor of nadele van deze leerlingen zoals uit het bovenstaande blijkt is de experts niet gevraagd om bij hun beoordeling een onderscheid te maken tussen items die gebiast zijn ten voor of ten nadele van beide allochtone leerlinggroepen omdat de experts dan ook duidelijk voor ogen zouden moeten hebben ten aanzien van welke deel vaardigheden allochtone en autochtone leerlingen een gelijk prestatieniveau hebben zie de omschrijving van itembias in 2 1 wat natuurlijk niet het geval kon zijn de dimensie moeilijk er gemakkelijk er geeft weliswaar op een andere wijze aan of een item in het voor of het nadeel van allochtone leerlingen is maar kan niettemin als een variatie op de dimensie partijdig in het voor of nadeel worden beschouwd de beoordelingen werden door de experts per afzonderlijk item gegeven in een mondeling interview door een van de projectmedewerkers daardoor bestond de mogelijkheid om verdere toelichting en explicatie te vragen alle interviews werden op audio cassette opgenomen en achteraf bestudeerd de complete lijst met te beoordelen opgaven werd enkele weken voorafgaand aan het interview aan betrokkenen toegezonden zodat deze zich terdege konden voorbereiden 23 van de 16 bevraagde deskundigen waren er 11 van autochtone en 5 van allochtone afkomst drie deskundigen waren werkzaam in de dagelijkse praktijk van het basisonderwijs 2 allochtone onderwijsgevenden en 1 autochtone en 2 autochtone experts waren bij het cito werkzaam als toetsconstructeurs de overige 11 waren als taalkundigen 2 allochtone en 7 autochtonen of als onderwijskundigen 1 allochtoon en 1 autochtoon werkzaam aan de universiteit maar hadden allen ervaring in en of gebleken belangstelling voor toets en of curriculumontwikkeling omdat ze op linguistisch en of cultureel terrein mogelijk verschillende inzichten suggesties of ideeen zouden kunnen verschaffen werden zowel autochtone als allochtone deskundigen bij het onderzoek betrokken verdere informatie over opzet afnameprocedure wijze van analyseren alsmede een samenvatting van de gevoerde gesprekken en een uitgebreidere bespreking van de onderstaande resultaten zijn opgenomen in van de waal heijkants 1992 en uiterwijk 1994 4 2 resultaten uit de analyses van de met de experts gevoerde gesprekken komt in de eerste plaats naar voren dat het geven van een oordeel over de moeilijkheidsgraad van items of itemonderdelen voor allochtone basisschoolverlaters niet eenvoudig is zo maken de experts qua moeilijkheidsgraad voor allochtonen bijvoorbeeld geen onderscheid tussen de rekenitems die op de volgende pagina staan terwijl de statistische biasanalyses daar overduidelijk wel aanleiding toe geven de eerste opgave 1989 rekenen 27 is significant partijdig in het nadeel van zowel turkse als marokkaanse leerlingen terwijl het tweede 1989 rekenen 57 weliswaar niet significant een bias ten voordele van beide groepen leerlingen laat zien nagenoeg alle experts beschouwden deze twee items als gelijkwaardig op de dimensie moeilijk gemakkelijk een van hen merkt over item 27 op dat de referentie dat en de formulering 1 van elke 2 moeilijke elementen voor allochtone leerlingen zijn twee experts zijn van oordeel dat bij item 57 voor allochtone leerlingen de moeilijkheid in de complexiteit van de opdracht zit alle andere deskundigen voorzien voor allochtone leerlingen geen problemen bij beide opgaven er is uiteraard onderzocht in welke mate de experts erin slagen aan te geven of een item voor allochtone leerlingen moeilijker is dan voor autochtone per item is daarom nagegaan of meer dan de helft van de respondenten zegt dat het item moeilijker is voor allochtone leerlingen en of dat item inderdaad ook partijdig is in het nadeel van deze groep leerlingen op dit punt bleek er bij 31 van de 84 items 37 geen overeenstemming lussen het oordeel van de meerderheid van de experts en de richting voor of nadeel van de partijdigheid 24 1989 rekenen 27 op de arkschool is 1 van elke 2 kinderen lid van een club hoeveel procent is dat a v4 b 33v4 c 50 d 100 1989 rekenen 57 de olieprijs daalde van 20 tot 15 dollar per vat hoeveel procent daalde de prijs a 3 b 4 c 5 d 25 tevens is vastgesteld hoe hoog de samenhang is tussen het aantal experts dat zegt dat een item moeilijker voor allochtone leerlingen is en de mate van itembias aantal keren in het voordeel respectievelijk in het nadeel van allochtone leerlingen deze samenhang is niet hoog te noemen r 30 pc 01 feit is natuurlijk dat de dimensies partijdig in het voor of nadeel en gemakkelijk moeilijk niet hetzelfde zijn maar het is niet aannemelijk te veronderstellen dat dit onderscheid de geringe trefzekerheid van de experts verklaart verder kwam uit de analyses naar voren dat de experts niet of nauwelijks onderscheid maken tussen moeilijke gemakkelijke items voor turkse en marokkaanse leerlingen de item oordelen van de experts op de dimensie moeilijk gemakkelijk komen onderling sterk overeen en sluiten bovendien in hoge mate aan bij de bevindingen van de projectonderzoekers ook de experts benadrukken dat items die vragen naar woordkennis en kennis van idiomatische uitdrukkingen een grote kans maken moeilijk te zijn voor allochtonen daarnaast wijzen de experts inzake de moeilijkheden voor allochtonen op de problematiek van de cultureel bepaalde voorkennis die voor het kunnen maken van sommige items vereist is deze voorkennis kan volgens hen bijvoorbeeld een aanzienlijke rol spelen bij die items waarbij een uitvoerige tekst als contextmateriaal fungeert bij een groot aantal van de voorgelegde items waren de experts van oordeel dat deze geschreven zijn vanuit een nederlandse cultuurkennis en daardoor voor veel allochtone leerlingen minder herkenbaar zijn 25 zeer opmerkelijk is dat de experts niet erg trefzeker zijn in het onderscheiden van items in het voor dan wel in het nadeel van turkse en marokkaanse leerlingen maar toch in hoge mate aansluiten bij de oordelen van de onderzoekers over bronnen van itembias de voor de experts onbekende reden hiervan zou kunnen zijn dat bij partijdige items in het voordeel van turkse en of marokkaanse leerlingen vaak dezelfde inhoudelijke bron van itembias aan de orde is als bij items die partijdig zijn in het nadeel het aantal van eerstgenoemde is echter aanzienlijk kleiner zie 2 2 door dit gegeven wordt mogelijk de betekenis afgezwakt van enkele eerder als inhoudelijke bron van itembias genoemde categorieen itemclusters die uitsluitend partijdige items in het nadeel van turkse en of marokkaanse leerlingen kennen zijn woordkennis en kennis van woordcombinaties en rekenitems met relatief veel context bij het clusters spelling is de situatie overigens omgekeerd aan de hierboven geschetste de meeste partijdige spellingitems zijn in het voordeel van turkse en of marokkaanse leerlingen en slechts enkele in hun nadeel 5 samenvattende conclusies en voorzichtige praktijksuggesties op basis van de uitgevoerde literatuurstudie en de voorafgaande paragrafen kan allereerst worden geconcludeerd dat onderzoek naar itembias nog met veel onzekerheden is omgeven ook het door ons uitgevoerde onderzoek naar itembias in de eindtoetsen basisonderwijs van 1987 en 1989 laat duidelijk zien dat het op dit moment gezien de stand van de theorie ontwikkeling en de onderzoeksmatige mogelijkheden uitermate lastig is om empirisch stevig gefundeerde uitspraken te doen over de vraag welke items om welke inhoudelijke reden en partijdig zijn in het voor dan wel in het nadeel van allochtone met name turkse en marokkaanse leerlingen een en ander neemt niet weg dat ons onderzoek ook inzichten heeft opgeleverd over de vraag in welke richting verder gewerkt zou moeten worden en bovendien plausibele bronnen van talig inhoudelijke itembias heeft gegenereerd die plausibiliteit is vooral daarin gelegen dat de resultaten van de diverse procedures om inhoudelijke biasbronnen op het spoor te komen bij items die zowel volgens de mh als de irt procedure partijdig zijn op een aantal punten overeenstemmen wanneer immers verschillende procedures in de richting van dezelfde biasbronnen wijzen dan is de mate van zekerheid hierover groter wat ons betreft geldt dat laatste vooral ten aanzien van de volgende bronnen van itembias tekst en zinsbegrip in termen van begrijpend lezen items die op macroniveau naar globaal tekstbegrip vragen hebben kans op itembias in het voordeel van turkse en marokkaanse leerlingen hierbij gaat het om vragen als wat wil de schrijver in de eerste 10 regels vooral duidelijk maken of welke conclusie kun je uit de laatste alinea trekken items die op meso en microniveau een beroep doen op tekstbegrip zoals dat het geval is bij vragen naar de betekenis van zinnen of verbanden tussen zinnen of vragen naar de verbanden tussen of de betekenis van woordgroepen of combinaties 26 van woordgroepen hebben een gerede kans op itembias in het nadeel van allochtone kinderen dit geldt in het bijzonder wanneer om een woordelijke of geparafraseerde herhaling van expliciet in de tekst gegeven informatie wordt gevraagd het verschillende beeld dat naar voren komt ten aanzien van tekstbegrip op macro versus meso microniveau zien we ook in hacquebord 1989 in aansluiting bij het bovenstaande kan nog worden opgemerkt dat ook moeilijke referenties bijvoorbeeld over langere tekstpassages heen of verwijzingen waarbij het bijwoord er een functie vervult of potentieel ambigue referenties zoals het verwijzende het en verwijswoorden als die deze en ze die een enkelvoudig of een meervoudig antecedent kunnen hebben tot itembias in het nadeel van allochtonen kunnen leiden woordkennis en kennis van woordcombinaties items die vragen naar de betekenis van woorden en combinaties van woorden en waarbij de betekenis van die woorden niet of moeilijk uit de context van het item kan worden afgeleid hebben eveneens een sterke kans op itembias in het nadeel van allochtone leerlingen correct taalgebruik items die betrekking hebben op de kennis van de vorm van vaste letterlijk of figuurlijk gebruikte woordcombinaties bijvoorbeeld ergens zonder kleerscheuren afkomen en of conventies op het gebied van de zinsbouw zinsvolgorde inversie vraagvormen hebben eveneens een kans om partijdig te zijn in het nadeel van turkse en marokkaanse leerlingen spelling items die vragen om spellingfouten in werkwoorden en in woorden met een vast woordbeeld aan te geven hebben een kans op itembias in het voordeel van allochtone leerlingen de mate van zekerheid inzake het optreden van bias en bronnen van itembias is bij andere hierboven niet gememoreerde clusters geringer omdat die items bijvoorbeeld alleen partijdig zijn volgens de mh procedure dat geldt ook voor de hierboven vermelde opgaven waarin referenties een cruciale rol spelen toch kan daarbij sprake zijn van een wat grotere mate van zekerheid omdat referenties bij twee typen vraagclusters als belangrijke biasbron in alle uitgevoerde exercities naar voren komen bij tekst en zinsbegrip wanneer expliciet naar de betekenisrelaties wordt gevraagd en bij rekenitems met relatief veel context omdat er geen sprake kan zijn van volledige overeenstemming tussen de uitkomsten van de verschillende statistische itembiasdetectieprocedures kan op dit moment niet met volstrekte zekerheid ten aanzien van het merendeel van de 360 onderzochte items worden aangegeven of deze partijdig zijn of niet bij een klein gedeelte van de items is die overeenstemming er wel en is de duidelijkheid dus groter door het 27 hanteren van meerdere procedures kunnen verder echter ook verschillen in de gradaties in de partijdigheid van items worden opgespoord die richting kunnen geven aan verder onderzoek ook de vraag welk element in een item verantwoordelijk is voor itembias kan in de meeste gevallen vooralsnog nog niet eenduidig worden beantwoord de bron van itembias kan bijvoorbeeld in het contextmateriaal in de vraagstelling de antwoordmogelijkheden en in de te meten deel vaardigheid zitten naarmate het contextmateriaal omvangrijker wordt is het moeilijker de biasbron op het spoor te komen en aan te wijzen verder kan ook de voorkennis over hetgeen in teksten aan de orde wordt gesteld een potentiele biasbron zijn scheuneman 1985 uiterwijk vallen 1991 en schmitt e a 1992 geven aan dat via verschillende wegen inhoudsanalyse expertbevraging experimenten informatie over biasbronnen verzameld kan worden als uiteindelijk zoals in ons onderzoek met een zekere mate van waarschijnlijkheid een aantal biasbronnen zijn opgespoord dan blijft nog de vraag of die biasbronnen ook daadwerkelijk afbreuk doen aan de constructvaliditeit van een toets of niet algemeen kan daarover worden opgemerkt dat wanneer een bron van itembias tot de te meten vaardigheid behoort het item meet wat het behoort te meten wanneer een biasbron echter niet tot de te meten vaardigheid behoort dan doet het item afbreuk aan de constructvaliditeit van de toets zo moeten bronnen van itembias op het gebied van de woordenschat geen rol spelen bij rekenitems maar mogen ze wel voorkomen in taaiitems inzoverre met die items beoogd wordt een bijdrage te leveren aan het meten van woordkennis itembias als zodanig beperkt de constructvaliditeit van een toets dus niet in alle gevallen het aantal tot nu toe bekende bronnen van itembias dat met een redelijk grote mate van zekerheid bias veroorzaakt is in feite gering met inachtneming van het hierboven gestelde lijkt het zinvol dat toetsconstructeurs leerkrachten en anderen die bij de ontwikkeling van allerlei tests toetsen en andere evaluatie instrumenten betrokken zijn in ieder geval rekening houden met de vier behandelde clusters van biasbronnen voor allochtone leerlingen verdere uitwerking van dit punt en een bespreking van een aantal relevante aandachtspunten voor toekomstig wetenschappelijk en toepassingsgericht itembiasonderzoek komen aan de orde in uiterwijk 1994 bibliografie calo commissie allochtone leerlingen in het onderwijs ceders in de tuin naar een nieuwe opzet van hel onderwijsbeleid voor allochtone leerlingen zoetermeer ministerie van onderwijs en wetenschappen 1992 coenen m t vallen itembias in de eindtoets basisonderwijs in pedagogische studien 68 1 15 26 1991 extra g t vallen languages and ethnic minorities in the netherlands current issues and research areas in g extra t vallen eds ethnic minorities and dutch as a second language 1985 dordrecht foris publications 1 13 28 extra g l verhoeven community languages in cross cultural perspective in g extra l verhoeven eds community languages in the netherlands 1993a amsterdam etc swets zeitlinger 1 28 extra g l verhoeven a bilingual perspective on turkish and moroccan children and adults in the netherlands in g extra l verhoeven eds immigrant languages in europe 1993b clevedon etc multilingual matters 68 100 hacquebord h tekstbegrip van turkse en nederlandse leerlingen in het voortgezet onderwijs dordrecht foris publications 1989 intraprasert d an investigation of the reliability of five methods for detecting test item bias an empirical study denton north texas state university 1986 jong m de t vallen linguistische en culturele bronnen van itembias in de eindtoets basisonderwijs voor leerlingen uit etnische minderheidsgroepen in pedagogische studien 66 2 1989 390 402 kok f vraagpartijdigheid amsterdam universiteit van amsterdam 1988 scheunemann j exploration of causes of bias in test items princeton educational testing service 1985 schmitt e a evaluating hypotheses about differential item functioning princeton educational testing service 1992 tesser p rapportage minderheden 1993 rijswijk sociaal en cultureel planbureau 1993 uiterwijk h de bruikbaarheid van de eindtoets basisonderwijs voor allochtone leerlingen arnhem instituut voor toetsontwikkeling cito 1994 uiterwijk h t vallen de bruikbaarheid van de cito eindtoets basisonderwijs voor leerlingen uit etnische minderheidsgroepen een eerste analyse in r van hout e huls red artikelen van de eerste sociolinguistische conferentie 1991 delft eburon 395 410 verhelst n de mantel haenszel toetsen arnhem instituut voor toetsontwikkeling 1988 verhelst n het eenparameter logistisch model oplm een theoretische inleiding en een handleiding bij hel computerprogramma arnhem instituut voor toetsontwikkeling 1992 zieky m practical questions in the use of dif statistics in test development in p holland h wainer eds differential item functioning hillsdale lawrence erlbaum associates 1993 82 104 waal heijkants m van de expert oordelen over potentiele bronnen van itembias in de eindtoets basisonderwijs tilburg kub doctoraalscriptie faculteit letteren 1992 manuscript binnengekomen 2 september 1994 manuscript aanvaard 8 september 1994 29 sm