De geringe betrouwbaarheid van de eindexamens Nederlands

Door Michel Couzijn

Eerlijk is eerlijk, de manier waarop in onze CITO-examens Franse taalvaardigheid of wiskundig vernuft wordt geëxamineerd, kent ook vreemde beperkingen en is evenmin een voorbeeld van de manier waarop leerlingen buiten school hun Franse of wiskundige bekwaamheden moeten aanwenden.

Toch hoor je daar nooit zoveel geklaag over als over het examen Nederlands. Noch onder leraren, noch bij het grote publiek. Hoe kan dat? Het kan verband houden met een opvallend kwaliteitsgebrek bij de examens Nederlands: de lage betrouwbaarheid.

‘Betrouwbaarheid’ is een toetstechnische kwaliteit die o.a. aangeeft hoeveel staat je kunt maken op een individuele uitslag. Had de ‘6’ niet ook een ‘5’ of een ‘7’ kunnen wezen, een dag eerder of later, of met een nét iets andere vraagformulering, of met de teksten in een andere volgorde? Ook wispelturigheid van & onderlinge verschillen tussen beoordelaars spelen mee.Voor examendoeleinden hoort deze betrouwbaarheid boven de 0.80 te liggen – vraag er een testpsycholoog maar eens naar – en dat is bij de meeste examens inderdaad het geval. Bij het examen Nederlands echter ligt die waarde al zeker 17 jaar (sinds ik er op let) tussen de 0,36 en 0,58. Dat is niet best! Het betekent dat we al vele jaren leerlingen examineren met een toets die niet aan behoorlijke eisen voldoet t.a.v. betrouwbaarheid/homogeniteit. Het lukt het CITO maar niet die betrouwbaarheid te verhogen.

Waar komt dat door? Er zijn volgens mij twee factoren die de lage betrouwbaarheid in de hand werken:

de brede opvatting van ‘leesvaardigheid’ die tot een examen wordt verwerkt;
het dikwijls dubieuze karakter van ‘het goede antwoord’.

In de pakweg 40 vragen die een examen Nederlands telt, worden veel uiteenlopende lees-, begrijp- en soms formuleervaardigheden getest, die ook nog eens in diverse contexten worden aangescherpt. Van herhaald meten van een bepaalde lees- of denkvaardigheid is nauwelijks sprake. Terwijl dat nu juist bijdraagt aan de betrouwbaarheid. Van het ‘identificeren van drogreden X’ via het ‘reconstrueren van redenering Y’ tot het ‘interpreteren van zinnetje Z’. Elke leerling krijgt voor elke deelvaardigheid ‘one shot’. Die 40 items in het examen moeten zeker 30 verschillende deelvaardigheden representeren. Dat zou ik wel eens vergeleken willen zien met een examen Frans (waarvoor de betrouwbaarheid elk jaar boven de 0,80 ligt).

Het dubieuze karakter van ‘het goede antwoord’ is de tweede betrouwbaarheidbedreigende factor. Bevoegde & ervaren leraren Frans en wiskunde zijn het al snel eens over wat ‘het goede antwoord’ moet zijn, en halen altijd cijfers in de buurt van de 10 als ze hun eigen examens maken. Daar moet je eens om komen bij bevoegde & ervaren leraren Nederlands. Die mogen blij zijn met een 8, en met een globaal idee van consensus. Er is onder neerlandici traditioneel veel meningsverschil over wat ‘het goede antwoord’ op een bepaalde vraag moet zijn. Veel meer dan bij Frans of wiskunde.

Daar komt dan nog de beoordeelbaarheid bij. Ooit gaf ik 50 ervaren examendocenten Nederlands één examenwerkje (van een leerling uit mijn klas) ter beoordeling. De zuinigste gaf er 18 punten voor, de gulste 31 punten. De rest zat daar ergens tussen, maar varieerde flink. Er waren veel open vragen in dat examen, en dat was de pest voor de eensgezindheid in de beoordeling. Dat is niet fraai. Ik wist wel bij welke docent ik mijn kinderen in de klas zou willen hebben…

Hier beland ik bij een pijnlijk punt. Bij alle terechte kritiek op het huidige examen Nederlands, geloof ik er niet in dat een ander type examen ‘effe snel’ het hoofdprobleem wegneemt. Poly-interpretabiliteit (3 maal woordwaarde) van taal bestaat nu eenmaal, en dat kan een rechtvaardige en consistente examinering in de wielen blijven rijden.

Wie veel hooi op zijn vork neemt – zoals van examinandi willen weten of die ‘een kritische houding ten opzichte van de tekst’ kan aannemen of ’tussen de regels door kan lezen’ of ‘zich een beeld kan vormen van de onderliggende tekststructuur’ of ‘de deugdelijkheid van de argumentatie kan nagaan’ – loopt tegen de diversiteit in opvattingen aan onder leraren. En onder taalkundigen. En onder journalisten. Je mag daar ook best ‘eigenwijsheid’ in lezen, vrij letterlijk zelfs.

Toch zijn deze fraaie tekstvaardigheden op het eerste gezicht best valide, in de zin van representatief voor de vaardigheden die studenten in hun vervolgopleidingen moeten uitoefenen. Maar wil je die valide en dus betrouwbaar toetsen, dan zal dat niet lukken in één examenzitting van drie uur. Dan heb je meer examenzittingen nodig, plus een batterij goedgetrainde beoordelaars.

Het alternatief is de opvatting van wat ‘leesvaardigheid’ is, versmallen tot de meest eenduidig te toetsen deelvaardigheden. Liefst met gesloten vragen (waar ik trouwens helemaal niet tegen ben; de huidige open-vragenhype is niet echt aan mij besteed). Dan moeten we niet bang zijn de items die de meeste roet in het eten gooien qua betrouwbaarheid, uit de examens te bannen. Ik wed dat je dan de vraagtypen overhoudt waar de betrokken docenten het al snel over eens worden. En dan kun je in één zitting klaar wezen.

Want zo is de verhouding tussen validiteit en betrouwbaarheid van examens. Wil je meer validiteit, meer échte, interessante leesvaardigheid toetsen, dan gaat dat vaak ten koste van de betrouwbaarheid en zal onenigheid een grotere rol spelen. Wil je meer betrouwbaarheid en eensgezindheid, dan zal dat ten koste gaan van de validiteit, van de moeilijk te beoordelen interpretatievaardigheden.

Betrouwbaarheid en validiteit worden daarom ook wel eens ‘de vechtende tweeling’ genoemd: elk willen ze aan het langste eind trekken, maar ten koste van elkaar. Dat leerde ik uitgerekend van een CITO-medewerker die ooit belast was met de constructie van het eindexamen Nederlands HV. Maar ook hij kon dit principiële probleem niet zomaar oplossen.

Gerelateerd

Reacties

Herma van den Brand zegt

16 mei 2016 om 14:27

Ik denk dat ik het met je eens ben, Michel. Een examen met alleen maar meerkeuzevragen toetst in ieder geval echt en alleen maar leesvaardigheid. Het probleem is dat leesvaardigheid, zoals nu ook al, een veel te zwaar gewicht heeft in de vaststelling van het eindcijfer voor het vak Nederlands, dat immers veel meer dan alleen leesvaardigheid inhoudt, namelijk ook literatuur, schrijf-, spreek- en luistervaardigheid. Die onderdelen zijn echter niet zo valide te toetsen als de leesvaardigheidstoets die jij voorstelt. Hoe dat probleem op te lossen? Ik ben er nog niet uit. Misschien moet het gewicht van het CE-leesvaardigheid slechts voor twintig procent het eindcijfer bepalen?

Beantwoorden
Sterre zegt

17 mei 2016 om 09:05

Hoe kan het eigenlijk dat de betrouwbaarheid van het examen Frans zo veel hoger ligt dan dat van Nederlands? Dat is immers ook een taal, dus je zou kunnen denken dat die poly-interpretabiliteit ook daar een rol speelt. Is de leesvaardigheid in een vreemde taal zo veel beter te meten?

Beantwoorden
- Marc van Oostendorp zegt
  
  17 mei 2016 om 09:40
  
  Ik vermoed dat bij de vreemde talen als ’tussen de regels lezen’, ‘de tekststructuur doorzien’, e.d., minder spelen. Ook die poly-interpretabiliteit speelt mogelijk minder een rol, simpelweg omdat er een ‘lager’, technischer niveau van leesvaardigheid wordt getoetst. Validiteit en betrouwbaarheid zitten elkaar aldus minder in de weg.
  
  Beantwoorden
  - Sterre zegt
    
    17 mei 2016 om 10:07
    
    Ja dat zal het zijn. Ik herinner me van mijn examen Frans dat er veel korte tekstjes waren, waar je dan een paar vrij feitelijke vragen over moest beantwoorden. Dat zou voor Nederlands te makkelijk zijn. Tant pis.
    
    Beantwoorden
- Hannes Minkema zegt
  
  17 mei 2016 om 10:07
  
  Dag Sterre, dat is precies de vraag die ik in bovenstaand artikel heb geprobeerd te beantwoorden. Om kort te gaan: in de examens Nederlands en Frans wordt niet dezelfde ‘leesvaardigheid’ getoetst.
  
  In de vragen bij het examen Nederlands komen meer en ingewikkelder begrips- en interpretatievaardigheden voor. Elke onderscheiden deelvaardigheid komt maar weinig (een of twee keer) voor in het examen; dat is een nadeel voor de betrouwbaarheid.
  
  Daarnaast is er de veelgehoorde klacht over de dubieuze aard van menig ‘goed antwoord’, waar bij het examen Nederlands vaker verschillend over wordt gedacht (ook door experts) dan bij Duits, Frans of Engels.
  
  Eén element ben ik nog vergeten: per dit jaar komt er nog een troublerende factor bij. Hoewel het examen leesvaardigheid moet toetsen, wordt een gebrekkige schrijfvaardigheid strenger aangerekend. Daardoor wordt het examen nóg heterogeren, met ongetwijfeld zijn weerslag op de (on)betrouwbaarheid.
  
  Kennelijk willen ‘we’ dat…
  
  Beantwoorden
Lucas zegt

17 mei 2016 om 17:55

Als buitenstaander ben ik wel benieuwd: wat zijn de precieze leerdoelen van Nederlands op de middelbare school? Leesvaardigheid, zoals al blijkt, is op zichzelf niet een heel zinnig handvat als dat niet duidelijk gedefinieerd is. Dat daar onenigheid over is moet geen bezwaar zijn, als maar heel duidelijk is vastgelegd wat binnen het examen verstaan wordt onder leesvaardigheid.

De simpele oplossing is altijd meerkeuzevragen, dan is er minder mogelijkheid tot twisten. Het “nadeel” van meerkeuzevragen is dat het passieve kennis toetst: herkenning. Als dat voor de leerdoelen van het vak geen bezwaar is, dan is dat natuurlijk een prima oplossing. Al leidt dat inherent tot een nieuwe horde: antwoordopties verzinnen die op elkaar lijken, maar wel elkaar uitsluiten, en waarbij maar één antwoord goed is. De ruimte voor interpretatie en argumentatie ontbreekt nu eenmaal.

Beantwoorden
- Marc van Oostendorp zegt
  
  17 mei 2016 om 18:12
  
  Hier zijn de eindtermen van dit jaar.
  
  Beantwoorden

De geringe betrouwbaarheid van de eindexamens Nederlands

Vind ik leuk:

Gerelateerd

Inschrijven voor de Dagpost

Delen:

Vind ik leuk:

Gerelateerd

Lees Interacties

Reacties

Laat een reactie achterReactie annuleren

Footer

Inschrijven voor de Dagpost