De geringe betrouwbaarheid van de eindexamens Nederlands

Door Michel Couzijn

Eerlijk is eerlijk, de manier waarop in onze CITO-examens Franse taalvaardigheid of wiskundig vernuft wordt geëxamineerd, kent ook vreemde beperkingen en is evenmin een voorbeeld van de manier waarop leerlingen buiten school hun Franse of wiskundige bekwaamheden moeten aanwenden.

Toch hoor je daar nooit zoveel geklaag over als over het examen Nederlands. Noch onder leraren, noch bij het grote publiek. Hoe kan dat? Het kan verband houden met een opvallend kwaliteitsgebrek bij de examens Nederlands: de lage betrouwbaarheid.

‘Betrouwbaarheid’ is een toetstechnische kwaliteit die o.a. aangeeft hoeveel staat je kunt maken op een individuele uitslag. Had de ‘6’ niet ook een ‘5’ of een ‘7’ kunnen wezen, een dag eerder of later, of met een nét iets andere vraagformulering, of met de teksten in een andere volgorde? Ook wispelturigheid van & onderlinge verschillen tussen beoordelaars spelen mee.

Voor examendoeleinden hoort deze betrouwbaarheid boven de 0.80 te liggen – vraag er een testpsycholoog maar eens naar – en dat is bij de meeste examens inderdaad het geval. Bij het examen Nederlands echter ligt die waarde al zeker 17 jaar (sinds ik er op let) tussen de 0,36 en 0,58. Dat is niet best! Het betekent dat we al vele jaren leerlingen examineren met een toets die niet aan behoorlijke eisen voldoet t.a.v. betrouwbaarheid/homogeniteit. Het lukt het CITO maar niet die betrouwbaarheid te verhogen.

Waar komt dat door? Er zijn volgens mij twee factoren die de lage betrouwbaarheid in de hand werken:

  • de brede opvatting van ‘leesvaardigheid’ die tot een examen wordt verwerkt;
  • het dikwijls dubieuze karakter van ‘het goede antwoord’.

In de pakweg 40 vragen die een examen Nederlands telt, worden veel uiteenlopende lees-, begrijp- en soms formuleervaardigheden getest, die ook nog eens in diverse contexten worden aangescherpt. Van herhaald meten van een bepaalde lees- of denkvaardigheid is nauwelijks sprake. Terwijl dat nu juist bijdraagt aan de betrouwbaarheid. Van het ‘identificeren van drogreden X’ via het ‘reconstrueren van redenering Y’ tot het ‘interpreteren van zinnetje Z’. Elke leerling krijgt voor elke deelvaardigheid ‘one shot’. Die 40 items in het examen moeten zeker 30 verschillende deelvaardigheden representeren. Dat zou ik wel eens vergeleken willen zien met een examen Frans (waarvoor de betrouwbaarheid elk jaar boven de 0,80 ligt).

Het dubieuze karakter van ‘het goede antwoord’ is de tweede betrouwbaarheidbedreigende factor. Bevoegde & ervaren leraren Frans en wiskunde zijn het al snel eens over wat ‘het goede antwoord’ moet zijn, en halen altijd cijfers in de buurt van de 10 als ze hun eigen examens maken. Daar moet je eens om komen bij bevoegde & ervaren leraren Nederlands. Die mogen blij zijn met een 8, en met een globaal idee van consensus. Er is onder neerlandici traditioneel veel meningsverschil over wat ‘het goede antwoord’ op een bepaalde vraag moet zijn. Veel meer dan bij Frans of wiskunde.

Daar komt dan nog de beoordeelbaarheid bij. Ooit gaf ik 50 ervaren examendocenten Nederlands één examenwerkje (van een leerling uit mijn klas) ter beoordeling. De zuinigste gaf er 18 punten voor, de gulste 31 punten. De rest zat daar ergens tussen, maar varieerde flink. Er waren veel open vragen in dat examen, en dat was de pest voor de eensgezindheid in de beoordeling. Dat is niet fraai. Ik wist wel bij welke docent ik mijn kinderen in de klas zou willen hebben…

Hier beland ik bij een pijnlijk punt. Bij alle terechte kritiek op het huidige examen Nederlands, geloof ik er niet in dat een ander type examen ‘effe snel’ het hoofdprobleem wegneemt. Poly-interpretabiliteit (3 maal woordwaarde) van taal bestaat nu eenmaal, en dat kan een rechtvaardige en consistente examinering in de wielen blijven rijden.

Wie veel hooi op zijn vork neemt – zoals van examinandi willen weten of die ‘een kritische houding ten opzichte van de tekst’ kan aannemen of ‘tussen de regels door kan lezen’ of ‘zich een beeld kan vormen van de onderliggende tekststructuur’ of ‘de deugdelijkheid van de argumentatie kan nagaan’ – loopt tegen de diversiteit in opvattingen aan onder leraren. En onder taalkundigen. En onder journalisten. Je mag daar ook best ‘eigenwijsheid’ in lezen, vrij letterlijk zelfs.

Toch zijn deze fraaie tekstvaardigheden op het eerste gezicht best valide, in de zin van representatief voor de vaardigheden die studenten in hun vervolgopleidingen moeten uitoefenen. Maar wil je die valide en dus betrouwbaar toetsen, dan zal dat niet lukken in één examenzitting van drie uur. Dan heb je meer examenzittingen nodig, plus een batterij goedgetrainde beoordelaars.

Het alternatief is de opvatting van wat ‘leesvaardigheid’ is, versmallen tot de meest eenduidig te toetsen deelvaardigheden. Liefst met gesloten vragen (waar ik trouwens helemaal niet tegen ben; de huidige open-vragenhype is niet echt aan mij besteed). Dan moeten we niet bang zijn de items die de meeste roet in het eten gooien qua betrouwbaarheid, uit de examens te bannen. Ik wed dat je dan de vraagtypen overhoudt waar de betrokken docenten het al snel over eens worden. En dan kun je in één zitting klaar wezen.

Want zo is de verhouding tussen validiteit en betrouwbaarheid van examens. Wil je meer validiteit, meer échte, interessante leesvaardigheid toetsen, dan gaat dat vaak ten koste van de betrouwbaarheid en zal onenigheid een grotere rol spelen. Wil je meer betrouwbaarheid en eensgezindheid, dan zal dat ten koste gaan van de validiteit, van de moeilijk te beoordelen interpretatievaardigheden.

Betrouwbaarheid en validiteit worden daarom ook wel eens ‘de vechtende tweeling’ genoemd: elk willen ze aan het langste eind trekken, maar ten koste van elkaar. Dat leerde ik uitgerekend van een CITO-medewerker die ooit belast was met de constructie van het eindexamen Nederlands HV. Maar ook hij kon dit principiële probleem niet zomaar oplossen.