Het ideale examen Nederlands bestaat niet

Door Helge Bonset

Het ideale examen Nederlands bestaat niet. Dat heeft éen hoofdreden: het conflict tussen validiteit en betrouwbaarheid, twee eisen die aan selectieve toetsen en examens gesteld moeten worden.

De eis van validiteit houdt in dat een toets de kennis of vaardigheid meet die gemeten moet worden, en niet een reductie daarvan, of iets heel anders.

De eis van betrouwbaarheid (in de betekenis van beoordelaarsovereenstemming) houdt in dat een toets zodanig meet dat verschillen in scores toe te schrijven zijn aan objectieve verschillen in kennis of vaardigheid, en niet aan subjectieve verschillen tussen beoordelaars. Bij de toetsing van taalvaardigheid, naast literaire competentie de hoofdmoot van het examen Nederlands, is het helaas zo dat vormen van beoordeling die een hoge betrouwbaarheid garanderen, tegelijk de validiteit verlagen, en vormen die een hoge validiteit garanderen hetzelfde doen met de betrouwbaarheid (Rijlaarsdam & Wesdorp, 1984, p. 20). 

Een voorbeeld. De validiteit van de toetsvorm tekst-met-vragen zou verhoogd worden door alleen open vragen te stellen en alle goed onderbouwde antwoorden op die vragen goed te rekenen. Van een betrouwbare meting is dan echter geen sprake meer, want subjectieve verschillen tussen beoordelaars zullen in het beoordelingsproces de hoofdrol gaan spelen. De betrouwbaarheid van de toetsvorm tekst-met-vragen zou verhoogd worden door alle vragen in meerkeuzevorm te stellen en op het niveau van de betekenis van woorden, zinnen en alinea’s. Er is dan echter van validiteit geen sprake meer: niet de vaardigheid in het begrijpend lezen van een tekst wordt gemeten, maar een reductie daarvan.

Het hier beschreven dilemma leidt onvermijdelijk tot schipperen, polderen en inleveren rondom het examen Nederlands. Het ideale examen komt er nooit, maar we kunnen wel streven naar het optimale. Daarover nu verder.

Centraal examen en schoolexamen 

Het examen Nederlands bestaat, evenals andere examens, uit een centraal examen (c.e.) en een schoolexamen (s.e.).  Het c. e. toetst wat voor alle leerlingen van belang wordt geacht, op een landelijk voorgeschreven wijze Het s.e. biedt de ruimte voor het toetsen van schooleigen doelstellingen op een wijze die de school verkiest, maar vastgelegd is welke domeinen in het s.e. minstens aan de orde moeten komen. 

Het examen in zijn geheel vertoont daarmee een gelukkig evenwicht tussen centrale sturing en ruimte voor scholen. Ook verzacht het bestaan van het s.e. de spanning tussen validiteit en betrouwbaarheid, omdat aan de in het s.e. getoetste domeinen minder zware (want geen landelijke centrale) betrouwbaarheidseisen gesteld hoeven te worden.

Op dit moment bestaat bij Nederlands het c.e. alleen uit leesvaardigheid inclusief argumentatieve vaardigheden. Alle andere domeinen van het schoolvak (literatuur, mondelinge taalvaardigheid, schrijfvaardigheid) maken deel uit van het s.e. Niettemin telt het c.e.-cijfer voor 50% mee in het totale eindexamencijfer. Dat geeft leesvaardigheid te veel gewicht en de overige domeinen te weinig. Het doet ook geen recht aan het belang van de tweede component van geletterdheid: schrijfvaardigheid.

In mijn optimale examen Nederlands maakt schrijfvaardigheid weer deel uit van het c.e., waardoor het c.e. ook beter de domeinen en doelstellingen van het vak Nederlands dekt.

Leesvaardigheid in het centraal examen

Op het centraal examen leesvaardigheid is veel kritiek. Ten onrechte. Natuurlijk beantwoorden mensen in het dagelijks leven geen vragen over een tekst als ze die gelezen hebben. Maar in een toetssituatie zijn die vragen nodig als ‘blijkgevende grootheid’: ze maken het de beoordelaar mogelijk om na te gaan of de leerling de tekst heeft begrepen op het niveau van de doelstellingen van het leesonderwijs. Natuurlijk zou het mooi zijn als leerlingen beloond konden worden voor originele antwoorden die onjuist zijn volgens het correctiemodel, mits die goed zijn onderbouwd. Maar dat het dan niet meer mogelijk is aan betrouwbaarheidseisen te voldoen, heb ik hierboven uitgelegd.

Het centraal examen wordt vaak weggezet als toepassen van ‘trucjes’. Weer ten onrechte. De eindtermen bevatten belangrijke leesvaardigheden: analyseren en interpreteren, beoordelen en samenvatten. Dat de toetsvragen daar ook daadwerkelijk op mikken, is voor iedere niet bevooroordeelde beschouwer zichtbaar. Dat leerlingen geneigd zijn tot een reductionistische strategie (vragen lezen en meteen antwoorden zoeken in de tekst, in plaats van eerst de hele tekst lezen en dan de vragen beantwoorden) of die strategie misschien zelfs van hun docent aangereikt hebben gekregen, doet hieraan niets af: de beoogde en (al dan niet) gedemonstreerde leesvaardigheid blijft dezelfde.

De vragen bij de teksten zijn een mix van open vragen met correctievoorschrift, en gesloten meerkeuzevragen. Ook dit is een voorbeeld van schipperen tussen validiteit en betrouwbaarheid, en naar mijn mening het best haalbare.

Dan de teksten. Het examen toetst of de leerling in staat is teksten te lezen op het niveau van een kwaliteitskrant of –tijdschrift, over onderwerpen van algemeen maatschappelijke aard.  Dat is een keuze die aansluit bij het algemeen vormend karakter van ons voortgezet onderwijs en garandeert dat er geen grote verschillen zijn in voorkennis tussen de leerlingen over het onderwerp van de tekst. Wanneer gekozen zou worden voor bijvoorbeeld teksten over taal-of letterkundige onderwerpen, zou dit betekenen dat kennis daaromtrent voorafgaand landelijk verstrekt en verplicht behandeld zou moeten worden. Dat zou een ongewenste inperking van de vrijheid van onderwijs en van docenten Nederlands betekenen.

De samenvattingsopdracht is een aantal jaren geleden uit het c.e. Nederlands verwijderd, om de betrouwbaarheid van het c.e. te verhogen (betrouwbaarheid hier in de betekenis van interne consistentie). Die betrouwbaarheidswinst blijkt inderdaad geboekt. Maar hoewel ik zelf aan de operatie heb meegewerkt, maakt van mijn optimale c.e. de samenvatting toch weer deel uit: ze toetste op valide wijze een belangrijke vaardigheid en droeg bij aan een gevarieerder c.e. dan het huidige.                                                                                                                                               

Schrijfvaardigheid in het centraal examen 

In het vorige decennium is een pilot uitgevoerd door o.a. CvTE, Cito en SLO naar de mogelijkheid schrijfvaardigheid weer op te nemen in het c.e. Deze is gestaakt omdat de problemen onoplosbaar leken. 

Die waren niet gelegen in de schrijfopdracht. Er werd geëxperimenteerd met opdrachten waarbij leerlingen op grond van aangereikte bronnen een uiteenzetting, beschouwing of betoog moesten schrijven. Wij noemden dit ‘gedocumenteerd schrijven’; het zou nu aangeduid kunnen worden als het schrijven van een  ‘synthesetekst’. Deze opdrachten werden door de deelnemende docenten positief gewaardeerd, ook degenen die minder geporteerd waren voor verplaatsing van schrijfvaardigheid van s.e. naar c.e.

De problemen lagen in de beoordeling. Als ergens het conflict tussen validiteit en betrouwbaarheid opspeelt, is het wel bij de beoordeling van schrijfvaardigheid.  Een schrijfvaardigheidstoets waarbij leerlingen alleen woorden hoeven in te vullen, of zinnen moeten beoordelen en verbeteren, of gebreken in de opbouw van een tekst aanwijzen, heeft een hoge betrouwbaarheid. Maar inhoudsvalide is ze niet, alleen al omdat de leerling niet zelf schrijft.

Een gedocumenteerde tekst als schrijfvaardigheidstoets heeft een hoge inhoudsvaliditeit. Maar hoe kan zo’n tekst betrouwbaar beoordeeld worden in de context van een landelijk eindexamen? Het bleek in diverse experimenten binnen de pilot niet mogelijk een voldoende betrouwbare beoordeling te verkrijgen, noch via globaal beoordelen, noch via analytisch beoordelen, noch via schaalbeoordeling.

Intussen is een nieuwe manier van beoordelen op het toneel verschenen: paarsgewijze vergelijking. Deze methode combineert een holistische en een vergelijkende aanpak: beoordelaars vergelijken telkens globaal twee teksten en geven aan welke de beste is. Nadat de beoordelaar een keuze heeft gemaakt, biedt de computer een nieuw paar aan om te vergelijken. Verschillende beoordelaars nemen deel aan het beoordelingsproces en elke beoordelaar maakt verschillende vergelijkingen na elkaar. Op basis van alle vergelijkingen wordt een schaal opgesteld van de teksten, gerangschikt van lagere tot hogere tekstkwaliteit. 

Onderzoek heeft laten zien dat de scores zowel betrouwbaar als valide zijn (Lesterhuis, 2018). Dankzij het instrument D-PAC is deze beoordelingsprocedure zeer eenvoudig. Wel kost ze natuurlijk tijd en zijn er meerdere beoordelaars nodig. 

In mijn optimale centraal examen Nederlands schrijven de leerlingen (in een tweede zitting) syntheseteksten, die beoordeeld worden via D-PAC. Een utopie misschien. Maar ik zou blij zijn als in een nieuwe pilot de mogelijkheden hiertoe werden onderzocht.

Het schoolexamen  

Binnen het schoolexamen zijn er vele keuzemogelijkheden voor toetsing van domeinen. Sommige zijn beter dan andere als het gaat om validiteit en betrouwbaarheid. Keuze-adviezen worden gegeven in de Handreiking Schoolexamen Nederlands van SLO (Meestringa, Ravesloot & Bonset, 2012). Hier beperk ik me tot een paar belangrijke algemene zaken die zouden moeten veranderen.  

  • In mijn optimale examen Nederlands is het niet meer toegestaan dat domeinen uit het c.e. ook getoetst worden in het s.e. Dit geeft deze domeinen te veel gewicht in het eindcijfer.   
  • Het s.e. krijgt een vrije ruimte van niet meer dan 10%. Hiermee zal taalkunde, of elk ander keuzedomein, het moeten doen, zodat voldoende aandacht gegarandeerd is voor de verplichte domeinen.
  • Er komt een landelijk voorgeschreven weging van de domeinen in het eindcijfer van het s.e.; de verschillen in weging van de domeinen tussen scholen zijn nu veel te groot. Mijn voorkeur (zolang schrijfvaardigheid in het s.e. blijft): literatuur 30%, mondelinge taalvaardigheid 25%, schrijfvaardigheid 35%, keuzedomein 10%.

Literatuur 

Gert Rijlaarsdam & Hildo Wesdorp (1984). Het beoordelen van taalvaardigheid in het onderwijs. Amsterdam: SCO.

Marije Lesterhuis (2018). The validity of comparative judgement for assessing text quality. An assessor’s perspective. Antwerpen: Universiteit Antwerpen (dissertatie). 

Theun Meestringa, Clary Ravesloot & Helge Bonset (2012). Handreiking schoolexamen Nederlands havo/vwo. Herziening naar aanleiding van het referentiekader taal. Enschede: SLO. (Downloadbaar via www.slo.nl).

Met dank aan Alex van de Kerkhof voor zijn verhelderend commentaar.