Linguistisch Miniatuurtje CLX: Hallo!

Ik kan er niks aan doen, maar ik doe toch ook nog even een duit in het zakje van die discussie over dat Groot Nationaal Onderzoek over taal, dat Marc van Oostendorp al voor een groot deel heeft gevuld. Marc ging vooral in op het dédain waarmee de onderzoekers over de, laten we zeggen, reguliere linguïstiek spraken. Daarmee opende hij een doos van Pandora waarin alle controverses zaten tussen verschillende disciplines van de taalkunde, en in zijn algemeenheid een aantal fundamentele wetenschappelijk-methodologische twistpunten. Die kwamen dus allemaal weer vrij en verspreidden zich over de aarde. Ik dacht: er moet toch nog een sprankje hoop in die doos zijn blijven zitten.

Ik was zo’n deelnemer die, in de woorden van Marc, zijn tijd verspild heeft met het meedoen. Ik heb een aantal keren die test gedaan, vanaf verschillende IP-adressen, dus ik zal wel als drie personen in de statistieken zitten. Of ik weet het eigenlijk niet, want vanaf mijn computer hebben ook een paar vrienden meegedaan dus voor zover ze even oud zijn en van hetzelfde geslacht en dezelfde afkomst als ik zijn die dan geteld als één en dezelfde persoon. Maar gelukkig zal niet iedereen dat zo gedaan hebben (hoop ik dan maar), zodat die oneffenheid wel in de grote getallen zal verdwijnen.

Wat mij eigenlijk van het begin af aan bekroop was een ongemakkelijk gevoel bij de vraag wat er nou precies gemeten werd. En dat gevoel, moet ik eerlijk zeggen, is niet verdwenen na lezing van het rapport dat op de website van de Gentse universiteit staat.

Ik kan het misschien het beste illustreren aan de hand van de instructietekst bij het experiment. Die luidde als volgt:

Hallo!

In deze test krijg je 100 woorden te zien, zowel bestaande als niet-bestaande woorden.
Geef voor elk woord aan of het volgens jou een Nederlands woord is, of niet.
Met een Nederlands woord bedoelen we dat het woord in (een deel van) het Nederlandse taalgebied gebruikt en begrepen wordt.

Ik ben geen psycholoog (de onderzoekers hebben hier een betere scholing in dan ik), maar ik vind dit een verwarrende instructie. Allereerst wordt er een problematisch begrip betrekkelijk achteloos geïntroduceerd, namelijk bestaand-niet bestaand. Ik weet vrij zeker dat er onder de taalgebruikers geen overeenstemming bestaat over de vraag wanneer een woord nou bestaat of niet. Er zijn mensen die vinden dat een woord officieel gecanoniseerd moet zijn (in een woordenboek moet staan) om te bestaan, terwijl anderen van mening zijn dat elk woord dat ze zich kunnen voorstellen zo’n beetje bestaansrecht heeft.En ergens daartussenin zit de opvatting dat elk woord dat je wel eens gehoord hebt daarmee ook meteen bestaat, eventueel afhankelijk van hoe vaak, en in welke context.

Wat moeten de proefpersonen hiervan denken? Waarschijnlijk zullen ze bij de eerste zin hun persoonlijke epistemologische opvatting over de woorden van de taal activeren. Eventueel zullen ze verwachten dat dit begrip bestaand-niet bestaand in de volgende zin toegelicht wordt, maar nee: daar staat dat het gaat om de vraag Nederlands-niet Nederlands. Ik kan niet precies in de Vlaamse ziel kijken, maar het zou kunnen dat Vlamingen hier denken dat het om het land Nederland gaat. Zoiets moeten de onderzoekers ook gedacht hebben, want ze voegen er meteen aan toe wat ze bedoelen met Nederlands (beginnersfout in communicatie: als je in de tweede zin moet zeggen wat je in de eerste bedoelt, wat heeft de eerste zin dan voor functie?). Blijkbaar is de bedoeling dat je inschat of een woord ‘in (een deel van) het Nederlandse taalgebied gebruikt en begrepen wordt.’

Hiermee is denk ik de verwarring niet opgelost, maar eerder toegenomen. Wie bij Nederlands al het land in gedachten had, hoeft bij Nederlands taalgebied die gedachte niet meteen te verlaten. Althans, het Nederlands taalgebied kan ik ook opvatten als het taalgebied van het land Nederland. En wat erger is, het begrip Nederlands wordt nu gekoppeld aan de begrippen gebruikt en begrepen. Nu heb ik me suf zitten peinzen over woorden die wel gebruikt maar niet begrepen worden, maar dat geef ik toch al snel op, en ik denk dat de gemiddelde proefpersoon hier ook denkt: gooi het maar in mijn pet. Met andere woorden: de instructie doet in het beste geval geen kwaad, maar voegt in ieder geval niets toe.

Het gevolg van deze verwarrende instructie is denk ik dat iedereen toch maar aan de test gaat beginnen met zijn eigen vage ideetje over wanneer een woord bestaat of niet, al was het alleen maar omdat op iedere pagina twee knoppen staan met de tekst NEE dit woord bestaat NIET en JA dit woord bestaat. 

Is dat erg? Ja dat weet ik niet. Ik had graag gezien dat het in het rapport althans geproblematiseerd werd, maar dat gebeurt niet. Stel dat Vlamingen een normatiever opvatting over het wel of niet bestaan van woorden hebben, dan zal het lijken alsof hun woordenschat kleiner is (want bij twijfel zullen ze eerder nee zeggen). Ik zeg niet dat dit zo is, maar het zou kunnen. Stel dat Vlamingen of Nederlanders denken dat het over het land Nederland gaat (dat is misschien bij de Vlamingen wel waarschijnlijker, al hebben we daar geen gegevens over), dan zullen de typisch Nederlandse woorden in het voordeel zijn (want bij de woorden die als Vlaams herkend worden zullen sommige mensen zeggen: dat is geen Nederlands, want het wordt niet in Nederland gebruikt en begrepen).

Dat vind ik allemaal eigenlijk al een serieus probleem. Maar ik zie ook eigenlijk niet goed wat er nu precies gemeten wordt. In het rapport (op pagina 3) staat een vage alinea over de relatie tussen woordenschatgrootte en ‘verschillen in responses’ (waaronder reactietijd), en het feit dat nepwoorden de betrouwbaarheid vergroten, maar wat daarvan de portee is ontgaat me. Er wordt verwezen naar eerder onderzoek op dit gebied, maar zonder bronverwijzing, dus dat kan ik ook niet goed nakijken. Dat is wachten op de eerste wetenschappelijke publicatie dan maar. Maar los daarvan: wat voor woordenschat wordt hier nu eigenlijk gemeten?

Ik weet wel hoe ik de test zelf ingevuld heb. Alle woorden die ik herkende (of meende te herkennen) heb ik als bestaand aangemerkt, ook als ik de betekenis daarvan niet kende. Zo wist ik zeker dat het woord tapuit een Nederlands woord was. Misschien ben ik het ooit in een spelletje Wordfeud of in een kruiswoordpuzzel tegengekomen, maar de betekenis moest ik achteraf opzoeken (het is een zangvogel, ‘vermoedelijk zo genoemd vanwege het herhaaldelijk bukken, dat dan een associatie met tappen heeft opgeroepen,’ dat vergeet ik nu niet meer). Ik zie wel dat het woord tapuit dus onder de een of andere interpretatie van mijn woordenschat al vóór de test daartoe behoorde, maar ik had ook kunnen denken: ik weet niet wat het betekent en ik denk dat heel veel mensen het ook niet begrijpen, dus ik vul in NEE dit woord bestaat NIET. Dus zelfs als je zou willen volhouden dat het woord tapuit al tot mijn woordenschat behoorde, hoe zit het dan met iemand die hetzelfde weet als ik, maar de andere beslissing neemt?

Let wel, dit gaat dus niet over de vraag of een woord in mijn actieve of passieve woordenschat zit Het woord tapuit zat niet in mijn actieve woordenschat, en ik geloof dat er ook in de toekomst jaren voorbijgaan voordat ik dat weer zal gaan gebruiken (zoals hier, maar nou heb ik het ook nog maar alleen over het woord en de bijbehorende betekenis, ik had bijvoorbeeld geen idee hoe het beestje eruit ziet – het heeft iets van een roodborstje zie ik nu).

Misschien dat de gedachte is om met de reactietijden dit soort effecten te neutraliseren, bijvoorbeeld door alleen de resultaten te beschouwen met een minimale reactietijd of zo, maar ook hierover staat geen woord in het rapport (behoudens die vage alinea over reactietijden). In het rapport, en vooral in de berichtgeving daarover, wordt de score op de test gemakshalve vertaald naar een absolute woordenschat, wat hoe dan ook te voorbarig is, want het experiment omvatte nog geen 60.000 woorden. Om de werkelijke woordenschat van een persoon te berekenen zou je op zijn minst moeten speculeren hoe je de resultaten op deze lijst moet extrapoleren naar een absoluut getal gebaseerd op de totale lijst van woorden uit het Nederlands, als je je al zo’n lijst kunt voorstellen wat ook al niet zo eenvoudig is. Maar dat extrapoleren is ook nog niet zo gemakkelijk want ten eerste zullen in de test de meer frequente woorden zijn genomen, zodat het restant minder kans maakt om tot een woordenschat te behoren. En ten tweede blijkt een deel van de woordenschat van het Nederlands (transparante samenstellingen) systematisch uit de test te zijn weggelaten, dus hoe je dat zou willen verrekenen is me helemaal een raadsel.

Ik ben dus erg benieuwd naar de wetenschappelijke publicaties. Ik hoop dat alle overwegingen die ik hierboven heb in de discussiesectie aan de orde komen, en dat de resultaten op een zorgvuldige en genuanceerde manier worden besproken. Ik weet nu al zeker dat geen van de beweringen die nu in de media naar voren komen, ongeschonden uit die besprekingen zal komen