Geloven in saaie gegevens

Door Marc van Oostendorp


Wat heb ik nu weer gedaan: een wetenschapsweblogger tot kwaadheid gedreven! Gisteren schreef ik op verzoek van de webredactie van Onze Taal een stukje over het deze week gepubliceerde Groot Nationaal Onderzoek over taal.

Ik vind dat dit onderzoek weinig om het lijf heeft. Het is een gegevensverzameling waar geen duidelijke vraag achter zit, althans, niemand weet wat die vraag is. Uit die verzameling trekken de onderzoekers bovendien weinig interessante conclusies. Tegelijkertijd presenteren ze dit, in de media die aan het onderzoek hebben meebetaald, als het eerste écht wetenschappelijke onderzoek naar taal en zetten ze zich daarmee nogal heftig af tegen vele generaties van eerdere onderzoekers.

Men heeft er naar mijn indruk honderdduizenden mensen minuten van hun tijd laten vermorsen door in het belang van de wetenschap naar allerlei woorden te kijken en dan te zeggen of ze wel of niet bekend zijn. Het resultaat van al die investeringen is dat er op wetenschappelijk verantwoorde wijze allerlei open deuren worden ingetrapt, zoals dat Vlamingen minder uit het Indonesisch afkomstige woorden kennen dan Nederlanders. Enfin, lees het stukje, en vooral ook de discussie die eronder staat, en oordeel zelf.

Vrijwel meteen kwam er een reactie van de wetenschapsweblogger Niekse Vergunst via Twitter:


In de blogpost waar ze naar verwijst, begint Nieske Vergunst inderdaad fel uit te pakken. Het is volgens haar een ‘kwalijke mening’ om het door haar werkgever, en door de Volkskrant en de VPRO met veel trompetgeschal als ‘het eerste echt wetenschappelijke onderzoek naar taal’ zomaar in twijfel te trekken. Zeker taalkundigen mogen dat geloof ik niet, want die baseren zich op wankele kaartenhuizen van gemakzuchtig verkregen data.

Potsierlijk

Het is interessant om wat nader op Vergunsts explosie van woede in te gaan, want hij is illustratief voor een bepaalde opvatting van wat wetenschap is – een opvatting die kennelijk door sommigen met passie beleden wordt. Ze gaat uit van de gedachte dat je nooit je intuïtie moet vertrouwen, dat je altijd alles ‘wetenschappelijk’ moet controleren, dat wil zeggen: empirisch, en dan liefst met enorme bergen gegevens waar je statistiek op kunt doen. Het gaat voorbij aan het feit dat dit in veel gevallen een hopeloze onderneming is.

Neem de bevinding die ik daarnet aanhaalde: Nederlanders kennen het woord gadogado wel en Vlamingen niet (hier is een link voor wanneer u tot de laatste categorie hoort). Dat had ik eigenlijk altijd wel gedacht. Het is waar dat ik tot en met vorige week niet kon bewijzen dat dit zo was, maar ik had laten we zeggen het sterke vermoeden, dat bovendien goed past in wat ik verder weet over de wereld (het koloniale verleden van de twee landen, mijn ervaringen in het culinaire circuit). Mijn wereldbeeld was behoorlijk gekanteld wanneer het anders was geweest, maar ik ben zo vrij om niet onder de indruk te zijn nu dit dankzij een project met de potsierlijke naam Groot Nationaal Onderzoek inderdaad zo blijkt te zijn.

Appel

Ook resultaten die saai zijn, zijn wetenschap,” schrijft Vergunst. “Juist een onderzoek dat bevestigt wat we al vermoedden, voegt iets toe: zekerheid, en een basis voor verder onderzoek.” Maar er zijn oneindig veel dingen die ik aanneem zonder grondig onderzoek. Ik denk bijvoorbeeld dat er nog veel minder Russen zijn die het woord gadogado kennen dan Vlamingen, en dat Russen überhaupt gemiddeld bijzonder weinig Nederlandse woorden kennen. Dat analfabeten de meeste woorden in de enquete niet zouden kunnen lezen, terwijl doven ze waarschijnlijk niet kunnen horen. Enzovoort, enzovoort. Voor geen van deze gedachten heb ik bewijzen, en toch zou ik NWO en de Volkskrant niet willen adviseren om dit nu eens empirisch uit te gaan zoeken, al is het maar omdat er zo meer en meer feitjes zijn die we niet zeker weten.

Het is een beetje alsof NWO, de VPRO en de Volkskrant ineens een psycholoog aan het woord laten die zegt dat de natuurkunde natuurlijk nooit wetenschappelijk getoetst is, omdat Newton nooit werkelijk getest heeft of appels wel naar beneden vallen. En die dan vervolgens 400.000 mensen met appels laat gooien om te constateren dat die dingen naar beneden vallen. Wat mogelijkheden opent voor nieuw onderzoek, bijvoorbeeld met bananen.

Daarom moeten we niet op zoek naar zoveel mogelijk saaie gegevens, maar naar interessante. Niet naar zekerheid (die toch niet te verkrijgen is), maar naar nieuwe vragen. Niet naar steeds preciezere statistische significantie, maar naar inzicht.

Van Dale

Vergunst waarschuwt echter in haar blogpost voor een ‘wankel kaartenhuis’ wanneer we onze gegevens niet voortdurend toetsen. Dat is precies de angst waardoor je nooit verder komt: ieder gegeven, hoe triviaal ook, moet getoetst worden, en het volk wordt geacht met open mond te luisteren wanneer een professor uit Gent met zijn computer heeft vastgesteld dat er in Vlaanderen minder gadogado wordt gegeten dan in Nederland.

Het gaat bovendien voorbij aan het feit dat de taalwetenschap helemaal geen ‘wankel kaartenhuis’ is. Er zijn de afgelopen jaren een aantal onderzoeken gedaan waarin de zo verafschuwde intuïties van taalkundigen empirisch werden getoetst door ze voor te leggen aan grote groepen sprekers. Wat bleek: die sprekers bleken het eens met de taalkundigen. Vergunst gebruikt in haar post als eigen voorbeeld Van Dale, een woordenboek dat inderdaad volkomen gebaseerd is op de intuïties van de woordenboekmakers, maar ze legt niet uit wat voor kwalijke problemen er eigenlijk met dat woordenboek zijn ontstaan op deze manier, die op een andere manier waren opgelost. Ik ken ze in ieder geval niet. Kijk, dat zouden nu interessante gegevens zijn geweest, als was gebleken dat wij taalkundigen het ergens bij het verkeerde eind hadden. Maar die gegevens worden niet geleverd, het blijft bij vage verdachtmakingen.

Natuurlijk moet je altijd een beetje wantrouwig zijn over je gegevens. Maar dat geldt in de eerste plaats voor alle gegevens, ook die uit het Groot Nationaal Onderzoek. En in de tweede plaats kun je met dat wantrouwen ook verzanden in eindeloos ‘wetenschappelijk’ bewijzen wat iedereen allang wist.

Bias

Hoe zit het nu met dit woordenschatonderzoek? Dat gaat toch zeker over meer dan alleen het woord gadogado. Het punt is daar: er is geen enkele aanleiding om te denken dat de woordenschat van de ene volwassen mens noemenswaardig in omvang verschilt van die van een ander. Dat blijkt volgens mij uit onderzoek na onderzoek.

Het probleem is dat het alleen heel moeilijk, misschien wel onmogelijk, is om dit echt te toetsen; want ieder mens heeft weer net een andere verzameling woorden tot zijn beschikking dan een ander. De ene spreekt veel dialect, de ander beheerst een vaktaal, een derde heeft zich toegelegd op het vogelen, enzovoort. Er bestaat nergens een compleet overzicht van alle woorden die iemand spreekt.

De enige conclusie die je dus kunt trekken uit dit soort onderzoeken, is: Nederlanders kennen meer woorden van deze lijst dan Vlamingen. Maar dat zegt vermoedelijk meer over die lijst – die dus erg Nederlands is samengesteld – dan over de Nederlanders en Vlamingen. Ik las ergens dat de onderzoekers dat willen bijstellen. Maar dan verdwijnt dus het effect. Dat is denk ik ook precies de reden waarom je geen verschil vindt tussen links- en rechtshandigen: die leven door elkaar, praten met elkaar, vormen één taalgemeenschap. (De onderzoekers hebben ook een leeftijdseffect gevonden, dat net zo goed kan voortkomen uit een bias voor de wat oudere woorden en tegen nieuwvormingen.)

Maar dat zijn dus allemaal volkomen triviale feiten, die allang bekend zijn, en ik zie niet hoe er uit dit soort onderzoek iets anders zou kunnen komen, omdat je ieder verschil altijd kunt toeschrijven aan de gebruikte woordenlijst. Het onderzoek is dus niet ‘objectief’ te krijgen, hoezeer men dat ook probeert. Het enige wat je zou kunnen doen is een keer van een paar mensen alle woorden opschrijven die ze kennen. Maar hoe ga je dat aanpakken?

Er is kortom geen zekerheid te verkrijgen over de kwestie, maar ook weinig reden om niet aan te nemen dat alle mensen min of meer gelijk zijn op dit punt. En waarom zou het eigenlijk interessant zijn om te weten hoe en op welke manier ze op dit punt verschillen?

Verspilling

Het volgende is kortom aan de hand. Taalkundigen bedrijven empirische wetenschap en gebruiken daarom gegevens die ze op een manier verzamelen die beproefd is en die een grote basis aan solide kennis heeft opgeleverd. Nu komen NWO, de VPRO en de Volkskrant roepen dat dit alles een wankel kaartenhuis is en dat er van die gegevens niks klopt. Ze zetten vervolgens 400.000 mensen aan het werk, en wat blijkt: die mensen zeggen wat de taalkundigen altijd al zeiden. En dan mag je als taalkundige niet zeggen dat dit alles toch wel een beetje verspilling van ieders tijd is, want volgens de gelovigen in de saaie gegevens hebben we nu pas zekerheid, en een ‘basis voor verder onderzoek’, dat dan natuurlijk bestaat uit nog meer gegraaf naar nog meer trivialiteiten.