Het karakollenprobleem

‘Hij wierp zwijgend een blik op zijn schouder en liep plotseling schuddend verder’ als de ideale romantekst
Door Marc van Oostendorp


Welke woorden kun je het beste eerst in je hoofd stampen wanneer je Nederlands gaat leren? Het hangt er maar vanaf wat je wilt.

Wanneer je het liefst romans leest, kun je het best beginnen met blik, schouder, raam, zwijgen, stoel, glas, knikken, plotseling, schudden en verder. Lees je daarentegen graag het internet, dan kun je beter eerst studeren op eerste, tweede, gij, Vlaams, later, he, gemeente, Belgisch, politiek en inwoner. En als je graag een gesprek wil kunnen voeren met een inlander, dan zijn uh, hè, hoor, ah, oké, hé, gij, allee, mekaar en jawel als eerste aangewezen.

Ik weet al deze dingen sinds ik de nieuwe Frequency Dictionary of Dutch gelezen heb, dat is samengesteld door Carole Tiberius en Tanneke Schoonheim, beiden van het Instituut voor Nederlandse Lexicologie (INL) in Leiden: een boek waarin de vijfduizendste vaakst voorkomende woorden van het Nederlands op een rijtje worden gezet.

Staatscourant

Dit is niet het eerste frequentiewoordenboek van het Nederlands. Zulke boeken worden gemaakt sinds computers woorden kunnen tellen. In 1975 publiceerde P.C. Uit den Boogaert zijn Woordfrequenties in geschreven en gesproken Nederlands. Inmiddels hebben we natuurlijk veel en veel meer Nederlandse taal in computerbestanden, en kunnen computers die veel sneller en makkelijker tellen dan veertig jaar geleden.

Het werd dus tijd voor een nieuwe telling. Nu is het tellen van frequentie nog moeilijker dan je denkt. Wat is het meest voorkomende woord in het Nederlands? Het hangt er maar vanaf wat je allemaal meetelt. Ieder woord dat iedere Nederlander op elk moment uitspreekt, dat is niet te doen. Maar je alleen richten op de berichten in de Staatscourant geeft ook een vertekend beeld. Tel je ondertitels op de tv mee? Op telefoonpalen aangeplakte formulieren? Opstellen van scholieren? Volkomen onbegrijpelijke experimentele gedichten?

De

Tiberius en Schoonheim noemen in hun inleiding ook het karakollenprobleem. Er gaan dagen voorbij dat de gemiddelde Nederlandstalige het niet over de karakol heeft, maar als er in de tekstverzameling die je kiest om de frequentie te bepalen toevallig net een uitgebreid artikel over karakollen zit, krijgt dat woord mogelijk een wat overtrokken waarde in je woordenboek.

De onderzoekers van het INL hebben dat soort problemen zo goed en zo kwaad als het gaat opgelost, en komen zo tot een aantal verschillende frequentie-lijsten. Er is een ‘kernlijst’ waarin we kunnen leren dat de tien allerallerfrequentste woorden van onze taal de, en, in, van, op, zijn, het, een, voor en die zijn. Daarna volgen lijsten over fictie, kranten, gesproken taal en het web, en tot slot een lijst ‘algemeen’ met woorden die in meer dan een deelverzameling voorkomen.

Goud

Het boek lijkt me bedoeld voor beginners en iets gevorderde leerlingen, maar het is ook fascinerend materiaal als je er al meer dan vijfenveertig jaar studie van het Nederlands op hebt zitten. Hoe komt het dat januari op het web de frequentste maandnaam is, gevolgd door juni, mei, december, oktober en maart? Waarom zijn schouders zo populair in fictie? En waarom zeggen mensen vaker  dan hé?

Met die lijsten kun je voortaan de ideale roman schrijven (‘Hij wierp zwijgend een blik op zijn schouder, schudde plotseling zijn hoofd en liep verder’) of de ideale blogpost (‘Als eerste komt de Vlaamse politiek en later de Belgische inwoner, he’).

Er zijn bovendien allerlei kaders opgenomen over specifieke onderwerpen, waaruit we de relatieve frequenties kunnen leren van bijvoorbeeld materialen (papier, steen, goud, hout), kleuren (rood, zwart, wit, groen) en voornaamwoorden (het, ze, hij, ik).

Of dat nu allemaal echt nuttig is om te weten wanneer je Nederlands leert, weet ik niet. Ga je echt eerst papier leren voordat je aan steen begint? Maar leuk om te weten is het wel.

Carole Tiberius en Tanneke Schoonheim. Frequency Dictionary of Dutch. Core vocabulary for learners. New York: Routledge, 2014. Bestelinformatie bij Athenaeum