Een teken van literaire kwaliteit

Door Marc van Oostendorp

Als een voordeel van boeken lezen wordt wel genoemd dat je er je woordenschat mee uitbreidt, en ook wordt (geloof ik) weleens beweerd dat je beter literaire boeken kunt lezen dan bijvoorbeeld streekromans.

Maar klopt dat wel? Dat bestudeerde ik aan de hand van de collectie van 1100 streekromans die Ewoud Sanders onlangs in het kader van de algehele coronasolidariteit in het publieke domein ter beschikking stelde.

Een kenmerk van de verzameling is dat hij bij nadere beschouwing helemaal niet exclusief uit streekromans blijkt te bestaan: er zit wel degelijk af en toe een literaire tekst tussen. En die blijk je er inderdaad uit te kunnen vissen door te tellen hoeveel nieuwe woorden je leert, of eigenlijk beter: hoe snel je die nieuwe woorden leert.

In de grafiek hierboven illustreer ik dat aan de hand van vier boeken: een Streekromanomnibus die duidelijk alleen onvervalste streekromans bevat; twee boeken van Godfried Bomans die verweten is in de loop der tijd zijn literaire normen te hebben laten wapperen; en een boek van Jeroen Brouwers, die volgens ieder criterium dat ik kan verzinnen een literaire schrijver is.

Op de x-as staan de zogeheten tokens uitgeschreven: ieder woord telt. In deze zin staan 22 woorden en dus ook 22 tokens – zelfs al komt het woord 22 er drie keer in voor. De groene lijn loopt veel verder door naar rechts omdat zo’n omnibus nu eenmaal dikker is dan een pamflet van Jeroen Brouwers.

Op de y-as staan zogeheten types, nieuwe woorden die je nog niet eerder in de tekst bent tegengekomen. In de bovenstaande zin kwam het token 22 drie keer voor, maar het type maar een keer.

Wat je nu kunt zien is dat je door die hele streektaalomnibus te lezen dus wel meer verschillende woorden tegenkomt dan door Bomans of Brouwers te lezen, maar dat het tempo waarin die nieuwe woorden worden aangeboden wel een stuk trager ligt. Als dat de maat is geldt: hoe sneller omhoog de grafiek, des te literairder het werk.

(Er zitten in de curve voor de streekromans twee knikjes, op punten waar een nieuw boek begint, met een andere auteur en andere personages en een ander onderwerp.)

Alle curves gaan in het begin natuurlijk sneller omhoog en vlakken gaandeweg af. Het eerste woord is per definitie een nieuw woord – terwijl tegen het eind van een beetje een lang boek zo’n beetje alle woorden wel al een keer gebruikt zijn. Maar bij Brouwers is er nauwelijks neiging van afvlakken, en in iets meer dan 50.000 woorden gebruikt hij bijna evenveel verschillende woorden als die streekromans in meer dan 200.000 woorden.

Op Language Log stond onlangs ook een stukje van Mark Liberman waarin boeken werden vergeleken op type-tokenratio.