Objectief gezien wint Manon Uphoff de Librisprijs

Dagboek van een amateur-programmeur

Door Marc van Oostendorp

De jury van de Libris Literatuurprijs is dit jaar erg antikwantitatief. “Er bestaan”, schrijft zij in haar juryrapport, “geen objectieve criteria om de kwaliteit van een roman te bepalen.” In plaats daarvan kan men volgens deze jury slechts lezen.

Dat vraagt natuurlijk om flink meten.

Een tijdje geleden schreef ik al over de kwestie in hoeverre je literaire kwaliteit kunt meten door in een boek het aantal unieke woorden (types, als in een roman vijfhonderd keer het woord ‘mooi’ staat, is er één type ‘mooi’) af te zetten tegen tokens (als er in een roman vijfhonderd keer het woord ‘mooi’ staat, zijn er vijfhonderd tokens ‘mooi’). Als je types deelt door tokens krijg je een maat van hoe rijk de woordenschat van een auteur is.

Dat valt dus gemakkelijk te meten. Net als de manier waarop zich dat ontwikkelt: in het begin van een dik boek zal iemand noodgedwongen meer nieuwe types introduceren (het eerste woord is per definitie nieuw) dan aan het eind (als bijna alle woorden al een keer gebruikt zijn), dus het aantal nieuwe woorden neemt gaandeweg af.

De vorige keer liet ik dat zien aan het nogal heterogene corpus ‘streekromans’ dat de taalhistoricus Ewoud Sanders aan het begin van de quarantaine ter beschikking stelde. Ik heb inmiddels elektronische versies verzameld van alle zes kandidaten van de Librisprijs. Hier zijn types afgezet tegenover tokens voor alle zes de boeken. Dat levert de bovenstaande figuur op. Dat de lijn van Oek de Jong zo lang is, komt doordat zijn boek verreweg het dikste is: dat levert de meeste tokens op (x-as), en op den duur ook de meeste types (y-as). De lijn is alleen betrekkelijk vlak, wat betekent dat er voortdurend relatief weinig types zijn in verhouding tot de tokens. Marijke Schermer en Wessel te Gussinklo zitten daar nog onder.

Manon Uphoff schreef een veel korter boek, maar wel met een verhoudingsgewijs enorm aantal types. In die zin is haar taalgebruik dus het rijkst. Die rijkdom is bovendien constant: haar pagina 10 is rijker dan de pagina 10 van willekeurig welk ander boek op de shortlist, haar pagina 100 rijker dan willekeurig welke andere pagina 100.

Een natuurkundige op Twitter gaf me de tip om ook te kijken naar de afgeleide functies (weet je nog, differentiëren; je ontkomt er in deze tijd waarin iedereen epidemioloog), Je krijgt dan een inzicht van hoe snel de groei aan types is; dat maakt de unieke rijkdom van Uphoffs taalgebruik inderdaad nog duidelijker

De groei van het aantal nieuwe woorden neemt bij iedere schrijver (bijna noodzakelijkerwijs) af, Opvallend is dat er vooral bij Schermer en Te Gussinklo nog een knik omhoog zit, alsof naar het einde toe nog net even een nieuwe toon wordt ingezet.

Ook opvallend zijn de grafieken van Kollaard en Schermer die beide beginnen met een relatief sprankelende woordenschat, die daarna in de loop van het boek instort: een groot deel van de woordenschat wordt in het begin geïntroduceerd en daarna komt er niet veel meer bij.

Maar Uphoff verkeert hier dus vrij letterlijk op eenzame hoogten.

Hierbij moet wel een beetje verdisconteerd worden dat in lange boeken schrijvers hun woordenschat wat meer verdelen. Het is niet helemaal toevallig dat de twee langste boeken, dat van De Jong en dat van Te Gussinklo, helemaal onderaan eindigen. Het feit dat De Jong een vrij rechte lijn laat zien kun je zien als een indicatie dat zijn werk goed is doorgecomponeerd: het boek is overal ongeveer even sprankelend van nieuwe woorden.

Voor de duidelijkheid: een droge alfabetische woordenlijst zou nog veel beter scoren dan Uphoff, want daarin worden op een voortdurend hoog tempo nieuwe woorden geïntroduceerd. Deze bevindingen moeten wel in dat licht worden gezien.