Toevallige haiku’s

Door Emiel van Miltenburg

Naar aanleiding van eerdere experimenten van Marc van Oostendorp met de data van DBNL, ben ik ook eens gaan kijken wat er mogelijk is met zo’n grote verzameling aan Nederlandse literatuur. Dit is de uitkomst: een boek met honderden pagina’s aan toevallige haiku’s; zinnen die opgedeeld kunnen worden in drie regels van 5, 7, en 5 lettergrepen. Hier is bijvoorbeeld een zin van Bertus Aafjes, gepresenteerd als haiku:

Ik voelde hoe ik
bleek werd toen hij de naam van
mijn engel uitsprak

(Uit: Een laars vol rozen)

En van Belle van Zuylen:

dat ik nooit iets had
geleerd en dat ik zelfs niet
had leren lezen

(Uit: Mijnheer Sainte Anne)

Maar er zijn ook fragmenten uit boeken als Medische en technische Middeleeuwse recepten:

Is de persoon ziek
dan zal het bloed in het ei
branden anders niet

Het idee om toevallige haiku’s te zoeken is niet origineel. Zo is er bijvoorbeeld @accidental575  een bot die toevallige haiku’s zoekt in berichten die op Twitter geplaatst zijn. En de website Reddit Haikus geeft een overzicht van toevallige haiku’s op Reddit.com. Wat maakt het dan toch interessant om nog zo’n project op te zetten?

Het archief van DBNL bevat momenteel zo’n 5700 Nederlandse boeken als e-book. Daar komen er ongetwijfeld nog veel meer bij. Als je iedere dag een boek zou lezen, dan doe je er met de huidige hoeveelheid boeken al meer dan 15 jaar over om alles gelezen te hebben. Ik denk niet dat ik al die boeken ooit zal kunnen lezen. Deze bloemlezing geeft dan in ieder geval een voorproefje van de ontzettend rijke verzameling van DBNL.

Wat mij aantrekt in deze verzameling toevallige haiku’s, naast de ruwheid van de data, is de tegenstelling tussen mens en computer. Computers worden steeds vaker gebruikt voor distant reading: het automatisch doornemen van een grote verzameling teksten, om statistieken te genereren die (hopelijk) meer inzicht geven in diezelfde teksten, en in de cultuur waarin die teksten zijn geschreven. Distant reading staat tegenover close reading: het aandachtig doorlezen en graven naar betekenis in één tekst, of in ieder geval een kleinere verzameling teksten. Dat kunnen computers niet (hoewel ze wel ingezet kunnen worden voor close reading, zoals Marc hier ook laatst besprak). Ook in mijn eigen vakgebied, Natuurlijke Taalgeneratie, wordt er gezegd dat computers misschien wel creatieve teksten kunnen genereren, maar mensen blijven nodig om als curator op te treden, om die teksten te herkennen die ons raken. De haiku’s in dit boek zijn het resultaat van een automatisch proces, waarbij de computer heeft gekeken of zinnen toevallig voldoen aan het (versimpelde) 5-7-5-patroon van een haiku. De auteurs van deze zinnen hebben ze nooit als haiku’s bedoeld, en de computer begrijpt niet wat er staat. We zullen er zelf betekenis aan moeten geven.

De fragmenten laten ook zien hoe divers de verzameling proza in DBNL is. Je krijgt teksten te zien die je anders nooit gezien zou hebben. Daarmee vormen de toevallige haiku’s ook een uitnodiging om verder te lezen, om te zien in welke context al die zinnen nou gebruikt zijn. En mocht je al bekend zijn met het oeuvre van de schrijvers uit deze bundel, dan zorgt dit project hopelijk voor een nieuw perspectief op oude teksten.

Alle code die ik gebruikt heb is op GitHub te vinden.
Afbeelding: Steen met haikoe te Rakushisha. Wikimedia