Kunnen computers lezen?

 Door Marc van Oostendorp

Tijdens een interessante discussie, eind vorig jaar in Utrecht, probeerde een groep jonge onderzoekers me uit te leggen dat distant reading – de computer grote hoeveelheden teksten laten lezen om zo patronen op te sporen die je nooit kunt vinden door slechts een paar romans erop na te slaan –  heus zo lastig niet was als ik een paar maanden geleden had beweerd. Ze lieten me een aantal inderdaad interessante voorbeelden zien van werk dat ze daar in Utrecht doen, en ineens besefte ik waar het probleem lag: in het begrip lezen.

De computer kan natuurlijk teksten lezen als je daaronder verstaat: alle woorden langsgaan en tellen, zien welke andere woorden er typisch rondom een bepaald woord staan. Je kunt op die manier zelfs de stijl van een schrijver imiteren, zoals mijn collega Folgert Karsdorp heeft laten zien met onder andere een computer die ongeveer kon schrijven als Ronald Giphart. 

Mooi doodliggen

Dat kan de computer allemaal, maar lezen kan de computer niet. In ieder geval niet als je daaronder bedoeld: een tekst lezen en daaraan betekenis toekennen. Mooi doodliggen (2018) lezen en herkennen dat de vraag of we elkaar met onze taal niet altijd voorliegen er een thema in is. Qui a tué mon pẻre (2018) van Édouard Louis lezen en zien dat dit boek de gele hesjes aankondigt. De nieuwe dichtbundels van 2018 lezen en uitleggen waarom die allemaal iets met Nijhoff te maken hebben.

Een probleem daarbij is natuurlijk: wat is dat lezen dan eigenlijk precies? Hoe valt te bepalen of iemand kan lezen? Ik heb het dan niet eens over het meten van dat lezen, maar simpelweg bepalen? Ik heb in mijn huis en in mijn studeerkamers en overal waar ik kom enorme stapels boeken staan met geknakte ruggetjes – maar hoe weet iemand dat ik die gelezen heb? Ja, ik kan er iets over vertellen, maar had ik dat ook niet gekund door de juiste steekwoorden op te pikken?

En wat als wat ik over Mooi doodliggen beweer volgens jou allemaal onzin is, is dat dan een teken dat ik het niet goed gelezen heb?

Raadsel

Er zijn nu twee problemen die met elkaar te maken hebben. We weten niet precies hoe we moeten bepalen dat een computer kan lezen. En we kunnen die computer dus ook niet uitleggen hoe hij dat moet doen, lezen.

Ik ben geen literatuurwetenschapper, maar als ik wel een literatuurwetenschapper was, zou ik zeggen: misschien is dát wel de opdracht van het vak voor de komende jaren: uitzoeken wat het lezen van een literair boek precies is. Niet zozeer proberen uit te vinden hoe zo’n boek in elkaar zit, of hoe de schrijver zichzelf vormgeeft in zo’n boek, maar wat de lezer precies doet.

Het raadsel lijkt me eigenlijk niet zozeer wat een schrijver doet, maar veeleer wat een lezer doet.

Regels

Lezen is zoals bekend een van de fijnste dingen die er zijn. Dat gun je iedereen, ook je laptop. Maar daarnaast is het ook heel interessant om te bedenken hoe je een computer zou kunnen trainen om echt te kunnen lezen. Wat is er precies voor nodig? Een computer kan inmiddels zichzelf leren om op duizelingwekkend niveau te schaken of go te spelen, alleen maar door een aantal uur lang partijtjes tegen zichzelf te spelen en daarvan te leren, terwijl je er niets anders in hebt gestopt dan de regels van het spel (geen openingsbibliotheek, geen door grootmeesters bedachte trucs).

Kan een computer zo ook leren lezen wanneer je er heel veel boeken in stopt? En welke regels zijn daar dan voor nodig?