Kunnen computers lezen?

 Door Marc van Oostendorp

Tijdens een interessante discussie, eind vorig jaar in Utrecht, probeerde een groep jonge onderzoekers me uit te leggen dat distant reading – de computer grote hoeveelheden teksten laten lezen om zo patronen op te sporen die je nooit kunt vinden door slechts een paar romans erop na te slaan –  heus zo lastig niet was als ik een paar maanden geleden had beweerd. Ze lieten me een aantal inderdaad interessante voorbeelden zien van werk dat ze daar in Utrecht doen, en ineens besefte ik waar het probleem lag: in het begrip lezen.

De computer kan natuurlijk teksten lezen als je daaronder verstaat: alle woorden langsgaan en tellen, zien welke andere woorden er typisch rondom een bepaald woord staan. Je kunt op die manier zelfs de stijl van een schrijver imiteren, zoals mijn collega Folgert Karsdorp heeft laten zien met onder andere een computer die ongeveer kon schrijven als Ronald Giphart. 

Mooi doodliggen

Dat kan de computer allemaal, maar lezen kan de computer niet. In ieder geval niet als je daaronder bedoeld: een tekst lezen en daaraan betekenis toekennen. Mooi doodliggen (2018) lezen en herkennen dat de vraag of we elkaar met onze taal niet altijd voorliegen er een thema in is. Qui a tué mon pẻre (2018) van Édouard Louis lezen en zien dat dit boek de gele hesjes aankondigt. De nieuwe dichtbundels van 2018 lezen en uitleggen waarom die allemaal iets met Nijhoff te maken hebben.

Een probleem daarbij is natuurlijk: wat is dat lezen dan eigenlijk precies? Hoe valt te bepalen of iemand kan lezen? Ik heb het dan niet eens over het meten van dat lezen, maar simpelweg bepalen? Ik heb in mijn huis en in mijn studeerkamers en overal waar ik kom enorme stapels boeken staan met geknakte ruggetjes – maar hoe weet iemand dat ik die gelezen heb? Ja, ik kan er iets over vertellen, maar had ik dat ook niet gekund door de juiste steekwoorden op te pikken?

En wat als wat ik over Mooi doodliggen beweer volgens jou allemaal onzin is, is dat dan een teken dat ik het niet goed gelezen heb?

Raadsel

Er zijn nu twee problemen die met elkaar te maken hebben. We weten niet precies hoe we moeten bepalen dat een computer kan lezen. En we kunnen die computer dus ook niet uitleggen hoe hij dat moet doen, lezen.

Ik ben geen literatuurwetenschapper, maar als ik wel een literatuurwetenschapper was, zou ik zeggen: misschien is dát wel de opdracht van het vak voor de komende jaren: uitzoeken wat het lezen van een literair boek precies is. Niet zozeer proberen uit te vinden hoe zo’n boek in elkaar zit, of hoe de schrijver zichzelf vormgeeft in zo’n boek, maar wat de lezer precies doet.

Het raadsel lijkt me eigenlijk niet zozeer wat een schrijver doet, maar veeleer wat een lezer doet.

Regels

Lezen is zoals bekend een van de fijnste dingen die er zijn. Dat gun je iedereen, ook je laptop. Maar daarnaast is het ook heel interessant om te bedenken hoe je een computer zou kunnen trainen om echt te kunnen lezen. Wat is er precies voor nodig? Een computer kan inmiddels zichzelf leren om op duizelingwekkend niveau te schaken of go te spelen, alleen maar door een aantal uur lang partijtjes tegen zichzelf te spelen en daarvan te leren, terwijl je er niets anders in hebt gestopt dan de regels van het spel (geen openingsbibliotheek, geen door grootmeesters bedachte trucs).

Kan een computer zo ook leren lezen wanneer je er heel veel boeken in stopt? En welke regels zijn daar dan voor nodig?

Over Marc van Oostendorp

Marc van Oostendorp is onderzoeker aan het Meertens Instituut (KNAW). hoogleraar aan de Radboud Universiteit en hoofdredacteur van Neerlandistiek. Hij heeft een website, een YouTube-kanaal en een Twitter-account.
Dit bericht is geplaatst in column met de tags , . Bookmark de permalink.

5 Responses to Kunnen computers lezen?

  1. Jona Lendering schreef:

    Een heel leuk stuk. Ik vermoed dat een deel van de oplossing is herkend door Michael Polanyi, die in “Personal knowledge” beschrijft dat mensen een aanzienlijke hoeveelheid stilzwijgende kennis hebben, opgedaan tijdens hun studie, waarmee ze de relevante van de niet-relevante delen van informatie kunnen onderscheiden.

    Ik vermoed dat menselijke lezers die stilzwijgende kennis ook hebben door het simpele feit dat ze met de auteurs het mens-zijn gemeen hebben. Mogelijk kunnen schrijvende computers boodschappen in elkaars producten herkennen die voor mensen weer niet herkenbaar zijn.

  2. Lucas schreef:

    Ik denk dat als je lezen ontleedt in subdoelen, dan op termijn en met de juiste algoritmes computers dat best kunnen leren.

    Maar lezen is niet één ding. Ik las over de vakantie een aantal boeken, waaronder The Lord of the Rings, The Long Take, en net begonnen aan Arthur Ashe: A Life. Al die boeken lees ik op een andere manier. LotR is vooral ontspanning (al bewonder ik ook de diepgang en breedte van de wereld en mythen), The Long Take was een deel van een experiment om meer literatuur te lezen en ik had nog nooit lyrische poëzie gelezen (behalve misschien een boek op school of zo), Arthur Ashe is omdat ik als tennisfan benieuwd ben naar leven van een van de grootste spelers ooit. (En zo’n sportbiografie leest weer anders dan die van bv Richard Krajicek).

    Als je een computer wilt laten lezen is het dus eerst goed te weten, wat wil je nu eigenlijk dat die computer kan? Dat kun je niet achterhalen door maar gewoon heel veel data in te voeren en kijken wat er gebeurt. Bij een spelletje is het immers ook het doel dat de pc leert winnen: veel data betekent dat het alle opties leert ontdekken en dat kan gebruiken om een strategie te ontwikkelen.

  3. Gert de Jager schreef:

    Al in de jaren tachtig kreeg in de literatuurwetenschap de lezer de volle aandacht: in de receptiegeschiedenis, de receptie-esthetica en de empirische literatuurwetenschap zoals die vooral in Duitsland werd beoefend. Het probleem is altijd hetzelfde: over welke lezers heb je het? Zelf schakel je in je stukje moeiteloos van de lezer Marc van Oostendorp die interessante dingen ontdekt bij Edouard Louis naar ‘de lezer’ en dan weer naar ‘een lezer’. Jona Lendering heeft het in zijn commentaar over de stilzwijgende voorkennis die we als mensen delen, maar daarin verschillen we juist ook weer. Het zou tot gevolg kunnen hebben dat we bevindingen nooit zo kunnen generaliseren als in bijvoorbeeld de taalkunde.

    Het betekent dat een computer nooit ‘echt’ kan lezen zoals wij dat doen – tenzij we aannemen dat Marc van Oostendorp de gele hesjes heeft ontdekt in Edouard Louis dankzij onnoemelijk veel data: al die boeken die Edouard Louis niét geschreven heeft.

  4. DirkJan schreef:

    “Je kunt op die manier zelfs de stijl van een schrijver imiteren, zoals mijn collega Folgert Karsdorp heeft laten zien met onder andere een computer die ongeveer kon schrijven als Ronald Giphart.”

    […]

    “Dat kan de computer allemaal, maar lezen kan de computer niet.”

    Het lijkt me ook een misverstand dat een computer dus al wel betekenisvol kan schrijven, want dat kan hij ook niet. Het is plakken en knippen en woorden voorspellen op basis van een doods algoritme in een groot databestand. Het levert geen enkele zinvolle tekst op. Ik denk dat dat altijd zo zal blijven en hier geen vooruitgang mee is te boeken: een computer kan niet denken en geen zinvolle taal creëren als een mens.

    “Kan een computer zo ook leren lezen wanneer je er heel veel boeken in stopt? En welke regels zijn daar dan voor nodig?”

    Ook dit lijkt me een heilloze weg, meer boeken, meer zinnen en woorden, betekent geen betere prestatie en zou je zinvolle regels willen bedenken, doe dan onderzoek naar hoe de hersens van mensen werken en hoe wij de werkelijkheid en alle kennis van de wereld vergaren, opslaan en verwerken. Dat is nog een groot raadsel. De computer blijft vooralsnog niet meer dan een snelle en heel beperkte telmachine.

  5. Phil Somers schreef:

    Nederlands is niet mijn moedertaal, dus misschien kan een computer Nederlands beter lezen dan ik. Je zou een computer kunnen leren verschillende soorten materiaal te herkennen. Bijvoorbeeld gelukkige of trieste verhalen door op zoek te gaan naar gelukkige of ongelukkige woorden en zinnen. Ook voor saaie of spannende verhalen. De computer zou kunnen herkennen en leren van materiaal met veel feitelijke inhoud.

    Dan kun je een computer leren om op dergelijk materiaal te reageren. Hij kon een vrolijk gezicht maken en de kleur van het scherm op roze zetten voor vrolijke verhalen. De computer zou kunnen blozen en het scherm in rood kunnen veranderen als hij erotisch materiaal leest. Als hij veel nieuw materiaal tegenkomt, kan hij blauw worden om aan te geven dat hij zijn kennis heeft vergroot.

    Dat is een beetje zoals een mens leest.

Reacties zijn gesloten.