Het probleem van distant reading

Door Marc van Oostendorp

Het klinkt als een goed idee: de computer kan de statistiek de literatuurwetenschap in dragen. Waar letterkundigen zich alleen al noodgedwongen meestal slechts konden richten op een paar werken – zoveel als je er redelijkerwijs nauwkeurig kon lezen –, konden ze dus ook alleen uitspraken doen die gebaseerd waren op een beperkte doorsnede van alle literatuur. Nu kan de computer binnen een paar seconden tienduizenden boeken tegelijkertijd doorzoeken: dan kun je pas echt onderzoek doen. “Distant reading” wordt het wel genoemd met een term die Franco Moretti 18 jaar geleden alweer muntte.

Dat klinkt inderdaad als een goed idee. Hoe meer verschillende methodes je toepast op willekeurig onderzoeksobject, hoe groter de kans op succes. Toch ken ik eigenlijk geen voorbeelden van verbluffende inzichten die distant reading heeft opgeleverd en die je ook niet op andere manieren had kunnen verkrijgen. Veel van dat computerlezen blijft een beetje hangen in ontzag voor graf- en statistiek.

Een voorbeeld is het recente artikel ‘How homo economicus is reflected in fiction’ in het tijdschrift Language Sciences van de Finse taalkundige Michael Pace. 

Onderbouw

In wezen gaat het artikel over een interessante vraag: in hoeverre hebben de geschriften van Karl Marx aantoonbaar invloed gehad op de Britse literatuur van de 19e en 202 eeuw? Heeft een denker die er zo duidelijk in is geslaagd de wereld te veranderen – bijvoorbeeld doordat er enkele wereldwijde rijken zijn geweest die met harde hand hebben geprobeerd zijn voorspellingen waar te maken –, nu ook invloed gehad op de literatuur? (De vraag is ook nog eens heel geschikt doordat Moretti en sommige andere distant readers zelf duidelijk marxistisch geïnspireerd zijn.)

Het probleem is dan toch wel dat de distant reading methode nogal aan de oppervlakte is blijven hangen. Je kunt een corpus opbouwen met de teksten van vele honderden romans uit de 19e en de 20e eeuw, en die dan doorzoeken op woordgebruik (dat is Paces voornaamste methode), maar misschien moet je dan niet zo raar opkijken als er weinig uitkomt. Een denker als Marx had een voorkeur voor abstracte termen als machtsrelaties en de onderbouw van de samenleving, en zijn kracht lag nu juist in het ontleden van de macrostructuur van de maatschappij. Dat zijn allemaal zaken die in de literatuur niet zo gemakkelijk uit te beelden zijn.

Ideeën

Ook de andere resultaten zijn niet zo heel erg verrassend: in de negentiende eeuwse literatuur gaat het vaker over ‘de middenklasse’ dan over de ‘arbeidersklasse’ en de ‘upper class’ bij elkaar. Bovendien worden er meer positieve en meer actieve woorden gebruikt voor die middenklasse dan voor die andere twee klassen. Hé, de literatuur was in de negentiende eeuw een middenklasseverschijnsel! Natuurlijk: op deze manier hebben we een nieuw stukje evidentie voor die gedachte, maar omdat er weinig controverse is over deze observatie hebben we ook weinig aan zo’n nieuw stukje bewijs.

Het probleem van dit soort werk is dat het wel erg aan de oppervlakte blijft hangen, en romans als verzamelingen woorden blijft zien. Als je in plaats van de romans zelf alleen een lijst van alle woorden in alfabetische volgorde aan de computer had aangeleverd, had je bijna dezelfde analyses kunnen doen (alleen voor die middenklasse was het nodig om te zien of er in de buurt positieve woorden stonden). De truc kan alleen maar zijn om de computer wat beter te leren lezen. Als er invloed van Marx is geweest op de literatuur was dat natuurlijk een invloed van ideeën: die ideeën moet je er op de een of andere manier uithalen. Zolang de computer dat niet kan, lijkt distant reading me nog een weinig realistisch streven.

Over Marc van Oostendorp

Marc van Oostendorp is onderzoeker aan het Meertens Instituut (KNAW). hoogleraar aan de Radboud Universiteit en hoofdredacteur van Neerlandistiek. Hij heeft een website, een YouTube-kanaal en een Twitter-account.
Dit bericht is geplaatst in column met de tags , , , . Bookmark de permalink.

5 reacties op Het probleem van distant reading

  1. Noortje schreef:

    Bent u er van op de hoogte dat de auteur van het Wilhelmus is gevonden d.m.v. distant reading? Dat lijkt me de keerzijde.

    • Nee, daar ben ik niet van op de hoogte. Bij mijn weten is de auteur van het Wilhelmus niet ‘gevonden’ en al helemaal niet met ‘distant reading’; collega’s hebben met behulp van een auteursherkenningsalgoritme (dat is iets anders dan distant reading) nieuwe suggesties kunnen doen over wie de auteur mogelijk is. Dat is iets geheel anders.

      • Tim schreef:

        Beste prof van Oostendorp,

        Deel uitmakende van het Wilhelmus project moet ik u melden dat ik veel gebruik heb gemaakt van ‘distant reading’. Bovendien doen wij veel meer dan een kandidaat aandragen.

        Afgaande op de blog begrijpt u distant reading veelste nauw. Het is een modus van lezen en niet een (enkele) methode die kan worden ingezet. Bijna uitsluitend is het slechts een van de stappen binnen een analyse. Er is inmiddels legio geslaagd onderzoek dat (mede) rust op distant reading. Kom vooral eens langs bij de Utrecht Data School als u wilt zien hoeveel data, computatie en kwantificatie voor de humanities kunnen betekenen.

        Vanaf de tel dus in staccato,

        Tim

        • Ik gebruik hier distant reading inderdaad volgens de definitie die in het hier besproken artikel wordt gebruikt; anders wordt het een terminologische chaos. En onder die definitie kan distant reading alleen op bepaalde vragen antwoord geven, en wie de auteur van een individuele tekst is hoort daar niet bij (zoals geen enkele uitspraak over een individuele tekst daarbij hoort.) Ik zou het interessant vinden om een publicatie te zien waarin u inderdaad ‘meer doet’ dan een kandidaat-auteur aanreiken, want volgens mij is dat niet mogelijk. De uitnodiging om op uw Data School langs te komen, neem ik dan weer wel graag aan.

Laat een reactie achter