Het probleem van distant reading

Door Marc van Oostendorp

Het klinkt als een goed idee: de computer kan de statistiek de literatuurwetenschap in dragen. Waar letterkundigen zich alleen al noodgedwongen meestal slechts konden richten op een paar werken – zoveel als je er redelijkerwijs nauwkeurig kon lezen –, konden ze dus ook alleen uitspraken doen die gebaseerd waren op een beperkte doorsnede van alle literatuur. Nu kan de computer binnen een paar seconden tienduizenden boeken tegelijkertijd doorzoeken: dan kun je pas echt onderzoek doen. “Distant reading” wordt het wel genoemd met een term die Franco Moretti 18 jaar geleden alweer muntte.

Dat klinkt inderdaad als een goed idee. Hoe meer verschillende methodes je toepast op willekeurig onderzoeksobject, hoe groter de kans op succes. Toch ken ik eigenlijk geen voorbeelden van verbluffende inzichten die distant reading heeft opgeleverd en die je ook niet op andere manieren had kunnen verkrijgen. Veel van dat computerlezen blijft een beetje hangen in ontzag voor graf- en statistiek.

Een voorbeeld is het recente artikel ‘How homo economicus is reflected in fiction’ in het tijdschrift Language Sciences van de Finse taalkundige Michael Pace. 

Onderbouw

In wezen gaat het artikel over een interessante vraag: in hoeverre hebben de geschriften van Karl Marx aantoonbaar invloed gehad op de Britse literatuur van de 19e en 202 eeuw? Heeft een denker die er zo duidelijk in is geslaagd de wereld te veranderen – bijvoorbeeld doordat er enkele wereldwijde rijken zijn geweest die met harde hand hebben geprobeerd zijn voorspellingen waar te maken –, nu ook invloed gehad op de literatuur? (De vraag is ook nog eens heel geschikt doordat Moretti en sommige andere distant readers zelf duidelijk marxistisch geïnspireerd zijn.)

Het probleem is dan toch wel dat de distant reading methode nogal aan de oppervlakte is blijven hangen. Je kunt een corpus opbouwen met de teksten van vele honderden romans uit de 19e en de 20e eeuw, en die dan doorzoeken op woordgebruik (dat is Paces voornaamste methode), maar misschien moet je dan niet zo raar opkijken als er weinig uitkomt. Een denker als Marx had een voorkeur voor abstracte termen als machtsrelaties en de onderbouw van de samenleving, en zijn kracht lag nu juist in het ontleden van de macrostructuur van de maatschappij. Dat zijn allemaal zaken die in de literatuur niet zo gemakkelijk uit te beelden zijn.

Ideeën

Ook de andere resultaten zijn niet zo heel erg verrassend: in de negentiende eeuwse literatuur gaat het vaker over ‘de middenklasse’ dan over de ‘arbeidersklasse’ en de ‘upper class’ bij elkaar. Bovendien worden er meer positieve en meer actieve woorden gebruikt voor die middenklasse dan voor die andere twee klassen. Hé, de literatuur was in de negentiende eeuw een middenklasseverschijnsel! Natuurlijk: op deze manier hebben we een nieuw stukje evidentie voor die gedachte, maar omdat er weinig controverse is over deze observatie hebben we ook weinig aan zo’n nieuw stukje bewijs.

Het probleem van dit soort werk is dat het wel erg aan de oppervlakte blijft hangen, en romans als verzamelingen woorden blijft zien. Als je in plaats van de romans zelf alleen een lijst van alle woorden in alfabetische volgorde aan de computer had aangeleverd, had je bijna dezelfde analyses kunnen doen (alleen voor die middenklasse was het nodig om te zien of er in de buurt positieve woorden stonden). De truc kan alleen maar zijn om de computer wat beter te leren lezen. Als er invloed van Marx is geweest op de literatuur was dat natuurlijk een invloed van ideeën: die ideeën moet je er op de een of andere manier uithalen. Zolang de computer dat niet kan, lijkt distant reading me nog een weinig realistisch streven.