Het genenpaspoort van Roodkapje


Dat de belangstelling voor digital of e-Humanities nog altijd groeiende is, hoef ik hier niemand uit te leggen. Ook binnen het volksverhaalonderzoek (in het kader van het vak volkskunde, etnologie of – in het Engels – folklore studies) verschijnt er tegenwoordig regelmatig een computationele studie, vooral op het gebied van verhaalstructuren. Vijf dagen geleden verscheen het open access en peer-reviewed artikel ‘The Phylogeny of Little Red Riding Hood‘ in PLOS ONE van de hand van de Britse onderzoeker Jamshid J. Tehrani, verbonden aan de afdeling antropologie én het centrum voor co-evolutie van biologie en cultuur aan de universiteit van Durham (een opmerkelijke combinatie!). In zijn studie keert Tehrani terug naar de ruim honderd jaar oude ‘historisch-geografische’ methode die het onderzoek naar volksverhalen een wat solider wetenschappelijke basis wilde geven. In deze methode werd vastgesteld dat er internationaal volksverhalen circuleren die tot hetzelfde ‘type’ behoren. Voor nu is het voldoende om te weten dat het sprookje van Roodkapje het internationale typenummer ATU 333 heeft gekregen, en dat het sprookje van de Wolf en de Zeven Geitjes behoort tot type ATU 123. Had je eenmaal alle varianten zo veel mogelijk verzameld, dan kon je volgens de historisch-geografische methode drie vragen beantwoorden: 1. Hoe oud is het sprookje bij benadering? 2. In welk kerngebied is het sprookje ontstaan? en 3. Hoe verliep de plot van het sprookje in zijn oervorm? Deze vragen zijn in het verleden met wisselend succes beantwoord, en omdat de methode toch minder exact was dan gehoopt, is men zich weer op andere invalshoeken gaan concentreren. Het internationale typensysteem is evenwel gehandhaafd; de laatste herziene versie van Aarne-Thompson-Uther dateert uit 2004.

Tehrani keert nu terug naar de vraag in hoeverre Roodkapje-versies van over de continenten Europa, Azië en Afrika verwant aan elkaar zijn (even uitgaand van de monogenese van zulk soort volksverhalen): wat is hun onderlinge samenhang, ook in chronologische zin? De onderzoeker heeft 54 (naar het Engels vertaalde) versies van Roodkapje geanalyseerd. Hij stuitte daarbij wel op de complicerende factor dat hij in Azië en Afrika hybride versies vond waarbij bijvoorbeeld de typen ATU 333 en ATU 123 door elkaar gemixt waren. Al deze 54 verhalen sneed hij vervolgens op in micro-motieven of plot-elementen: dat bleken er alles bij elkaar 72 te zijn. Elk plot-element werd vervolgens gecodeerd:
1. Soort van het slachtoffer: [0] dierlijk [1] menselijk
2. Type dier: [0] geit, [1] konijn, [2] duikerbok, [3] mus
3. Het slachtoffer is [0] in een groep, [1] alleen
en zo verder voor 72 elementen. Dit levert een soort ‘genenpaspoort’ op van Roodkapje-versies die er dan voor de Grimm-versie en de Perrault-versie alsvolgt uitzien:
Grimm 1-111020011010211012110120–00-11-001-0001-1110-00—-000000-1300010-000
Perrault 1-1110200110102110121101210-00-11-001-0001-0000-00—-000000-00000-0-000
[Een streepje betekent “niet van toepassing, irrelevant”; zo is Roodkapje bij Grimm en Perault geen dier, dus de tweede positie krijgt een streepje. Tegen het eind betekent 0 in veel gevallen “element afwezig, lege positie”]
Vervolgens laat de onderzoeker hier biologisch-genetische software op los om de volgende vraag te kunnen beantwoorden: gegeven de codering van 72 motiefjes in 54-verhaalversies, dus gegeven alle overeenkomsten en verschillen in het narratieve ‘genenpaspoort’, welke versies clusteren dan bij elkaar, wat zijn de naaste groepen ‘familieleden’, en wat valt er te zeggen over een chronologische volgorde? De software tekent boomstructuren, enigszins vergelijkbaar met die voor de samenhang van middeleeuwse handschriften. Deze boomstructuur heeft echter geen wortel of oerbron, maar heeft meerdere vertakkende takken waar clusters samen komen. Tehrani gebruikt drie verschillende methodes, die hij zelf omschrift als “the cladistic, Bayesian and NeighbourNet analyses”. Alledrie de methoden leveren nagenoeg hetzelfde ‘genetische’ beeld op, alsmede een ander verrassend resultaat. Om met dat laatste te beginnen: toen wetenschappers ruim een eeuw geleden begonnen met het definiëren van volksverhaaltypen, toen gebeurde dat niet geweldig beredeneerd en systematisch, maar meer op het gevoel. De catalogi zijn in de loop van een eeuw steeds verder aangegroeid met typen en subtypen. Deze methode is nooit ontwikkeld voor computer-analyse, en het is maar helemaal de vraag of de computer (zonder kennis van de catalogi) op dezelfde types zou gaan clusteren. De eerste verrassing is dus dat de computer nauw aansluit bij de analyse die ooit door mensen is gemaakt: ook de computer heeft de neiging om te clusteren op dezelfde verhaaltypen. De drie methoden geven dan vervolgens drie of vier duidelijke clusters te zien: 1. De Europese Roodkapjes met een uitgesproken ATU 333-structuur; 2. hybride vertellingen met Roodkapje-elementen en Wof en de Zeven Geitjes van Oost-Aziatische herkomst; 3. De Wolf en de Zeven Geitjes met een duidelijke ATU 123-structuur uit Europa, het Midden-Oosten en Noord-Afrika; 4. hybride Afrikaanse sprookjes met een mix van ATU 333 en 123.
Er is wel een theorie geweest die de Aziatische sprookjes als bron van alle andere heeft aangewezen. De sprookjes zouden zich richting het Midden-Oosten en Afrika dan hebben ontwikkeld tot overwegend De Wolf en de Zeven Geitjes en richting Europa tot Roodkapje. Op basis van kwalitatieve analyse komt Tehrani tot een omgekeerde hypothese. Roodkapje is van oorsprong een Europees sprookje (dat vond de ‘historisch-geografische school’ overigens ook) dat in de middeleeuwen via handelsbetrekkingen in het Midden-Oosten en Afrika terecht is gekomen, en in de 17e-eeuw naar Oost-Azië is gebracht, waar het sprookje soms vermengd werd met andere sprookjestypen.
Wat ik persoonlijk interessanter aan de boomstructuren vind is de positie van de in het Latijn overgeleverde Aesopische fabels uit de 4e eeuw en de Latijnse proto-Roodkapje van Egbert van Luik uit de 11e eeuw. Als gevolg van hun ‘genenpaspoort’ worden ze vroeg in de boomstructuur gezet, op de juiste takken. Natuurlijk zou je dat als onderzoeker verwachten, maar een computer ziet dat bij gebrek aan relevante context-informatie misschien heel anders –

quod non. De Aesopische fabel van het geitje dat de deur dichthoudt voor de wolf en daardoor overleeft wordt door de computer keurig vrijwel aan het begin van de ATU 123-traditie geplaatst. Keurig laag aan de ATU 333-tak staat Egbert van Luik met zijn verhaal over een meisje met een rood doopmanteltje, dat door een wolf wordt gegrepen en bijna opgegeten, maar door God beschermd wordt vanwege dat rode manteltje. De computer had dit gemakkelijk kunnen afdoen als een heel afwijkende versie ergens ver weg in een vreemde tak, maar dat is niet gebeurd.

Binnen het Europese cluster is het verder boeiend om te zien dat Perrault en Grimm dicht bij elkaar aan hetzelfde takje zitten: onderzoekers hadden al eerder aangetoond dat de Grimm-versie gewoon terugging op Perrault, maar nu met een wat barmhartiger slot (levend weer uit de buik komen), ontleend aan de Wolf en de Zeven Geitjes! Tot slot nemen ook de Franse, Italiaanse en Tiroolse versies van Roodkapje een aparte positie in: ondanks dat ze pas sinds de 19e eeuw uit de mondelinge overlevering zijn opgetekend, worden ze vóór Perrault en sommige zelfs vóór Egbert van Luik geplaatst als aparte takken. Er wordt in het volksverhaalonderzoek al langer over gespeculeerd of deze versies niet typisch de rauwe, seksueel-expliciete volkse mondelinge versies representeren, en dat lijkt nu bevestigd te worden.
De uitkomsten van dit onderzoek zullen evenwel een teleurstelling vormen voor de aanhangers van de schriftelijke hypothese, die menen dat alle mondelinge sprookjes steeds hun oorsprong hebben in geschreven bronnen: het schrift (re-)oraliseert in hun optiek steeds de vertellingen. Volgens het DNA-onderzoek is er geen direkte genetische verwantschap tussen de boeken-Roodkapjes en de mondeling vertelde Roodkapjes: noch aan Grimm, noch aan Perrault hangt weer een hele tak met mondelinge versies. Of zou dit komen omdat het aantal van 54 verhaalversies wat aan de magere kant is?
Ook al is het artikel van Tehrani betrekkelijk kort, het is bijkans een samengebalde dissertatie, elke zin propvol informatie, met verder met al zijn links naar geografische kaartjes, boomstructuren, bronnenverantwoording, een overzicht met de codering van motieven, het ‘genenpaspoort’ van alle sprookjes en een hele uitleg over de methodologie. Voor een traditionele onderzoeker uit de humaniora is dat laatste overigens meteen het grootste struikelblok: in kennis van specifieke computer software en hun werking schieten velen tekort. Ik kan de bronnen overzien, ik kan de boomstructuren met instemming bestuderen, maar ik weet niet wat er onder de motorkap gebeurt om tot dit resultaat te komen. Veel mensen in de humaniora zullen derhalve moeten samenwerken met experts op het gebied van computer science, en er maar op vertrouwen dat die algoritmes doen wat ze moeten doen. In de huidige opleidingen zal meer plaats moeten worden ingeruimd voor kennis van software, programmeren et cetera.
Mijn gebrek aan specifieke computerkennis neemt niet weg dat ik het artikel over ‘The Phylogeny of Little Red Riding Hood’ buitengewoon interessant en stimulerend vind. Ook nog in een heel ander opzicht. Het is wel zo logisch dat wetenschappelijk onderzoek in de toekomst snel online in open access wordt gepubliceerd. Menig uitgever breekt het zweet al uit: die bedenken al dat zonder abonnees op papieren tijdschriften ze de auteurs maar moeten laten betalen om te mogen publiceren. Ik ben van mening dat dit niet mag gebeuren. Als we de uitgevers uit het productieproces trekken van het wetenschappelijke tijdschriften uitgeven en we zorgen zelf (NWO? KNAW?) voor open access tijdschriften dan scheelt dat binnenkort enorm veel geld. We hebben tijdschriften-uitgevers niet meer nodig voor papier, drukken, reclame en distributie, en artikelen en reviews schrijven deden wetenschappers toch al zonder dat ze een honorarium in rekening brachten. Een online, open access, peer-reviewed tijdschrift als PLOS ONE is een elegante 21e-eeuwse oplossing voor een dilemma dat zich binnenkort gaat voordoen. PLOS ONE is mooi vormgegeven, wereldwijd 24/7 gratis te raadplegen, maakt volop gebruik van de mogelijkheid om links te plaatsen, of kaartjes, grafieken en boomstructuren in kleur te laten downloaden, en ook het basismateriaal van de auteur beschikbaar te maken, zodat iedere andere onderzoeker zijn werk kan herhalen en controleren. Kortom, graag ook een PLOS Literature, PLOS Linguistics, PLOS Folklore, en een PLOS e-Humanities, en ook blog-versies vergelijkbaar met Neder-L. Dan hoeven we niet meer maanden of jaren te wachten op publicatie, en dan verschijnen korte besprekingen en kritische recensies ook vele malen rapper.