Computer reconstrueert het Latijn

Door Marc van Oostendorp

Het idee dat de taalkunde een exacte wetenschap kan zijn, is een negentiende-eeuwse gedachte. Taalkundigen ontdekten toen dat de verschillen tussen talen systematisch kunnen zijn: waar Romaanse talen een p hebben, hebben Germaanse een f of een v: pater correspondeert met vader, pied met voet, pellis met vel. Zulke regelmatigheden noemen we een wet. In dit geval is de voorouder van de Germaanse talen waarschijnlijk ooit gaan afwijken: de p werd een f (en later in het Nederlands een v).

Dat gold voor iedere p: de wet is even hard als willekeurig welke wet uit de natuurkunde, zo meende men. Het blijkt ook, zeker op de langere termijn, voor iedere taalverandering gelden. In ieder geval als je rekening houdt met het feit dat allerlei gebeurtenissen het beeld op het eerste gezicht kunnen verstoren. Behalve vel heeft het Nederlands ook pels, maar dat blijkt een woord te zijn dat we ná die verandering alsnog hebben geleend van het Latijn.

Als het allemaal zo regelmatig is, en zo exact, dan moet de computer het natuurlijk ook kunnen. Die voor de hand liggende gedachte heeft geleid tot het vakgebied van de computationele historische taalkunde. Gerhard Jäger schreef er een toegankelijke inleiding op voor een nieuw nummer van het tijdschrift Theoretical linguistics.

Er zijn allerlei technieken bruikbaar uit, bijvoorbeeld, de computationele biologie, zo laat Jäger zien. Zoals biologen op hun computer de evolutie van diersoorten kunnen nabootsen, zo kunnen taalkundigen woorden uit allerlei talen voeren aan hun laptop, die er dan een fraaie stamboom van maakt, en reconstrueert hoe de oertaal er ongeveer uit moet hebben gezien.

En het werkt, of in ieder geval een beetje. Dé testcase voor dit soort modellen vormen de Romaanse talen zelf, omdat we die talen vrij goed kennen evenals hun gezamelijke moeder: het Latijn. Als je de computer dus laat uitrekenen hoe die moeder heeft geklonken, hebben we redelijk vergelijkingsmateriaal. Voor de Germaanse talen kun je dat niet doen omdat er geen onafhankelijke informatie is over hoe de taal van de oude Germanen pakweg 2000 jaar geleden heeft geklonken.)

Jäger gaf zijn computer dus allerlei gegevens uit Romaanse talen, inclusief de talen die het niet tot standaardtaal hebben geschopt (zoals allerlei ‘dialecten’ in Italië die minstens evenveel van elkaar verschillen als sommige van het Spaans). Er kwam een stamboom uit die redelijk overeenkomt met wat mensen aan stambomen zouden maken en een reconstructie van de oertaal die redelijk lijkt op het Latijn:

Er gaat her en der wat mis met het einde van de woorden – dat is in te veel Romaanse talen afgesleten: naamvallen zijn verdwenen met hun uitgangen, klanken aan het eind van het woord hebben sowieso de neiging weg te vallen. Het systeem van Jäger doet eigenlijk niet aan woordstructuur en merkt dit niet op. In een enkel geval wordt een ander woord aangenomen (strada in plaats van via, sentir in plaats van audire), wat iets te maken kan hebben met het feit dat de Romaanse talen niet uit het allersjiekste Latijn zijn ontstaan. Maar bij elkaar lijkt het me een vrij bevredigende eerste poging.

De historische taalkunde is misschien wel de tak van de taalwetenschap die zich het meest leent voor een benadering met computers, omdat ze in zekere zin de minst ingewikkelde is. Je hebt niet met mensen te doen, alleen met de taal die ze, meestal in geschrifte, hebben nagelaten. Er is in de afgelopen 200 jaar gebleken dat je door logisch redeneren over die taalresten een heel eind kunt komen in je reconstructie.

De historische taalkunde is een schoon spel, Precies waar computers goed in zijn.