Alle talen lijken op elkaar

Een nieuwe vertaaltruc van Google
door Marc van Oostendorp


Wie wil weten hoe de taaltechnologie – onze kennis over hoe computers met taal kunnen omgaan – zich ontwikkelt, doet er goed aan om Google in de gaten te houden. Daar worden doorlopend slimme mensen aangesteld, bijvoorbeeld om te werken aan Google Translate.

Vorige week verscheen er een nieuw artikel op internet waarin een paar van die slimme jonge mensen een nieuwe techniek opbouwen om een vertaalwoordenboek op te bouwen tussen twee willekeurige talen, dat vervolgens (onder andere) door een computer gebruikt kan worden. (Hier is een artikel dat het idee moet populariseren, maar dat ik eerlijk gezegd pas begreep nadat ik het wetenschappelijke artikel gelezen had.)

Het interessante aan de nieuwe techniek is dat je het woordenboek bijna helemaal kunt maken door de computer eentalige teksten in allebei de talen te laten bestuderen.
Je hoeft slechts voor een handjevol woorden te weten hoe ze van de ene taal in de andere vertaald worden – de rest kan de computer dan automatisch afleiden uit hoe de talen in elkaar zitten. Want dat blijkt voor alle talen ruwweg hetzelfde – althans dat beweren de onderzoekers van Google.

De eentalige analyse werkt als volgt. De computer bekijkt duizenden (tienduizenden, miljoenen; enfin, u kent Google) teksten. Vervolgens kijkt het bij ieder woord welke andere woorden er onmiddellijk voor en na dat woord kunnen komen. Uit de zin ‘alle talen lijken op elkaar’ concludeert hij dus dat talen onmiddellijk voor lijken kan staan en op onmiddellijk erna. Nu zullen er heel veel zin zijn waarin lijken onmiddellijk gevolgd wordt door op, en minder waarin talen gevolgd wordt door lijken. Al dit soort informatie wordt nu statistisch bewerkt, zodat voor allerlei woorden en combinaties van woorden kan worden uitgerekend hoe waarschijnlijk het is dat een ander woord erop volgt. Met andere woorden: de relaties van alle woorden in de taal tot alle andere woorden in de taal kunnen worden uitgerekend.

Die relaties kun je weergeven in een grafiek, zoals hierboven is gebeurd voor de namen van een aantal dieren in het Engels en het Spaans. Wat daarbij opvalt: de plaatjes lijken heel erg op elkaar. De onderlinge relaties tussen de namen van huisdieren in het Engels lijken sterk op die in het Spaans.

De reden dat talen op elkaar lijken is dat ze allemaal dezelfde werkelijkheid beschrijven. Zo zou je de verticale as hierboven kunnen zien als de kans dat de dierennaam voorafgegaan wordt door het woord kleine. Die kans is groter voor kat dan voor hond en groter voor hond dan voor paard. (Het klopt niet precies, maar dat komt omdat het niet alleen maar gaat over kleine, maar honderdduizenden andere woorden.) Het maakt daarbij niet uit of je het hebt over het Engelse small cat of over het Spaanse pequeño gato.

De structuur van de woordenschat weerspiegelt zo de structuur van de werkelijkheid, zoals de sprekers deze zien. Omdat deze hetzelfde is, kun je de ene woordenschat op de andere afbeelden. Je hoeft in het bovenstaande plaatje alleen te weten dat cat correspondeert met gato en dog met perro en je kunt de vertalingen voor horse, cow en pig zo uitrekenen.