Het geluid van een Bayesiaanse machine

Door Marc van Oostendorp

attachment-1Het fijnste van onderzoeker zijn is dat je af en toe overtuigd raakt: eerst wist je zeker dat het zus zat, en dan merk je ineens dat je begrijpt dat het toch echt zo is. Vooral de onderzoeker op rijpere leeftijd, zoals ik, kan dat af en toe overkomen.

In eerste instantie zag ik bijvoorbeeld weinig in het nieuwe artikel The Message Shapes Phonology, dat sinds kort op het internet circuleert. Ik ken de auteurs, het zijn allemaal goede onderzoekers, die heel lang aan dit lange artikel gewerkt hebben en er nu heel enthousiast over zijn. Maar mij leek het oude wijn in nieuwe zakken.

Het artikel betoogt dat de klankvorm van woorden wordt bepaald door het gebruik: praten is altijd een compromis tussen zo goed mogelijk verstaan worden en het jezelf als spreker niet al te moeilijk maken qua bewegingen van tong en lip. Ooit zeiden wij courant en nu zeggen we krant omdat we dan minder moeite hoeven te doen (geen lippen meer ronden) terwijl we mekaar toch begrijpen. Als we kra zouden gaan zeggen, zou het gemak toenemen, maar de verwarring mogelijk ook.

Onduidelijker

Maar dat is dus al een heel oud idee, dat traditioneel wordt aangeduid met de term functionalisme: de functie van taal bepaalt de vorm (en om daarbij wordt aangenomen dat de functie van taal is gesprekken voeren en niet denken of liedjes zingen). Tot op zekere hoogte denkt volgens mij ook iedereen functionalistisch.

De laatste jaren heeft het een iets andere naam gekregen (usage-based) en in dit artikel wordt er wéér een andere naam gegeven (message-oriented, MOP), een naam die eigenlijk nog wat onduidelijker is. En ik vond het dus moeilijk om door die naam heen te kijken.

Thomas Bayes

Maar gisteren hadden we een leesgroep en de daar aanwezige promovendi en postdocs overtuigden me dat er toch wel meer in zit. Het idee is wel oud, maar de auteurs zijn er in geslaagd er een aansprekende wiskundige vorm voor te vinden. Ze hebben het namelijk verbonden met Bayesiaanse statistiek.

De opvattingen van Thomas Bayes zijn op zich ook al oud (hij was een achttiende-eeuwer), maar ze staan de laatste jaren ineens sterk in de belangstelling omdat ze een alternatief bieden voor de op statistische significantie gebaseerde methoden die veel empirische wetenschappen in grote problemen hebben gebracht.

Automatisch

In plaats dat je een hypothese vergelijkt met één alternatief (de nulhypothese) en ziet in hoeverre de kans dat jouw resultaten overeenstemmen met de hypothese op toeval zou kunnen berusten, gaat Bayes ervan uit dat er een groot aantal mogelijke hypothesen zijn, die ieder een eigen waarschijnlijkheid hebben.

Die methode heeft volgens statistici een betrouwbare uitkomst. (In de oorspronkelijke methode zeg je dat onderzoek betrouwbaar is als er minder dan vijf procent kans is dat het resultaat op toeval berust; maar dan slipt dus ongeveer 1 op de 20 onderzoeken er automatisch door.)

Verwachtingen

Maar deze nieuwe aandacht voor Bayes heeft in de taalwetenschap een interessante nieuwe consequentie: het heeft mensen op het idee gebracht dat naar taal luisteren mogelijk ook via de Bayesiaanse principes verloopt.

Terwijl je luistert, maak je de hele tijd hypotheses over wat de ander eigenlijk wil zeggen. Je hebt nog maar een deel van de informatie binnen, maar op dat moment heb je al allerlei verwachtingen over hoe de zin waarschijnlijk verder zal gaan.

Iemand zegt:

  • Ik heb een

Op dat moment zijn er nog een heleboel mogelijke vervolgen (toneelstuk geschreven, leuke jongen ontmoet, koffiekopje op mijn hoofd), maar er zijn ook een heleboel vervolgen die zeer onwaarschijnlijk zijn, bijvoorbeeld ieder vervolg met een verbogen werkwoord. Zinnen als ik heb een koopt komen nu eenmaal niet veel voor.

Ondertussen praat de persoon verder en zegt:

  • Ik heb een k…

In deze fractie van een seconde verdeel je de waarschijnlijkheden iets anders. Alle vervolgen die niet met een k beginnen worden nu veel minder waarschijnlijk (hoewel er altijd nog een kans is dat je het verkeerd verstaan hebt). De kans op ik heb een koopt neemt juist iets toe, hoewel het nog steeds heel klein blijft. En zo stel je steeds je verwachtingen bij, tot je de hele zin hebt gehoord.

Bereiding van salades

Maar meestal weet je dus voor die tijd al wat iemand gaat zeggen. Uit experimenten blijkt dat mensen als ze

  • Ik heb een komk…

hebben gehoord al een plaatje van een langwerpige groene vrucht voor zich zien. En als ze die zin horen terwijl ze een verhaal aan het beluisteren zijn over de bereiding van salades komt dat beeld nog eerder.

Het heeft ook voordeel om zo proactief te luisteren, omdat je zo als luisteraar snel kunt reageren, en bijvoorbeeld onmiddellijk antwoord kunt geven of kunt ingrijpen als iets niet duidelijk is.

Mooi artikel

Het aardige van die message-oriented mensen is dat ze nu dit (op zich al voorheen nauwelijks uitgewerkte) idee van Bayesiaans luisteren combineren met dat oude functionalisme. Precies op momenten dat de luisteraar eigenlijk toch al vrij duidelijk zou moeten weten wat de spreker zou moeten zeggen, kun je een beetje inzakken en de klanken minder duidelijk uitspreken.

Ze laten zien hoe je dat inderdaad kunt uitrekenen en daarmee allerlei vrij precieze voorspellingen kunt doen over hoe bepaalde aspecten van de uitspraak van talen veranderen. Het verklaart niet alles, en er moet nog heel veel aan getest worden om te zien of het model inderdaad interessante voorspellingen doet.

Maar het is een heel mooi artikel. Anders dan ik oorspronkelijk dacht – wat fijn!