RE: Echte taaldata

Door Lucas Seuren
Vorige week stelde Marc van Oostendorp ter discussie wat nu zogenaamd echte taaldata zijn. Het ging daarbij grof gezegd om een onderscheid tussen taaldata die gegenereerd worden op basis van intuïtie – bijvoorbeeld, is zin X acceptabel Nederlands/Frans/Swahili volgens een moedertaalspreker? – ten opzichte van taaldata die op een of andere manier ontlokt zijn of spontaan voorkomen – grote corpora van uitingen/zinnen geproduceerd in experimenten of niet-experimentele settings. Wat maakt dat sommige onderzoekers de tweede categorie echte taaldata noemen, maar de eerste niet?
Introspectie

Er zijn twee belangrijke kritiekpunten volgens Marc op de intuïtiedata: we analyseren ons eigen gedrag en we doen dat met zeer kleine steekproeven. Op beide punten hebben de echtetaaldatafanaten (ETDF) natuurlijk wel een punt, zoals Marc ook onderkent in zijn stuk.
Dat introspectie een problematische methode is, is niet nieuw. In de psychologie werd het al decennia geleden ter discussie gesteld en in 1977 concludeerden Richard Nesbitt en Timothy Wilson dat echte introspectie helemaal niet bestaat. Als aan mensen gevraagd wordt waarom een stimulus leidt tot een bepaalde respons, grijpen ze terug op a priori causale verklaringen en ideeën over welke verklaring plausibel klinkt. Mensen hebben geen toegang tot hun hogere cognitieve processen en kunnen dus daarover ook weinig zinnigs zeggen.
Ook de kleinschaligheid van steekproeven is een terecht punt van kritiek. Dat staat natuurlijk in relatie tot het eerste punt: als een persoon een zin onacceptabel vindt, wil dat niet zeggen dat die zin is uitgesloten in de taal. En het oordeel van een kleine groep mensen voegt daar weinig aan toe. Uiteindelijk zijn we op zoek naar een zwarte zwaan: iemand die een zin waarvan we denken dat die onacceptabel is, acceptabel vindt. En zo’n persoon vind je minder snel als je met maar vijf mensen spreekt in plaats van vijfhonderd.
Natuurlijk

Maar een nog veel belangrijke probleem dat ETDF volgens mij hebben met data die gegenereerd is op basis van intuïtie, is dat deze niet natuurlijk is. (We zouden dan ook eigenlijk moeten spreken van NTDF, natuurlijketaaldatafanaten.) Menig theoretisch artikel staat vol zinnen die niet in het wild voorkomen; we kunnen ze genereren, maar we doen het niet.
Hier lonkt een analogie met de scheikunde. Er zijn een boel elementen die in de natuur voorkomen, omdat ze zeer stabiel zijn. Maar daarmee hebben we zeker niet alle elementen gevonden. Door meer protonen aan een atoom toe te voegen – het is uiteraard iets ingewikkelder – kun je nieuwe elementen verkrijgen. Dit zijn nog steeds echte elementen, maar ze komen niet in de natuur voor. Dat wil zeggen, mogelijk worden ze onder de extreme omstandigheden van supernova’s wel gevormd, maar vanwege hun snelle verval moeten ze op aarde in een laboratorium gemaakt worden. Het zijn voor ons dus synthetische elementen.
Als taal op dezelfde manier werkt, dan zijn intuïtiedata of synthetische data noodzakelijk om een complete taaltheorie te kunnen opstellen. Maar als we de analogie doortrekken ontbreekt er nog wel iets: wat is het equivalent van radioactief verval in taal? Met andere woorden, waarom vinden we bepaalde constructies die blijkbaar volgens ons interne taalsysteem mogelijk zijn niet in dagelijkse interactie? En juist daar wringt de schoen; volgens de ETDF zijn dergelijke constructies niet interessant. Veel beter is het om te kijken naar wat ons taalsysteem productief genereert: dus die constructies die we dagelijks gebruiken. En dan is het noodzakelijk om naar natuurlijke data te kijken.
Agnost

Het probleem is dat we niet weten wat taal is. Het zit in de geest, zoals Marc dat zegt, maar wat betekent dat? Genereren we bewust taalconstructies op basis van het systeem dat we geleerd hebben, of hebben we te maken met een onbewust proces van elektrische pulsjes waarvan we pas het resultaat zien als we het externaliseren – als we praten?
Volgens mij zit de waarheid ergens in het midden. Het is aan de ene kant onmogelijk om taal los te zien van zijn gebruiksomgeving, interactie. Evolutie houdt in dat voordelige mutaties zorgen voor een grotere overlevingskans, en taal op zichzelf lijkt die kans niet te vergroten. Pas als we taal zien als een geraffineerd systeem om interactie te ondersteunen, wordt de meerwaarde echt duidelijk. Bijna elke vorm van samenwerking wordt eenvoudiger met taal. Het geeft simpelweg legio meer opties om te communiceren.

Maar dat wil niet zeggen dat synthetische data onbruikbaar zijn in taalonderzoek. Een ander trucje dat de menselijke soort beheerst als geen ander, is de vaardigheid om patronen te zien en te abstraheren. Taal biedt evenmin evolutionair voordeel als er geen structuur zit achter onze taalvaardigheid. Juist door die onderliggende structuur is het eenvoudig om nieuwe constructies te maken en te begrijpen. Synthetische data kunnen inzicht bieden in wat die structuur is en helpen ons daarmee net zo goed als natuurlijke data bij het blootleggen van het onderliggende model. We hebben dus zowel STDF als NDTF nodig.