Inzicht in het mentale lexicon

Door Nicoline van der Sijs

Afgelopen week heeft een groep Nederlandse en Vlaamse taalkundigen, letterkundigen, historici, psycholinguïsten en taaltechnologen zich tijdens een inspirerende workshop op het Leidse Lorentz Center gebogen over de vraag hoe we door interdisciplinaire samenwerking meer inzicht kunnen krijgen in het mentale lexicon.

Uitgangspunt van de discussie was dat de woordenschat zowel een psychologische als een sociaal-historische dimensie heeft: enerzijds wordt de woordenschat immers via eerstetaalverwerving doorgegeven en ontwikkelt hij zich in het hoofd van de taalgebruiker, anderzijds is hij het gevolg van historische ontwikkelingen waarbij o.a. externe factoren als tweedetaalverwerving een rol spelen. Dit levert een aantal interessante vragen op, zoals: Wat is de interactie tussen de psychologische en sociaal-historische dimensie? Welke lexicale elementen zijn stabiel in verschillende talen en dialecten, of door de tijd heen, en welke zijn onderhevig aan verandering? Welke factoren bepalen dat? In hoeverre weerspiegelen semantische indelingen in (geleerde) traditionele woordenboeken een psychologische realiteit?

Onderzoek naar de structuur van het lexicon wordt momenteel verricht vanuit verschillende disciplines en met verschillende methodes, zoals ratings, reactietijden, woordassociaties, corpusonderzoek, semantische vectoren, distributionele modellen. Veel van dat onderzoek levert nieuwe, verrijkte datasets op. Zo hebben psycholinguïsten via grootschalige surveys gegevens verzameld over woordassociaties en over woordherkenning en lexicale decisie. Taalkundigen en computerlexicologen hebben terminologielijsten opgesteld en de lexicale semantische database Wordnet samengesteld, terwijl lexicografen werken aan het digitaliseren en verrijken van traditionele woordenboeken zoals historische woordenboeken, dialectwoordenboeken en thesauri. Historici, letterkundigen en psychologen hebben de tool LIWC (Linguistic inquiry and Word Count) gebouwd, die de expressie van emoties in teksten meet. Tot slot levert corpusonderzoek nieuwe gegevens over frequentie en semantische relaties.

Een van de conclusies van de workshop was dat het aan elkaar linken van de verschillende verrijkte datasets een voorwaarde is om te komen tot diepere inzichten in het mentale lexicon. We hebben daarom besloten verder te gaan als interdisciplinair Nederlands-Vlaams consortium. Het doel van het consortium  ‘Het mentale lexicon’ is informatie, data, methodes en onderzoeksvragen te delen. Om te beginnen zullen we ons inspannen een infrastructuur te bouwen waarop de verschillende datasets via een te ontwerpen ontologie worden gelinkt en doorzoekbaar gemaakt. Vooralsnog concentreren we ons op Nederlandstalige datasets.

Daarnaast broeden we op een gemeenschappelijke subsidieaanvraag om nieuwe onderzoeksvragen te kunnen beantwoorden. Ook denken we na over meer praktische toepassingen van de gelinkte datasets en de gecombineerde kennis, bijvoorbeeld in textmining, taaltoetsen, tweedetaalverwerving of de samenstelling van innovatieve (digitale) woordenboeken die gebaseerd zijn op de manier waarop concepten in het menselijke brein met elkaar zijn verbonden.

Tot slot zal het consortium zich ervoor inspannen dat het aantal respondenten op grootschalige surveys representatief is voor zowel Nederland als Vlaanderen. Om het ijzer te smeden nu het heet is, doe ik direct een dringend beroep op alle lezers van Neerlandistiek.nl om de enquête rond woordassociaties in te vullen en zo ruim mogelijk te verspreiden binnen het eigen netwerk van onderzoekers, studenten, scholieren etc. De meeste invullers komen momenteel uit Vlaanderen, dus respondenten uit Nederland zijn zeer welkom.

Graag roep ik iedereen op die geïnteresseerd is in theoretische vragen en/of praktische toepassingen rond het mentale lexicon om als lid toe te treden tot het piepjonge consortium ‘Het mentale lexicon’. Stuur even een berichtje aan Nicoline van der Sijs. Het e-mailadres staat ook open voor iedereen die suggesties heeft voor relevante datasets of corpora.