De beste digitale taalbronnen

Door Sterre Leufkens

Internet, wie kent het niet? Het heeft allerlei grootse en gevaarlijke verschijnselen teweeg gebracht, zoals de Arabische lente, project X, en Milfje. Maar minstens zo belangrijk is dat het internet het voor ons allemaal mogelijk maakt om (beter) onderzoek te doen, naar taal bijvoorbeeld. In de afgelopen decennia zijn er een aantal superhandige bronnen en tools ontwikkeld, die jij thuis met je simpele wifi-abo gewoon kunt gebruiken, om onderzoek te doen bijvoorbeeld. Milfje zet een paar hoogtepunten op een rijtje.

Dit overzicht werd mede mogelijk gemaakt door de onvolprezen Ton van der Wouden.

Woordenboeken en grammatica’s

Als je vroeger iets wilde weten over woorden of grammatica, dan was je aangewezen op boeken. Niks mis met boeken, natuurlijk, maar digitale woordenboeken en grammatica’s hebben een groot voordeel: ze zijn beter doorzoekbaar. Fijn, dus, dat we de beschikking hebben over de volgende online bronnen.

> De e-ANS

De Algemene Nederlandse Spraakkunst is de klassieke descriptieve grammatica van het Nederlands, en hoera: hij staat online en is dus makkelijk doorzoekbaar. Nou ja, makkelijk: het is notoir moeilijk om info te vinden in de e-ANS. Daar wordt dan ook hard aan gewerkt, en als het goed is wordt deze grammatica snel verbeterd en uitgebreid. Maar ook nu al is de e-ANS een onmisbare online bron.

> Taalportaal

In het Taalportaal vind je superveel informatie over de fonologie, morfologie en syntaxis van het Nederlands, het Fries, en het Afrikaans. Héél erg handig als je je als taalwetenschapper met deze talen bezighoudt. De informatie is actueel behoorlijk diepgravend, en helder opgeschreven. Voor taalkundigen dan – de geïnteresseerde docent is misschien blijer met de ANS, maar dat weet ik niet zeker.

> Etymologiebank

Wil je weten waar een bepaald woord vandaan komt, dan kun je in een etymologisch woordenboek kijken. Wat je beter kunt doen, is zoeken in de online Etymologiebank: daar vind je info uit een heleboel woordenboeken, gecombineerd en makkelijk doorzoekbaar. Een schat van kennis, zomaar gratis en voor niks! Deze site staat ergens hoog in Milfjes website-top 10, en terecht.

> WNT

Nog zo’n gratis taalschat is gemaakt door het Instituut voor de Nederlandse Taal. We hebben het over het Woordenboek der Nederlandse Taal (WNT), een woordenboek van het Nederlands van 1500 tot 1976. Via bovenstaande link kun je niet alleen makkelijk het WNT doorzoeken, maar ook meteen het Woordenboek der Friese Taal, en historische woordenboeken met info over woordbetekenissen in nóg oudere versies van het Nederlands. Inclusief etymologie en citaten. Genieten.

Corpora 

Woordenboeken en grammatica’s zijn geschreven door deskundigen. Hoe goed die deskundigen en hun analyses ook zijn, het is altijd boeiend om ook te kijken naar de ruwe data, d.w.z. dat wat mensen zelf doen in verschillende contexten, als ze denken dat er geen taalkundige meekijkt (quod natuurlijk wel). Daarom is het ook zo vet dat we steeds meer toegang hebben tot corpora: grote verzamelingen taal van allerlei soorten en maten. Soms zijn die corpora ook nog eens verrijkt, oftewel: er is informatie toegevoegd over sprekers/schrijvers, context, of zelfs over eigenschappen van de gebruikte woorden en zinnen, zodat je bijvoorbeeld meteen alle bijvoeglijke naamwoorden kunt vinden die Bredero gebruikte in zijn kluchten. Waar moet je wezen voor dit soort data?

NederLab

Op deze site kun je een ongekend enorme hoeveelheid tekstcollecties doorzoeken, op 1001 manieren en met prachtig rijke meta-informatie. Er zijn officiële teksten en informele teksten, fictie en non-fictie, van de 14e eeuw tot nu. Je kunt zoeken op woord, op woordcombinatie, op lemma, op woordsoort, op combinatie van woordsoorten, je kunt allerlei grafiekjes maken, een tijdlijn – alles wat je corpusonderzoekende hartje maar begeert. Als je beschikt over inloggegevens bij e.o.a. onderzoeksinstituut kun je zelfs stukjes corpus opslaan en nog meer zoekstrategieën toepassen. Kortom – Nederlab kan alles. Om door te krijgen hoe en wat, kun je hier tutorials bekijken.

Delpher

Delpher is onderdeel van NederLab dus misschien is het gek om hier te noemen, maar we doen het toch, omdat het zo’n briljante database is. Delpher bevat kranten, boeken en tijdschriften uit de 15e eeuw tot en met nu, gedigitaliseerd en dus, jawel, doorzoekbaar. Bekijk waar de media over schreven op je geboortedag. Zie in tijdschriften uit 1930 hoeveel Frans we toen spraken. Zoek op wanneer kranten voor het eerst over klimaatverloedering begonnen te schrijven. Delpher is een bron van historisch besef, en van vermaak trouwens (zie daarvoor ook het Twitter-account @marktraa).

DBNL

In de Digitale Bibliotheek der Nederlandse Literatuur (DBNL) vind je ook alweer zo’n ongekend enorme hoeveelheid teksten, alsof het niks is. Hier gaat het om teksten ‘die behoren tot de Nederlandse letterkunde, taalkunde en cultuurgeschiedenis’, en met Nederlands wordt dan bedoeld: uit het hele taalgebied. In de DBNL vind je behalve teksten ook knetterveel bibliografische informatie. Zoek bijvoorbeeld op de Curaçaose schrijver Frank Martinus Arion, en je krijgt een overzicht van de biografieën over hem, de boeken en artikelen die hij geschreven heeft (waarvan je er een paar meteen online kunt lezen), en allerlei secundaire literatuur. In de DBNL staat zo ontzettend veel informatie, daar kun je de rest van je leven heerlijk in verdwalen.

Corpus Gesproken Nederlands

Leuk ja, leuk, die geschreven teksten, maar als taalonderzoekster wil je natuurlijk ook graag het gesproken woord bestuderen! Gesproken taal is tenslotte veel spontaner, er gebeurt van alles dat in schrijftaal niet mag en kan, en is daarmee veel interessanter als je bijvoorbeeld naar taalverandering kijkt. Of als je bijvoorbeeld uitspraakkwesties wilt bestuderen. Hiervoor wend je je dan tot het Corpus Gesproken Nederlands (CGN). Het CGN bevat een loeigrote hoeveelheid gesproken taal, opgenomen tussen 1998 en 2004, en geannoteerd voor van alles en nog wat. Je moet het downloaden, maar omdat het zo loeigroot is kan dat niet zomaar – je moet de harddisk betalen waar het op staat, of toegang krijgen via een onderzoeksinstituut waar je bij hoort. Dat kost dus wat geld en/of moeite, maar dan heb je ook wat: het CGN is bij mijn weten de enige plek waar je zo veel gesproken Nederlands (van Nederlandse en Belgische sprekers) vindt.

Twitter

De echte hedendaagse hipsteronderzoek(st)er is nog niet tevreden met online grammatica’s en corpora van geschreven en gesproken teksten – nee, socialemediataal, dat is pas interessant! Twitter kun je eigenlijk zien als een ideaal corpus: het is allemaal getypt, dus makkelijk te bewaren en te doorzoeken, maar mensen schrijven er in een soort losse, spontane spreektaalachtige taal, zonder gehinderd te worden door al te veel purisme. Om al die heerlijkheid goed te kunnen bestuderen zijn er een paar tools ontwikkeld waarmee je heel prettig in miljarden tweets kunt graven.

> TwiNL

Zoek snel en makkelijk door Nederlandstalige tweets uit 2014. Geen heel lange periode, dus niet geschikt voor de analyse van grote taalveranderingen, maar daar staat tegenover dat je blitse heatmaps (kaartjes waarop je kunt zien waar een woord gebruikt is) en linecharts (tijdslijnen) kunt maken. Ook kun je razendsnel zien door wie bepaalde woorden worden gebruikt.

> Dutch Twitter ngrams

De Nederlandse taalkundige Gosse Bouma ontwikkelde deze zoekmachine, waarmee je handig in Nederlandstalige tweets kunt zoeken. Zoek op een enkel woord om z’n frequentie te achterhalen. Leuker is het om een * voor of achter het woord te zetten (een zgn. wild card), en te kijken met welke woorden het zoekwoord vaak gecombineerd wordt (een ngram is een combinatie van n woorden). Wat blijkt: ‘mega’ wordt vaak gebruikt voor ‘veel’ dan wel ‘mindy’; ‘ultra’ komt het vaakst voor in combinatie met ‘gay’. En voor zulke dingen mag je dan weer op zoek naar een verklaring.

Zo kijkbuiskinderen, dat is het even voor nu. Maar deze lijst is vast verre van volledig. Zetten jullie je suggesties erbij, hieronder in de comments? Dank!

Dit stuk verscheen eerder op De Taalpassie van Milfje Meulskens.

Dit bericht is geplaatst in column, taalkunde met de tags . Bookmark de permalink.

11 reacties op De beste digitale taalbronnen

  1. Jos Houtsma schreef:

    En niet te vergeten: de Nederlandse Liederenbank, http://www.liederenbank.nl, met ‘ruim 175.000 Nederlandse liederen van de Middeleeuwen tot de twintigste eeuw.’

  2. Erik Bouwknegt schreef:

    Corpus Nederlandse Gebarentaal

    https://www.ru.nl/corpusngt/

  3. WebredMiet schreef:

    Via mijn lidmaatschap bij de bibliotheek (in Vlaanderen) heb ik vrij toegang tot GoPress: alle kranten (of toch bijna) en een aantal belangrijke tijdschriften uit Vlaanderen en Nederland sinds de jaren 90. Heb ik al een aantal keer gebruikt voor recente taalevolutie. Spijtig genoeg geen Belgische Delpher voor oudere nummers.
    Heel wat corpora, waaronder het Corpus Gesproken Nederlands, kun je tegenwoordig ook online gebruiken via het Instituut voor de Nederlandse Taal. Dat is een CLARIN-centrum en stelt in die hoedanigheid zoveel mogelijk digitale bronnen vrij ter beschikking. Er komen er ook steeds bij en je kunt er als onderzoeker ook terecht voor tips als je zelf voor je onderzoek een corpus moet/wil samenstellen. Je vindt de lijst en de uitleg hier:https://ivdnt.org/clarin-eric
    Een bron die ik zelf heel vaak gebruik, is de Kaartenbank van het Meertens Instituut (http://www.meertens.knaw.nl/kaartenbank/). Enkele duizenden taalkaarten zo bij de hand, heerlijk. 🙂 Het Meertens Instituut heeft nog wel meer bijzonder interessante databanken.

  4. Jos Rombouts schreef:

    In het overzicht ontbreekt de categorie “Dialectwoordenboeken”.

    ALFABETISCHE DIALECTWOORDENBOEKEN

    Er twee uitstekende woordenbanken.
    :
    De Woordenbank van de Nederlandse Dialecten (WND) brengt in een digitale database de woorden en betekenissen bijeen die opgeslagen liggen in de regionale en lokale dialectwoordenboeken van het Nederlandstalige deel van België.

    https://woordenbank.eu/lid/wnd/f?p=104:31:::::P0_DEELSITE

    De elektronische Woordenbank van de Nederlandse Dialecten (eWND) bevat een alsmaar groeiend aantal oude en modernere dialectwoordenboeken uit Nederland.

    http://www.meertens.knaw.nl/ewnd/

    THEMATISCH GEORDENDE WOORDENBOEKEN

    e-WVD: Elektronisch Woordenboek van de Vlaamse Dialecten
    https://e-wvd.be/lid/wvd/f?p=131:1::::::

    e-WBD: Elektronisch Woordenboek van de Brabantse Dialecten
    https://e-wbd.nl/

    e-WLD: Elekronisch Woordenboek van de Limburgse Dialecten
    http://e-wld.nl
    Dit zijn de woordenboeken voor het zuiden van het taalgebied. Dit lijstje kan worden aangevuld met andere thematische dialectwoordenboeken.

  5. Jos Rombouts schreef:

    WOORDENBOEKEN VAN SPREEKWOORDEN EN VASTE VERBINDINGEN (FRASEMEN)

    Er staan twee monumentale woordenboeken staan op internet:

    De oorsprong en uitlegging van dagelyks gebruikte Nederduitsche spreekwoorden, opgeheldert tot grondig verstand der vaderlandsche moedertaal. Deel I (1726) – Carolus Tuinman
    https://www.dbnl.org/tekst/tuin005oors01_01/index.php
    idem, II (1727)–Carolus Tuinman
    https://www.dbnl.org/tekst/tuin005oors02_01/index.php

    Nederlandse spreekwoorden, spreekwijzen, uitdrukkingen en gezegden (1923-1925) – F.A. Stoett
    https://www.dbnl.org/tekst/stoe002nede01_01/zoek.php

  6. WebredMiet schreef:

    Nog een digitale bron die weinig bekend is, helaas ook niet zo gebruiksvriendelijk: het dialectmateriaal van Willems. Het is een van de oudste dialectenquêtes van ons taalgebied en is des te waardevoller omdat de schriftjes zelf tegenwoordig zo fragiel zijn, dat je ze zelf niet meer kunt raadplegen. Gelukkig waren ze al eerder eens op microfiche gezet. De schriftjes kun je dus online raadplegen als beeld, maar je zult zelf moeten bladeren en de handschriften ontcijferen. Ze zijn immer nooit overgetikt. http://bouwstoffen.kantl.be/CPWNL/CPWNL.xq?browse=s002&act=browse#search

  7. DirkJan schreef:

    Een uitstekende bron voor recente woorden is het online Algemeen Nederlands Woordenboek, waarbij ook een aparte lijst is te vinden van recente neologismen. Het gaat denk ik verder waar het WNT is gestopt. Maar het is denk ik niet zo bekend, net als de makers van het woordenboek, Het Instituut voor de Nederlandse Taal.

    http://anw.inl.nl

    “Het Algemeen Nederlands Woordenboek (ANW) is een corpusgebaseerd, digitaal woordenboek van het eigentijdse Nederlands in Nederland en Vlaanderen, in Suriname en in het Caraïbisch gebied. De taalperiode die het ANW bestrijkt, loopt van 1970 tot heden en valt min of meer samen met de naoorlogse generaties volwassen taalgebruikers. Het is een synchroon woordenboek, wat betekent dat het de eigentijdse taal beschrijft en in principe geen aandacht besteedt aan de herkomst ervan (etymologie). Een uitzondering is gemaakt voor de neologismen: de gegevens daarvan worden zo nauwkeurig mogelijk vastgelegd in een apart veld Etymologie.”

    Ook op Wikipedia en Wikiwords staan veel aparte lemma’s van Nederlandse woorden en hopelijk wordt daar nog steeds gewerkt aan verdere uitbreiding.

Reacties zijn gesloten.