Tag: corpusonderzoek

Zoeken in grote hoeveelheden geschreven en gesproken Nederlands met OpenSoNaR

Door Instituut voor de Nederlandse Taal

Dinsdag 9 april heeft het Instituut voor de Nederlandse Taal een nieuwe versie van de OpenSoNaR webapplicatie gelanceerd, waarmee je kunt zoeken in grote hoeveelheden geschreven en gesproken Nederlands. De applicatie geeft toegang tot data uit het SoNaR-corpus, een verzameling geschreven teksten van meer dan 500 miljoen woorden, en het Corpus Gesproken Nederlands (CGN), een verzameling van 900 uur Nederlandse spraak.

De nieuwe webapplicatie maakt het mogelijk om te zoeken in alle data van de twee verzamelingen (corpora). De grote hoeveelheden tekst zijn voorzien van extra taalkundige informatie zoals woordsoort en lemma, en bovendien zijn van het Corpus Gesproken Nederlands ook de geluidsfragmenten te beluisteren. In de applicatie kun je eenvoudig zoeken op een woord, of een complexere zoekactie doen door te selecteren op een specifieke annotatie of door reguliere expressies te gebruiken. Daarnaast is het mogelijk om de zoekresultaten op te slaan, de zoekgeschiedenis te raadplegen en frequentielijsten te bekijken.
Lees verder >>

Zoekt (met reguliere expressies), en gij zult (meer) vinden

Door Roland de Bonth

Het is haast niet meer voor te stellen, maar er is een tijd geweest dat studenten Nederlands geen gebruik konden maken van het internet. Om een antwoord te krijgen op een onderzoeksvraag – ik startte in 1985 – was ik aangewezen op een nauwelijks te overziene hoeveelheid papieren boeken, verspreid over de instituutsbibliotheek en de universiteitsbibliotheek. Bij het vak heuristiek maakte ik via het onder oudere neerlandici welbekende Vermakelijk bibliografisch ganzenbord van A.M.J. van Buuren, W.P. Gerritsen en A.N. Paasman kennis met de naslagwerken en hulpmiddelen die noodzakelijk waren voor het schrijven van werkstukken en scripties, zoals de Bibliografie van de Nederlandse Taal- en Literatuurwetenschap (BNTL), het Nieuw Nederlandsch Biografisch Woordenboek (NNBW) en Brinkman’s Cumulatieve Catalogus van Boeken.

De afgelopen 34 jaar is het internet enorm uitgedijd. Dat is zowel een zegen als een vloek. Een zegen omdat je nu waar dan ook met één eenvoudige zoekopdracht in Delpher honderden jaargangen van tientallen kranten kunt doornemen. Uitgebreider, sneller én nauwkeuriger dan uren lang aan een tafel in de leeszaal van de universiteitsbibliotheek vergeelde ingebonden jaargangen van een beperkt aantal dagbladen doornemen en de resultaten met een pen overschrijven op papier. Als je tenminste iets gevonden had, want die garantie had je van tevoren niet. Lees verder >>

Poleposition

Door Gudrun Reijnierse

Mensen die mij kennen weten dat ik er als autosportliefhebber een sport van maak om in (bijna) elke collegereeks een verwijzing naar de Formule 1 op te nemen. Tijdens de cursus Interculturele Communicatie laat ik bijvoorbeeld het ‘che fai’-gebaar zien dat Max Verstappen na de Gran Prix van Mexico (2016) richting Sebastian Vettel maakte. In niet elke cultuur heeft dat gebaar namelijk (dezelfde) betekenis, en dat kan tot communicatieproblemen leiden. Tijdens de colleges Wetenschapsjournalistiek leg ik graag de link tussen de veronderstelde effect van het drinken van Red Bull energydrink op rijprestaties en de recente overwinning van (inmiddels voormalig) Red Bull Racingcoureur Daniel Ricciardo op het circuit van Monaco – om daarna vooral in te gaan op de aard van die bevindingen in het licht van mogelijke belangenverstrengeling (zie bijvoorbeeld hier en hier). Zo levert autosport me voorbeelden om droge theoretische stof tijdens colleges concreet te maken voor studenten. Lees verder >>

Keurig netjes (2): Een corpusstudie

Ton van der Wouden

Het Nederlands is een van de best beschreven talen van de wereld. Het is ook moeilijk om niet onder de indruk te raken van alle kennis en informatie die er over onze taal te vinden is in het Taalportaal, de (digitale) Algemene Nederlandse Spraakkunst (ANS) en de grote woordenboeken van het INT. Toch zijn er ook allerlei aspecten van het Nederlands waar we nog veel te weinig van afweten, maar die kennelijk deel uitmaken van de taalkennis van de moedertaalspreker. In de vorige aflevering demonstreerde ik dat aan de hand van de vaste verbinding keurig netjes: dat is een vaste verbinding die in Nederland veel vaker gebruikt wordt dan in België. Het zoeken naar dat soort combinaties in Van Dale en in de grote wetenschappelijke woordenboeken bleek evenwel niet altijd resultaat op te leveren, en in de grammatica’s of taalcursussen vind je die informatie ook al niet. Arme tweede-taalleerders van het Nederlands. Lees verder >>

Handmatig data opschonen tot ik een ons weeg

Door Marten van der Meulen

Ik vertel met liefde niet alleen over de keuzes die ik maak binnen mijn onderzoek: over temporele afbakening bijvoorbeeld, maar ook over de dagelijkse praktijk van mijn wetenschappelijke bedrijf (bijvoorbeeld over data maken). Vandaag iets over data schoonmaken.

Mijn promotieonderzoek gaat over de relaties tussen taaladvies en taalgebruik. De eerste poot, taaladvies, heb ik voorlopig afgerond: ik heb een grote verzameling aangelegd van taaladviezen gedurende de twintigste eeuw, en daarover gepresenteerd (publicaties zijn onderweg). Nu ben ik sinds een tijdje bezig met het in kaart brengen van taalgebruik zelf. Zo kan ik advies en gebruik vergelijken. Maar bij het verzamelen van dat taalgebruik loop ik tegen een aantal problemen op. Hoe kom je aan een corpus bijvoorbeeld. Dat is ingewikkelder dan je zou denken (maar daarover een andere keer meer). Nu eerst iets over het schoonmaken van data. Lees verder >>

Oplossing voor taalkundig probleem van 100 jaar oud

(Persbericht Radboud Universiteit)

Wist je dat in iedere taal het meest voorkomende woord ongeveer twee keer zo vaak voorkomt als het op een na meest voorkomende woord? Deze wet genaamd ‘Zipf’s law’ is al ruim een eeuw oud, maar tot nu toe lukte het wetenschappers niet om het verschijnsel precies te verklaren. Taalwetenschapper Sander Lestrade van de Radboud Universiteit publiceerde een oplossing voor dit notoire probleem in het wetenschappelijk tijdschrift PLOS ONE.

Zipf’s law beschrijft hoe de frequentie van een woord in natuurlijke taal afhankelijk is van zijn rangorde in een frequentietelling. Het meeste voorkomende woord komt twee keer zo vaak voor als het op een na meest voorkomende woord, drie keer zo vaak als het woord daarna, en zo door tot aan het minst voorkomende woord (zie Figuur 1). De wetmatigheid is vernoemd naar de Amerikaanse linguïst George Kingsley Zipf die deze rond 1935 als eerste probeerde te verklaren. Lees verder >>

Is het nodig om te gebruiken?

Door Marc van Oostendorp

Een belangrijk deel van de moeilijkheid van het Nederlands wordt veroorzaakt door kleine woordjes. Zoals om, het onderwerp van  een nieuw artikel van de Groningse taalkundige Gosse Bouma. Soms lijkt het niet uit te maken of je dat woord wel of niet gebruikt:

  • De Indiërs proberen te investeren in Oeganda.
  • De Indiërs proberen om te investeren in Oeganda.

Naar mijn taalgevoel zijn die zinnen allebei even goed, en betekenen ze ook hetzelfde. Het is met andere woorden een voorbeeld van iets waarvan ik eigenlijk niet geloof dat het echt bestaat: ‘vrije variatie’, twee volkomen inwisselbare vormen in één taal. Ik red mezelf eruit door te zeggen dat er vast een subtiel betekenisverschil is tussen de twee vormen. Maar ik kan er de vinger niet echt op leggen wat dit dan is. Lees verder >>

Water en taal

Door Marc van Oostendorp

untitled_artwork-1Een taal is geen stroompje, maar een grote, brede rivier. Traag stroomt ze permanent in de richting van de zee. Als je iets dichter bij kijkt, zie je golfjes die in de richting van de oever gaan. En nóg dichterbij, onder de microscoop, bewegen de moleculen alle kanten op.

Zo is het ook met de taal. In de loop van de eeuwen gaat ze een bepaalde richting op. Het Nederlands verandert bijvoorbeeld in een naamvalsloze taal; die verandering is in de 14e eeuw voortgezet, nu hebben we alleen nog een paar naamvallen voor de persoonlijk voornaamwoorden (ik/mij), maar ook die zijn langzaam maar zeker aan het wegslijten.

Een niveau lager zijn er wat gedetailleerdere veranderingen, die zo’n beetje alle kanten op gaan.  Lees verder >>

14 maart 2014: Negerhollands in Nijmegen

Corpus Based Creolistics/Clarin-NEHOL
(Radboud University Nijmegen)

Date: Friday March 14th, 2014
Time: 14.00 u. – 17.00 u.
Place: Erasmus Building E.2.51
Contact: c.vanrossem@let.ru.nl/r.vansluijs@let.ru.nl

14.oo u. Prof.Dr. Peter Stein: The The linguistic landscape of the Danish V.I. in the 2nd half of the 18th century, an 18-month-experience described in Oldendorp’s “Missionsgeschichte”. or: How relevant is Oldendorp for present creolistics and linguistics
14.45 u. Robbert van Sluijs MA: The origin of perfect aspect in Negerhollands.
15.15 u. Tea
15.30 u. Drs. Cefas van Rossem: Erasements in 18th century Negerhollands.
16.00 u. Prof. Dr. Pieter Muysken: Comparing 18th century Surinam and St Thomas
16.30 u. Discussion and concluding remarks
17.00 u. End

De tafel ruimen

Wat moet je bestuderen als je Nederlands bestudeert? Wat zijn de data precies? Hoort het werk van Jacob van Lennep, een zeer populaire schrijver uit de negentiende eeuw, er bijvoorbeeld bij? Die vragen hebben me sinds gisteren in hun greep

Dat computers alles veranderen in de taalkunde, daaraan zullen mensen twijfelen. Neem de studie van de zinsbouw. Twintig jaar geleden moesten taalkundigen noodgedwongen eigenlijk wel zelf de zinnen construeren die ze bestudeerden: waarom is Jan ziet zich niet goed (moet zijn: Jan ziet zichzelf) en Jan schiet zich in de voet wel? Het vak van syntacticus vereiste een zekere creativiteit in het bedenken van dat soort voorbeelden; Peter-Arno Coppen schreef er onlangs nog een miniatuurtje over.

Lees verder >>