Tag: frequentie

“Een een een een een boek”: over lidwoordherhaling in gesproken taal

Door Marten van der Meulen

Ik ben dezer dagen voor allerlei onderzoeksdoeleinden lekker aan het klooien in het onvolprezen Corpus Gesproken Nederlands (CGN). Een van de voorbeelden die ik tegenkwam bevatte het volgende fragment:

het ook een een een boek dat

Een grappig voorbeeld: drie keer een op een rij! Ik wist wel dat mensen af en toe lidwoorden herhalen. In gesproken taal komt het best eens voor: het wordt gedaan om tijd te rekken, om even na te kunnen nadenken. Uh en uhm worden soms om dezelfde reden gebruikt. Maar voor zover ik weet houdt het wat betreft lidwoorden hierbij op: welke we herhalen en hoe vaak we dat doen, daar ben ik nog geen artikel over tegengekomen. Lees verder >>

De A-index

President Tsaar op Obama Beach op de voet gevolgd (3/60)

Door Marc van Oostendorp

Deze zomer publiceren nrc.next en NRC Handelsblad de roman President Tsaar op Obama Beach van A.F.Th. van der Heijden als feuilleton. De afleveringen verschijnen ’s ochtends <op de website van de krant>. In de loop van de dag blog ik een bespreking. Vandaag: aflevering 3.

obaamaaEen van de grote verschillen tussen een roman en Facebook is dat je je op sociale media maar zelden afvraagt wat iemands naam betekent. Een of andere jonge gast meldt zich met een vriendverzoek; die iemand blijkt Natan Haandrikman te heten. En zijn vriendin heeft Branda. (De persoon blijkt bovendien al in 2007 op Facebook te hebben gezeten, wat vrij uitzonderlijk, zij het niet onmogelijk, is voor een Nederlander.)

Nu, dat is allemaal vrij curieus, maar ik geloof niet dat ik er iets achter zou zoeken. Alleen nu het een romanpersonage betreft, begin je toch wel even te pluizen. Haandrikman is blijkens de Nederlandse familienamenbank een bestaande Nederlandse naam. In 2007 (het jaar dat Natan op Facebook ging) waren er 547 mensen die zo heetten; de meesten in Twente. De naam komt van een boerderij van iemand die Hendrik heette. Het is volkomen onduidelijk of dat gegeven ook maar enige rol gaat spelen in het enige verhaal.

Lees verder >>

Ontoegankelijke schatkamers

Hoe onderzoeksbronnen op internet verkommeren

Door Marc van Oostendorp


Wie zich nog eens terug wil wanen in de jaren negentig, moet de website van Celex eens bezoeken. Het is voor veel taalkundig onderzoek naar het Nederlands nog steeds een onmisbare bron: een database waar voor tal van woorden is aangegeven hoe ze worden uitgesproken, hoe je ze in lettergrepen kan verdelen en hoe frequent ze voorkomen in het Nederlands.

Honderdduizenden woorden zijn er verzameld, met rijke, rijke informatie over ieder woord. Om te zien hoe vaak een woord eigenlijk voorkomt in het Nederlands is dit nog steeds een van de meest gebruikte bronnen. Vrijwel iedere taalkundige die weleens een getal met cijfers achter de komma heeft opgeschreven, haalde dat getal uit CELEX. Studenten maken er nog steeds gebruik van.

Het is een prachtige bron, maar hij is ongeveer zo toegankelijk als de archieven van het Koninklijk Huis op zaterdagavond.
Lees verder >>

Het karakollenprobleem

‘Hij wierp zwijgend een blik op zijn schouder en liep plotseling schuddend verder’ als de ideale romantekst
Door Marc van Oostendorp


Welke woorden kun je het beste eerst in je hoofd stampen wanneer je Nederlands gaat leren? Het hangt er maar vanaf wat je wilt.

Wanneer je het liefst romans leest, kun je het best beginnen met blik, schouder, raam, zwijgen, stoel, glas, knikken, plotseling, schudden en verder. Lees je daarentegen graag het internet, dan kun je beter eerst studeren op eerste, tweede, gij, Vlaams, later, he, gemeente, Belgisch, politiek en inwoner. En als je graag een gesprek wil kunnen voeren met een inlander, dan zijn uh, hè, hoor, ah, oké, hé, gij, allee, mekaar en jawel als eerste aangewezen.

Ik weet al deze dingen sinds ik de nieuwe Frequency Dictionary of Dutch gelezen heb, dat is samengesteld door Carole Tiberius en Tanneke Schoonheim, beiden van het Instituut voor Nederlandse Lexicologie (INL) in Leiden: een boek waarin de vijfduizendste vaakst voorkomende woorden van het Nederlands op een rijtje worden gezet.
Lees verder >>

Zoetvloeiende meisjesnamen

Deze week maakte de Sociale Verzekeringsbank weer de lijst met de populairste meisjesnamen van het afgelopen jaar bekend. Bij de Sociale Verzekeringsbank schrijft iedereen zich in die kinderbijslag wil aanvragen, en dat betekent dat vrijwel alle jonge ouders de naam van hun dochter aan de SVB doorgeven.

Dit geldt natuurlijk ook voor zonen, maar meisjesnamen zijn interessanter, bijvoorbeeld omdat we weten dat meisjes vaker gegeven worden omdat ze ‘mooi’ zijn. (Jongensnamen zijn vaker ‘leuk’.) En dat doet de vraag rijzen: wat is een mooie naam?

Ik heb het even uitgerekend.

Lees verder >>

Geschiedenis van de woordfrequentie

Frequentie is in de taalwetenschap al een tijdje een toverwoord. Woorden die vaak voorkomen, die hoogfrequent zijn, zijn bijzonder. Ze zijn bijvoorbeeld gemiddeld korter dan laagfrequente woorden volgens een van de bekendste wetten van de taalwetenschap, de Wet van Zipf. Ook spreken sprekers dit soort woorden vaak wat achtelozer uit: omdat ze zo vaak voorkomen, voegen ze minder informatie toe. De luisteraar kan zelf wel min of meer raden dat je de zegt, of wil, en dus hoef je als spreker wat minder je best te doen om zo’n woord duidelijk uit te spreken.

Om dat soort verbanden goed te onderzoeken heb je natuurlijk een goede maat nodig. Wat is de precieze rangordening van Nederlandse woorden volgens hun frequentie? Dat is nog niet zo heel eenvoudig vast te stellen.
Lees verder >>

Waarom twittert Geert Wilders nooit over roze koeken?

Gisteren was het de dag van zeg mij welke woorden u gebruikt en ik zeg u wie u bent in NRC Handelsblad. Marjolijn Februari fantaseerde in haar wekelijkse column over de mogelijkheid om haar bijdragen door een computer te laten schrijven:

Een pakket software dat wekelijks op deze plek een politieke analyse genereert door tamelijk willekeurig een aantal zinnen achter elkaar te plakken. Op verzoek van de redacteur heeft de programmeur een vocabulaire gekozen waarin deftige woorden als ‘rechtsstaat’ en ‘liberalisme’ centraal staan, maar hij heeft er ‘roze koeken’ aan toegevoegd, opdat u het gevoel krijgt dat dit warm, levend proza is.

Op de achterpagina komt Ewoud Sanders terug op de opmerking van Mark Rutte over de volgende tweet van Geert Wilders:

Lees verder >>