Tag: Zipf

Afasie en de vorm van het menselijk geheugen

Door Marc van Oostendorp

De Wet van Zipf toegepast op de woorden in de roman Karakter van Bordewijk

Sommige dingen hebben alle talen met elkaar gemeen terwijl eigenlijk niemand weet waarom. Het geldt onder andere voor de Wet van Zipf. Zodra je een verzameling taalmateriaal neemt van voldoende omvang, gaat dit aan deze statistische wet voldoen. Gerrit Bloothooft schreef bijvoorbeeld eerder dit jaar uitgebreid over het feit dat hij ook geldt voor het bestand van Nederlandse namen.

Wat is die wet ook weer? Je neemt een verzameling taalmateriaal van enige omvang – een roman, een verzameling gesproken woorden, alle jongensnamen die in een bepaald jaar gegeven worden – en zet ze op een rijtje. Op nummer 1 staat het woord of de naam die het vaakst voorkomt, op nummer 2 de naam die daarna het vaakst voorkomt, enzovoort. Vervolgens blijkt: woord 1 komt ongeveer twee keer zoveel voor als woord 2, dat weer ongeveer twee keer zo frequent is als woord 3, enzovoort. Wanneer je de woorden uittekent op een logaritmische schaal krijg je een rechte lijn – zoals hierboven wordt geïllustreerd aan de hand van de roman Karakter van Bordewijk.

Er zijn verschillende verklaringen voor de Wet van Zipf, In het proefschrift dat ze onlangs verdedigde in Utrecht stelt de taalkundige Marjolein van Egmond dat de meest waarschijnlijke iets te maken heeft met de opbouw van het menselijk geheugen, waar uiteindelijk alle woorden in worden opgeslagen. Lees verder >>

Aan elkaar knopen

Voornamendrift (27)

Door Gerrit Bloothooft

Nieuwe voornamen, ze beginnen allemaal met de eerste naamgeving. Een flink aantal blijft een eenmalige vondst van de ouders, andere worden nagevolgd, en een enkele naam wordt heel populair. Die aantallen liggen wonderlijk genoeg vast, in een Zipfiaanse verdeling. Een van de mooiste resultaten die ik in deze serie kon laten zien is dat die verdeling in de grond al in het eerste jaar van het bestaan van de nieuwe voornamen aanwezig is. Het is als het ontstaan van het heelal, in de oerknal ligt alles al besloten. Zo ook met voornamen. Maar als je het begin (een verzameling nieuwe voornamen) en einde (Zipfiaanse verdeling) kent, is dan ook de tussentijd te modelleren?

Lees verder >>

Nadoen

Voornamendrift (18) 

Door Gerrit Bloothooft

We leren en leven door na te doen en zijn zelden origineel. Dat is misschien wel zo rustig want stel je voor dat we allemaal een unieke voornaam zouden hebben. Hoe we nadoen en kopiëren is trouwens boeiend genoeg. Het is de sleutel om te begrijpen hoe vernieuwingen breed navolging kunnen vinden, of juist niet. De kern van mijn eerdere betogen was dat wanneer ouders een kind een voornaam geven, dat een effect op anderen heeft. Die vormen de sociale omgeving in de breedste zin. Niet alleen familie en vrienden, maar ook buren, collega’s, andere ouders op school enzovoort. Als daar ouders bij zijn die een kind verwachten, dan zouden die het een mooie naam kunnen vinden en er ook voor kunnen kiezen. Bij nieuwe namen – ze worden toch wel eens geïntroduceerd –  is dat navolgingsproces goed te bestuderen. Ik dacht eerst dat zo’n proces niet van de nieuwe naam zou afhangen, maar vond dat voornamen die later populair blijken te worden al onmiddellijk na de introductie veel sneller nagevolgd worden. Dat ga ik hier verder uitwerken.

Lees verder >>

De ontwikkeling van een Zipfiaanse verdeling

Voornamendrift (16) 

Door Gerrit Bloothooft

Ik moet bekennen dat ik na 15 afleveringen Voornamendrift nog geen verklaring voor de Zipfiaanse verdeling van voornamen heb gegeven, maar ik heb dat ook niet beloofd en ik weet niet of het gaat lukken. Wel liet ik zien dat die verdeling (van het aantal namen met een bepaald aantal naamdragers) te vinden is voor allerlei deelverzamelingen van voornamen, zoals namen voor mannen en vrouwen, namen per geboortedecade, en nieuwe namen uit de periode 1920-1960. Nu zijn die laatste namen bijzonder interessant want ze maken het mogelijk om het ontstaan van de Zipfiaanse verdeling te laten zien. Deze 29.756 namen zijn nieuw, want nooit voor 1920 gegeven (in ons bestand), en hebben zich minstens 54 jaar (tot 2014, ons selectiejaar) kunnen ontwikkelen. Daardoor kan ik laten zien hoe deze namen zich vanaf het startjaar uit het niets ontwikkelen tot een Zipfiaanse verdeling. En hoe lang dat duurt. Bij mijn weten is zo’n proces voor nog geen enkel ander domein eerder getoond.

Lees verder >>

De voorspellende waarde van het eerste jaar van een nieuwe voornaam

Voornamendrift (15)

Door Gerrit Bloothooft

Figuur 1. Zipf verdeling van 29.756 voornamen die voor het eerst tussen 1920 en 1960 zijn gegeven, berekend op basis van het gemiddeld aantal namen per logaritmisch interval.

In aflevering 11 liet ik zien dat de snelheid van opvolgende naamgevingen na de introductie van een nieuwe naam afhangt van de latere populariteit. Maar alhoewel het daar een voorbode van is, merkte Daan Wesselink in een reactie terecht op dat de voorspellende waarde ook afhangt van het aantal namen dat uiteindelijk een bepaald aantal naamdragers krijgt. Als dat Zipfiaans verdeeld is, dan mogen snelle volgende naamgevingen weliswaar zeldzaam zijn voor laag frequente namen, maar omdat er van de laatsten zo veel zijn, zou het toch gemakkelijk een niet-populaire naam kunnen betreffen. Hij heeft gelijk en ik werk dat hier verder uit. Eerst moet onderzocht worden of voor de 29.756 nieuwe voornamen uit de periode 1920-1960 de Zipfiaanse relatie geldt. En ja, dat is zo (figuur 1).

Lees verder >>

Traditionele namen, modenamen en Zipf

Voornamendrift (5)

door Gerrit Bloothooft

We geven nu heel andere voornamen aan kinderen dan vroeger. De traditionele vernoemingsnamen zijn van meer dan 75% naar minder dan 5% teruggevallen, en daar zijn in de loop van de 20e eeuw modenamen voor in de plaats gekomen. Voor de voornamen van de hele bevolking geldt een Zipfiaanse relatie, die het aantal namen met een bepaalde frequentie voorspelt. Maar is die relatie gelijk voor traditionele namen en modenamen?

Lees verder >>

Zipf plus Zipf blijft Zipf

Voornamendrift (4)

Door Gerrit Bloothooft

Onze voornamen zijn een mengelmoes. Er zijn traditionele voornamen van christelijke of germaanse oorsprong, er wordt geleend van omringende talen in Europa, en door migratie kunnen we voornamen uit de hele wereld tegenkomen. En toch vinden we alles bij elkaar voor de hele bevolking een aantal voornamen met een bepaalde frequentie dat grotendeels voorspelbaar is, van uniek tot meest populair. Dat is vergelijkbaar met de vraag of als we woorden gaan tellen in een serie boeken die in verschillende talen geschreven zijn, de wet van Zipf over de hele telling nog steeds op gaat. En ja, dat zal zo zijn wanneer Zipf + Zipf = Zipf.

Lees verder >>

Oplossing voor taalkundig probleem van 100 jaar oud

(Persbericht Radboud Universiteit)

Wist je dat in iedere taal het meest voorkomende woord ongeveer twee keer zo vaak voorkomt als het op een na meest voorkomende woord? Deze wet genaamd ‘Zipf’s law’ is al ruim een eeuw oud, maar tot nu toe lukte het wetenschappers niet om het verschijnsel precies te verklaren. Taalwetenschapper Sander Lestrade van de Radboud Universiteit publiceerde een oplossing voor dit notoire probleem in het wetenschappelijk tijdschrift PLOS ONE.

Zipf’s law beschrijft hoe de frequentie van een woord in natuurlijke taal afhankelijk is van zijn rangorde in een frequentietelling. Het meeste voorkomende woord komt twee keer zo vaak voor als het op een na meest voorkomende woord, drie keer zo vaak als het woord daarna, en zo door tot aan het minst voorkomende woord (zie Figuur 1). De wetmatigheid is vernoemd naar de Amerikaanse linguïst George Kingsley Zipf die deze rond 1935 als eerste probeerde te verklaren. Lees verder >>