Tag: Wet van Zipf

Afasie en de vorm van het menselijk geheugen

Door Marc van Oostendorp

De Wet van Zipf toegepast op de woorden in de roman Karakter van Bordewijk

Sommige dingen hebben alle talen met elkaar gemeen terwijl eigenlijk niemand weet waarom. Het geldt onder andere voor de Wet van Zipf. Zodra je een verzameling taalmateriaal neemt van voldoende omvang, gaat dit aan deze statistische wet voldoen. Gerrit Bloothooft schreef bijvoorbeeld eerder dit jaar uitgebreid over het feit dat hij ook geldt voor het bestand van Nederlandse namen.

Wat is die wet ook weer? Je neemt een verzameling taalmateriaal van enige omvang – een roman, een verzameling gesproken woorden, alle jongensnamen die in een bepaald jaar gegeven worden – en zet ze op een rijtje. Op nummer 1 staat het woord of de naam die het vaakst voorkomt, op nummer 2 de naam die daarna het vaakst voorkomt, enzovoort. Vervolgens blijkt: woord 1 komt ongeveer twee keer zoveel voor als woord 2, dat weer ongeveer twee keer zo frequent is als woord 3, enzovoort. Wanneer je de woorden uittekent op een logaritmische schaal krijg je een rechte lijn – zoals hierboven wordt geïllustreerd aan de hand van de roman Karakter van Bordewijk.

Er zijn verschillende verklaringen voor de Wet van Zipf, In het proefschrift dat ze onlangs verdedigde in Utrecht stelt de taalkundige Marjolein van Egmond dat de meest waarschijnlijke iets te maken heeft met de opbouw van het menselijk geheugen, waar uiteindelijk alle woorden in worden opgeslagen. Lees verder >>

Zipf plus Zipf blijft Zipf

Voornamendrift (4)

Door Gerrit Bloothooft

Onze voornamen zijn een mengelmoes. Er zijn traditionele voornamen van christelijke of germaanse oorsprong, er wordt geleend van omringende talen in Europa, en door migratie kunnen we voornamen uit de hele wereld tegenkomen. En toch vinden we alles bij elkaar voor de hele bevolking een aantal voornamen met een bepaalde frequentie dat grotendeels voorspelbaar is, van uniek tot meest populair. Dat is vergelijkbaar met de vraag of als we woorden gaan tellen in een serie boeken die in verschillende talen geschreven zijn, de wet van Zipf over de hele telling nog steeds op gaat. En ja, dat zal zo zijn wanneer Zipf + Zipf = Zipf.

Lees verder >>

De wet van Zipf

Voornamendrift (3)

Door Gerrit Bloothooft

Er zijn populaire voornamen en er zijn zeldzame en unieke voornamen, en alles daar tussenin. Met een voornaam bedoel ik hier de eerste, officiële voornaam, en niet de roepnaam want die wordt in de bevolkingsadministratie niet geregistreerd. Voor elke voornaam weten we het aantal naamdragers en we kunnen bijvoorbeeld tellen hoeveel namen uniek zijn, want door één persoon gedragen. Zo kunnen we ook het aantal namen tellen waarvoor er precies twee naamdragers zijn, enzovoort. Dat kunnen we doen tot de hoogste aantallen naamdragers, voor welk aantal er dan meestal maar één, populaire naam is. Er blijkt nu een opmerkelijk verband te zijn tussen het aantal verschillende voornamen en het aantal naamdragers ervan. Deze relatie is sterk verwant aan de bekende wet van Zipf.

Lees verder >>

Voornamendrift: de aftrap

Voornamendrift (1)

Door Gerrit Bloothooft

We hebben allemaal een voornaam die door onze ouders is gekozen. Ik ga in een serie bijdragen op zoek naar de vrijheid die ouders daarbij hebben. Vanuit de sociologie wordt wel beweerd dat de voornaamkeuze bijzonder is omdat die niet onderhevig is aan externe, commerciële invloeden. Daarom kan de voornaamkeuze een directe reflectie zijn van de sociale omstandigheden van de ouders. Ik heb voor Nederland al eens laten zien dat opleidingsniveau en levenshouding (traditioneel versus modegevoelig) belangrijk zijn bij de moderne naamkeuze. Maar nu gaat het me om de observatie dat er enerzijds ouders zijn die voor populaire namen kiezen, terwijl er anderzijds ook ouders zijn die een unieke naam voor hun kind wensen. Daar kan ik inkomen, maar niet dat het aantal namen met een bepaald aantal naamdragers zich wiskundig heel precies laat beschrijven, op dezelfde manier als het aantal woorden met een bepaalde frequentie in tekst, de bekende wet van Zipf. Hoe vrij is dan de keuze van ouders? En als die niet zo vrij is als we denken, zijn we misschien zelf een willekeurig product van kansen en omstandigheden en geven dat ook in de voornaamkeuze door aan onze kinderen?

Lees verder >>

Oplossing voor taalkundig probleem van 100 jaar oud

(Persbericht Radboud Universiteit)

Wist je dat in iedere taal het meest voorkomende woord ongeveer twee keer zo vaak voorkomt als het op een na meest voorkomende woord? Deze wet genaamd ‘Zipf’s law’ is al ruim een eeuw oud, maar tot nu toe lukte het wetenschappers niet om het verschijnsel precies te verklaren. Taalwetenschapper Sander Lestrade van de Radboud Universiteit publiceerde een oplossing voor dit notoire probleem in het wetenschappelijk tijdschrift PLOS ONE.

Zipf’s law beschrijft hoe de frequentie van een woord in natuurlijke taal afhankelijk is van zijn rangorde in een frequentietelling. Het meeste voorkomende woord komt twee keer zo vaak voor als het op een na meest voorkomende woord, drie keer zo vaak als het woord daarna, en zo door tot aan het minst voorkomende woord (zie Figuur 1). De wetmatigheid is vernoemd naar de Amerikaanse linguïst George Kingsley Zipf die deze rond 1935 als eerste probeerde te verklaren. Lees verder >>

Hitler hield niet van joodse kunstenaars

We weten niet wat we met al die gegevens aanmoeten

Door Marc van Oostendorp

We beschikken over een schat aan informatie, een gigantische schat, een dankzij het internet almaar groter wordende schat. En we hebben geen idee wat we in hemelsnaam met die schat moeten doen. Dat is de indruk die je krijgt van het boek Uncharted. Big Data as a Lens on Human Culture van Erez Aiden en Jean-Baptiste Michel.

Niet dat het hun bedoeling is om die suggestie te wekken. Althans, ze willen wel graag dat de lezer overtuigd raakt van die schat. Zij zijn de ontwerpers van Ngram, waarmee je in de tientallen miljoenen boeken kunt zoeken die Google in de afgelopen tien jaar heeft gescand. Maar dat ze eigenlijk ook zelf geen idee hebben van wat wij, de mensheid, nu eigenlijk met die schat aanmoeten – dat zeggen ze niet zo expliciet.

Terwijl het uit hun eigen boek vrij gemakkelijk te bewijzen is.

Lees verder >>

Mandelbrot de taalkundige

Door Marc van Oostendorp

De grote wiskundige Benoit B. Mandelbrot – onder meer de ontdekker van de fractals – had eigenlijk taalkundige willen worden, maar hij werd tegengehouden door Noam Chomsky.

Dat kwam zo. In de jaren vijftig kwam Mandelbrot naar het Massachusetts Institute of Technology (MIT) nadat hij net statistisch werk had gedaan over taal. “Daar kwam ik vervolgens een jonge onderzoeker van Harvard tegen,” vertelt Mandelbrot in zijn nieuwe autobiografie, “die me vertelde over zijn project voor de toekomst van de taalkunde.”
Lees verder >>

Geschiedenis van de woordfrequentie

Frequentie is in de taalwetenschap al een tijdje een toverwoord. Woorden die vaak voorkomen, die hoogfrequent zijn, zijn bijzonder. Ze zijn bijvoorbeeld gemiddeld korter dan laagfrequente woorden volgens een van de bekendste wetten van de taalwetenschap, de Wet van Zipf. Ook spreken sprekers dit soort woorden vaak wat achtelozer uit: omdat ze zo vaak voorkomen, voegen ze minder informatie toe. De luisteraar kan zelf wel min of meer raden dat je de zegt, of wil, en dus hoef je als spreker wat minder je best te doen om zo’n woord duidelijk uit te spreken.

Om dat soort verbanden goed te onderzoeken heb je natuurlijk een goede maat nodig. Wat is de precieze rangordening van Nederlandse woorden volgens hun frequentie? Dat is nog niet zo heel eenvoudig vast te stellen.
Lees verder >>