De wet van Zipf

Voornamendrift (3)

Door Gerrit Bloothooft

Er zijn populaire voornamen en er zijn zeldzame en unieke voornamen, en alles daar tussenin. Met een voornaam bedoel ik hier de eerste, officiële voornaam, en niet de roepnaam want die wordt in de bevolkingsadministratie niet geregistreerd. Voor elke voornaam weten we het aantal naamdragers en we kunnen bijvoorbeeld tellen hoeveel namen uniek zijn, want door één persoon gedragen. Zo kunnen we ook het aantal namen tellen waarvoor er precies twee naamdragers zijn, enzovoort. Dat kunnen we doen tot de hoogste aantallen naamdragers, voor welk aantal er dan meestal maar één, populaire naam is. Er blijkt nu een opmerkelijk verband te zijn tussen het aantal verschillende voornamen en het aantal naamdragers ervan. Deze relatie is sterk verwant aan de bekende wet van Zipf.

De relatie kan worden beschreven als: het aantal namen met frequentie f, n(f) = constante/f α . Omdat het aantal namen exponentieel met de frequentie afneemt, noemen we dit ook wel een machtsrelatie (of power law). Deze formule is iets anders dan die welke Zipf gebruikt om de frequenties van woorden, geordend van meest naar minst frequent, te beschrijven. Ook al gaat het om hetzelfde fenomeen, ik vind het gebruik van rangorde minder inzichtelijk. Toch zal ik de relatie Zipfiaans noemen. Door frequentie =1 in te vullen vinden we direct dat de constante gelijk is aan het aantal unieke namen, n(1). Voor een mooie visualisatie nemen we links en rechts de logaritme en krijgen log(n(f)) = log(n(1)) – α log(f). Wanneer we grafisch zowel het aantal verschillende namen als de frequentie logaritmisch uitzetten dan wordt dat een rechte lijn met richtingscoëfficiënt -α. Zo staat het in figuur 1 voor de Nederlandse mannennamen (gegevens uit 2014).

Figuur 1. Aantal mannennamen met een bepaalde frequentie voor de bevolking in 2014: 7.6 miljoen mannen met 120.171 verschillenden voornamen.

Alhoewel voor lage frequenties de relatie direct voldoet, zien we vanaf de midden frequenties horizontale lijnen omdat er een geheel aantal verschillende namen wordt gevonden, terwijl er daarnaast – en dat is minder goed te zien – bij midden en hogere frequenties veel frequenties zijn die nul scoren, waarbij geen voornaam gevonden wordt. Dat onrustige beeld kan worden voorkomen door het gemiddeld aantal verschillende namen voor een frequentie interval te berekenen. Elk interval krijgt een gelijke breedte op de logaritmische schaal; daarvoor wordt elk volgend interval 10% breder in frequentie gemaakt. Voor lage frequenties maakt dat weinig uit, maar daarna krijgen we tot hoge frequenties een veel duidelijker beeld van de Zipfiaanse relatie (figuur 2). Wel worden de gemiddelden veel kleiner dan 1, omdat de meeste frequenties in het interval dan nul scoren. Door die eenvoud wordt het mogelijk om de relatie voor zowel de vrouwen- als mannennamen te tonen in figuur 2.

Figuur 2. Aantal verschillende namen bij een bepaald aantal naamdragers (gemiddeld per logaritmisch interval), voor mannen (blauw) en vrouwen (rood) voor de Nederlandse bevolking (2014, met de eerste voornaam van 7.6 miljoen mannen en 7.6 miljoen vrouwen).

Wat onmiddellijk opvalt is dat de Zipfiaanse relatie fantastisch voldoet. Voor frequenties tussen 5 en 10.000 worden de gegevens benaderd door een rechte lijn met α = 1.63 (vrouwen) en α = 1.60 (mannen). Alleen voor frequenties kleiner dan 5 en groter dan 10.000 is de benadering door een rechte lijn, met minimale spreiding, niet helemaal adequaat. Van de unieke namen (frequentie = 1) zijn er bijna drie keer meer dan voorspeld ( 96.793 unieke vrouwennamen en 77.454 unieke mannennamen), terwijl er van de meest populaire namen minder zijn. Wat ook opvalt is dat de rechte lijn voor zowel mannen- als vrouwennamen voldoet, maar dat er bij de meeste frequenties meer verschillende namen voor vrouwen zijn, wat in overeenstemming is met het grotere totaal aantal verschillende vrouwennamen, 154.250 tegen 120.171 voor mannen. Dat verschil is van alle tijden, vrouwen geven meer aanleiding tot naamvariatie omdat ze vaak door movering van een mannennaam zijn afgeleid, met een keur aan verkleinvormen. Dat verschil geldt niet alleen voor de unieke namen (die 60% van alle verschillende namen omvatten), maar spreidt zich met regelmaat over alle frequenties. Dat is niet vanzelfsprekend en iets om te onthouden.

Om deze abstracte beschrijving meer inhoud te geven, geef ik hieronder voorbeelden van unieke voornamen voor mannen en vrouwen (geboren voor 1917), de namen met een frequentie van 200, en de top-10 voor beiden. Omdat het om de voornamen van de hele bevolking in 2014 gaat, domineren de traditionele namen in de top-10 omdat de tegenwoordige modenamen maar een beperkt aantal jaren gegeven worden en zelfs in topjaren lang niet zo veel, waardoor het totaal aantal naamdragers van top-modenamen vooralsnog zwaar achterblijft bij de traditionele namen van de ouderen.

geboren in 1917 met een unieke naam:
Mannen: Ibelink, Pylger
Vrouwen: Dephine, Duwtje, Elisabetje, Habbediena, Jerijntje, Lauwrijntje, Leenderdina, Leenna, Leijsbetje, Melchertine, Risselmina, Theerske

precies 200 naamdragers:
Mannen: Ahmad, Georges, Jerrel, Koendert, Robbe, Seine, Tijme
Vrouwen: Angelien, Anthonetta, Basma, Katherina, Lissy, Samanta

top-10:
Mannen: Johannes (307.004) , Jan, Cornelis, Hendrik, Willem, Petrus, Pieter, Gerrit, Wilhelmus, Peter
Vrouwen: Maria (334.497), Johanna, Anna, Cornelia, Elisabeth, Wilhelmina, Catharina, Hendrika, Adriana, Petronella

Een theoretisch betere presentatie van de Zipfiaanse relatie is gebaseerd op de cumulatieve verdeling (het totaal aantal verschillende voornamen met een gelijke of hogere frequentie dan f). Die vind ik echter minder inzichtelijk. De hier en later te geven waarden van α zijn echter wel op de cumulatieve verdeling gebaseerd ook al verschillen ze weinig van de waarden die uit de presentatie van gemiddelden zijn afgeleid.