Zipf plus Zipf blijft Zipf

Voornamendrift (4)

Door Gerrit Bloothooft

Onze voornamen zijn een mengelmoes. Er zijn traditionele voornamen van christelijke of germaanse oorsprong, er wordt geleend van omringende talen in Europa, en door migratie kunnen we voornamen uit de hele wereld tegenkomen. En toch vinden we alles bij elkaar voor de hele bevolking een aantal voornamen met een bepaalde frequentie dat grotendeels voorspelbaar is, van uniek tot meest populair. Dat is vergelijkbaar met de vraag of als we woorden gaan tellen in een serie boeken die in verschillende talen geschreven zijn, de wet van Zipf over de hele telling nog steeds op gaat. En ja, dat zal zo zijn wanneer Zipf + Zipf = Zipf.

Ik ga dat na voor twee distincte groepen, de voornamen van mannen en die van vrouwen, welke  verschillend zijn op een beperkt deel uniseksnamen na. In de vorige aflevering  heb ik laten zien dat voor ieder van beide groepen een Zipfiaanse relatie geldt. Voor de mannennamen geldt nm(f) = nm(1)/ fαm en voor vrouwennamen analoog nv(f) = nv(1)/ fαv. Wanneer de exponenten αm en  αv gelijk zijn (α) dan kunnen we beide relaties eenvoudig optellen en krijgen we nm(f) + nv(f) = (nm(1) + nv(1))/ fα  ofwel nm+v(f) = (nm+v(1))/ fα . En inderdaad, dan geldt Zipf nog steeds voor mannennamen en vrouwennamen samen, dus Zipf + Zipf = Zipf. De voorwaarde is alleen wel dat de exponenten gelijk zijn, en dat is voor mannen en vrouwennamen niet helemaal precies zo want we hebben gezien dat αm = 1.60 en αv = 1.63. Als deze waarden van α echter zo weinig verschillen dan kan aangetoond worden (zie onder) dat de Zipfiaanse relatie voor mannen- en vrouwennamen samen bestaat met een gemiddelde exponent α = 1.615.

Deze observatie is belangrijk want wanneer we de Zipfiaanse relatie voor een deelgroep van onderscheiden voornamen zouden kunnen begrijpen dan zijn we al een heel eind op weg om dat voor onze totale namenvoorraad te kunnen. We hoeven ons dan niet in verwarring te laten brengen door de grote verscheidenheid aan voornamen. Met een uitstapje naar tekst: als we woordsoorten onderscheiden en Zipf geldt voor elke woordsoort op ongeveer dezelfde manier – of het aantal verschillende woorden per woordsoort is gering – , dan geldt Zipf ook voor de totale tekst.

Een tweede aandachtspunt is wat bevolkingsgroei voor een Zipfiaanse relatie betekent. Meer kinderen krijgen dan een naam, maar als de motieven voor naamkeuze gelijk blijven, dan verandert weliswaar de frequentie van een naam, maar niet het bijbehorend aantal namen (want die groeien allemaal op dezelfde manier). En Zipf blijft Zipf. Zoiets kan het geval zijn bij onze traditionele namen die door vernoeming worden doorgegeven. Als de bevolking onder die omstandigheden groeit dan blijft de Zipfiaanse relatie in stand. En weer vergelijken met tekst: als we meer boeken in de telling meenemen dan blijft Zipf behouden.

Er zit wel een addertje onder het gras. Bij een bepaalde frequentie zal het aantal namen met die frequentie toenemen (de Zipf curve schuift door de bevolkingsgroei naar rechts, naar hogere frequenties). Dat zijn namen die eerder een lagere frequentie hadden. Maar frequenties kunnen niet lager worden dan één, dat zijn de eerder unieke namen. Wil  bij de unieke namen geen gat vallen en Zipf geldig blijven, dan moeten door ouders voortdurend nieuwe namen worden bedacht, en dat gebeurt.  Het is dan interessant om voor de 20e eeuw, toen de bevolking van 5 naar 16 miljoen steeg, de eigenschappen van  nieuwe en unieke namen in een komende aflevering te onderzoeken.

Een laatste invalshoek is de invloed van geboortejaar. Wanneer de naamgeving niet verandert dan zal voor elke leeftijd dezelfde verdeling van voornamen gevonden worden, die door dezelfde Zipfiaanse relatie wordt beschreven.  De frequentie van een naam, over de hele bevolking, wordt dan opgebouwd als som van het aantal dat per leeftijd aanwezig is. Dat er door sterfte minder ouderen zijn, of door een geboortegolf meer jongeren, doet er niet toe zolang de onderlinge verhoudingen tussen de gegeven namen maar niet veranderen. Dat kan bijvoorbeeld het geval zijn bij de traditionele namen. Die zijn in de loop van de 20e eeuw zeer in populariteit gedaald, maar dat hoeft de Zipfiaanse relatie voor hen niet te verstoren. Hetzelfde kan gebeuren met een groep namen die in de loop van de tijd juist enorm aan populariteit wint, zoals de Engelse voornamen. Er zijn veel meer jongeren dan ouderen die ze dragen, maar voor Zipf maakt dat niet uit, want Zipf voor jongeren plus Zipf voor ouderen blijft Zipf voor de bevolking. Mits het dezelfde groep namen betreft.

En toch, het is helemaal niet zeker dat de naamgeving binnen een bepaalde groep niet verandert met de tijd. Onwaarschijnlijk zelfs. Anderzijds is het misschien mogelijk om distincte groepen voornamen zo te kiezen dat elke naam daarbinnen dezelfde ontwikkeling in populariteit doormaakt. Een eerste stap is om de Zipfiaanse relatie te onderzoeken voor verschillende geboortedecaden in de 20e eeuw, want daarin vond de transitie van traditionele vernoemingsnamen naar modenamen plaats. Dat is stof voor de volgende aflevering.

  • Stel dat we Zipf voor mannen- en vrouwennamen afzonderlijk bepalen en er zit een verschil in α, kunnen we α dan middelen om Zipf voor alle namen samen te krijgen? Laten we zeggen dat er een gemiddelde αm bestaat met een afwijking +δ voor mannen en –δ voor vrouwen. Als we de gegevens optellen dan krijgen we
    ntotaal(f) = (nm(1) f + n v(1) f ) f -αm. Nu kan fgeschreven worden als een (Taylor) reeks: f = 1 + δ ln(f)  + …  waarvan we alleen de eerste twee termen meenemen omdat δ klein is. Dan wordt ntotaal(f) = (nm(1) + nv(1) + δ (nm(1) – nv(1))ln(f)) f -αm. Als δ klein is, of nm(1) ~ nv(1), of de frequentie f is laag, dan is de extra term verwaarloosbaar en is middelen van de exponent geen probleem en krijgen we ntotaal(f) = (nm(1) + nv(1)) f -αm. Als er afwijkingen zijn na optelling, dan zijn die het eerst bij hoge frequenties te verwachten.