Het voorspellen van voornamenlijstjes kent zijn grenzen

Voornamendrift (33)

Door Gerrit Bloothooft

In oktober publiceerde ik mijn voorspelling van de top-20 van voornamen in 2018 voor jongens  en meisjes. Dat deed ik op basis van gegevens tot en met 2017 en een model dat beschrijft hoe de populariteit van een naam zich over de jaren ontwikkelt. Gisteren zijn de toplijstjes voor 2018 gepubliceerd door de Sociale Verzekeringsbank en valt te controleren of mijn model goed heeft gewerkt.

Mijn voorspelling en de feitelijke aantallen staan hieronder voor de top-20. Het is niet heel beroerd maar ook niet heel erg goed. Ik markeerde de namen die in aantal meer dan 15% afwijken. Dat zijn 7 jongensnamen en 8 meisjesnamen (vet gedrukt is afwijkend voorspeld). De toekomst laat zich moeilijk voorspellen. Maar waardoor komt dat?

2018       jongens                                                           meisjes
               voorspeld              werkelijk                 voorspeld           werkelijk


 1             Noah           667        Lucas      681             Tess         759       Julia         797
2             Sem             596        Levi          641             Sophie      744       Emma     704
3             Lucas        583        Finn         634             Emma     611        Sophie      677
4             Daan           562        Sem           633             Anna         595       Tess         669
5             Finn           544        Noah         624            Julia         584       Zoë           659
6             Luuk            541        Daan         619             Liv            535       Mila          632
7             Adam         532        Luuk         596             Sara          533       Anna          550
8             Jesse           527        Bram       571              Evi            532        Sara           541
9             Levi            523        Mees       568             Mila         516        Eva            530
10           Bram         490        Milan       558             Lotte         484       Noor        516
11            Milan          489        Liam       532             Eva            480       Nora         516
12            James        475         James       529             Lauren     478        Evi            512
13            Mees         463        Jesse         511              Nora         477        Saar         500
14            Sam            445        Thomas    499             Zoë          474        Lotte        478
15            Thijs           439        Noud        483             Olivia        467        Lieke       463
16            Liam         428        Sam          471              Yara          445        Yara        462
17            Noud          425        Adam      442             Noor        425       Olivia      461
18            Benjamin  422        Benjamin 431             Lynn          420       Liv          444
19            Dex             414        Max           430            Nova          419        Lauren   439
20           Mason        392       Lars            414             Saar         408       Nova       412

De jaarlijkse fluctuatie in het aantal kinderen dat een bepaalde naam krijgt kan voor topnamen gemakkelijk tussen 50 en 100 liggen. Omdat het verschil in aantal tussen twee rangen vaak veel minder is kunnen posities heel anders uitpakken dan voorspeld. Maar er zijn ook verschillen tussen model en werkelijkheid die opvallend groot zijn. Ik licht er een aantal uit.

Figuur 1. Eerdere modellering van de populariteit van Adam, met twee opties waarvan de groene het dichtst bij de score van 2018 (442) zat. j = jaar van introductie, v = imitatiesnelheid (varieert tussen 0 en 1), n = uiteindelijk verwacht totaal aantal naamdragers. Adam heeft een basis van 20 naamdragers die er jaarlijks altijd zijn.

Voor Adam gaf ik eerder twee opties (figuur 1), maar koos de verkeerde. De stijging zette niet door en Adam bleef hangen op 442 (groen), in plaats van een groei naar 532 (rood). Wanneer de populariteit van een naam nog groeiende is, valt niet te voorspellen hoe lang dat duurt.

Figuur 2. De complexe modellering van de populariteit van Julia, inclusief de waarde voor 2018 met rode punt, met drie verdelingen (de groene curve geeft het gezamenlijke resultaat). De snelheid van de kleine pieken is extreem hoog en ze duren dan ook kort.

De ontwikkeling van de topnaam van 2018, Julia, is complex (figuur 2). Naast de grote ontwikkeling zijn er korte, extra pieken in de populariteit. De eerste was in 1999 en kenmerkt zich door een heel snelle toename van populariteit die ook weer snel wegebt. Dat is meestal het effect van een personage in de media of film, die je niet aan ziet komen. Datzelfde lijkt nog een keer te gebeuren in recenter jaren. Ik had de grootte van dat laatste effect te laag voorspeld. Dat is ook onmogelijk op basis van informatie over een paar jaar.

Als laatste dan nog de populariteit van Zoë. Die heeft een extra piek in 2001 (Zoë is naam van film over drie weggelopen meisjes die in januari van dat jaar uitkwam), en een plotseling hoog aantal tussen 2013-2017. Ik modelleerde die laatste piek al apart (een nieuwe sociale groep die de naam adopteert), maar dat bleek lastig met informatie over een beperkt aantal jaren, en kwam veel te laag uit. Die extra piek blijkt groter te moeten zijn, waardoor Zoë doorstoot tot de top-5. Als dit model juist is, dan zou Zoë in 2019 zeker een top-5 kandidaat zijn.

Figuur 3. De modellering van de populariteit van Zoë, inclusief de waarde voor 2018 met rode punt, met drie verdelingen (de groene curve geeft het gezamenlijke resultaat).

In conclusie is modellering van populariteit van een naam pas mogelijk mits de top voorbij is. Daarnaast maken extra pieken modelleren moeilijk. Ze kunnen ontstaan omdat de naam door een andere sociale groep wordt geadopteerd (met rustige introductie) of omdat een media persoonlijkheid plotseling in de schijnwerpers staat (met extreem snelle introductie). Ook dan moet de top van zo’n extra piek gepasseerd zijn voor je kunt voorspellen hoe het verder gaat. Alles bij elkaar blijft het voorspellen van toplijstjes een hachelijke zaak.