Het NAMES corpus met 850.000 namen, gratis

Voornamendrift 59

Door Gerrit Bloothooft

Het CLARIAH project NAMES had tot doel om 189.707 verschillende enkelvoudige voornamen (61,9 miljoen voorkomens) en 562.676 verschillende enkelvoudige achternamen (54,5 miljoen voorkomens) uit de 19e eeuwse burgerlijke stand (wiewaswie.nl versie 2011) zoveel mogelijk te voorzien van een standaardvorm. Dat zijn praktische standaarden (dwz niet noodzakelijk met een etymologische basis die vaak niet is vast te stellen) die nuttig zijn voor de identificatie van personen. Daarnaast bevat het corpus frequentiegegevens, zowel van het voorkomen in de 19e eeuwse akten als in de basisregistratie van 2017, die kunnen helpen om een indruk te krijgen van de status van een naamvariant (als zeldzame schrijffout of echte variant). Het NAMES corpus is nu gratis te downloaden bij de taalmaterialen van het Instituut voor de Nederlandse Taal. Bestanden staan in tab-gescheiden vorm en zijn eenvoudig in te lezen.

Voornamen
Als basis voor standaardisatie kan het voornamenboek van Van der Schaar (1e druk 1964) dienen waarin 19.947 voornamen geassocieerd worden met 3.415 lemma’s. Dat is een goed begin, maar er blijven wel nog 170.000 voornamen te doen. De lemma’s laten in de praktijk ook onderlinge verwarring toe, zoals Adelgonde en Aldegonde, of Lili, Lilia, Lilian en Lillan. Daarom is het aantal lemma’s sterk gereduceerd tot 813 standaarden, waarbij de hoop is dat varianten van een naam kansrijk onder één standaard geschaard zullen kunnen worden. Het betekent ook dat heel verschillende namen onder eenzelfde standaard worden gebracht (wat naamkundigen geen goed idee zullen vinden), maar de verwachting is dat dit in de praktijk van gegevenskoppeling op naam in de aanwezigheid van aanvullende gegevens meestal niet tot een probleem zal leiden. Erg lastig zijn wel de afgekorte namen die op verschillende lemma’s kunnen stoelen, zoals Mina uit Wilhelmina, Hermina, Jacomina of Mina zelf. Deze korte namen kregen een eigen standaard, terwijl relaties daarvan met andere standaarden expliciet werden vastgelegd.

Voor de toekenning van een standaard aan de resterende 170.000 voornamen werden verschillende technieken gebruikt. Leidend was de gedachte dat een variant idealiter gevonden moest zijn voor eenzelfde persoon (en niet alleen op basis van overeenkomst in naam vastgesteld moet worden). Als Jan en Johannes beide voor eenzelfde persoon worden gebruikt, kunnen we het als naamvarianten beschouwen. Zoiets is vast te stellen via identificatie op basis van de naamcombinatie van een persoon en zijn ouders. Dat zijn samen drie voornamen en twee achternamen en dat is meer dan genoeg voor identificatie. Als een van die namen in verschillende akten anders geschreven wordt dan zijn de resterende vier namen ook nog specifiek genoeg om zeker te weten dat het om dezelfde persoon gaat. Die aanpak levert 42,700 naamvarianten op, die door experts werden beoordeeld op indeling naar standaard. Deze namen vormen al 98,6% van het totaal aantal voorkomens en kregen de hoogste kwaliteitsstatus.

Een volgende stap is het vinden van varianten die dezelfde uitspraak hebben (uitgedrukt in een semi-fonetische vorm) als al ingedeelde namen. Dat geldt voor 30.200 voornamen. Resterende namen kunnen beoordeeld worden op basis van de mate van verschil in schrijfwijze (ook wel edit-distance genoemd: de som van het aantal letter-toevoegingen, -verwijderingen of -veranderingen om de ene in een andere naam om te zetten; zo heeft de frequente typefout Corenlis een edit-distance van 2 met Cornelis). Met een strenge grens van edit-distance=1 nam het aantal ingedeelde voornamen toe met nog eens 47.400. Ten slotte werd voor de dan nog resterende namen gekeken of er in de eerste 4 semi-fonetische symbolen een overeenkomst was met namen waarvan dan de meest voorkomende standaard werd overgenomen. Bij elk van de voorgaande stappen nam het toegekende kwaliteitsniveau af.

Eigenlijk doet de naam van een standaard er in de praktijk niet toe, maar voor de herkenbaarheid werd voor twee alternatieven gekozen: een etymologisch geïnspireerde vorm (heimrijk) en de meest frequente variant (hendrik).

Achternamen
Voor achternamen is dezelfde procedure gevolgd waarbij gestart is met geassocieerde namen in de familienamenbank en lemma’s in het Woordenboek van de familienamen in België en Noord-Frankrijk van Debrabandere (2003). Een stevige basis was weer de analyse van achternaamvarianten uit verschillende akten uit de burgerlijke stand voor dezelfde persoon (met ouders). Met globale expert beoordeling resulteerde dit in standaarden voor 119.900 achternamen met 26 miljoen voorkomens (47,8%). Tezamen met gelijkstelling van namen met dezelfde semi-fonetische vorm en namen die edit-distance=1 verschilden, kreeg 99,1% van alle achternamen één van 19.016 standaarden toegewezen. Voor achternamen is het nog moeilijker dan voor voornamen om verwantschap te duiden, en ook hier zijn ongetwijfeld heel verschillende namen onder eenzelfde standaard geschaard. De verwachting is echter dat dit voor de praktijk van gegevenskoppeling op naam niet onoverkomelijk is.

Het NAMES corpus
Het NAMES corpus wordt geleverd met een handleiding waarin de procedures en de deelbestanden uitgebreid worden uitgelegd. Mede door de frequentiegegevens biedt het corpus veel mogelijkheden voor exploratie, ook voor het toepassen van andere inzichten ten aanzien van standaardisatie. Sinds 2011 is de omvang van het onderliggende wiewaswie corpus meer dan verdubbeld. Dat zal nieuwe namen hebben opgeleverd, maar het NAMES corpus bevat zeker al de meest frequente namen. Dat het wiewaswie corpus gebaseerd is op historische akten betekent dat moderne namen en namen die voortvloeien uit de immigratie van de laatste 60 jaar nauwelijks in het NAMES corpus voorkomen. Maar dat is een nuttige beperking om greep te houden op de al enorme verscheidenheid aan namen en varianten.