Pleidooi voor een DBNL-lab

Door Marc van Oostendorp

Hoera, de DBNL bestaat twintig jaar! Het Utrechtse letterkundige tijdschrift Vooys wijdde er een aardige special aan – althans, sommige stukken gaan ook over digitale literatuurwetenschap in bredere zin, maar de focus ligt toch op de DBNL.

Er is bijvoorbeeld een interessant overzicht van de eerste vijftien jaar van de digitale bibliotheek, tot het moment dat de organisatie naar de KB overging, door Ton van Kalmthout, die vertelt dat een van de eerste concrete onderzoeksvragen, nog in de eerste subsidieaanvraag voor de DBNL in 1998, ging over het ontdekken van metriek in oude poëzie. Grappig genoeg staat er in hetzelfde nummer van Vooys een artikel van Wouter Haverals, Mike Kestemont en Folkert Karsdorp waarin ze laten zien dat een automatische scandeermachine hebben gebouwd op basis van de DBNL.

Er zit dus schot in!

Inspireren

Tegelijkertijd is er natuurlijk altijd de vraag naar hoe de DBNL het beste kan groeien. In een informatief interview vertelt Geert Buelens, die tegenwoordig voorzitter is van de ‘Werkgroep Content’ die bepaalt wat er precies gescand gaat worden dat de Geschiedenis van de Nederlandse literatuur als leidraad dient: de in dat monumentale naslagwerk genoemde werken dienen als eerste gedigitaliseerd te worden. De Geschiedenis is zelf deze maand ook toegevoegd, zodat nu al die werken als links kunnen verschijnen. Je kunt dan als de Werkgroep Content klaar is in ieder geval in theorie door de acht delen Geschiedenis heenwerken en dan alle links aanklikken en zo alle Nederlandse literatuur die volgens de deskundigen de moeite waard is tot je nemen.

Ondertussen zou het goed zijn als de DBNL ook serieuzer werk maakte van het wetenschappelijk onderzoek. Die scandeerrobot die Haverals en collega’s beschrijven, die moet natuurlijk gewoon toegankelijk zijn via de DBNL, zelf. Dat geldt bijvoorbeeld ook voor de n-gramviewer en je zou willen dat al die stukjes software die het mogelijk maken om de teksten in de bibliotheek beter te analyseren, bij elkaar werden geplaatst, inclusief artikelen die ze beschrijven, en misschien ook geanalyseerde data.

Het hoeft niet voor een breed publiek toegankelijk te worden: het gaat om onderzoekers die elkaar inspireren. Dat kan dan anderzijds wel weer iedere onderzoeker zijn: ook de scholier die een scriptje heeft gemaakt dat alle jaartallen in alle teksten kan vinden en zo een calendarium kan maken, en ook de gepensioneerde neerlandicus die allerlei overblijvende OCR-fouten heeft weten te halen uit de 25 delen Volledige Werken van Multatuli en de opgeschoonde bestanden nu aan anderen aanbiedt.

Revolutie

Daar zouden dan ook eindelijk de teksten kunnen worden aangeboden in een vorm die niet lekker leest voor mensen maar wel voor apparaten: XML. Thomas Crombez vraagt erom in zijn artikel in Vooys en Ton van Kalmthout wijst erop dat een dergelijke oproep ook tien jaar geleden al verscheen (hier) en toen al gebaseerd was op een belofte die de DBNL in het eerste jaar van deze eeuw had gedaan. Het moet niet moeilijk zijn om dat te doen, want de bestanden staan bij de DBNL op de server.

Samen zouden die verzamelde toolbox én toegang tot de ‘ruwe’ bestanden van de XML een centrum van de digitale revolutie kunnen maken. Aan het werk!

Meer informatie over (dit nummer van) Vooys.