Tag: digital humanities

Vrouwen en migranten vaak centrale rol in romans, blijkt uit computeranalyse

Persbericht Radboud Universiteit

Met een combinatie van computergestuurde data-analyse en traditionele letterkundige methoden onderzoekt Roel Smeets hoe groepen mensen worden afgebeeld in hedendaagse Nederlandstalige literaire fictie. Zo ontstaat en uitgebreid beeld van de manieren waarop mannen en vrouwen, mensen met en zonder een migratieachtergrond, lager en hogeropgeleiden, en jongeren en ouderen terugkomen in 170 hedendaagse romans. Smeets promoveert op 24 november aan de Radboud Universiteit.

Lees verder >>

Toevallige haiku’s

Door Emiel van Miltenburg

Naar aanleiding van eerdere experimenten van Marc van Oostendorp met de data van DBNL, ben ik ook eens gaan kijken wat er mogelijk is met zo’n grote verzameling aan Nederlandse literatuur. Dit is de uitkomst: een boek met honderden pagina’s aan toevallige haiku’s; zinnen die opgedeeld kunnen worden in drie regels van 5, 7, en 5 lettergrepen. Hier is bijvoorbeeld een zin van Bertus Aafjes, gepresenteerd als haiku:

Lees verder >>

Een databestand eenvoudig en slim doorzoeken

Door Ewoud Sanders

GIsteren bood ik in Neerlandistiek studenten en onderzoekers voor thuisgebruik drie databestanden aan: romans, streekromans en zondagsschoolboekjes. Vandaag zal ik stapsgewijs uitleggen hoe je zo’n dataset met een indexeringstool kunt doorzoeken. Beetje saai om te lezen wellicht, maar wie dit volgt beschikt binnen een uurtje over een fantastisch onderzoeksinstrument. 

Er bestaan verschillende indexeringstools, voor Mac en Windows. Zelf gebruik ik dtSearch (‘dtSearch Desktop with Spider’). Die kost eenmalig 199 dollar (€184), maar je kunt gratis een testversie downloaden. 

Lees verder >>

Call for papers en save the date:

Big data: Perspectieven voor onderzoek naar taalvariatie en taalverandering

Op 27 november 2020 vindt in Gent het jaarlijkse Taal & Tongval-colloquium plaats, dat dit jaar focust op het thema “Big data: Perspectieven voor onderzoek naar taalvariatie en taalverandering”. Iedereen is van harte uitgenodigd om de conferentie bij te wonen. 

Abstracts (in het Nederlands of in het Engels) van 300-500 woorden kunnen tot 1 mei 2020 ingediend worden in de vorm van een geanonimiseerde bijlage via e-mail naar taalentongval2020@ugent.be. De selectie wordt ten laatste op 20 mei 2020 bekend gemaakt.

Meer informatie is te vinden op de website van de organisatie/.

Vacature: Doctoraatsbeurs Strofische gedichten van Maerlant

Fragment van de Martijngedichten van Jacob van Maerlant (Montigny-le-Bretonneux, Archives départementales des Yvelines, 1F 180). Foto: Remco Sleiderink

door Remco Sleiderink

Het Departement Letteren van de Faculteit Letteren en Wijsbegeerte zoekt een veelbelovend talent voor een voltijds doctoraatsbeurs (100%, 4 jaar) in het domein van de oude Nederlandse letterkunde.

Lees verder >>

Gerda van Wageningen in de canon

Door Marc van Oostendorp

De canon van de Nederlandse literatuur als netwerk. Illustratie uit het besproken artikel.

De interessantste opmerking staat aan het eind, in het nieuwe artikel The Canon of Dutch Literature According to Google dat de letterkundigen Lucas van der Deijl en Roel Smeets samen met de computertaalkundige Antal van den Bosch schreven.

Het artikel gaat uit van een interessante gedachte: wat als we de canon nu eens door Wikipedia en Google lieten bepalen? Zouden we dan niet een veel democratischer beeld krijgen van de literatuur? En hoe zou dat beeld er dan uit zien? De auteurs namen alle 2287 schrijversnamen van de Wikipedia-pagina Nederlandse schrijvers en ze voerden deze aan het algoritme van Google. Dat geeft voor schrijvers een lijstje met ‘gerelateerde zoekresultaten’.

Lees verder >>

Kopiisten aan de computer voeren

door Viorica Van der Roest

Kun je een computer leren om talige verschillen tussen kopiisten in Middelnederlandse handschriften te herkennen?

In het laatst verschenen nummer van Spiegel der Letteren (60, 3-4) staat een artikel van Mike Kestemont: Aan de taal kent men de hand. Talige kopiistherkenning en de scribenten van de Lancelotcompilatie. Kestemont, bekend vanwege zijn toepassingen van digital humanities-werkwijzen op de Middelnederlandse literatuur, richt zich in zijn onderzoek al jaren op de zogenaamde stylometrie: het proberen te bepalen van de auteur van een anoniem werk door de computer de stijl ervan te laten vergelijken met andere teksten, waarvoor wél een auteur bekend is. Dat is voor middeleeuwse literatuur nog niet zo eenvoudig, omdat we daarbij naast de auteur altijd te maken hebben met de kopiisten die het literaire werk tijdens de handschriftproductie hebben overgeschreven. Een standaardspelling bestond nog niet; een kopiist paste de spelling uit zijn voorbeeldtekst vaak naar eigen voorkeur of inzicht aan.

Wanneer we een computer een grote hoeveelheid tekst van Manon Uphoff zouden voeren, is de kans groot dat hij op den duur leert haar stijl te herkennen, maar wanneer je dat zelfde zou doen met bijvoorbeeld Maerlant, krijg je veel minder goede resultaten, omdat de computer dan ook de stijlkenmerken van alle verschillende kopiisten mee gaat nemen bij het vaststellen van een stijlprofiel. Dat is lastig wanneer het doel van het onderzoek auteursherkenning is, maar wat als je van de nood een deugd maakt en gaat kijken of de computer verschillen tussen kopiisten kan herkennen? Lees verder >>

Altijd maar weer revoluties in de wetenschap

Door Marc van Oostendorp

Het is kennelijk tijd om de digitale geesteswetenschappen (digital humanities) te evalueren: de afgelopen week las ik minstens twee stukken die dat probeerden: één positief en één negatief, dus dat schiet op. Ze gaan ook allebei over een specifiek aspect: de literatuurwetenschap.

De jongens en meisjes van de digital humanities zijn inmiddels ook al wel enige tijd bezig, en je moet je altijd afvragen wanneer komen de resultaten?

Toevallig is het deze week vijf jaar geleden dat ik schreef over het boek Uncharted. Big Data as a Lens on Human Culture, waarin twee biologen weleens even zouden laten zien hoe de toekomst gearriveerd was: door gebruik te maken van de gigantische hoeveelheden data in Google Books zouden we nu eindelijk eens écht de geesteswetenschappen in kaart kunnen brengen.

Lees verder >>

Worden kranten echt steeds eenvoudiger en romans niet?

Door Marc van Oostendorp

Het is altijd leuk om mensen terecht te wijzen die denken dat vroeger alles beter was: dat het bruinbrood een vollere smaak had, dat iedere gymnasiast nog moeiteloos de eerste honderd regels van de Ilias kon citeren, dat de ramen in een Nederlandse straat nog iedere week blinkten van het zeepsop.

Er ging dan ook een kreet van vreugde door de lokalen van Neerlandistiek toen het nieuwste nummer van ons veel oudere zusje, TNTL, op de mat lag, want daarin stond een artikel met de titel Zijn romans en kranten sinds 1950 eenvoudiger geworden? En iedereen weet wat zo’n vraag betekent: nee, natuurlijk zijn ze niet eenvoudiger geworden. “Hun conclusie”, vatte Ewoud Sanders onlangs samen in zijn taalrubriek in NRC: “het taalgebruik is niet versimpeld”. Ook het Engelstalige abstract van het artikel doet die bewering: “the language of the novels did not change substantially”.

Maar er lijken mij redenen om wat voorzichtiger te zijn. Lees verder >>

Kunnen computers lezen?

 Door Marc van Oostendorp

Tijdens een interessante discussie, eind vorig jaar in Utrecht, probeerde een groep jonge onderzoekers me uit te leggen dat distant reading – de computer grote hoeveelheden teksten laten lezen om zo patronen op te sporen die je nooit kunt vinden door slechts een paar romans erop na te slaan –  heus zo lastig niet was als ik een paar maanden geleden had beweerd. Ze lieten me een aantal inderdaad interessante voorbeelden zien van werk dat ze daar in Utrecht doen, en ineens besefte ik waar het probleem lag: in het begrip lezen.

De computer kan natuurlijk teksten lezen als je daaronder verstaat: alle woorden langsgaan en tellen, zien welke andere woorden er typisch rondom een bepaald woord staan. Je kunt op die manier zelfs de stijl van een schrijver imiteren, zoals mijn collega Folgert Karsdorp heeft laten zien met onder andere een computer die ongeveer kon schrijven als Ronald Giphart.  Lees verder >>

30 november 2018, Utrecht: Bijeenkomst over distant reading

Het onderzoeksplatform Datafied Society en Het Utrecht Data Science & Humanities Centre organiseren op 30 november een discussie bijeenkomst over Distant Reading. Aanleiding is de blogpost van Marc van Oostendorp waarin de vruchtbaarheid van de betreffende leeshouding wordt betwijfeld. De professor zal zijn twijfels in persoon komen toelichten, waarna sprekers van het Utrecht Data Science & Humanities Centre en Datafied Society, en ook de aanwezige deelnemers, kunnen reageren. Lees verder >>

Digital Humanities Conference 2019 (DH2019) in Nederland

Begin juli 2019 zal in Utrecht een mondiaal Digital Humanities congres worden gehouden. Het is de eerste keer dat de Digital Humanities Conference Nederland aandoet. Tussen 8 en 12 juli, van maandag tot vrijdag zijn er workshops, lezingen en demonstraties. Wie wil zien wat digitale analyse- en presentatietechnieken de Geesteswetenschappen en Sociale wetenschappen te bieden hebben, is van harte welkom. Meer informatie is te vinden op: de website van het congres.

Wie wil meedoen als spreker, kan een voorstel indienen. Meer informatie daarover is te vinden op: deze pagina.

Het lokale Utrechtse organisatiecomité gaat niet over de selectie van de voorstellen. Maar we zijn wel actief in het organiseren van bijeenkomsten, wedstrijden en demonstraties om het congres heen. Het congres vindt plaats in Tivoli, dat de hele week beschikbaar is voor alle activiteiten. Wie meer informatie wil over de mogelijkheden, kan mailen met Els Stronks (e.stronks@uu.nl).

Liever schone data dan veel data

Door Marten van der Meulen

Vorige week schreef ik een blogpost naar aanleiding van een stuk van Marc van Oostendorp (die weer reageerde op een tweet van Geert Wilders). In de post beschreef ik het gebruik van een bepaald woord, difficulteren, aan de hand van een aantal verschillende corpora van het Nederlands. Mijn post bleek op haar beurt aanleiding voor professor Jan Odijk om een post te schrijven over de structuur en interface achter de door mij gebruikte corpora. Het onderzoekje dat ik in twee uur op een dinsdagochtend had uitgevoerd leek daarmee plotseling te worden opgevoerd als rechtvaardiging voor meerdere miljoenenprojecten. Dat is al te veel eer: het was een alleszins triviaal onderzoekje. Maar dit geeft mij wel een mooi haakje om wat kritisch commentaar te geven op deze interface. Vooral op twee punten is er nog een enorme winst te behalen: de kwaliteit van de data is nog aan drastische verbetering toe, en over het type data kan beter worden nagedacht.

Schone data

Laat vooropstaan dat ik zeker niet ondankbaar wil lijken. Wat er al gebeurd is binnen Clariah (zo heet het project achter de interface) is fijn en handig. Zo is een grote hoeveelheid corpora makkelijk toegankelijk binnen Nederlab, en kunnen deze zowel apart als gezamenlijk worden doorzocht met verschillende tools. Je kunt inderdaad vrij complexe zoekfuncties bedenken. Ik was bijvoorbeeld laatst op zoek naar zelfstandig naamwoorden die in het meervoud staan, voorafgegaan door een woord dat eindigt op –tal maar dat níet aantal is (bv. vijftal, honderdtal), en gevolgd door een werkwoord. Dat gaat vrij eenvoudig. Lees verder >>

‘Difficulteren’ zoeken met digitale methoden

Door Jan Odijk

Clariah is een groot project dat de empirische basis voor digitaal geesteswetenschappelijk onderzoek wil faciliteren. In de CLARIAH-PLUS-aanvraag (p. 8) wordt gesteld: “The CLARIAH infrastructure will increase our empirical base, options for analysing […] data, and the efficiency of research by orders of magnitude (data-intensive science).
Maar is dat ook echt zo?

Een treffende illustratie van de correctheid van deze claims wordt geleverd door Marten van der Meulen in een recente bijdrage aan Neerlandistiek.nl. Binnen een dag testte hij een vermoeden van Marc van Oostendorp over het onlangs door Geert Wilders gebruikte woord ‘difficulteren’, door het op te zoeken in meerdere corpora die de CLARIAH onderzoeksinfrastructuur de afgelopen jaren beschikbaar heeft gesteld. Lees verder >>

Literaire stijl als een computerkunstje

(Persbericht Radhoud Universiteit)

Is de creatie van een uniek literair oeuvre voorbehouden aan zwoegende schrijvers of kan een computer de klassiekers imiteren? In het project ‘Writers in the Cloud’ schrijven bezoekers van het Erasmusgebouw van de universiteit met behulp van taaltechnologie een tekst in de trant van schrijvers als Couperus, Grunberg of Bervoets. Het project dat op 2 oktober van start gaat, is een samenwerking tussen taalwetenschappers van de Radboud Universiteit en kunstenaarscollectief KunstLAB Arnhem.

Het concept is vrij simpel. Projectleider Roel Willems: ‘De computer projecteert elke keer drie woorden uit het oeuvre van bijvoorbeeld  Couperus of Multatuli. Vervolgens stemmen de bezoekers van het Erasmusgebouw voor één van de woorden door over de projectie van hun favoriete woord te lopen.’ Het meest gekozen woord wordt opgenomen in een nieuw gegeneerde zin in de stijl van de auteur. Gezamenlijk schrijven de bezoekers op deze manier een week lang een tekst in de stijl van één bepaalde schrijver. Lees verder >>

Dialect App: Eèsjdes en Mestreechs

Door Leonie Cornips

Een wens is eindelijk in vervulling gegaan. Zo’n drie jaar geleden spraken Lukas van der Hijden (Bureau Interactieve Communicatie) en ik met elkaar af hoe we een Dialect App zouden kunnen realiseren, een idee dat al langer leefde bij streektaalfunctionaris Ton van de Wijngaard. Het ontwikkelen van zo’n (web)App door een bureau kost geld, er is technische kennis voor nodig en het moet zich lenen voor wetenschappelijk onderzoek. Het lukte niet om het benodigde budget bij elkaar te krijgen.
Na drie jaar overleg met veel diverse wisselende mensen, verzinnen van plannen en bureaucratische hobbels is de Dialect App er toch gekomen! Lees verder >>

Michiel de Vaan: De Neerlandistiek over 25 jaar

Door Michiel de Vaan

Over vijfentwintig jaar heb ik bijna de dan geldende pensioengerechtigde leeftijd bereikt. Als lichaam en geest nog meedoen, breekt dan de productiefste periode van mijn wetenschappelijk leven aan. Tenzij de supercomputer tegen die tijd mijn kennis en creativiteit heeft ingehaald, wat niet denkbeeldig is. Hoe ‘de Neerlandistiek’ er dan in zijn geheel uitziet, weet ik niet, maar ik kan wel een verlanglijstje neerleggen.

Op dat lijstje staat maar een ding, maar wel iets groots: dat alle teksten die we als Nederlands beschouwen (eigenlijk dekt de tot in de tweede helft van de negentiende eeuw gangbare term Nederduytsch de lading beter) uitgegeven en doorzoekbaar zijn. Allemaal. Thuis aan mijn bureau. En vooral: in hun originele spelling en opmaak. Op dit moment is dat slechts voor de teksten tot 1300 het geval. Ik weet het, de hoeveelheid literaire en vooral niet-literaire teksten van na 1300 is onvoorstelbaar groot. Inderdaad, het opsnorren, lezen, begrijpen, transcriberen en diplomatiek uitgeven van alle charters, stadsrekeningen, cijnsregisters, gerechtsprotocollen, dagboeken, annalen, zeemansbrieven, vondelingbriefjes en andere handgeschreven teksten, uit alle gewesten, dat is een onnoemelijk grote hoeveelheid werk. Niemand zal al die teksten in een leven gaan lezen. Maar een computer kan ze doorzoeken, taalkundigen en historici kunnen er nieuwe ideeën door krijgen, en cineasten kunnen er muziek onder zetten. Lees verder >>

Vacature Coördinator DARIAH en digital humanities VUB (20-30%)

De Vrije Universiteit Brussel stapt sinds dit jaar mee als partner in het DARIAH-Vlaanderen-project. DARIAH is een internationaal consortium dat gericht is op het verbeteren en ondersteunen van digitaal onderzoek en onderwijs binnen de geesteswetenschappen (zie bijv. http://be.dariah.eu, http://www.dariah.eu of deze presentatie voor meer achtergrond, of zie bijv. ook de activiteiten van het Ghent Centre for Digital Humanities of het Antwerpse DH-platform ter inspiratie).

Jij neemt als coördinator van DARIAH aan de VUB een sturende rol op je in de uitbouw van de VUB-deelname aan het DARIAH-verhaal: Lees verder >>

Taalkundigen: kom uit bed!

Door Marc van Oostendorp

Taalkunde kun je overal doen. In de bus onderweg van de boerderij waar je een mummelende boer hebt gevraagd of de klok even stil kon worden gezet om de opname niet te bederven. In het bezemhok dat op menige universiteit tevens dienst doet als ‘taalkundig laboratorium’ omdat er een laptop in staat met een koptelefoon. En ook in bed, waar je peinst over de vraag waarom je wel kunt zeggen ‘hij komt eerst en zij komt erna’ en niet ‘hij komt uit de stad en zij gaat ernaar’.

Een van de fijne dingen van de taalkunde is dat er enorm veel gegevens voor het opscheppen liggen. De zogeheten “big data-revolutie” levert in het geval van de taalwetenschap eigenlijk niet op dat er ineens veel meer data zijn dan vroeger, maar dat die data veel toegankelijker worden.

De Utrechtse hoogleraar Hugo Quené spreidt in zijn oratie een aanstekelijk enthousiame tentoon voor alle mogelijkheden die dat biedt voor de onderzoeker. Lees verder >>