Tag: big data

Handmatig data opschonen tot ik een ons weeg

Door Marten van der Meulen

Ik vertel met liefde niet alleen over de keuzes die ik maak binnen mijn onderzoek: over temporele afbakening bijvoorbeeld, maar ook over de dagelijkse praktijk van mijn wetenschappelijke bedrijf (bijvoorbeeld over data maken). Vandaag iets over data schoonmaken.

Mijn promotieonderzoek gaat over de relaties tussen taaladvies en taalgebruik. De eerste poot, taaladvies, heb ik voorlopig afgerond: ik heb een grote verzameling aangelegd van taaladviezen gedurende de twintigste eeuw, en daarover gepresenteerd (publicaties zijn onderweg). Nu ben ik sinds een tijdje bezig met het in kaart brengen van taalgebruik zelf. Zo kan ik advies en gebruik vergelijken. Maar bij het verzamelen van dat taalgebruik loop ik tegen een aantal problemen op. Hoe kom je aan een corpus bijvoorbeeld. Dat is ingewikkelder dan je zou denken (maar daarover een andere keer meer). Nu eerst iets over het schoonmaken van data. Lees verder >>

Literaire stijl als een computerkunstje

(Persbericht Radhoud Universiteit)

Is de creatie van een uniek literair oeuvre voorbehouden aan zwoegende schrijvers of kan een computer de klassiekers imiteren? In het project ‘Writers in the Cloud’ schrijven bezoekers van het Erasmusgebouw van de universiteit met behulp van taaltechnologie een tekst in de trant van schrijvers als Couperus, Grunberg of Bervoets. Het project dat op 2 oktober van start gaat, is een samenwerking tussen taalwetenschappers van de Radboud Universiteit en kunstenaarscollectief KunstLAB Arnhem.

Het concept is vrij simpel. Projectleider Roel Willems: ‘De computer projecteert elke keer drie woorden uit het oeuvre van bijvoorbeeld  Couperus of Multatuli. Vervolgens stemmen de bezoekers van het Erasmusgebouw voor één van de woorden door over de projectie van hun favoriete woord te lopen.’ Het meest gekozen woord wordt opgenomen in een nieuw gegeneerde zin in de stijl van de auteur. Gezamenlijk schrijven de bezoekers op deze manier een week lang een tekst in de stijl van één bepaalde schrijver. Lees verder >>

Taalkundigen: kom uit bed!

Door Marc van Oostendorp

Taalkunde kun je overal doen. In de bus onderweg van de boerderij waar je een mummelende boer hebt gevraagd of de klok even stil kon worden gezet om de opname niet te bederven. In het bezemhok dat op menige universiteit tevens dienst doet als ‘taalkundig laboratorium’ omdat er een laptop in staat met een koptelefoon. En ook in bed, waar je peinst over de vraag waarom je wel kunt zeggen ‘hij komt eerst en zij komt erna’ en niet ‘hij komt uit de stad en zij gaat ernaar’.

Een van de fijne dingen van de taalkunde is dat er enorm veel gegevens voor het opscheppen liggen. De zogeheten “big data-revolutie” levert in het geval van de taalwetenschap eigenlijk niet op dat er ineens veel meer data zijn dan vroeger, maar dat die data veel toegankelijker worden.

De Utrechtse hoogleraar Hugo Quené spreidt in zijn oratie een aanstekelijk enthousiame tentoon voor alle mogelijkheden die dat biedt voor de onderzoeker. Lees verder >>