Tag: statistiek

2000 twijfelachtige stukjes

Door Marc van Oostendorp

Betekenis van verschillende (Engelse) statistische termen

Omdat ik deze week mijn 2000e stukje op Neerlandistiek heb geplaatst, heb ik eens door wat oudere blogs gebladerd. Sommige was ik vergeten en die zijn natuurlijk altijd het leukst, want mijn posts gaan onveranderlijk over onderwerpen die mij interesseren.

Ik schreef precies vijf jaar geleden bijvoorbeeld over de vraag hoe reëel een kans is die ‘meer dan reëel’ wordt genoemd. Bij wijze van privé-viering kondigde ik dat stukje opnieuw aan op Twitter. Toen bleek dat jullie je het stukje ook niet meer konden herinneren, want jullie kwamen met nieuwe reacties, zoals bijvoorbeeld een wiskundige reactie van K.P. Hart, die probeert na te gaan welk getallenstelsel het best gebruikt kan worden voor de meer dan reële getallen. Lees verder >>

Het nut van statistiek

Door Marc van Oostendorp

Van verschillende kanten kreeg ik dit artikel aangeraden van de beroemde statisticus en blogger Andrew Gelman en een Australische biostatisticus John Carlin. Het artikel is deels een reactie op een artikel van nog weer andere statistici, Blakeley McShane en David Gal: never a dull moment in de wereld van de multiple regressie!

Er is in sommige sociale en medische wetenschappen dan ook al een paar jaar een crisis gaande, waarin allerlei resultaten die lang voor waar aangenomen waren, toch een stuk minder hard blijken te zijn. Door sommige deskundigen wordt dit toegeschreven aan onoordeelkundig gebruik van de p-waarde, de maat voor ‘statistische significantie’.  Wanneer die p-waarde onder een bepaalde grens ligt, zou je ervan uit mogen gaan dat een correlatie die je in je data vindt, niet op toeval berust.  Lees verder >>

Sanskriet op de beat

De grootste woordenschat in nederhop

Door Alex Reuneker (Universiteit Leiden), Vivien Waszink (Instituut voor de Nederlandse Taal) en Ton van der Wouden (Meertens Instituut)

Op The Pudding – een onlinetijdschrift met ‘visuele essays’ – verscheen een interessant onderzoekje naar de woordenschat van Amerikaanse hiphopartiesten. De vraag was simpel: ‘Als literatuurliefhebbers Shakespeare roemen om zijn grote vocabulaire, hoe verhouden hedendaagse rappers zich daar dan toe?’. Onderzoeker Matt Daniels vergeleek van een aantal rappers 35000 woorden en gebruikte daarbij evenveel woorden uit Shakespeares werk en uit Melvilles Moby Dick als ijkpunt. Wat bleek? 50 Cent, Drake (zou ’ie nog komen?) en DMX scoren het laagst, met iets meer dan 3000 unieke (dus verschillende) woorden, maar GZA en Aesop Rock overtreffen zelfs Shakespeare (5170 unieke woorden) en Moby Dick (6022 unieke woorden) met meer dan 6400 unieke woorden. Dat bleef niet onopgemerkt; media als The Guardian en Rolling Stone berichtten erover.

Uiteraard zegt het aantal unieke woorden in een tekst niet zozeer iets over kwaliteit, maar het laat wel iets zien over de woordenschat van rappers. Dat gegeven leek ons – drie taalkundigen, onder wie één fervent hiphopliefhebber – interessant genoeg om hetzelfde te doen voor ‘nederhop’, Nederlandstalige hiphop. Lees verder >>

Het geluid van een Bayesiaanse machine

Door Marc van Oostendorp

attachment-1Het fijnste van onderzoeker zijn is dat je af en toe overtuigd raakt: eerst wist je zeker dat het zus zat, en dan merk je ineens dat je begrijpt dat het toch echt zo is. Vooral de onderzoeker op rijpere leeftijd, zoals ik, kan dat af en toe overkomen.

In eerste instantie zag ik bijvoorbeeld weinig in het nieuwe artikel The Message Shapes Phonology, dat sinds kort op het internet circuleert. Ik ken de auteurs, het zijn allemaal goede onderzoekers, die heel lang aan dit lange artikel gewerkt hebben en er nu heel enthousiast over zijn. Maar mij leek het oude wijn in nieuwe zakken.

Het artikel betoogt dat de klankvorm van woorden wordt bepaald door het gebruik: praten is altijd een compromis tussen zo goed mogelijk verstaan worden en het jezelf als spreker niet al te moeilijk maken qua bewegingen van tong en lip. Lees verder >>

Een lesje kansberekening

Door Marc van Oostendorp


Toen ik me ruim een jaar geleden hier op Neder-L afvroeg of studenten in het wetenschappelijk onderwijs wel echt gemiddeld veertig fouten per A4’tje maakten, en hbo’ers tachtig, wist ik niet wat ik me op de hals haalde.

Het werd een lange tocht om te proberen de teksten te achterhalen waar al die fouten dan in zouden staan; een tocht die zelfs langs een geschillencommissie van de Rijksuniversiteit Groningen leidde, maar die naar het zich nu laat aanzien nooit tot enige klaarheid zal komen, omdat de auteurs van het proefschrift weigeren inzage te geven in het materiaal en niemand enige macht heeft om hen daartoe alsnog aan te zetten het bericht in NRC Handelsblad van vorige week>.

Voor wie uit eerste hand kennis wil nemen van de stijl van argumenteren die deze twee geleerden in het afgelopen jaar hebben gehanteerd, is er sinds gisteren gelukkig een blogpost die zij plaatsten op hun eigen weblog Basale schrijfvaardigheid. Iedereen die zelfs maar om de gegevens durft te vragen, wordt van alles en nog wat in de schoenen geschoven: onwetenschappelijkheid, intimidatie, corruptie, en nu ook nog discriminatie.

Lees verder >>

Onderzoek bewijst: taaldiversiteit zorgt voor verkeersongelukken

Door Marc van Oostendorp

Hoe meer talen er in een land gesproken worden, des te groter is de kans op verkeersongelukken. In landen waar acacia’s groeien, wordt veel vaker gebruik gemaakt van toonhoogte om betekenisverschil te maken tussen woorden. En hoe meer siësta’s de mensen houden, des te minder naamvallen, vervoegingen en verbuigingen gebruiken ze in hun taal.
Het zijn zomaar wat statistisch significante correlaties in een interessant, gisteren verschenen artikel in het online tijdschrift PLOS ONE
We hebben de afgelopen jaren tal van dit soort verbanden voorbij zien komen, die vaak kortstondig ook de niet-wetenschappelijke pers haalden: het verband tussen de hoeveelheid klinkers en medeklinkers en de afstand tot Afrika bijvoorbeeld. Of tussen de aanwezigheid van een toekomende tijd voor werkwoorden en spaargedrag van de sprekers. 

72.095 woorden

Hoeveel praten Kamerleden?

Door Marc van Oostendorp

Wanneer het Kamerlid Ybeltje Berckmoes-Duindam dit jaar tien keer haar naam had uitgesproken tijdens een plenaire vergadering, had ze evenveel gezegd als ze nu volgens Vrij Nederland heeft gedaan: 32 woorden.

Ze had ook alleen de vorige zin kunnen uitspreken.

Volgens Vrij Nederland is de VVD’ster de ‘backbencher’ van het jaar, en het feit dat ze de minste woorden van iedereen heeft gezegd is daarbij het belangrijkste argument. Nummer 2 op de lijst sprak 418 woorden. De meest spraakzame parlementariër, met 72.095 woorden: Lees verder >>