Het nut van statistiek

Door Marc van Oostendorp

Van verschillende kanten kreeg ik dit artikel aangeraden van de beroemde statisticus en blogger Andrew Gelman en een Australische biostatisticus John Carlin. Het artikel is deels een reactie op een artikel van nog weer andere statistici, Blakeley McShane en David Gal: never a dull moment in de wereld van de multiple regressie!

Er is in sommige sociale en medische wetenschappen dan ook al een paar jaar een crisis gaande, waarin allerlei resultaten die lang voor waar aangenomen waren, toch een stuk minder hard blijken te zijn. Door sommige deskundigen wordt dit toegeschreven aan onoordeelkundig gebruik van de p-waarde, de maat voor ‘statistische significantie’.  Wanneer die p-waarde onder een bepaalde grens ligt, zou je ervan uit mogen gaan dat een correlatie die je in je data vindt, niet op toeval berust. 

Binaire conclusie

Een van de problemen is dat die ‘bepaalde grens’ echt volkomen willekeurig is gekozen, maar sindsdien lang als een heilige grens is beschouwd. Maar McShane en Gal laten zien dat het probleem nog groter is: deskundigen die je een verzameling gegevens geeft met een bijbehorende hypothese en een bepaalde p-waarde, raakten er veel te gemakkelijk van overtuigd dat de hypothese klopte, ook al zegt de p-waarde in feite niet veel anders iets over de kans dat het effect toevallig is.

Met andere woorden, zeggen Gelman en Carlin: je komt er niet door alleen maar van p-waarden naar geavanceerdere statistische maten over te gaan. Het probleem zit dieper, het zit in het grenzeloze vertrouwen dat veel onderzoekers hebben in die statistiek – het idee dat een statistische berekening je doorslaggevend bewijs kan geven of een bepaalde hypothese nu wel of niet klopt. Terwijl er eigenlijk vrijwel nooit met zekerheid een conclusie getrokken kan worden uit de rommelige gegevens waarop je statistiek bedrijft – en zekere geen binaire conclusie (‘er is een effect’ of juist niet).

Gelman en Carlin vinden statistiek natuurlijk geen onzin – het is hun vak. Je moet er alleen geen illusie van absolute zekerheden aan ontlenen. Een onzinnige hypothese wordt niet ineens de waarheid omdat de statistiek dat zegt. En daarmee is statistiek eigenlijk zoals iedere vorm van evidentie voor een willekeurige stelling. We tasten altijd in het duister, we kunnen alleen hypothesen opstellen over hoe de werkelijkheid in elkaar zit, en ook SPSS en R bevatten geen gegarandeerd lichtknopje dat ineens een schijnwerper doet ontbranden.

Ik schreef al eerder over Andrew Gelman.