Hoe gangbare veronderstellingen tot verkeerde conclusies kunnen leiden

Door: Marcel Das, hoogleraar Econometrie en Dataverzameling, en Peter van der Velden, hoogleraar Victims & Mental Health, beiden verbonden aan Tilburg University en Centerdata.

De resultaten van onderzoek komen regelmatig aan bod in Nederlandse dagbladen, radio- en televisieprogramma’s. Een deel daarvan heeft betrekking op onderzoek onder burgers, dat varieert van onderzoek naar het vertrouwen in de politiek en gedachten over klimaatverandering tot onderzoek naar het welzijn van burgers. Bij de beoordeling van vooral spraakmakend onderzoek zullen mensen zich afvragen of ze betrouwbaar zijn. Zijn de resultaten wel te vertrouwen? Kloppen de conclusies?

De recente commotie rondom bijvoorbeeld het onderzoek naar kennis over de Holocaust¹ toont in ieder geval hoe belangrijk deze vragen zijn. Van de gepresenteerde alarmerende conclusies waar diverse media over berichtten, bleef na een kritische beoordeling namelijk weinig over. Dat lijkt bevreemdend omdat aan een basale voorwaarde voldaan leek te zijn: het onderzoek zou zijn uitgevoerd onder een representatieve groep van 2.000 volwassenen. Geen kleine groep dus en ook nog representatief, volgens de onderzoekers.

Gangbare veronderstellingen over onderzoek

Journalisten, redacties en andere geïnteresseerden laten zich bij de interpretatie van onderzoeksresultaten vermoedelijk leiden door de veronderstelling:

Wanneer de demografische kenmerken (leeftijd, geslacht, etc.) van de onderzoeksgroep gelijk zijn aan die van de bevolking (of de doelgroep), zijn de resultaten representatief.

Verder spelen de volgende veronderstellingen mogelijk een rol:

De resultaten van onderzoek onder 50.000 personen zijn betrouwbaarder dan de resultaten van onderzoek onder 1.000 personen.
Als verbanden of verschillen tussen onderzoeksgroepen statistisch gezien significant zijn, dan zijn de verbanden sterk of de verschillen groot.

Maar: geen enkele van deze drie veronderstellingen is per definitie waar. Ter illustratie enkele vereenvoudigde voorbeelden.

Een grote steekproef is niet per se beter

Stel dat men inzicht wil verkrijgen in hoe vaak mensen sociale media gebruiken. Als de groep van 50.000 personen is geworven via sociale media (zoals een oproep op Facebook) dan is er dus sprake van een selectieve groep die in meer of mindere mate al sociale media gebruikt. Als de veel kleinere groep van 1.000 personen is geworven via een willekeurige steekproef uit de Nederlandse bevolking (bijvoorbeeld via het LISS panel), dan zijn de resultaten van deze niet-selectieve groep veel betrouwbaarder. Het is dus altijd belangrijk inzicht te hebben in hoe de deelnemers zijn geworven.

Eenzelfde probleem speelt bij onderzoek waar deelnemers zichzelf hebben aangemeld, de zogenaamde opt-in panels. Omdat er bij dergelijke panels vaak sprake is van grote aantallen, wordt nogal eens verondersteld dat het met de representativiteit wel goed zit. Maar de zelfselectie leidt al snel tot vertekende (onjuiste) conclusies. De resultaten van onderzoek onder 50.000 personen zijn dus zeker niet per definitie betrouwbaarder dan van onderzoek onder 1.000 personen.

Weging lost het probleem van voorselectie niet op

Stel dat men inzicht wil krijgen in het belang dat mensen hechten aan politieke partijen, en dat voor dit doel leden van alle politieke partijen worden benaderd om deel te nemen. Met behulp van statistische technieken (weging) kunnen onderzoekers de demografische kenmerken van de deelnemers gelijktrekken aan die van de Nederlandse bevolking. Maar er is hier sprake van een vóórselectie: uit het feit dat de respondenten lid zijn van een politieke partij mag de conclusie worden getrokken dat ze al een zeker belang hechten aan politieke partijen. Het gelijktrekken van demografische kenmerken verandert daar niets aan. Als de demografische kenmerken (leeftijd, geslacht etc.) gelijk zijn aan die van de bevolking (of doelgroep), geeft dat dus geen garantie over de representativiteit van de onderzoeksgroep.

Ook kleine verschillen kunnen statistisch significant zijn

Stel dat men inzicht wil krijgen in een eventueel verschil in het gevoel van eenzaamheid tussen ouderen en jongeren. Het is niet nodig om alle ouderen en alle jongeren naar hun gevoel van eenzaamheid te vragen. Met een willekeurige steekproef van ouderen en jongeren kan deze vraag ook beantwoord worden. Men trekt hiervoor een grote steekproef van 10.000 ouderen en 10.000 jongeren; 50,5% van de ouderen voelt zich eenzaam, terwijl dit percentage onder de jongeren gelijk is aan 49,5%. Dit verschil is statistisch significant (bij een gebruikelijk significantieniveau van 5%). Het gevoel van eenzaamheid is dus statistisch gezien verschillend tussen ouderen en jongeren, maar de verschillen zijn niet groot (50,5% versus 49,5%). Een statistisch significant verschil hoeft dus niet altijd te betekenen dat er ook daadwerkelijk sprake is van grote verschillen.

Het is dus van belang om als kijker, luisteraar, beleidsmaker, journalist of presentator kritisch te kijken naar de manier waarop een onderzoek is opgezet en uitgevoerd. Een zeer omvangrijke steekproef, statistisch significante verschillen of verbanden, en het toepassen van technieken waarmee de samenstelling van de onderzoeksgroep en de doelpopulatie gelijk wordt getrokken, vormen niet zonder meer een garantie voor de betrouwbaarheid van de gevonden resultaten.

Referenties

Bradley, V. C., Kuriwaki, S., Isakov, M., Sejdinovic, D., Meng, X. L., & Flaxman, S. (2021). Unrepresentative big surveys significantly overestimated US vaccine uptake. Nature, 600(7890), 695–700. https://doi.org/10.1038/s41586-021-04198-4

Lavrakas, P. J., Pennay, D., Neiger, D., & Phillips, B. (2022). Comparing Probability-Based Surveys and Nonprobability Online Panel Surveys in Australia: A Total Survey Error Perspective. Survey Research Methods, 16(2), 241–266. https://doi.org/10.18148/srm/2022.v16i2.7907

Noot 1

Het betreft de commotie over Amerikaans onderzoek over kennis over de Holocaust onder Nederlanders. De onderzoekers concludeerden dat ruim de helft van de Nederlanders niet weet dat er in de Tweede Wereldoorlog zes miljoen Joden zijn vermoord. Zo’n 12% van de gehele bevolking en bijna een kwart van de jongeren zou van mening zijn dat dit aantal sterk wordt overdreven of zelfs dat de Holocaust een mythe is. De resultaten schokten de politiek.

Hoe gangbare veronderstellingen tot verkeerde conclusies kunnen leiden

Gangbare veronderstellingen over onderzoek

Een grote steekproef is niet per se beter

Weging lost het probleem van voorselectie niet op

Ook kleine verschillen kunnen statistisch significant zijn

Heeft u een vraag?

Contact

Over ons

Gerelateerde databanken

Hoe gangbare veronderstellingen tot verkeerde conclusies kunnen leiden

Gangbare veronderstellingen over onderzoek

Een grote steekproef is niet per se beter

Weging lost het probleem van voorselectie niet op

Ook kleine verschillen kunnen statistisch significant zijn

Heeft u een vraag?

Updates ontvangen?

Contact

Over ons

Gerelateerde databanken

Type hier uw zoekterm en druk op enter

Updates
ontvangen?