Centerdata presenteerde diverse vormen van dataverzameling en onderzoek op de ODISSEI Conferentie op 3 november. Denk aan datadonatie, data verzameld via accelerometers, koppeling van meerdere databronnen, big data. Ook data verkregen uit een real-time spel, die te koppelen zijn aan andere data, werden als nieuwe vorm van dataverzameling gepresenteerd.

Projectleider Marije Oudejans: ‘Een trend die al enige tijd is te zien, is dat niet-reguliere manieren van data verzamelen een waardevolle toevoeging zijn op primair uitgevraagde survey data. Datadonatie bijvoorbeeld, waarbij informatie van Google Locatie Data of WhatsApp als datapakketje door respondenten wordt gedoneerd aan onderzoekers, in aanvulling op informatie verzameld via online vragenlijsten. Dit gebeurt uiteraard op een privacy verantwoorde manier. Zelf ben ik erg enthousiast over de inzet van oTree in het LISS panel. Daardoor is het nu mogelijk om LISS panelleden online, real-time experimenten met elkaar te laten spelen, bijvoorbeeld gedragsexperimenten uit de speltheorie. Deze manier van dataverzameling is erg interessant voor onderzoekers, met name omdat er sprake is van een gecontroleerde setting waarbij je het LISS panel als online laboratorium inzet. Een schaalvoordeel dat je niet hebt met kleine groepen in bijvoorbeeld een laboratorium op een universiteit. Tel daarbij op dat de verzamelde data in het LISS panel ook zijn te koppelen aan alle data van eerder verzamelde studies, gratis beschikbaar in het LISS Data Archief. Dat voordeel heb je weer niet bij online platforms als Amazon’s Mechanical Turk of Prolific.’

Accelerometers

Andere vormen van dataverzameling waarop Centerdata het publiek van onderzoekers, wetenschappers en beleidsmakers trakteerde, trokken ook de aandacht. LISS coördinator Joris Mulder vertelde bijvoorbeeld over diverse onderzoeken met accelerometers. ‘Voor de Wereldbank hebben we op basis van Machine Learning en Deep Learning onderzocht hoe activiteiten in Malawi op het platteland – denk aan water halen, land bewerken, kinderen verzorgen – effectiever en kostenefficiënter kunnen worden voorspeld met een bewegingsmeter (accelerometer), in plaats van het ter plekke afnemen van vragenlijsten door interviewers. Zo’n meter kan tijdrovende en foutgevoelige vragenlijsten op den duur vervangen. In een ander onderzoek met accelerometers, afgenomen in het LISS panel, kan de informatie uit de bewegingssensoren gekoppeld worden aan de data uit ons LISS Data Archief, bijvoorbeeld over gezondheid. Dat maakt het mogelijk om inzicht te verkrijgen in de samenhang tussen de mate van fysieke activiteit en hoe dat gerelateerd is aan gezondheidskenmerken.’

Meerwaarde big data

Seyit Höcük, senior data scientist, vertelde tijdens de conferentie over een opdracht van het Joint Research Center van de Europese Commissie, over de meerwaarde van data verzamelen uit verschillende bronnen. ‘Economies of Scale in data aggregation is een veelgebruikte term onder economen, waarbij meer gegevens van hetzelfde soort worden verzameld, maar Economies of Scope in data aggregation is minder bekend. Aan Centerdata is gevraagd of we zo’n specifiek onderzoek met data konden onderbouwen. De vraag was: wat is de meerwaarde voor onderzoek als er meerdere verschillende en onafhankelijke, maar gerelateerde bronnen aan elkaar worden gekoppeld? Wordt een datagedreven onderzoek daar beter van? Zijn er meer inzichten mogelijk door data op deze manier te combineren? Intuïtief is het antwoord op zo’n vraag onmiddellijk ja, maar nu hebben we dat ook empirisch kunnen bewijzen. Dat bleek door informatie op het gebied van gezondheid uit het LISS Data Archief plus specifieke achtergrondvariabelen als leeftijd en geslacht, te koppelen aan microdata van het CBS over medicijngebruik. Er is duidelijk impact en meerwaarde door deze manier van dataverzameling.’

De data scientist besluit met een pleidooi: ‘Onze bevindingen van dit big data-onderzoek pleiten voor het openen van data silo’s met gezondheidsgegevens en samenvoegen met sociaaleconomische gegevensbronnen in grote datapools, om betere voorspellende en preventieve zorg te leveren,’ aldus Höcük die onder de indruk was van het hoge technisch geavanceerde niveau van de conferentie.