Economies of scope in data aggregation: Evidence from health data

Meer complete informatie over een persoon kan leiden tot betere voorspellingen over diezelfde persoon. Dat blijkt uit nieuw onderzoek, uitgevoerd in samenwerking met het Joint Research Centre (JRC) van de Europese Commissie. Dit verschijnsel, bekend als Economies of Scope in Data Aggregation (ESDA), laat zien dat niet alleen de hoeveelheid data telt, maar vooral de mate waarin verschillende soorten gegevens elkaar aanvullen.

Onderzoek met gezondheids- en sociaaleconomische data

Voor dit onderzoek zijn gegevens uit het LISS panel, met zowel gezondheids- als sociaaleconomische informatie, gekoppeld aan CBS-microdata. Deze data werden stapsgewijs toegevoegd aan machine learning modellen, waarbij het aantal onderzochte personen gelijk bleef. Zo konden de onderzoekers vaststellen welk effect het toevoegen van verschillende typen informatie had.

De gevonden resultaten suggereren dat een meer gevarieerde dataset het model in staat stelde gezondheidsuitkomsten beter te voorspellen. Vooral wanneer de gegevens elkaar goed aanvullen neemt de voorspellingskracht toe.

Belang voor beleid en praktijk

Tot nu toe lag de nadruk bij datasets vaak op omvang: hoe groter de groep respondenten, hoe betrouwbaarder de voorspellingen. Dit onderzoek laat echter zien dat variatie en complementariteit in de data minstens zo belangrijk zijn. Voor beleidsmakers is dit een belangrijk inzicht, omdat het laat zien hoe organisaties voordeel kunnen behalen door unieke databundels te combineren. Ook kan dit richting geven aan mededingingsbeleid en data-initiatieven, zoals de Common European Data Spaces van de Europese Unie.

Het onderzoek is gepubliceerd in het journal Information Economics and Policy. Klik hier om alle resultaten te lezen.