Worden alle modellen beter naarmate er meer relevante data beschikbaar zijn? Het vermoeden bestaat dat onderzoek kan profiteren van zulke ‘schaalvoordelen’, maar is dat ook echt zo? In opdracht van het Joint Research Center (JRC) van de Europese Commissie doken wij in deze vraag. We keken naar de impact van ‘economies of scope’ van data op modelvoorspellingen. Het bijbehorende research paper is reeds opgeleverd.

Het welbekende concept van ‘economies of scale’ kan ook worden toegepast op data-aggregatie. Het verwijst naar een verbeterde voorspellingsnauwkeurigheid wanneer het aantal waarnemingen op variabelen in een dataset toeneemt. Maar over het nut van ‘economies of scope’ bij onderzoek, is nog weinig bekend. Vooral als er sprake is van het combineren van verschillende maar gerelateerde datasets.

Economies of scope

‘Voor het Joint Research Center (JRC) van de Europese Commissie gingen wij met economies of scope aan de slag’, vertelt dr. Seyit Höcük, data scientist bij Centerdata. ‘Dit begrip verwijst naar verbeteringen in de voorspellingsnauwkeurigheid wanneer het aantal complementaire variabelen in een gecombineerde dataset toeneemt, niet het aantal waarnemingen op deze variabelen.’

Om de waarde ervan te toetsen, heeft Centerdata een grote datapool samengesteld van variabelen die direct te maken hebben met gezondheid of eraan gerelateerd zijn. Höcük: ‘We hebben gebruikgemaakt van ons eigen LISS panel. Daarbij gingen we specifiek aan de slag met de Kernvragenlijst over gezondheid. Deze hebben we gecombineerd met onafhankelijke microdata over gezondheid van het Centraal Bureau voor de Statistiek (CBS).’

Machine learning-modellen

Vervolgens zijn er door Centerdata machine learning-modellen gedraaid op alle data om de gezondheidsresultaten te voorspellen. ‘We hebben geleidelijk het aantal onafhankelijke variabelen in het model verhoogd om de omvang van de economies of scope te schatten in de aggregatie van variabelen.’

Dit bevestigde de werking van economies of scope: het leidde in dit onderzoek namelijk tot een verbeterde voorspellingsnauwkeurigheid van gezondheidsresultaten. ‘Daarmee is ook het vermoeden bevestigd dat hoe meer data je combineert, des te beter de modelvoorspelling wordt’, besluit Höcük.

Het research paper is online te raadplegen.