In hoeverre zijn online vacatures een betrouwbare bron voor arbeidsmarktonderzoek? CentERdata onderzocht het door een grote set online vacatures te analyseren aan de hand van machine learning-technieken, zo vertelde data scientist Patricia Prüfer recent tijdens wetenschappelijke congressen in Amsterdam en Maastricht.

Vergaande automatisering en robotisering, kunstmatige intelligentie, nieuwe technologieën als het Internet of Things (IoT) en 3D-printing: steeds meer bedrijven en organisaties maken actief werk van digitalisering van hun bedrijfsprocessen. Welke beroepen en welke vaardigheden worden hierdoor vooral geraakt? En wat zijn de gevolgen daarvan voor werknemers en hun carrièreperspectieven?

In opdracht van een breed consortium (bestaande uit onder meer het ministerie van SZW en vijf van de Nederlandse topsectoren) liet CentERdata meerdere technieken op het vlak van Natural Language Processing (NLP) los op een grote dataset. Het doel: veranderingen in de vraag naar bepaalde digitale en niet-digitale vaardigheden in kaart brengen.

De dataset bestond onder meer uit ongestructureerde data (een grote hoeveelheid online vacatures uit de periode 2012-2017) en gestructureerde data (arbeidsmarktvoorspellingen van het Researchcentrum voor Onderwijs en Arbeidsmarkt (ROA)).

Minder representatief

Op de exacte inhoudelijke conclusies is het nog even wachten tot begin 2019, als het officiële onderzoeksrapport verschijnt. Wél werpt het onderzoek volgens Patricia en collega’s nu al meer licht op de geschiktheid van online vacatures als databron voor arbeidsmarktanalyses. In vergelijking met surveys zijn analyses op basis van vacatures vatbaarder voor selectiebias en meetfouten, omdat verzamelingen van online vacatures minder representatief zijn. Zo vullen veel bedrijven en organisaties open posities op via andere kanalen (bijvoorbeeld intern of via het eigen netwerk).

Goedkoper én meer data

Verzamelingen van vacatures kunnen dus nooit een volledig beeld van de arbeidsmarkt geven, te meer daar het voornamelijk de lastig in te vullen posities zijn die als vacature verschijnen. Van de andere kant biedt het gebruik van verzamelingen van online vacatures ook voordelen. Zo worden online vacatures volgens Patricia steeds meer standaard, waardoor ze een steeds completer beeld kunnen gaan schetsen van de arbeidsmarkt.

Verder is deze manier van onderzoek veel goedkoper dan surveys die normaal worden afgenomen om veranderingen in vaardigheden te achterhalen. Bij dit soort vragenlijsten is het risico op zogenaamde response en recall bias groter; oftewel het risico dat een respondent een vraag helemaal niet, niet waar of wenselijk beantwoordt, of zich niet het juiste antwoord kan herinneren. Daarnaast is de hoeveelheid data die verzameld kan worden veel groter.

Hoe dan ook is verder onderzoek nodig om te bepalen of online vacatures een betrouwbare bron kunnen zijn voor arbeidsmarktanalyses. In combinatie met administratieve data, bijvoorbeeld uit arbeidsmarktramingen, lijken ze echter tot betrouwbare conclusies te leiden. Zo is in het onderzoek van CentERdata te zien dat de aanbevelingen voor werknemers met betrekking tot ‘kansrijke overstapberoepen’ in lijn zijn met de aanbevelingen van het UWV.