High Performance Computing en Virtualisatie
Opschaalbare gedistribueerde computerplatforms zijn nodig om te werken met ‘big data’

Data science is een vakgebied dat steeds in beweging is. Het aantal technieken en methodes groeit in een rap tempo. Grote hoeveelheden data vragen om bijzondere manieren van betrouwbare en veilige dataopslag en om snelle toegankelijkheid en verwerking. Analyses worden gedaan door gebruik te maken van meerdere computers en meerdere rekenunits. Daarvoor wordt vooral gebruik gemaakt van ‘high-performance computing’ omgevingen. Cloudomgevingen maken het mogelijk om ‘virtuele omgevingen’ te lanceren. En deze maken het op hun beurt weer mogelijk om met voldoende rekenkracht een veelvoud aan verschillende tools en datamanagementstructuren bijeen te brengen om hun toepassingen te toetsen.

In diverse data science projecten maken we gebruik van big-data infrastructuren voor opslag en analyse, onder andere door supercomputers, Hadoop clusters en Spark-Streaming. Op die manier zijn we voor complexe analyses niet gebonden aan de rekencapaciteit of opslagcapaciteit van één werkstation.

Afhankelijk van de privacygevoeligheid van de projectdata zorgen we voor de benodigde beveiliging van de data door betrouwbare technische omgevingen voor overdracht, bewaren, encrypten en decrypten, en het verwerken van de data.