Twitte-R, Data Mining en Semantische Analyses
Delven (mining) van data en het uitvoeren van semantische analyses op natuurlijke taal

Bij het programmeren voor data science projecten moet ook gedacht worden aan het delven (mining) van data en het uitvoeren van semantische analyses op natuurlijke taal. Hierbij moet bijvoorbeeld worden gedacht aan de analyse van open antwoorden, dossierteksten, paragrafen en verhalen, maar ook berichten zoals mail en social media posts. De tekstuele informatie kan geanalyseerd en gerepresenteerd worden met semantische weging en samenhang.

Twitte-R is een pakket om continu data uit de social media pool van Twitter te onttrekken. In de aanloop naar de landelijke verkiezingen van 2017 hebben we berichten uit Twitter gehaald en analyses uitgevoerd naar onder andere sentiment en partijeninteractiviteit. Door bepaalde ontologische patronen te traceren, nabijheid van semantiek te bepalen en pragmatiek – zoals sentimentwaarde – te bepalen voor berichten, lukt het om correlaties te leggen tussen partijen, momenten, twitteraard en intenties.

Het binnenhalen van grote hoeveelheden tekstuele informatie levert een complexe set aan informatie. Met behulp van visualisatietechnieken, zoals chord-chards en netwerkgrafen lukt het om clusters te detecteren binnen dergelijke informatie.

We passen natuurlijke-taal-technieken toe en programmeren in onder andere Python, R, en C#, gebruikmakend van de pakketten en toolboxen die gerenommeerd zijn voor de toepassingen op dit gebied.

De basis ligt veelal in het schrijven van sterke algoritmes en het inrichten van geautomatiseerde processen en het koppelen met open data protocollen zoals API’s, zodat verwerking en analyse mogelijk blijft. Het schrijven van sterke algoritmes en het inzetten van scripts die zelfstandig draaien vormen daarvoor de basis.