Twitte-R, Data Mining en Semantische Analyses
Delven (mining) van data en het uitvoeren van semantische analyses op natuurlijke taal

Bij het programmeren voor data science projecten moet ook worden gedacht aan het delven (mining) en clusteren van data en het uitvoeren van semantische analyses op natuurlijke taal. Denk bijvoorbeeld aan analyses van open antwoorden, dossierteksten, paragrafen en rapporten, maar ook aan berichten zoals e-mail en social media posts. De tekstuele informatie kan worden geanalyseerd en zichtbaar worden gemaakt met semantische weging en samenhang.

Twitte-R is een pakket om continu data uit de social media pool van Twitter te halen. In de aanloop naar de landelijke Tweede Kamerverkiezingen van 2017 zijn uit Twitter bijvoorbeeld berichten over onder andere sentiment en partijeninteractiviteit gehaald en geanalyseerd. Door bepaalde ontologische patronen te traceren, nabijheid van semantiek te bepalen en pragmatiek ( zoals sentimentwaarde) te bepalen voor deze berichten, is het gelukt om correlaties te leggen tussen partijen, momenten, de aard van het twitterbericht en intenties.

Het verzamelen van grote hoeveelheden tekstuele informatie levert een complexe set aan informatie op. Met behulp van visualisatietechnieken, zoals chord-chards en netwerkgrafen lukt het om clusters waar te nemen binnen die informatie. Door gebruik te maken van correspondence analysis kunnen we de ideologie van tweets achterhalen waardoor zogenaamde echo chambers in Nederlandse (politieke) tweets inzichtelijk kunnen worden gemaakt.

We passen natuurlijke taal technieken toe en programmeren onder andere in Python, R, en C#, gebruikmakend van de pakketten en toolboxen die bekend zijn voor toepassingen op dit gebied. De basis ligt veelal in het schrijven van sterke algoritmes, het inrichten van geautomatiseerde processen (scripts) en het koppelen met open data protocollen zoals API’s, zodat verwerking en analyse mogelijk worden gemaakt.

Een ander voorbeeld van dit type analyse is de zogenaamde blijheid live-ticker, waarbij informatie is gehaald uit Nederlandse tweets over hoe gelukkig men zich voelt, en is te vinden op tijdelijke blijheidsscore van Nederlandse tweets.