Text mining (ook wel text analytics genoemd) is het verkennen en analyseren van grote hoeveelheden ongestructureerde tekstdata. Met behulp van algoritmen kunnen onder meer concepten, patronen, onderwerpen, trefwoorden en sentimenten in de data geïdentificeerd worden.

Dankzij de ontwikkeling van big data-platforms en complexe algoritmes die enorme hoeveelheden ongestructureerde data kunnen analyseren, wordt text mining steeds praktischer en toegankelijker voor data scientists en andere datagebruikers. Steeds vaker wordt text mining ingezet om waardevolle inzichten te vinden in onder andere bedrijfsdocumenten, e-mails van klanten, logboeken van callcenters, berichten op sociale netwerken, medische dossiers, jaarverslagen, wetteksten en andere belangrijke bronnen van op tekst gebaseerde gegevens.

Semantische analyse

Semantische analyse beschrijft het proces van het begrijpen van natuurlijke taal – de manier waarop mensen communiceren – op basis van betekenis en context. Via Machine Learning (ML) kan dus ook de betekenis van een stuk tekst worden vastgelegd. Daarbij gaat het bijvoorbeeld om analyses van open antwoorden, dossierteksten, paragrafen en rapporten, maar ook van berichten zoals e-mail en social-mediaposts. De tekstuele informatie kan worden geanalyseerd en zichtbaar worden gemaakt met semantische weging en samenhang.

Technieken

Centerdata past technieken op het gebied van natuurlijke taalverwerking (natural language processing, NLP) toe en programmeert onder andere in Python, R, en C#. Daarbij maken we gebruik van de gangbare pakketten en toolboxen op dit gebied. De basis voor succesvolle text mining en verwerking en analyse van data ligt in het schrijven van sterke algoritmes, het inrichten van geautomatiseerde processen (scripts) en het koppelen met open dataprotocollen zoals API’s.

Voorbeeldprojecten

  • Topic modeling

In opdracht van Tilburg Law School hebben we topic modeling toegepast op Engelse documenten van beursgenoteerde bedrijven van verschillende Europese beurzen, zoals jaarverslagen en notulen van aandeelhoudersvergaderingen. Deze documenten bevatten ongeveer vijf miljoen unieke woorden.

De onderwerpen worden aan de hand van data science technieken grafisch weergegeven, zodat per onderwerp inzichtelijk wordt wat de belangrijkste woorden zijn, hoe belangrijk het topic is binnen het corpus, en wat de gelijkenissen zijn met andere topics.

  • Sentimentanalyse Twitter

In de aanloop naar de landelijke Tweede Kamerverkiezingen van 2017 analyseerden we Twitter-berichten over onder andere sentiment en partijeninteractiviteit. Door bepaalde patronen te traceren, semantiek te analyseren en pragmatiek (zoals sentimentwaarde) te bepalen voor deze berichten, is het gelukt om correlaties te leggen tussen politieke partijen en de aard van de Twitter-berichten.

Een ander voorbeeld van dit type analyse is de zogenaamde blijheid live-ticker. In dit project wordt sentiment-informatie geëxtraheerd uit Nederlandse tweets om te achterhalen hoe gelukkig men zich voelt. Deze hebben we visueel weergegeven op in zogeheten ‘tijdelijke blijheidsscore van Nederlandse tweets‘.