Tijdelijke Blijheidsscore van Nederlandse tweets
Twitter sentimentanalyse

Social media bieden een gemakkelijk platform om de eigen mening en gevoelens real-time uit te drukken. Daardoor bieden social media data ook een alternatieve manier om blijheid (happiness) te meten op basis van het sentiment dat uitgedrukt wordt in deze data. In dit project meten we de tijdelijke verandering in blijheid in Nederlandstalige tweets waarbij we gebruik maken van een woordenlijst die opgesteld is door Mechanical Turk (labMT) en waarop de blijheid van alle uitdrukkingen een score heeft.

Dataverzameling en -cleaning

We verzamelen via een zogenaamde streaming API de Nederlandstalige tweets per uur. Bij ruwe tweets is er vaak sprake van inconsistenties. Daarom moeten deze ruwe tweets gecleaned en bewerkt worden voordat ze gebruikt kunnen worden. Het voorbereiden van de tweets verloopt als volgt:

  1. Verwijder alle URLs (e.g. www.xyz.com), hash tags (e.g. #topic) en targets (@gebruikersnaam)
  2. Hanteer de correcte volgorde van herhaalde letters
  3. Vervang alle emoticons door het sentiment dat er mee wordt uitgedrukt
  4. Verwijder alle leestekens, symbolen en cijfers
  5. Verwijder stopwoorden
  6. Schrijf acroniemen en afkortingen uit (we hebben hiervoor een acroniemen- en afkortingenwoordenboek gemaakt)

Methode:

Eerst extraheren we de zogenaamde termfrequentie van individuele woorden (monogram model), dus hoe vaak een bepaalde term gebruikt is in de bewerkte tweets. Vervolgens berekenen we het gewogen gemiddelde blijheidsniveau van alle bewerkte termen gebaseerd op de gemiddelde score van elk woord in de labMT woordenlijst. Op die manier kunnen we de blijheidsscore van alle Nederlandstalige tweets per uur berekenen. Naast deze score laat het algoritme ook zien welke woorden met een hoge frequentie elk uur verschijnen in de tweets. Op basis van deze informatie kunnen we correlaties vinden tussen de verandering in blijheid in tweets, de op social media geuite publieke mening en eventuele gebeurtenissen.

Referentie:

  1. http://hedonometer.org/words.html