Analyse: Sådan fordeler vælgerne sig på de sociale medier
De fleste er nok klar over, at de forskellige sociale platforme har forskellige brugere - og en del af befolkningen er slet ikke repræsenteret på sociale medier. Den demografi, som karakteriserer den enkelte platform, har stor indflydelse på den politiske debat samme sted - og dermed hvordan brugerne interagerer med de politiske partier under folketingsvalget.
Leon Strømberg-Derczynski
Adjunkt, ITULeon Strømberg-Derczynski, adjunkt på IT-Universitetet (ITU). Han leder et forskningsprojekt om Natural Language Processing (NLP), som er et område inden for datalogi, der beskæftiger sig med analyse og forståelse af talt og skrevet sprog, ofte med brug af machine learning.
Denne artikel er den første i en serie af NLP-analyser af diskursen på sociale medier omkring folketingsvalget 2019.
Politisk favorisering på sociale medier såsom Facebook, Twitter og Instagram kan identificeres automatisk ud fra brugernes interaktion med partiernes opslag. Ved hjælp af NLP-teknologi (Natural Language Processing) kan en computer identificere køn, alder, og lokation for en person baseret udelukkende ud fra deres måde at skrive tekst på.
I den milde ende af skalaen er forekomsten af ordet “træls” for eksempel en god indikator for at forfatteren befinder sig vest for Storebælt. Ord som “problemer” og “aftalt” er stærke indikatorer for, at forfatteren er af hankøn, og ord som for eksempel “tilfreds” peger på, at forfatteren er en kvinde. Grundig, korrekt brug af sin/hendes tyder på en forfatter som befinder sig i Nordsjælland, og brugen af en næse i en smiley - altså :-) frem for :) - er karakteristisk for en forfatter med en fødselsdato før 1981.
Sammenligner sprogbrug med data
Sådanne analyser laves ved at sammenligne sprogbrugen i tekstdata fra forskellige medier, hvor brugere har offentliggjort deres køn, alder, og lokation - og visse ord vil have højere forekomst i visse demografier end i andre. Omvendt kan vi også bruge teknologien til at køns-, alders-, og stedsbestemme en forfatter alene ud fra deres sprogbrug og stilistik.
Figurerne herunder viser, hvilke befolkningsgrupper som “støtter” de individuelle partier på sociale medier. For Twitter er “støtte” karateriseret som re-tweeting af et partis opslag, på Facebook er det deling eller “synes godt om”-markører, og på Instagram er støtte karakteriseret som kommentarer på opslaget. Alene ud fra, hvordan brugere generelt bruger sprog på deres personlige profil, kan vi demonstrere, hvilke vælgergrupper - fordelt på politiske blokke - der primært støtter de forskellige partier.
Analysen kan dog ikke tage højde for “ironisk deling” eller deling af et opslag for for eksempel at kritisere det. At opfange ironi er det vi kalder et "AI hard problem". Der eksisterer simpelthen ikke nok data om det danske sprog til automatisk at opfange ironi - det kan være svært for mennesker, og er endnu sværere for kunstig intelligens.
Vi kan se i figurerne, at støtten til højre- og venstrefløjen er næsten den samme på Facebook og Twitter, dog med noget mere støtte til de uafhængige partier på Twitter. Denne støtte kommer på bekostning af nogen støtte til venstrefløjen. Dette tyder på, at påstande om, at Twitter overrepræsenterer rød blok, ikke har hold i virkeligheden.
Artiklen fortsætter under grafikken
Note 1:
Blå blok udgøres af de Konservative, Dansk Folkeparti, Kristendemokraterne, Liberal Alliance, Nye Borgerlige og Venstre
Rød blok er her Enhedslisten, Radikale, SF og Socialdemokraterne
Grøn er partiet Alternativet
Grå blok udgør uafhængige kandidater som partiet Klaus Riskær Pedersen, Stram Kurs og Slesvigsk Parti.
Note 2:
Facebook, Instagram og Twitter er tre vidt forskellige sociale medier, der ikke fungerer på samme måde i forhold til at dele indhold osv. Analyserne for de enkelte medier kan derfor ikke følge samme opgørelsesmetode. Det betyder også, at ovenstående grafikker ikke kan sammenlignes direkte med hinanden.
Både den grønne blok og de uafhængige kandidater har væsentlig mere opbakning på sociale medier end i de officielle meningsmålinger. Vi kan se af figuren, at grøn blok især har succes på Instagram. Interessant nok afspejler partiopbakningen på de sociale medier altså ikke de officielle meningsmålinger.
Mænd er mere politisk aktive
Vi kan se, at politisk aktive Twitter-brugere er gennemsnitligt de yngste, tæt forfulgt af Instagram-brugere. Kun 8,4 procent af politisk positiv støtte på Facebook kommer fra brugere under 32 år. Ifølge Danmarks Statistik er 18,4 procent af befolkningen mellem 18 og 31, mens 61,7 procent er 32 eller ældre. Dette stemmer overens med, at blå blok har bredere støtte på Facebook, der generelt har en ældre brugergruppe.
Vi kan også se, at over 61 procent af online politisk opbakning kommer fra mænd, mens 27 procent af opbakningen kommer fra kvinder. Vi har ingen gode indikatorer til at kønsbestemme de resterende 12 procent.
Der antydes også en interessant forskel i opbakningen til henholdsvis SF og Liberal Alliance. SF har et lavt antal meget aktive følgere, mens Liberal Alliance har mange følgere, som ikke er særlig aktive. Hvis vi ser på partiernes egne opslag, favoriserer SF inklusive, positive ord såsom “alle”, “bedre”, og “gøre”, mens Liberal Alliances egne opslag i højere grad beskriver hvad de “kan” og “vil” gøre. Dette har tilsyneladende ikke ledt til aktive følgere.
- Data er indsamlet fra offentligt tilgængelige opslag på Facebook og Instagram, samt API-adgang (premium access) til Twitter.
- I materialet indgår de seneste op til 200 opslag fra hvert parti og deres støttere.
- ’Støttere’ defineres som brugere af sociale medier, der deler tekster og indhold fra de forskellige partiers egne sider på Facebook og Twitter.
- Citerede retweets indgår ikke i datasættet, da disse betragtes som upålidelige indikatorer i forhold til at fastslå, hvorvidt en twitterbruger støtter det parti, som står bag tweetet.
- Instagram skiller sig ud fra de øvrige platforme. Dels indeholder det sociale medie ikke mulighed for at dele opslag, dels er Instagram designet til at fremme positive interaktioner. Det er blandt andet årsagen til, at ’støttere’ af bestemte partier på Instagram defineres, som brugere, der kommenterer et partis opslag.
- Et mindretal af retweets og delinger falder i kategorien ironiske eller sarkastiske. De er vanskelige for både computere og mennesker at identificere korrekt. Selvom der eksisterer uenighed om, hvilke beskeder der er ironiske eller sarkastiske, viser flere undersøgelser, at der er generelt bred enighed om, hvornår de ikke-ironiske beskeder simpelthen ikke er hverken ironiske eller sarkastiske. Derfor har ironiske eller sarkastiske retweets og delinger en meget lille indflydelse på det generelle dataset.
- Med store datasæt bliver fejlene udlignet. For eksempel vil omfanget af sarkastiske delinger fra støttere af et bestemt parti normalt svare til omfanget af sarkastiske delinger fra støttere af et andet parti.
- Ligesom analyser lavet af mennesker, vil datadrevne kvantitative analyser også være behæftet med en given usikkerhed.
Analysen er udarbejdet af Leon Strømberg-Derczynski, adjunkt på IT-Universitetet (ITU), med bidrag fra Torben Oskar Albert-Lindqvist, Marius Venø Bendsen, Nanna Inie, Jens Egholm Pedersen, Viktor Due Pedersen og Troels Runge, der alle indgår i NLP-forskerteamet på ITU.