Små sprækker breder sig i det videnskabelige grundlag for nudging

KOMMENTAR: Den såkaldte replikationskrise har de seneste år rystet den socialpsykologiske forskning. Gang på gang har det vist sig, at mange af de sociale adfærdseksperimenter, vi tog for givet, ikke er mulige at genskabe. Herunder flere klassiske eksperimenter, der ligger til grund for disciplinen adfærdsdesign – og nudging.

2. januar 2020 kl. 05.00

Robin Vickery

Indehaver af Fjerde Sektor Rådgivning

Af Robin Vickery
Projektchef i Copenhagen Dome - Videnscenter for Socialøkonomi

Disciplinen adfærdsdesign buldrer derudaf. Konsulenthuse og kommunikationsbureauer står klar, når vi med et nænsomt puf, nudging, ønsker at forandre borgernes adfærd. Men alt imens denne bølge ruller, er der opstået den såkaldte replikationskrise.

Krisen består i, at det har vist sig at være overordentlig svært at gentage mange af de klassiske eksperimenter, som blandt andet adfærdsdesign bygger videre på.

Replikationskrisen har rystet fundamentet på en række videnskabsområder. Særligt hårdt er det gået ud over socialpsykologien. Robuste forskningsresultater, som vi tog for givet, ser pludselig ud til ikke at holde længere. Metoder, som vi var sikre på havde en stor effekt, viser sig i replikationsstudier at have nul effekt. Forskere på feltet taler om en “korthusagtig følelse”. “Quite frankly I don't know what to believe any longer,” lød den følelsesladede kommentar fra en garvet forsker på feltet.

Replikationskrisen i psykologien tog for alvor fart, da en sammenslutning af forskere satte sig for at gentage 100 kendte psykologiske eksperimenter. De genskabte nøje eksperimenterne for at undersøge, om de oprindelige effekter kunne gentages. Det kunne de ikke i særlig høj grad. Det opsigtsvækkende resultat var, at kun 36 procent af eksperimenterne kunne gentages. De øvrige opnåede ikke en statistisk signifikant effekt. Og selv de eksperimenter, der kunne gentages, viste generelt en lavere effekt end de oprindelige studier.

En videnskabelig grundsten

Efterfølgende har en række større projekter kunnet bekræfte dette billede. Der er tale om en krise, da det er grundstenen i videnskabelig praksis, at eksperimenterne kan gentages. Kan de ikke det, så kan vi grundlæggende ikke basere politik og praksis på dem.

Der kan være mange forklaringer på replikationskrisen. I de mere ekstreme tilfælde har der været tale om direkte snyd og fabrikerede data.

Der var den hollandske psykologiprofessor, der selv tastede fiktive data ind og efterfølgende fik det publiceret. Hans data var dog lige lovlig perfekte, og til sidst blev han opdaget, fyret og udskammet af det videnskabelige miljø. Der er det berømte Stanford Prison Experiment, der viste, at studerende under de rette omstændigheder udviklede sig til sadistiske fangevogtere. Det stod i mange år som beviset på den iboende ondskab, der lurer i os alle. Problemet var bare, at eksperimentet var snyd – fangevogtere og fanger var blevet stærkt instrueret i, hvordan de skulle spille deres roller.

Forhåbentlig er denne form for direkte snyd ikke særligt udbredt i det videnskabelige miljø, og replikationskrisen handler i vid udstrækning om noget mindre spektakulært. Den handler om noget så kedeligt som statistiske metoder og om, at mange videnskabelige studier ender i skuffen uden at blive publiceret.

Kernen i replikationskrisen er en avanceret form for “cherrypicking” – hvor man udvælger de studier, der understøtter ens egen hypotese og ser bort fra dem, der ikke gør. Som vi skal se, er det også tilfældet i store dele af den socialpsykologiske forskning, der ligger til grund for adfærdsdesign.

Absurd store effekter

I bøger, der aktuelt udgives om nudging og adfærdsdesign, henvises der ofte til videnskabelige studier med meget opsigtsvækkende resultater.

Tag for eksempel “De sultne dommere” – et studie, der indgår i den populære bog om adfærdsdesign: ’Jytte fra marketing er desværre gået for i dag’. Studiet viser, hvordan dommere giver flest prøveløsladelser, umiddelbart efter de har fået frokost eller pause.

Dommernes mentale udmattelse gør, at de giver færre prøveløsladelser til de uheldige indsatte, jo nærmere vi når en tiltrængt pause. Forklaring er, at prøveløsladelser er komplicerede og mere tidskrævende, og i udmattet tilstand er det nemmest blot at give afslag.

Studiet er med til at underbygge en pointe, der går igen i litteraturen om adfærdsdesign: At vi træffer irrationelle beslutninger, når vi er “mentalt udmattede”. Det har imidlertid fået flere forskere til at slå øjnene op. Ikke mindst fordi det er en helt absurd stor effekt, der stort set bryder skalaen for effektstørrelser. Og endda meget bekymrende, eftersom det er rigtige mennesker af kød og blod, der misser muligheden for et liv i frihed – antageligvis fordi dommerne er blevet trætte i hovederne, eller fordi rumlende maver gør dem ude af stand til at gennemføre en retfærdig domsafsigelse.

Problemet er bare, at studiet næppe holder vand. I bedste fald er det stærkt overdrevet. Andre forskere har nemlig gået det kritisk igennem og kan vise, at andre faktorer er mere sandsynlige forklaringer på fænomenet. Den rækkefølge, hvormed de indsatte kommer op for dommerne er nemlig ikke tilfældig og planlægges forud af dommerne selv. Inden for hver session er det almindelig praksis, at borgere med en beskikket advokat kommer først til, hvilket typisk også er dem, der har størst chance for en prøveløsladelse. Altså er der også en lavpraktisk og kedelig forklaring på effekten: Det handler om, at dommerne kan planlægge rækkefølgen, og hvornår der skal holdes pause – næppe deres mentale udmattelse eller sultne maver.

Eller tag et andet eksempel fra samme bog. Ifølge et videnskabeligt studie giver dommere hårdere straffe, hvis de har fået en time mindre på øjet. Studiet viser, hvordan et skift fra vinter til sommertid (hvor man ”mister” en time) resulterede i, at dommerne gav signifikant højere straffe mandagen efter. Igen er det et opsigtsvækkende resultat – tænk, at en smule reduceret søvn kan få så alvorlige konsekvenser for dem, der uheldigvis skal op foran dommeren denne mandag.

Men også her er der grund til at se studiet kritisk efter i sømmene. Andre forskere har vist, at dette resultat kun kan opnås, hvis man træffer en række uholdbare metodiske valg. For eksempel at man helt undlader at medtage data fra efter 2003, og at man udelukker borgere af spansk oprindelse. Det viser sig med andre ord, at der må foretages en række valg og fravalg, der ikke kan forsvares rent metodisk. Følger man almindelige metodiske standarder, er der ingen sleepy monday-effekt.

Eksemplerne illustrerer en tendens inden for adfærdslitteraturen. Man vælger de eksperimenter, der passer godt med den historie, man fortæller. Men ofte ligger der en skov af studier bagved, der enten helt afkræfter fænomenet eller komplicerer den ellers gode historie.

Fundamentet smuldrer?

Studier af sultne og søvnige dommere er blot enkelte kuriøse eksempler inden for adfærdsvidenskaben. De rykker næppe ved fundamentet.

Replikationskrisen er imidlertid begyndt at gøre indhug på de mere fundamentale dele af adfærdsvidenskaben.

Tag fænomenet priming. Priming handler om, at når vi præsenteres for bestemte ord eller stimuli, så gøder det jorden for, hvordan vi efterfølgende handler. Det er et centralt begreb i bogen ’Thinking – Fast and Slow’ af nobelprismodtageren Daniel Kahneman – hvilket nok er det nærmeste, vi kommer adfærdsvidenskabens bibel.

Kahneman henviser til et eksperiment, hvor en gruppe studerende bliver præsenteret for en række ord, der er associeret med gamle mennesker – såsom glemsom, skaldet, grå eller rynker. Efterfølgende kunne forskerne så observere, at de studerende rent fysisk bevægede sig langsommere, da de gik fra et lokale til et andet. Altså at de ord, de blev præsenteret for, ubevidst primede dem til en bestemt adfærd.

Priming bliver ligeledes fremhævet som et stærkt virkemiddel i bogen ’Nudge’ af Thaler og Sunstein, der satte hele adfærdsdesignbølgen i gang. Priming er efterfølgende blevet en del af den obligatoriske værktøjskasse i adfærdsdesign, og det indgår i lærebøger som et centralt virkemiddel i nudging.

Kahneman selv var meget fast i mælet omkring priming. Om de videnskabelige studier bag priming slog han fast “... at der ikke er noget at diskutere. Resultaterne er ikke konstruerede, og de er heller ikke udtryk for statistiske tilfældigheder. Du har intet andet valg end at acceptere, at disse undersøgelsers konklusioner er korrekte.”

Det viste sig dog, at der var en hel del at diskutere. Spring fem år frem i tiden og priming-forskningen bliver af nogle beskrevet som vraget fra et afsporet tog. I dag er der alvorlig tvivl om, hvorvidt primingstudierne kan gentages, og om det overhovedet er et virkeligt fænomen.

Bias blandt forskere

En årsag til, at priming-forskningen er kørt af sporet, er, at man har identificeret såkaldt publikationsbias. Det er en bias, der opstår, hvis det hovedsageligt er de positive resultater, der er blevet publiceret. Det kaldes også ’the filedrawer effect’, da mange videnskabelige studier ender i et arkivskab og aldrig publiceres. Disse studier vil typisk være dem, der ikke har fundet positive resultater, og dermed bliver vi præsenteret for et skævt billede af virkeligheden.

En anden sandsynlig årsag er, at forskere har “hacket” sig til et interessant resultat – såkaldt “p-hacking”. Det kan for eksempel være, at forskere løbende kigger på de data, de indsamler, og vælger at stoppe analysen, netop når resultatet er signifikant. Eller at de analyserer data på mange forskellige måder, indtil de finder et spændende resultat.

Et andet eksempel på, at der er sprækker i fundamentet, er fænomenet ego depletion. I bøger om adfærdsdesign kan man læse om, hvordan mental udmattelse styrer vores handlinger, ligesom i eksemplet med de sultne dommere. Et klassisk eksperiment består i, at en gruppe mennesker bliver stillet over for den mentale udfordring, at de skal afholde sig fra at spise usunde ting. Det viser sig så efterfølgende, at denne viljesakt er så mentalt udmattende, at de klarer sig dårligere i en test, hvor de skal løse en geometrisk opgave.

Eksperimentet viser med andre ord, at vores mentale viljestyrke lader til at være en begrænset ressource – et fænomen, som vækker genklang hos de fleste, da man nemt kan komme i tanke om slankekure, der kørte af sporet på dage, hvor det mentale overskud var i bund.

Indtil for nylig var der over 600 videnskabelige studier, der samlet kunne bekræfte, at ego depletion er et virkeligt fænomen. Men så begyndte dette korthus også at ramle. Det skete, da forskere statistisk kontrollerede for publikationsbias. I forhold til ego depletion er denne filedrawer effect ret afgørende. Det, der i første omgang så ud til at være en robust effekt, viste sig efter korrektion for publikationsbias “ikke at være forskellig fra nul”. Skulle du være I tvivl, er det forskerjargon for “Det har nul effekt, og ego depletion eksisterer ikke”.

Forskning skal forpligte

Hvad betyder alt dette for adfærdsdesign i praksis?

Først og fremmest er det vigtigt at pointere, at der er mange eksempler på nudging, der er veldokumenterede, effektive og fører til adfærdsforandringer i praksis. Men der er samtidig meget, der tyder på, at vi ikke præsenteres for et afbalanceret billede af, hvornår nudging virker, og hvornår det ikke gør.

Tag som eksempel The Behavioral Insights Team (BIT) – også kaldet “The nudge unit”. Det blev nedsat i 2010 af den britiske regering og har siden været frontløber på hele nudging-bevægelsen. Ifølge to britiske forskere har BIT gennemført 300 videnskabelige eksperimenter, men det er kun 69, der er publiceret. Det rejser naturligvis spørgsmålet, om de 69 publikationer giver et afbalanceret billede. Der er – som forskerne pointerer – en risiko for “the filedrawer effect”, hvis de knap så imponerende resultater er endt i arkivskabet. Forskere fra BIT understreger selv, at omend de presser på for at få publiceret deres studier, så lykkes det ikke altid.

Når det ikke altid lykkes for de bedste i klassen, kan man være bekymret for, hvordan det går for resten af feltet. Her er det sandsynligt, at der er en underskov af adfærdseksperimenter med et skuffende resultat, som derfor aldrig får flyvehøjde i offentligheden.

Det kan måske virke en smule desillusionerende hele tiden at pege på videnskabelige studier, der spolerer en ellers god fortælling. Når 600 videnskabelige studier underbygger, at ego depletion er virkelig, men det alligevel viser sig ikke at holde vand, ja, så har man måske mest lyst til at slå ud med armene og konkludere, at vi ikke kan vide noget som helst med sikkerhed. Hvornår har vi så nogensinde tilstrækkelig solid viden? Replikationskrisen kan således nemt skubbe selv videnskabelige hardlinere ud i en form relativisme. Passer man ikke på, så ender man i en alt-er-lige-meget-position.

Vi skal lære at omfavne de kedelige resultater

Så hvordan undgår vi at ende i denne alt-er-lige-meget-position? En af løsningerne i det videnskabelige miljø er en sikring af, at det ikke kun er de epokegørende og fascinerende resultater, der publiceres. Organisationen Open Science Framework arbejder således for, at man som forsker præregistrerer sine videnskabelige eksperimenter, og at tidsskrifter forpligter sig til at publicere resultatet uanset hvad.

Det er det gode forskningsspørgsmål og den robuste undersøgelsesmetode, der honoreres, fremfor at det er selve resultatet, der skaffer adgang til de prestigefyldte tidsskrifter. Det er et forsøg på at skabe incitamenter, der trækker i retning af solid forskning, fremfor at man som forsker fristes til at “hacke” sig til det spændende forskningsresultat.

Det er her, der er en vigtig læring. Vi kan alle med fordel begynde at agere ud fra samme princip: Ikke at stille os tilfredse med det ene epokegørende studie, der fortæller en spændende historie, som vi gerne vil høre. Vi må væk fra, at det første ekstraordinære studie betragtes som sandheden, mens alt, der kommer efter, er kedelige korrektiver, som forbigås i tavshed.

Hvis vi oprigtigt er interesseret i den viden, der ligger i adfærdseksperimenter, så er vi nødt til aktivt at opsøge de studier, der afkræfter de fascinerende resultater. Vi må med andre ord lære at omfavne de kedelige resultater. Gør vi ikke det, så får vi et forvrænget billede af virkeligheden.