Magnus Johannesson

Reproducerbarhet av Samhällsvetenskaplig Forskning

Det finns en ökande oro kring bristen på reproducerbarhet, dvs i vilken grad statistiskt signifikanta publicerade vetenskapliga resultat är sanna positiva resultat eller falska positiva resultat. Faktorer som bidrar till en brist på reproducerbarhet är låg statistisk styrka, tester av hypoteser med låg sannolikhet att vara sanna, och publikationsbias. Vi startar ett program för att utvärdera reproducerbarheten av samhällsvetenskaplig forskning som består av två byggstenar. Den första är systematisk replikering av publicerade studier, där vi kommer att replikera experimentella studier inom samhällsvetenskap publicerade i ledande nationalekonomiska tidskrifter och ledande allmänvetenskapliga tidskrifter. Den andra byggstenen är användandet av prediktionsmarknader för att skatta reproducerbarheten av publicerad forskning. Med hjälp av prediktionsmarknader kan vi skatta sannolikheten att en vetenskaplig hypotes är sann vid olika stadier av forskningsprocessen. Vi kan härleda sannolikheten att en hypotes är sann före och efter replikationen. Dessutom kan den initiala sannolikheten att hypotesen är sann skattas, dvs vad sannolikheten var innan studien publicerades. En första studie av en prediktionsmarknad kopplad till en systematisk replikation av studier i psykologi visar på mycket lovande resultat. Prediktionsmarknaden predikterade korrekt för cirka 90% av replikeringarna vilket var klart bättre än ett enkätmått (och bara cirka 40% av studierna inom psykologi replikerade).
Slutredovisning
Detta projekt har undersökt olika frågor kring reproducerbarheten av samhällsvetenskaplig forskning. Projektet har i huvudsak följt projektplanen från ansökan. I projektplanen fanns det fem olika delprojekt som angavs som 4.1 till 4.5 i ansökan. Vi har slutfört fyra av dessa 5 delprojekt; och ersatt det femte delprojektet (4.4 i ansökan) med ett annat projekt (NARPS) som också har slutförts. Dessa fem delprojekt har publicerats i fem olika artiklar (Camerer et al. 2016, 2018; Dreber et al. 2015; Forsell et al. 2019; Botvinik-Nezer et al. 2020). Vi har också publicerat ytterligare en artikel från NARPS som dokumenterar datasetet som användes i studien (Botvinik-Nezer et al. 2019). Dessutom har vi genomfört ytterligare ett projekt som inte ingick i ansökan kring att prediktera replikationsresultat baserat på tekniker från maskininlärning; även denna studie har publicerats (Altmejd et al. 2019). Tillsammans med flera framstående forskare inom samhällsvetenskaperna har vi också publicerat en uppsats som föreslår att sänka gränsen för vad som ska anses vara ett statistiskt signifikant resultat från p<0.05 till p><0.005 (benjamin et al. 2018). vi arbetar också med ytterligare ett antal relaterade projekt som inte är slutförda ännu. nedan redovisar vi en sammanfattning av resultaten från våra tre viktigaste delprojekt.>


EERP

Att testa om en publicerat studie replikerar är en viktig metod för att undersöka reproducerbarheten av publicerade studier. Vi har genomfört två stora systematiska replikeringsprojekt som en del av detta projekt. Dessa två projekt har replikerat experimentella studier och genomfört så kallade ”direkta replikationer”. Direkta replikationer innebär att replikationen använder samma design och metoder som originalstudien och genomför en ny datainsamling i ett urval som liknar urvalet i originalstudien (om tex originalstudien baserades på studenter används studenter även i replikationen). Det första av dessa replikeringsprojekt var “Experimental Economics Replication Project” (EERP). I EERP genomfördes en systematisk replikering av 18 laboratorie experiment inom nationalekonomi som publicerades mellan 2011-2014 i de två topptidskrifterna American Economic Review och Quarterly Journal of Economics. Den genomsnittliga statistiska styrkan i replikationerna var 92% att hitta samma effektstorlek som i originalstudierna med test på 5% signifikansnivå. Alla replikationerna pre-registerades innan datainsamlingen började efter feedback från originalförfattarna. 11 (61%) av de 18 original studierna replikerade i meningen att vi hittade en statistiskt signifikant effekt (p<0.05) i samma riktning som originalstudien. den genomnsittliga effektstorleken i replikationerna var cirka 60% av den genomsnittliga effektstorleken i originalstudierna. projektet publicerades i science 2016 (camerer et al. 2016).>

SSRP

Inom “Social Sciences Replication Project” (SSRP) genomförde vi ett systematiskt replikeringsprojekt av 21 experimentella studier inom samhällsvetenskaperna publicerade i Nature och Science mellan 2010-2015. Den statistiska styrkan att hitta effekter i replikationerna var betydligt större i SSRP än i EERP, för att ta hänsyn till att även originalstudier med ”sanna resultat” i genomsnitt överskattar storleken av effekterna. En två-stegs design användes. I steg 1 hade replikatitionerna 90% statistiskt styrka att hitta 75% av effektstorleken i originalstudierna med test på 5% signifikansnivå. Om originalresultatet inte replikerade i steg 1, så samlades ytterligare data in i steg 2 så att replikationerna hade 90% statistiskt styrka att hitta 50% av effektstorleken i originalstudierna med test på 5% signifikansnivå. Alla replikationerna pre-registerades innan datainsamlingen började efter feedback från originalförfattarna. 13 (62%) av de 21 original studierna replikerade i steg 2 i meningen att vi hittade en statistiskt signifikant effekt (p<0.05) i samma riktning som originalstudien. den genomnsittliga effektstorleken i replikationerna var cirka 50% av den genomsnittliga effektstorleken i originalstudierna. projektet publicerades i nature human behaviour 2018 (camerer et al. 2018).>

NARPS

I “Neuroimaging Analysis Replication and Prediction Study” (NARPS) testade 70 olika forskargrupper oberoende av varandra 9 hypoteser i samma dataset. Vi samlade först in data med funktionell magnetresonanstomografi (fMRT) för över 100 deltagare i ett experiment om risktagande. För att studera betydelsen av olika beslut om hur fMRT data ska analyseras, så analyserade sedan 70 olika forskargrupper inom neurovetenskap oberoende av varandra dessa data. Forskargrupperna ombads att analysera data för att testa nio ex-ante hypoteser kring aktivering av specifika regioner i hjärnan. De fick upp till 100 dagar på sig att analysera data (beroende på när de gick med i studien) och att för var och en av de nio hypoteserna ange om de hittade statistiskt signifikant stöd för hypotesen eller inte (ja/nej). Forskargrupperna instruerades att genomföra analyserna på samma sätt som dom skulle göra i sin egen forskning. Resultaten visade på stor variation mellan forskargrupperna, och ingen av de 70 forskargrupperna analyserade data på identiskt sätt. Andelen forskargrupper som redovisade ett statistiskt signifikant stöd för den testade hypotesen varierade mellan 6% och 84% för de nio hypoteserna. Graden av variation kan mätas som andelen forskargrupper som redovisade ett annat resultat än majoriteten av forskargrupperna. I genomsnitt för de nio hypoteserna redovisade 20% av forskargrupperna ett resultat som skiljde sig från majoriteten. Detta är stor variation eftersom maximal möjlig variation är att 50% redovisar ett annorlunda resultat än majoriteten. Variationen är ungefär mitt i mellan fullständig konsistens i resultaten mellan forskargrupperna och fullständigt slumpmässiga resultat. Detta visar tydligt att forskarnas frihetsgrader i hur analysen genomförs har stor inverkan på resultaten. För var och en av de nio hypoteserna fanns det någon kombination av beslut om hur analysen bör genomföras som ledde till ”statistiskt signifikanta” resultat. Studien publicerades i Nature 2020 (Botvinik-Nezer et al. 2020).

AVSLUTANDE KOMMENTARER

Replikationsresultaten i EERP och SSRP ger viktig information om reproducerbarheten av experimentella studier publicerade i nationalekonomiska och allmänvetenskapliga topptidskrifter. Eftersom antalet studier (18 respektive 21) som inkluderades i EERP och SSRP var begränsat behöver man vara försiktig med att generalisera resultaten. Resultaten indikerar dock att begränsad reproducerbarhet är ett centralt problem inom samhällsvetenskaperna med en hög andel så kallade ”falska positiva” resultat publicerade i dom bästa tidskrifterna. Detta stämmer också överens med resultaten från andra liknande systematiska replikeringsprojekt som genomförts inom samhällsvetenskaperna under senare år såsom ”Reproducibility Project: Psychology” och de så kallade ”Many Labs” studierna. Resultaten från dessa replikeringsprojekt visar sammantaget att cirka 50% av originalstudierna replikerar. Detta innebär att ett publicerat resultat som redovisas som statistiskt signifikant inte bör tolkas som stark evidens för att hypotesen som testades i originalstudien är sann, innan resultatet har replikerats i minst en ytterligare oberoende studie (eller det har genomförts andra förändringar i vetenskaplig praxis som ökar trovärdigheten av publicerade ”statistiskt signifikanta” resultat). Det bör också noteras att dessa replikeringsprojekt baseras på replikationer av experimentella studier, och replikeringsgraden kan vara ännu lägre i studier som baseras på observationsdata (där forskarens frihetsgrader i hur analysen ska genomföras kan argumenteras vara större).

NARPS bidrar med viktig information om varför trovärdigheten av publicerade statistiskt signifikanta resultat inte är högre. Studien visar att olika forskare gör olika val kring hur en hypotes ska testas i ett visst dataset. Detta illustrerar forskarens frihetsgrader i hur data analyseras, och denna variation mellan forskare i analytiska beslut tas inte hänsyn till i nuläget vid tester av vetenskapliga hypoteser (vilket leder till att graden av evidens för en hypotes överdrivs i statistiska tester med nuvarande praxis). De stora frihetsgraderna i hur analysen genomförs ger också stora möjligheter för forskaren att omedvetet eller medvetet snedvrida resultaten (mot att hitta statistiskt signifikanta resultat); så kallad ”p-hacking”. Framöver är det centralt att förbättra vetenskaplig praxis för att öka trovärdigheten av vetenskapliga resultat.
Bidragsförvaltare
Handelshögskolan i Stockholm
Diarienummer
NHS14-1719:1
Summa
SEK 12 641 000
Stödform
Nya utsikter för humaniora och samhällsvetenskap
Ämne
Nationalekonomi
År
2015