Metavetenskap
Det finns en ökad oro kring tillförlitligheten av publicerade forskningsresultat och i vilken grad ”statistiskt signifikanta” resultat är trovärdiga. Systematiska replikations-studier av kvantitativa samhällsvetenskapliga resultat har visat att bara ungefär hälften av resultaten publicerade i ledande vetenskapliga tidskrifter kan återupprepas. I detta projekt fortsätter vi vårt arbete kring att undersöka och förbättra tillförlitligheten av samhällsvetenskaplig forskning. Projektet består av två delprojekt. I det första delprojektet introducerar vi en ny metod för att systematiskt samla in information om forskningens tillförlitlighet och styra resurserna för replikationer till de studier som har högst sannolikhet att vara falska. I det andra delprojektet kommer vi att studera om så kallade ”placebotest” i nationalekonomi redovisas på ett sätt som systematiskt snedvrider resultaten. Denna studie genomförs genom att systematiskt samla in data på alla uppsatser som redovisar placebotest i ett antal topptidskrifter inom nationalekonomi.
Slutredovisning
Vår projektansökan innehåll två delprojekt (”Att använda beslutsmarknader för att välja ut vilka studier som ska replikeras” och ”Ett test av selektiv rapportering av resultat i nationalekonomi: placebotest”). Båda delprojekten har genomförts som planerats.
Delprojekt 1: Att använda beslutsmarknader för att välja ut vilka studier som ska replikeras”
För det första projektet registrerade vi en analysplan på Open Science Framework (OSF) innan vi påbörjade datainsamlingen, och vi registrerade även analysplaner för var och en av de 41 potentiella replikationerna (se nedan) på OSF efter kommentarer från originalförfattarna. Därefter genomförde vi en så kallad beslutsmarknad för att bestämma vilka av dessa 41 studier som skulle replikeras. 162 forskare inom samhällsvetenskap deltog i beslutsmarknaden och fyllde också innan beslutsmarknaden i en enkät om vad de trodde att sannolikheten var att varje studie skulle replikera. De 41 inkluderade studierna var samtliga experimentstudier inom samhällsvetenskap som publicerades i den vetenskapliga tidskriften PNAS 2015-2018 och uppföljde följande kriterier: de utfördes online på Mturk; de använde en experiment design med jämförelse mellan eller inom individer; de använde material som gjorde det logistiskt möjligt att genomföra experimentet; de redovisade minst ett centralt resultat som hade ett p-värde <0.05. priserna på beslutsmarknaden kan tolkas som den skattade sannolikheten att varje studie kommer att replikera bland deltagarna på marknaden. de 12 studier med högst pris (när marknaden stängdes), de 12 studier med lägst pris, och 2 slumpmässigt utvalda studier bland de övriga saudierna valdes ut för att replikeras. alla dessa 26 replikationer genomfördes med 90% statistisk styrka att upptäcka 2 3 av effektstorleken i originalstudien på en 5% signifikansnivå.>
I genomsnitt var urvalsstorleken n=1,018 i replikationerna, vilket var cirka 3,5 gånger högre än i originalstudierna med n=292. Alla repliktionerna genomfördes online på Mturk och använde sig av samma design, material och analys som i originalstudierna. Andelen studier som replikerade, definierat som en effekt i samma riktning som i originalstudien och ett p-värde<0.05, var 83% bland de 12 studierna med högst pris på beslutsmarknaden och 33% bland de 12 studierna med lägst pris på beslutsmarknaden. korrelationen mellan priserna på beslutsmarknaden och om studierna replikerade var 0.505. totalt sett replikerade 54% av studierna och den genomsnittliga effektstorleken i replikationerna var 45% av effektstorleken i originalstudierna. studien visar sammanfattningsvis att beslutmarknader har potential att välja ut vilka studier som ska replikeras, men att mer arbete behövs för att dra starka slutsatser. replikeringsgraden på cirka 50% för online experiment publicerade i pnas är också på samma nivå som observerats för labbexperiment i tidigare systematiska replikeringsstudier.>
Delprojekt 2: Ett test av selektiv rapportering av resultat i nationalekonomi: placebotest:
Inom studier baserade på observationsdata inom nationalekonomi är det vanligt att genomföra så kallade placebotest där den huvudsakliga hypotesen testas i en tidsperiod eller situation där det inte förväntas finnas någon effekt (dvs nollhypotesen förväntas vara sann). Att inte kunna förkasta nollhypotesen, dvs ett icke-signifikant testresultat, tolkas i placebotest som ett stöd för validiteten i den valda forskningsdesignen och forskarna har därför incitament att inte rapportera statistiskt signifikanta testresultat från placebotest (en form av omvänt ”p-hackande”). Vi utvecklade en algoritm för att söka igenom publicerade artiklar efter placebotest. Vi använde först algoritmen i en pilotstudie på Economic Journal, som sedan inte ingick i våra hypotestester. Baserat på pilotstudien registrerade vi en analysplan på OSF med våra inklusions/exklusionskriterier och våra exakta planerade tester och hypoteser. Därefter tillämpade vi algoritmen på följande 11 topptidskrifter inom nationaekonomi: American Economic Journal: Applied Economics; American Economic Journal: Economic Policy; American Economic Review; Econometrica; Journal of Development economics; Journal of Labor Economics; Journal of Political Economy; Journal of the European Economic Association; Review of Economics and Statistics; Review of Economic Studies; och Quarterly Journal of Economics. Algoritmen identifierade 540 artiklar publicerade mellan 2009 och 2021 för potentiell inkludering och sedan sökte vi igenom dessa artiklar manuellt för placebotest och 377 av dessa artiklar var konsistenta med inklusionskriterierna och inkluderades i studien.
Om nollhypotesen är sann i alla placebotest, så ska 2.5% av dem vara signifikanta på 5% nivån och ha en effekt i samma riktning som huvudresultatet i studien (och 5% av placebotesterna ska vara signifikanta på 5% nivån oavsett riktning på effekten). Den faktiska andelen signifikanta placebotest med en effekt i samma riktning som huvudresultatet i dessa 377 artiklar var 1.29% (95% konfidensintervall [0.83, 1.63]), vilket är statistiskt signifikant lägre än de 2.5% som förväntas av slumpen om nollhypotesen är sann i alla placebotesterna (detta var vårt preregistrerade primära hypotestest eftersom incitamenten att underrapportera signifikanta placebotest kan vara mindre stark om effekten går i andra riktningen jämfört med huvudresultatet). Den totala andelen placebotest som var signifikanta på 5% nivån, oavsett riktning, var 3.10% (95% konfidensintervall [2.2, 4.0]), vilket är statistsikt signifikant lägre än de 5% som förväntas av slumpen om nollhypotesen är sann i alla placebotesterna (detta var ett preregistrerat sekundärt hypotestest). Våra resultat visar stark evidens för att statistiskt signifikanta placebotest underrapporteras i topptidskrifter inom nationalekonomi. Våra tester är också konservativa eftersom det är osannolikt att nollhypotesen är sann i alla placebotest, vilket gör att vi skattar en undre gräns för underrapporteringen av statistiskt signifikanta placebotest.
Projektets tre viktigaste resultat:
Vi hittar viss evidens för att beslutsmarknader kan vara ett användbart verktyg för att välja ut vilka studier som ska replikeras; vi hittar att graden av replikering i online experiment inom samhällsvetenskapen publicerade i PNAS är på samma nivå som för systematiska replikeringsstudier av labb experiment; och vi vittar evidens för underrapportering av statistiskt signifikanta placebotest i artiklar publicerade i topptidskrifter inom nationalekonomi.
Samverkan och spridning av forskningsresultaten:
Det första projektet involverade ett stort internationellt samarbete som vi ledde som involverade forskare från: Amsterdam University, CalTech, Harvard University, Massey University in Auckland, National University of Singapore, University of Innsbruck, University of Virginia och Wharton. Resultaten av de två forskningsprojekten har kommunicerats i två vetenskapliga artiklar publicerade med open acces.
Delprojekt 1: Att använda beslutsmarknader för att välja ut vilka studier som ska replikeras”
För det första projektet registrerade vi en analysplan på Open Science Framework (OSF) innan vi påbörjade datainsamlingen, och vi registrerade även analysplaner för var och en av de 41 potentiella replikationerna (se nedan) på OSF efter kommentarer från originalförfattarna. Därefter genomförde vi en så kallad beslutsmarknad för att bestämma vilka av dessa 41 studier som skulle replikeras. 162 forskare inom samhällsvetenskap deltog i beslutsmarknaden och fyllde också innan beslutsmarknaden i en enkät om vad de trodde att sannolikheten var att varje studie skulle replikera. De 41 inkluderade studierna var samtliga experimentstudier inom samhällsvetenskap som publicerades i den vetenskapliga tidskriften PNAS 2015-2018 och uppföljde följande kriterier: de utfördes online på Mturk; de använde en experiment design med jämförelse mellan eller inom individer; de använde material som gjorde det logistiskt möjligt att genomföra experimentet; de redovisade minst ett centralt resultat som hade ett p-värde <0.05. priserna på beslutsmarknaden kan tolkas som den skattade sannolikheten att varje studie kommer att replikera bland deltagarna på marknaden. de 12 studier med högst pris (när marknaden stängdes), de 12 studier med lägst pris, och 2 slumpmässigt utvalda studier bland de övriga saudierna valdes ut för att replikeras. alla dessa 26 replikationer genomfördes med 90% statistisk styrka att upptäcka 2 3 av effektstorleken i originalstudien på en 5% signifikansnivå.>
I genomsnitt var urvalsstorleken n=1,018 i replikationerna, vilket var cirka 3,5 gånger högre än i originalstudierna med n=292. Alla repliktionerna genomfördes online på Mturk och använde sig av samma design, material och analys som i originalstudierna. Andelen studier som replikerade, definierat som en effekt i samma riktning som i originalstudien och ett p-värde<0.05, var 83% bland de 12 studierna med högst pris på beslutsmarknaden och 33% bland de 12 studierna med lägst pris på beslutsmarknaden. korrelationen mellan priserna på beslutsmarknaden och om studierna replikerade var 0.505. totalt sett replikerade 54% av studierna och den genomsnittliga effektstorleken i replikationerna var 45% av effektstorleken i originalstudierna. studien visar sammanfattningsvis att beslutmarknader har potential att välja ut vilka studier som ska replikeras, men att mer arbete behövs för att dra starka slutsatser. replikeringsgraden på cirka 50% för online experiment publicerade i pnas är också på samma nivå som observerats för labbexperiment i tidigare systematiska replikeringsstudier.>
Delprojekt 2: Ett test av selektiv rapportering av resultat i nationalekonomi: placebotest:
Inom studier baserade på observationsdata inom nationalekonomi är det vanligt att genomföra så kallade placebotest där den huvudsakliga hypotesen testas i en tidsperiod eller situation där det inte förväntas finnas någon effekt (dvs nollhypotesen förväntas vara sann). Att inte kunna förkasta nollhypotesen, dvs ett icke-signifikant testresultat, tolkas i placebotest som ett stöd för validiteten i den valda forskningsdesignen och forskarna har därför incitament att inte rapportera statistiskt signifikanta testresultat från placebotest (en form av omvänt ”p-hackande”). Vi utvecklade en algoritm för att söka igenom publicerade artiklar efter placebotest. Vi använde först algoritmen i en pilotstudie på Economic Journal, som sedan inte ingick i våra hypotestester. Baserat på pilotstudien registrerade vi en analysplan på OSF med våra inklusions/exklusionskriterier och våra exakta planerade tester och hypoteser. Därefter tillämpade vi algoritmen på följande 11 topptidskrifter inom nationaekonomi: American Economic Journal: Applied Economics; American Economic Journal: Economic Policy; American Economic Review; Econometrica; Journal of Development economics; Journal of Labor Economics; Journal of Political Economy; Journal of the European Economic Association; Review of Economics and Statistics; Review of Economic Studies; och Quarterly Journal of Economics. Algoritmen identifierade 540 artiklar publicerade mellan 2009 och 2021 för potentiell inkludering och sedan sökte vi igenom dessa artiklar manuellt för placebotest och 377 av dessa artiklar var konsistenta med inklusionskriterierna och inkluderades i studien.
Om nollhypotesen är sann i alla placebotest, så ska 2.5% av dem vara signifikanta på 5% nivån och ha en effekt i samma riktning som huvudresultatet i studien (och 5% av placebotesterna ska vara signifikanta på 5% nivån oavsett riktning på effekten). Den faktiska andelen signifikanta placebotest med en effekt i samma riktning som huvudresultatet i dessa 377 artiklar var 1.29% (95% konfidensintervall [0.83, 1.63]), vilket är statistiskt signifikant lägre än de 2.5% som förväntas av slumpen om nollhypotesen är sann i alla placebotesterna (detta var vårt preregistrerade primära hypotestest eftersom incitamenten att underrapportera signifikanta placebotest kan vara mindre stark om effekten går i andra riktningen jämfört med huvudresultatet). Den totala andelen placebotest som var signifikanta på 5% nivån, oavsett riktning, var 3.10% (95% konfidensintervall [2.2, 4.0]), vilket är statistsikt signifikant lägre än de 5% som förväntas av slumpen om nollhypotesen är sann i alla placebotesterna (detta var ett preregistrerat sekundärt hypotestest). Våra resultat visar stark evidens för att statistiskt signifikanta placebotest underrapporteras i topptidskrifter inom nationalekonomi. Våra tester är också konservativa eftersom det är osannolikt att nollhypotesen är sann i alla placebotest, vilket gör att vi skattar en undre gräns för underrapporteringen av statistiskt signifikanta placebotest.
Projektets tre viktigaste resultat:
Vi hittar viss evidens för att beslutsmarknader kan vara ett användbart verktyg för att välja ut vilka studier som ska replikeras; vi hittar att graden av replikering i online experiment inom samhällsvetenskapen publicerade i PNAS är på samma nivå som för systematiska replikeringsstudier av labb experiment; och vi vittar evidens för underrapportering av statistiskt signifikanta placebotest i artiklar publicerade i topptidskrifter inom nationalekonomi.
Samverkan och spridning av forskningsresultaten:
Det första projektet involverade ett stort internationellt samarbete som vi ledde som involverade forskare från: Amsterdam University, CalTech, Harvard University, Massey University in Auckland, National University of Singapore, University of Innsbruck, University of Virginia och Wharton. Resultaten av de två forskningsprojekten har kommunicerats i två vetenskapliga artiklar publicerade med open acces.