Analys av efterfrågefunktioner med en blandning av Tobit modeller
Detta projekt fokuserar speciellt på metoder för att skatta efterfrågefunktioner med data från SCBs årliga surveyundersökning av hushållens utgifter. Dessa skattningar försvåras av att det finns hushåll vars utgifter på en eller flera varor och/eller tjänster är noll. Detta problem kallas censurering och gör att de vanliga statistiska skattningsmetoderna ger felaktiga skattningar. Dessutom bör man analysera system av efterfrågefunktioner, istället för en efterfrågefunktion i taget, eftersom efterfrågan på en vara/tjänst påverkas av efterfrågan på andra varor/tjänster p.g.a. en begränsad budget.
Vi föreslår användande av en sammanvägning av multivariata Tobit modeller, som tar hänsyn till både censurering och budgetrestriktionen och inte är känslig för modellfördelningsantaganden, som tidigare föreslagna modeller och metoder. Teoretiska och empiriska resultat om metodens egenskaper tas fram och jämförelser görs med tidigare förslagna metoder.
Målet med projektet var att utveckla statistiska metoder för att analysera efterfrågefunktioner. Efterfrågefunktioner beskriver fördelningen av hushållens utgifter (efterfråga) på varor/tjänster och hur detta varierar mellan hushåll beroende på t.ex. inkomst. Projektet fokuserade speciellt på metoder för att skatta efterfrågefunktioner med data från Statistiska centralbyråns (SCB) återkommande surveyundersökning Hushållens utgifter (HUT). Skattningar försvåras av att det finns hushåll vars utgifter på vissa poster är noll under mätperioden. Det kallas censurering och gör att de traditionella skattningsmetoderna inte fungerar. Skattningen försvåras ytterligare om man önskar analysera system av efterfrågefunktioner, i stället för en efterfrågefunktion i taget.
I projektplanen beskrevs fyra delprojekt: 1) Skattning av en enskild efterfrågefunktion vid censurering, 2) Skattning av system av efterfrågefunktioner vid censurering 3) Analys av HUT-data 4) Utveckling av R-paket.
Det är viktigt att de statistiska metoder som används i empiriska sammanhang är robusta mot felspecificeringar av de modeller som används. Tobit-modellen [17] är en regressionsmodell som används när responsvariabeln, t.ex. hushållens utgifter på en viss vara, är censurerad. Tobit-modellen skattas med maximum likelihood (ML); en ML-estimator som inte är robust mot att feltermen inte är normalfördelad.
I projektet föreslogs en s.k. ”finite mixture model” (FMM) där ett ändligt antal Tobit-modeller blandades/mixades i en s.k. ”finite mixture of Tobit models” (FMT). Det är väl känt att en FMM av normalfördelningar, godtyckligt väl, kan approximera vilken annan kontinuerlig fördelning som helst [t.ex. 15]. Det innebär att FMT-estimatorn (en sammanvägd ML-estimator av FMT) har potential att vara robust mot felspecifikationer.
För att utveckla skattningsmetoder för system av efterfrågefunktioner har FMM av multivariata regressionsmodeller [16] och av SUR-modeller [5] vidareutvecklats för censurerat multivariat data. Vid utvärdering av dessa har det dock funnits numeriska problem med de optimeringsrutiner som använts; de konvergerade i alltför många fall inte till en (korrekt) lösning.
Bortfall är ett problem i HUT och Heckmans [7] tvåstegs-estimator vid selektionsbias har studerats för bortfallskorrigering.
En bedömare av projektansökan rekommenderade att, vid tidsnöd, skjuta upp delprojekt fyra. Rekommendationen följdes. Det finns dock R-paket för FMM, t.ex. FlexMix [14, 6], och ev. går de att vidareutveckla för censurerat data.
GENOMFÖRANDET
Genomförandet av ett forskningsprojekt vars syfte är att utveckla statistiska metoder kan i korthet beskrivas på följande sätt: 1) ”hitta på” metoden, 2) undersök metodens egenskaper, 3) jämför metoden med avseende på egenskaper med ev. befintliga metoder och 4) undersök hur metoden fungerar i praktiken. Vid utveckling av skattningsmetoder så tittar man t.ex. på egenskaper som bias och precision hos dessa. Vid utveckling av test tittar man t.ex. på testens styrka. Egenskaperna bevisas matematiskt, för så generella fall som möjligt. Det är också vanligt att använda datorsimuleringar för att undersöka egenskaper och göra jämförelser mellan metoder.
Genomförandet av detta projekt är inget undantag från denna allmänna beskrivning. I Karlsson & Laitila [9] och Karlsson & Laitila [11] jämförs t.ex. bias och medelkvadratfel för FMT-estimatorn och andra estimatorer för censurerade regressionsmodeller i simuleringsstudier. FMT-estimatorn är bättre än de övriga, speciellt vid hög censureringsgrad. I Karlsson & Laitila [11] jämförs även FMT-estimatorn med ML-estimatorn för en korrekt specificerad modell (jmf. ”benchmarking”). Detta i syfte att undersöka om resultatet att det räcker med två komponenter i FMM för att få en bra approximation för regressionsmodeller utan censurering [1] även gäller för FMT vid censurerat data. En modifierad FMT med heteroskedastiska variansfunktioner i komponenterna (FMT.vf) samt ett modellvalstest mellan FMT och nya FMT.vf föreslås också. De föreslagna metoderna illustreras med HUT-data från 2007.
I Karlsson & Laitila [10] härleds tre olika kovariansmatrisestimatorer som utvärderas i en simuleringsstudie. En hessianbaserad estimator fungerar bäst, vilket är ett något oväntat resultat utifrån resonemang i Boldea & Magnus [3].
I Karlsson & Laitila [12] föreslås två nya likelihood-kvottest (LR-test) för normalitetsantagandet i Tobit-modellen: en vidareutveckling av Caudill & Mixon Jr [4] och ett test baserat på FMT. Testens nivå samt styrka undersöks och jämförs med ett test av Bera et al. [2] som i Holden [8] visats fungera bäst. Ett av de nya LR-testen fungerar väl med avseende på nivå och har bra styrka. Sammantaget utgör det ett alternativ till testet av Bera et al. [2] och kan i vissa situationer vara enklare att beräkna.
I Laitila [13] anpassas Heckmans sampelselektionsmodell [7] för tillämpning vid designbaserad inferens med bortfall. Resultaten visar att Heckmans estimator är direkt tillämpbar om fördelningsantaganden i modellen flyttas från modell till antaganden om fördelning över populationen. Resultatet möjliggör en konsistent hantering av bortfallsproblemet mellan designbaserad skattning av populationstotaler och modellbaserad analys av regressionsmodeller.
TRE VIKTIGASTE RESULTATEN
Projektets bidrag är först och främst en ny modelleringsansats för analys av censurerade regressionsmodeller; en ansats som kan hantera icke-normalitet och heteroskedasticitet. Karlsson & Laitila [9] har redan nio citeringar (Google Scholar, 20/9-17), vilket tyder på att den uppfyller ett behov av flexibel modellering av censurerade data. I bidraget finns ett nytt test av normalitet i Tobit-modellen, ett test som kan vidareutvecklas för test av antal komponenter i FMM. Därtill finns resultat om val av metod för skattning av medelfel. Sammantaget bidrar dessa delar till en mer komplett metodik som inte vilar på ett normalitetsantagande.
NYA FORSKNINGSFRÅGOR
En ny intressant frågeställning är utveckling av LR-testet av normalitet i Tobit-modellen mot ett generellt test av antal komponenter i ändligt blandade fördelningar. Testet är enkelt i sin konstruktion och har potential till bättre egenskaper än tidigare föreslagna kriterier.
Det är också av intresse att bättre förstå egenskaperna hos skattningar baserade på FMT, exempelvis robusthet mot avvikande observationer och betydelsen av förklaringsvariablers fördelning. Svar på dessa frågor kan bl.a. belysa observerade avvikelser från teori vad gäller statistikors fördelningar. De kan också belysa svårigheter att med numeriska sökalgoritmer identifiera optimum för likelihood-funktionen samt bidra med snabbare sökrutiner.
INTERNATIONELLA DIMENSIONER
Samarbete med professor Myong-jae Lee, Korea University, initierades i samband med ett besök av honom i början av projekttiden (jan-13). Samarbetet planerades inom delprojekt tre, men teoretiska resultat var nödvändiga innan dataanalysen kunde påbörjas. Dessa har dröjt främst p.g.a. oförutsedda numeriska problem (se ovan).
SPRIDNING AV RESULTAT OCH SAMVERKAN
Projektgruppen, Maria Karlsson och Thomas Laitila, har spridit resultaten genom artiklar i vetenskapliga tidskrifter och presentationer på konferenser. Projektdeltagarna har hållit seminarier på t.ex. Akademin industri och samhälle, Högskolan Dalarna (2014), Statistiska institutionen, Uppsala universitet (2015) och Enheten för nationalekonomi, Umeå universitet (2016). Karlsson var dessutom gästbloggare på RJ:s blogg där några av inläggen var projektrelaterade.
Under projektperioden har Karlsson valts in i The European Regional Committee of the Bernoulli Society och varit styrelseledamot i Svenska Statistikfrämjandet samt Cramérsällskapet. Laitila har valts in i Baltic-Nordic-Ukrainian Network on Survey Statistics och är ledamot i SCB:s vetenskapliga råd.
REFERENSER
[1] Bartolucci, F, Scaccia, L (2005). The use of mixtures for dealing with non-normal regressions errors. Comput Stat Data An 48, 821-834.
[2] Bera, AK, Jarque, CM, Lee, L-F (1984). Testing the normality assumption in limited dependent variable models. Int Econ Rev 25, 1055-1063.
[3] Boldea, O, Magnus, JR (2009). Maximum likelihood estimation of the multivariate normal mixture model. JASA 104, 1539-1549.
[4] Caudill, SB, Mixon Jr, FG (2009). More on testing the normality assumption in the Tobit model. J Appl Stat 36, 1345-1352.
[5] Galimberti, G, Scardovi, E, Soffritti, G (2016). Using mixtures in seemingly unrelated linear regression models with non-normal errors. Stat Comput 26, 1025-1038.
[6] Grün, B, Leisch, F (2008). FlexMix Version 2: Fitting mixtures with concomitant variables and varying and constant parameters. J Stat Softw 28, 1-35.
[7] Heckman, J (1979). Sample selection bias as a specification error. Econometrica 47, 153-161.
[8] Holden, D (2004). Testing the normality assumption in the Tobit model. J Appl Stat 31, 521-532.
[9] Karlsson, M, Laitila, T (2014). Finite mixture modelling of censored regression models. Stat Pap 55, 627-642.
[10] Karlsson, M, Laitila, T (2017). Computation of covariance matrix estimates for the FMT estimator. Inskickat.
[11] Karlsson, M, Laitila, T (2017). Finite mixture of Tobit models with heteroskedastic
Components. Inskickat.
[12] Karlsson, M, Laitila, T (2017). Likelihood ratio tests of the normality assumption in the Tobit Model. Inskickat.
[13] Laitila, T (2017). Heckman’s sample selection model and quasi-randomization. Manuskript.
[14] Leisch, F (2004). FlexMix: A general framework for finite mixture models and latent class regression in R. J Stat Softw 11, 1-18.
[15] McLachlan, GJ, Peel, D (2000). Finite mixture models. Wiley, Chichester.
[16] Soffritti, G, Galimberti, G (2011). Multivariate linear regression with non-normal errors: a solution based on mixture models. Stat Comput 21, 523-536.
[17] Tobin, J (1958). Estimation of relationships for limited dependent variables. Econometrica 26, 24-36.