Astrid Lindgren-koden: Astrid Lindgrens stenograferade originalmanuskript genom digital bildanalys, genetisk kritik, bok- och mediehistoriska perspektiv
Astrid Lindgren är en världsförfattare, ändå är hennes kreativa process höljd i dunkel. Detta beror på att Lindgren författade sina manus på stenografi och som förlagsredaktör själv redigerade sina böcker. Lindgrens stenogramblock har ansetts omöjliga att tolka och är hittills helt obeforskade.
Astrid Lindgrenkodens syfte är tvådelat:
1) Att avkoda Lindgrens stenograferade originalmanuskript genom algoritmer för digital bildanalys och handskriven textigenkänning (HTR), samt att vidareutveckla denna metod genom sammanförandet av kompetens från digital humaniora, litteraturvetenskap och professionell stenografi.
2) Att studera betydelsen av strykningar, omarbetning och redigering i Astrid Lindgrens manuskript, med särskild tyngpunkt på utkasten till Bröderna Lejonhjärta (1973) utifrån genetisk-komparativa, textsociologiska och mediehistoriska perspektiv. Denna del av studien utgår från de tre roller, författare, sekreterare och redaktör, som Lindgren spelade i sin egen produktionsprocess.
Astrid Lindgren-koden kommer att generera ny kunskap om världsförfattaren Astrid Lindgren genom den första studien av hennes originalmanuskript, visa på dessa originalmanuskripts potential för vidare forskning, erbjuda ett avstamp för vidare digitalisering av hela Lindgrens bevarade korpus av stenogramblock, samt bidra till generell metodutveckling för analys av handskrivna dokument.
Slutredovisning
Projektets syfte och utveckling
Projektet avsåg att generera ny kunskap om Astrid Lindgrens kreativa process genom den första studien av hennes originalmanuskript, visa på dessa originalmanuskripts potential för vidare forskning, erbjuda ett avstamp för vidare digitalisering av hela Lindgrens bevarade korpus av stenogramblock, samt bidra till generell metodutveckling för analys av handskrivna dokument. Samtliga av dessa mål har projektet vid avslut uppnått.
I projektets första fas genomfördes digitalisering och pre-processing av digitaliserat material för att lösa materialspecifika problem som försvårar för handskriven textigenkänning (HTR), till exempel att materialet i hög grad bestod av överstrukna ord. Volontärer för crowdsourcing rekryterades och en utprovning av plattform och metod för crowdsourcing genom testgrupp genomfördes. I projektets andra fas genomfördes en serie hackathons med volontärer som resulterade i en corpus av translittererat, stenograferat, granskat material. Utifrån detta framställdes ett dataset utifrån vilket metoder för handwritten text recognition tränades samt utvecklades utifrån stenografins specifika förutsättningar. I projektets tredje fas har fokus legat på att färdigställa den litteraturvetenskapliga forskningsdelen liksom att sprida och kommunicera resultat. Tiden har även använts för att lägga grunden för en vetenskaplig utgåva av Lindgrens originalmanuskript genom en förstudie liksom etablerandet av kontakter för framtida samverkan.
Malin Nauwercks föräldraledighet har förlängt projekttiden utöver det extra dispositionsåret. Anders Hast har under projekttiden handlett Raphaela Heil vars doktorsavhandling ”Document Image Processing for Handwritten Text Recognition: Deep Learning-based Transliteration of Astrid Lindgren’s Stenographic Manuscripts” försvarades 2023. Karolina Andersotter som initialt deltog i projektet i egenskap av bibliotekarie vid UU har under projektet intagit en aktiv roll, inte minst genom samskrivning av vetenskapliga publikationer, och under projekttiden påbörjat en forskarutbildning i biblioteks- och informationsvetenskap vid Åbo Akademi.
Covid-19 begränsade under projektets första år fysiska resor och planerade forskningsvistelser, men gynnade istället all form av digital crowdsourcing. Projektets volontärer till stor del ingick i gruppen ”70+” som under pandemin uppmanades att stanna hemma. En undersökning visade att ungefär hälften av de mest aktiva volontärerna uppskattade att deras möjlighet att arbeta med manuskripten påverkades av pandemin, och själva gemenskapen liksom själva arbetet beskrevs som ”en ljuspunkt i en mörk tid”.
Centrala resultat och slutsatser
1) Digitalisering, manuell translitterering och framtida forskning på Lindgrens stenograferade originalmanuskript.
Projektet har digitaliserat och translittererat 55 av Lindgrens stenogramblock i Astrid Lindgrens arkiv (L230) på Kungliga biblioteket, samt ytterligare 8 stenogramblock i Svenska barnboksinstitutets samlingar och 3 i Astrid Lindgren AB:s ägo. Därigenom har projektet kunnat motbevisa en populärt spridd föreställning om Lindgrens stenografi som omöjlig att läsa, utan tvärtom visat att det är möjligt för någon med kunskaper i stenografi att translitterera materialet ner på teckennivå. Den grupp av volontärer som har translittererat manuskripten i projektet Astrid Lindgren-koden består till övervägande del av kvinnor från hela Sverige, födda mellan 1930–70, ofta med en bakgrund som sekreterare och/eller stenografilärare. En viktig förutsättning för deras deltagande som volontärer har varit möjligheten att kunna arbeta med manuskripten i egen takt från sina hem.
I samband med att projektet Astrid Lindgren-koden inleddes lade Kungliga bibliotekets handskriftsavdelning ett foto/reproförbud på stenogramblocken av bevarandeskäl. I nuläget innebär det att den som vill ta del av Lindgrens stenograferade originalmanuskript kan läsa dem fysiskt på plats i KB:s specialläsesal, men inte tillåts kopiera eller fotografera av dem eller ens enskilda sidor i forskningssyfte eller för enskilt bruk. I praktiken har detta kraftigt försvårat manuell läsning/transkribering av det material som inte digitaliseras, vilket gör forskare som i framtiden vill ta del av Lindgrens originalmanuskript beroende av fortsatt digitalisering. En slutsats ur forskarperspektiv är 1) att det finns goda skäl för att digitalisera hela Lindgrens samling av bevarade stenogramblock (totalt 670 stycken), men att 2) så länge inte hela samlingen av stenogram i L230 är digitaliserad så är fortsatt forskning på materialet beroende av att den åverkan som bedöms göras på blocken genom fotografering med blixtfri kamera vägs mot möjligheten att utvärdera, tillgängliggöra och beforska det.
2. Digital metodutveckling inom crowdsourcing och HTR
I projektet användes mixade metoder för att translitterera Lindgrens originalmanuskript: manuell translitterering genom crowdsourcing och organiserade ‘hackathons’ samt HTR. Manuell crowdsourcing visade sig vara ett framgångsrikt och överraskande effektivt medel för att uppnå resultat, med många positiva bieffekter för medverkande volontärer liksom för projektet som helhet vars allmänintresse och spridning ökade genom inslagen av medborgarforskning. I relation till metoden crowdsourcing kunde projektet bidra med ett intersektionellt perspektiv på den för metoden avgörande faktorn motivation, där ålder, kön och särskild expertis inom ett område visade sig spela en viktig roll, liksom volontärernas känslomässiga koppling till forskningsuppgiften och materialet.
Det translittererade materialet låg till grund för det första öppet tillgängliga datasetet (LION) för HTR-träning på stenograferat material. I samband med att materialet förbereddes för träning utvecklades metod baserad i digital bildanalys för att hantera utmaningar i överstruken text. Projektet etablerade genom LION en baseline för handskriven textigenkänning av svensk stenografi, och utifrån denna grund utforskades avancerade metoder för stenografianpassad translitterering genom HTR-träning, vilket i kombination med pre-training gav signifikanta resultat. En väg för framtida forskning är till exempel möjligheten att integrera crowsourcad, mänsklig feedback och stenografisk kunskap och erfarenhet i träningspipeline.
3. Bidrag till Lindgren-forskningen
Projektet har kunnat visa hur stenografin fungerade som motorn i Lindgrens kreativa process, samt vilken funktion den hade i samspelet mellan de olika produktionsroller som Lindgren antog. Inte minst att skrivmetoden fyllde funktionen av ”ett eget rum” – ett privat utrymme för skapande. Den mytbildning kring de stenograferade manuskripten som Lindgren själv initierade och som sedan reproducerats i Lindgren-receptionen har, i kombination med det faktum att Lindgren var både författare, redaktör och sin egen förläggare, bidragit till att förstärka bilden av Lindgren som ett suverän och autonom i sitt skapande. Ett centralt litteraturvetenskapligt resultat är vidare påvisandet av ett samband mellan stenografin som skrivmetod och Lindgrens litterära stil, en så kallad ”stenografisk effekt” i Lindgrens verk. Denna effekt berikar förståelsen av Lindgren som del av den barnlitterära modernismen, liksom hennes centrala position inom barnlitterär transmediering under andra halvan av 1900-talet.
Nya forskningsfrågor
Nyckelfrågor för framtiden är hur innehållet i de resterande av Lindgrens stenograferade originalmanuskript kan tillgängliggöras för dem som önskar undersöka dem på ett hållbart sätt, samt hur digital translitterering av stenografi generellt kan utvecklas och förbättras – inte minst för att kompensera för det faktum att gruppen av stenografikunniga kontinuerligt krymper. Det material som har digitaliserats och translittererats inom projektet, och som huvudsakligen innehåller originalmanuskript till Bröderna Lejonhjärta bär på en stor potential för vidare forskning. I projektets avslutande fas har en vetenskaplig utgåva av dessa manuskript initierats. Med tanke på romanens centrala plats inom en barnlitterär kanon, liksom det stora allmänintresse som Lindgrens skapande bevisligen fortfarande genererar finns i en sådan utgåva stor potential för att utforska nya sätt för allmänheten att interagera med kulturarvet.
Spridning av resultat
Forskningsresultaten har spridits inomvetenskapligt genom samförfattade och individuella publikationer, samt genom deltagande i nationella och internationella konferenser och gästbesök på olika institutioner. Projektet har etablerat samarbeten med ett flertal organisationer, inklusive Kungliga Biblioteket, Astrid Lindgren AB, Melinska Stenografförbundet, Astrid Lindgren-sällskapet och Astrid Lindgrens Näs. Offentliga föreläsningar och presentationer har varit en integrerad del av projektet ända från start, dessa inkluderar exempelvis föreläsning för språkavdelningen vid Sveriges riksdag, bidrag till Humtanks evenemang om medborgarforskning under Almedalsveckan, deltagande i Kungliga Bibliotekets föreläsningsserie och medverkan i flera program som anordnas av Svenska Barnboksinstitutet. Tilldelning av Svenska Akademins Bernadotte-stipendium 2020 möjliggjorde även ett samarbete med Astrid Lindgrens barndomshem, Näs, och ett bidrag till museets permanenta utställning.
Från ett tidigt skede genererade projektet avsevärd medial medieuppmärksamhet. Det har idag över 400 omnämnanden i medietjänsten Retriever, och har internationellt bland annat uppmärksammats i dagstidningar som tyska Die Zeit och spanska El País. Uppmärksamheten hade många fördelar kopplat till att rekrytera och motivera stenografer som volontärer för crowdsourcingaktiviteter, men också för att sprida resultat samt främja internationella samarbeten.
Projektet avsåg att generera ny kunskap om Astrid Lindgrens kreativa process genom den första studien av hennes originalmanuskript, visa på dessa originalmanuskripts potential för vidare forskning, erbjuda ett avstamp för vidare digitalisering av hela Lindgrens bevarade korpus av stenogramblock, samt bidra till generell metodutveckling för analys av handskrivna dokument. Samtliga av dessa mål har projektet vid avslut uppnått.
I projektets första fas genomfördes digitalisering och pre-processing av digitaliserat material för att lösa materialspecifika problem som försvårar för handskriven textigenkänning (HTR), till exempel att materialet i hög grad bestod av överstrukna ord. Volontärer för crowdsourcing rekryterades och en utprovning av plattform och metod för crowdsourcing genom testgrupp genomfördes. I projektets andra fas genomfördes en serie hackathons med volontärer som resulterade i en corpus av translittererat, stenograferat, granskat material. Utifrån detta framställdes ett dataset utifrån vilket metoder för handwritten text recognition tränades samt utvecklades utifrån stenografins specifika förutsättningar. I projektets tredje fas har fokus legat på att färdigställa den litteraturvetenskapliga forskningsdelen liksom att sprida och kommunicera resultat. Tiden har även använts för att lägga grunden för en vetenskaplig utgåva av Lindgrens originalmanuskript genom en förstudie liksom etablerandet av kontakter för framtida samverkan.
Malin Nauwercks föräldraledighet har förlängt projekttiden utöver det extra dispositionsåret. Anders Hast har under projekttiden handlett Raphaela Heil vars doktorsavhandling ”Document Image Processing for Handwritten Text Recognition: Deep Learning-based Transliteration of Astrid Lindgren’s Stenographic Manuscripts” försvarades 2023. Karolina Andersotter som initialt deltog i projektet i egenskap av bibliotekarie vid UU har under projektet intagit en aktiv roll, inte minst genom samskrivning av vetenskapliga publikationer, och under projekttiden påbörjat en forskarutbildning i biblioteks- och informationsvetenskap vid Åbo Akademi.
Covid-19 begränsade under projektets första år fysiska resor och planerade forskningsvistelser, men gynnade istället all form av digital crowdsourcing. Projektets volontärer till stor del ingick i gruppen ”70+” som under pandemin uppmanades att stanna hemma. En undersökning visade att ungefär hälften av de mest aktiva volontärerna uppskattade att deras möjlighet att arbeta med manuskripten påverkades av pandemin, och själva gemenskapen liksom själva arbetet beskrevs som ”en ljuspunkt i en mörk tid”.
Centrala resultat och slutsatser
1) Digitalisering, manuell translitterering och framtida forskning på Lindgrens stenograferade originalmanuskript.
Projektet har digitaliserat och translittererat 55 av Lindgrens stenogramblock i Astrid Lindgrens arkiv (L230) på Kungliga biblioteket, samt ytterligare 8 stenogramblock i Svenska barnboksinstitutets samlingar och 3 i Astrid Lindgren AB:s ägo. Därigenom har projektet kunnat motbevisa en populärt spridd föreställning om Lindgrens stenografi som omöjlig att läsa, utan tvärtom visat att det är möjligt för någon med kunskaper i stenografi att translitterera materialet ner på teckennivå. Den grupp av volontärer som har translittererat manuskripten i projektet Astrid Lindgren-koden består till övervägande del av kvinnor från hela Sverige, födda mellan 1930–70, ofta med en bakgrund som sekreterare och/eller stenografilärare. En viktig förutsättning för deras deltagande som volontärer har varit möjligheten att kunna arbeta med manuskripten i egen takt från sina hem.
I samband med att projektet Astrid Lindgren-koden inleddes lade Kungliga bibliotekets handskriftsavdelning ett foto/reproförbud på stenogramblocken av bevarandeskäl. I nuläget innebär det att den som vill ta del av Lindgrens stenograferade originalmanuskript kan läsa dem fysiskt på plats i KB:s specialläsesal, men inte tillåts kopiera eller fotografera av dem eller ens enskilda sidor i forskningssyfte eller för enskilt bruk. I praktiken har detta kraftigt försvårat manuell läsning/transkribering av det material som inte digitaliseras, vilket gör forskare som i framtiden vill ta del av Lindgrens originalmanuskript beroende av fortsatt digitalisering. En slutsats ur forskarperspektiv är 1) att det finns goda skäl för att digitalisera hela Lindgrens samling av bevarade stenogramblock (totalt 670 stycken), men att 2) så länge inte hela samlingen av stenogram i L230 är digitaliserad så är fortsatt forskning på materialet beroende av att den åverkan som bedöms göras på blocken genom fotografering med blixtfri kamera vägs mot möjligheten att utvärdera, tillgängliggöra och beforska det.
2. Digital metodutveckling inom crowdsourcing och HTR
I projektet användes mixade metoder för att translitterera Lindgrens originalmanuskript: manuell translitterering genom crowdsourcing och organiserade ‘hackathons’ samt HTR. Manuell crowdsourcing visade sig vara ett framgångsrikt och överraskande effektivt medel för att uppnå resultat, med många positiva bieffekter för medverkande volontärer liksom för projektet som helhet vars allmänintresse och spridning ökade genom inslagen av medborgarforskning. I relation till metoden crowdsourcing kunde projektet bidra med ett intersektionellt perspektiv på den för metoden avgörande faktorn motivation, där ålder, kön och särskild expertis inom ett område visade sig spela en viktig roll, liksom volontärernas känslomässiga koppling till forskningsuppgiften och materialet.
Det translittererade materialet låg till grund för det första öppet tillgängliga datasetet (LION) för HTR-träning på stenograferat material. I samband med att materialet förbereddes för träning utvecklades metod baserad i digital bildanalys för att hantera utmaningar i överstruken text. Projektet etablerade genom LION en baseline för handskriven textigenkänning av svensk stenografi, och utifrån denna grund utforskades avancerade metoder för stenografianpassad translitterering genom HTR-träning, vilket i kombination med pre-training gav signifikanta resultat. En väg för framtida forskning är till exempel möjligheten att integrera crowsourcad, mänsklig feedback och stenografisk kunskap och erfarenhet i träningspipeline.
3. Bidrag till Lindgren-forskningen
Projektet har kunnat visa hur stenografin fungerade som motorn i Lindgrens kreativa process, samt vilken funktion den hade i samspelet mellan de olika produktionsroller som Lindgren antog. Inte minst att skrivmetoden fyllde funktionen av ”ett eget rum” – ett privat utrymme för skapande. Den mytbildning kring de stenograferade manuskripten som Lindgren själv initierade och som sedan reproducerats i Lindgren-receptionen har, i kombination med det faktum att Lindgren var både författare, redaktör och sin egen förläggare, bidragit till att förstärka bilden av Lindgren som ett suverän och autonom i sitt skapande. Ett centralt litteraturvetenskapligt resultat är vidare påvisandet av ett samband mellan stenografin som skrivmetod och Lindgrens litterära stil, en så kallad ”stenografisk effekt” i Lindgrens verk. Denna effekt berikar förståelsen av Lindgren som del av den barnlitterära modernismen, liksom hennes centrala position inom barnlitterär transmediering under andra halvan av 1900-talet.
Nya forskningsfrågor
Nyckelfrågor för framtiden är hur innehållet i de resterande av Lindgrens stenograferade originalmanuskript kan tillgängliggöras för dem som önskar undersöka dem på ett hållbart sätt, samt hur digital translitterering av stenografi generellt kan utvecklas och förbättras – inte minst för att kompensera för det faktum att gruppen av stenografikunniga kontinuerligt krymper. Det material som har digitaliserats och translittererats inom projektet, och som huvudsakligen innehåller originalmanuskript till Bröderna Lejonhjärta bär på en stor potential för vidare forskning. I projektets avslutande fas har en vetenskaplig utgåva av dessa manuskript initierats. Med tanke på romanens centrala plats inom en barnlitterär kanon, liksom det stora allmänintresse som Lindgrens skapande bevisligen fortfarande genererar finns i en sådan utgåva stor potential för att utforska nya sätt för allmänheten att interagera med kulturarvet.
Spridning av resultat
Forskningsresultaten har spridits inomvetenskapligt genom samförfattade och individuella publikationer, samt genom deltagande i nationella och internationella konferenser och gästbesök på olika institutioner. Projektet har etablerat samarbeten med ett flertal organisationer, inklusive Kungliga Biblioteket, Astrid Lindgren AB, Melinska Stenografförbundet, Astrid Lindgren-sällskapet och Astrid Lindgrens Näs. Offentliga föreläsningar och presentationer har varit en integrerad del av projektet ända från start, dessa inkluderar exempelvis föreläsning för språkavdelningen vid Sveriges riksdag, bidrag till Humtanks evenemang om medborgarforskning under Almedalsveckan, deltagande i Kungliga Bibliotekets föreläsningsserie och medverkan i flera program som anordnas av Svenska Barnboksinstitutet. Tilldelning av Svenska Akademins Bernadotte-stipendium 2020 möjliggjorde även ett samarbete med Astrid Lindgrens barndomshem, Näs, och ett bidrag till museets permanenta utställning.
Från ett tidigt skede genererade projektet avsevärd medial medieuppmärksamhet. Det har idag över 400 omnämnanden i medietjänsten Retriever, och har internationellt bland annat uppmärksammats i dagstidningar som tyska Die Zeit och spanska El País. Uppmärksamheten hade många fördelar kopplat till att rekrytera och motivera stenografer som volontärer för crowdsourcingaktiviteter, men också för att sprida resultat samt främja internationella samarbeten.