Utveckling av lexikala och grammatiska kompetenser i invandrarsvenska
Fler invandrare söker sig till Sverige och det blir alltmer viktigt att kunna lära ut svenska som andraspråk (eller främmande språk) (L2) på bästa möjliga sätt. Detta betyder att det finns ett större behov än någonsin av att lära ut svenska och att testa kunskapsnivåer i svenska. Dessutom finns det förstås ett behov av att förstå och enas om vad olika nivåer betyder. De senaste åren har sett nya metoder för att studera språkutvecklingen inom L2 bl.a. med hjälp av inlärarkorpusar. För svenska finns det ytterst få sådana studier, men Språkbanken har en inlärarkorpus med uppsatser och en kursbokskorpus (för L2 svenska) som lämpar sig för sådana studier. Texterna i korpusarna är kopplade till det ramverk för språkkvalifikationer som EU antog för ett drygt decennium sedan.
I detta projekt vill vi med hjälp av de två korpusarna titta på hur många ord och uttryck som studenter av L2 svenska kan förstå och producera. Hur ändrar sig studenters språk grammatiskt när deras språk utvecklar sig? Hur överensstämmer studenternas utveckling med utvecklingen i kursböckerna? Projektet kommer även att bidra med kunskap kring hur vi undervisar vokabulär och grammatik i L2 svenska utifrån vår studie av textbokstexter. Vi har dessutom förhoppningar om att kunna se hur inlärningsmönstren påverkas av läroböckerna och hur de faktiska inlärningsmönstren i korpusarna överensstämmer med tidigare konstaterade inlärningsgångar inom andraspråksforskning.
Slutredovisning
HUVUDSYFTET med det här projektet har varit att ge en omfattande beskrivning av de lexikala och grammatiska kompetenser som inlärare på olika färdighetsnivåer har, såväl receptivt som produktivt. Syftet har uppnåtts framgångsrikt genom en mängd studier, experiment och publikationer, OCH har DESSUTOM lett till ett NYSKAPANDE VERKTYG, den svenska L2-profilen (https://spraakbanken.gu.se/larkalabb/svlp), där intresserade användare kan utforska svenska andraspråksdata på ett användarvänligt och transparent sätt.
Den svenska L2-profilen (SweL2P) gör det möjligt att uppnå nya insikter och formulera datadrivna hypoteser om svenska som andraspråk. Den kan också användas för undervisning, för att generera prov- och övningsuppgifter, för att utveckla nya kursböcker, för att utveckla CALL (Computer assisted language learning), samt för många andra potentiella scenarier. Projektet har dessutom genererat två UNIKA RESURSER för svenska – Morfemfamiljeresursen och Ordfamiljeresursen – som är de första av sitt slag eftersom de utöver morfologisk analys av orden i ordbildningsmorfem och ordbilningsmönster (t.ex. sammansättning, avledning) också länkar varje morfem (rot, prefix, osv.) till de färdighetsnivåer där de har använts i datan och till användningsstatistik. Den svenska L2-profilen är tillgänglig för alla fr o m april 2023, med möjlighet till att ladda ner filtrerade datauppsättningar.
DE VIKTIGASTE FORSKNINGSRESULTATEN har dokumenterats i ett flertal artiklar och återspeglar komplexiteten i analysen av inlärarspråket och omfattar bland annat insikter om flerordsenheter i L2-svenska (Lindström Tiedemann et al., Submitted-a), om beteendet hos det som vi kallar kärnordförrådet och det perifera ordförråd per kunskapsnivå (Volodina et al., Accepted), om morfologiska mönster och ordfamiljer (Volodina, et al. submitted; 2022a), om ordbildning (t.ex. Ingves och Lindström Tiedemann, Submitted), om forskningsmetoder som kombinerar automatiska och empiriska metoder med crowdsourcing (Alfter et al., 2021; Volodina et al., Accepted; Lindström Tiedemann, et al. 2022) och många andra aspekter av inlärarspråk och forskning om andraspråk.
Projektresultaten PRESENTERADES på flera olika forskningsseminarier, workshoppar, konferenser och i tidskrifter inom alla de mest relevanta forskningsfälten: lingvistik, nordiska språk, inlärarkorpusforskning (LCR, learner corpus research), andraspråksinlärning (SLA), intelligenta system för datorstödd språkutbildning (ICALL), språkvetenskaplig databehandling (NLP), lexikografi och onomastik. Dissemineringen skedde i form av:
* föredrag, poster- och demopresentationer på konferenser
* publikationer i form av konferenspublikationer, tidskriftsartiklar, bokkapitel
* anordnande av workshoppar, möten och evenemang
* inbjudna föredrag, gästföreläsningar och forskningsseminarier
* en doktorsavhandling och flera master-, magister- och kandidatavhandlingar som har skrivits i koppling till projektet.
För att nå ut till allmänheten publicerades ett antal blogginlägg om spännande resultat.
Alla experiment, dataset och verktyg är väl dokumenterade och öppet tillgängliga för andra forskare/projekt. En serie riktlinjer producerades inom projektet och finns tillgängliga, inklusive riktlinjer för annotering av flerordsenheter, för användning av det lexikografiska verktyget LEGATO för arbete med annotering, för annotering av ordbildning, samt en manual för onlineverktyget SweL2P. Sammanlagt har nio (9) rapporter publicerats i riktlinjeserien (se https://spraakbanken.gu.se/en/projects/l2profiles/l2p-project-output).
ARBETSGÅNGEN___________
Syftet med projektet var att få insikter om utvecklingsmönster i svenska hos icke-modersmålstalare på olika färdighetsnivåer. Arbetet har delats upp i flera delar (som beskrivs kort nedan) och bygger på två korpusar: en kursbokskorpus (COCTAILL, Volodina et al. 2014) och en samling inläraruppsatser (SweLL-pilot, Volodina et al. 2016), båda uppmärkta med färdighetsnivåer enligt Gemensam europeisk referensram för språk (GERS/CEFR, COE 2001), dvs. så kallade GERS/CEFR-nivåer.
WP1: Dataförberedelse: korpusar, resurser, verktyg
1. Första steget inkluderade arbete med dataförberedelser:
* För det första utökades SweLL-pilotkorpusen – som beskrevs i Volodina et al. (2016) – med 163 uppsatser som transkriberades och anonymiserades enligt samma riktlinjer som de initiala 339 uppsatserna.
* För det andra annoterades de två korpusarna automatiskt, inklusive lemmatisering, ordklasstaggning, syntaktisk analys, uppmärkning av flerordsuttryck och ordbetydelser.
* För det tredje normaliserades (dvs. språket i texterna ändrades lite för att närmare likna standardspråket) ett antal inlärartexter ur inlärarkorpusen för underlätta jämförelser med förstaspråksdata och ge insikter om huruvida det här skulle förbättra annoteringen av inlärartexter radikalt. Även de här uppsatserna annoterades sedan som i punkten här ovan.
* För det fjärde granskades den automatiska annoteringskvaliteten manuellt på en delmängd av korpusarna för att säkerställa att den automatiska taggningen ger en god grund för fortsatt forskning (Volodina et al., 2022b).
* Slutligen genererade vi olika listor: betydelsebaserade ordlistor, statistiska representationer av grammatiska särdrag (t.ex. substantivböjningar, adjektivböjningar, böjningsmönster, verbkonjugationer, osv.), och statistiska översikter över substantiv- och verbmönster. Alla ord länkades till Språkbankens övriga lexikografiska resurser för att få rikare information om orden, såsom information om böjningsmönster (Alfter, 2021) och i den morfologiska delen av svenska L2-profiler lades senare även länkar till Svenska akademiens ordlistor till.
2. Det andra steget inkluderade manuell annotering av resurserna ovan:
* Alla automatiskt identifierade flerordsuttryck (MWE), såsom "dra slutsatser" ('draw conclusions'), klassificerades i relevanta undergrupper enligt syntaktiska principer (sammanhängande/icke-sammanhängande), lexikala kategorier (t.ex. nominala, verbala, icke-lexikala, etc.) och verbala underkategorier (t.ex. partikelverb, reflexiva verb, etc.) (Lindström Tiedemann et al., Submitted-a)
* Alla ord i de betydelsebaserade ordlistorna analyserades i morfologiska beståndsdelar (t.ex. rötter, avledningsprefix, fogemorfem, etc.) i deras grundformer (Volodina et al., 2021)
* För att stödja (semi-)manuell annotering i stegen ovan, implementerades verktyget LEGATO (Alfter et al., 2019) som användes med framgång.
3. Insatserna i steg 2 visualiserades i verktyget SweL2P, inklusive grafer, frekvensstatistik och faktiska korpusträffar (Volodina et al., 2022c) inklusive:
* En LEXIKAL PROFIL, inklusive böjning av adjektiv, samt komparationsmönster för adjektiv och adverb, flerordsenheter och den betydelsebaserade ordlistan Sen*Lex (Alfter 2021)
* En GRAMMATISK PROFIL, som omfattar 38 verbmönster och 143 substantivmönster (Lindström Tiedemann et al., Submitted-b)
* En MORFOLOGISK PROFIL, som inkluderar ordfamiljer och morfemfamiljer (Volodina et al., Submitted)
WP 2-4. Lexikala, grammatiska och morfologiska kompetenser
Med hjälp av input från WP1, särskilt punkterna (2) och (3), och visualisering från (3), utfördes en rad studier för att upptäcka mönster som är typiska för inlärares kompetens på olika färdighetsnivåer, bland annat:
* den upplevda lexikala svårighetsgraden, som jämfördes mellan L2-talare och L2-experter (Alfter et al., 2021)
* kärnordförråd kontra perifert ordförråd på olika kompetensnivåer (Volodina et al., Accepted)
* flerordsenheter i andraspråksdata (Lindström Tiedemann et al., Submitted-a)
egennamn i andraspråksdata (Lindström Tiedemann, Accepted)
* ordfamiljer, deras ökning från nivå till nivå och hypotetiska effekter av * ordbildningskunskap på ordinlärning (Volodina et al., Submitted)
* prepositioner, passiv, verbfraser och substantivfraser i inlärarspråk (presenterat på konferenser och seminarier men ännu inte publicerat)
* ...och många fler, se projektets publikationslista
Mer information: https://spraakbanken.gu.se/en/projects/l2profiles
LITTERATURLISTA____________
Council of Europe. Council for Cultural Co-operation. Education Committee. Modern Languages Division. (2001). Common European framework of reference for languages: Learning, teaching, assessment. Cambridge University Press.
Elena Volodina, Ildikó Pilán, Ingegerd Enström, Lorena Llozhi, Peter Lundkvist, Gunlög Sundberg, Monica Sandell. (2016). SweLL on the rise: Swedish Learner Language corpus for European Reference Level studies. Proceedings of LREC 2016, Slovenia.
Elena Volodina, Ildikó Pilán, Stian Rødven Eide and Hannes Heidarsson (2014). You get what you annotate: a pedagogically annotated corpus of coursebooks for Swedish as a Second Language. Proceedings of the third workshop on NLP for computer-assisted language learning. NEALT Proceedings Series 22 / Linköping Electronic Conference Proceedings 107: 128–144.
BLOGGINLÄGG_______
Elena Volodina (December 2021). God Jul from the Swedish Word Family (https://spraakbanken.gu.se/blogg/index.php/2021/12/20/god-jul-with-the-swedish-word-family/). Blog for Språkbanken Text.
Elena Volodina (April 2021) Swedish derivational morphology with CoDeRooMor (https://spraakbanken.gu.se/blogg/index.php/2021/04/14/swedish-derivational-morphology-with-coderoomor/). Blog for Språkbanken Text.
Elena Volodina (September 2020). How reliable is sense disambiguation in texts by native and non-native speakers? (https://spraakbanken.gu.se/blogg/index.php/2020/09/30/how-reliable-is-sense-disambiguation-in-texts-by-native-and-non-native-speakers/). Blog for Språkbanken Text.
Den svenska L2-profilen (SweL2P) gör det möjligt att uppnå nya insikter och formulera datadrivna hypoteser om svenska som andraspråk. Den kan också användas för undervisning, för att generera prov- och övningsuppgifter, för att utveckla nya kursböcker, för att utveckla CALL (Computer assisted language learning), samt för många andra potentiella scenarier. Projektet har dessutom genererat två UNIKA RESURSER för svenska – Morfemfamiljeresursen och Ordfamiljeresursen – som är de första av sitt slag eftersom de utöver morfologisk analys av orden i ordbildningsmorfem och ordbilningsmönster (t.ex. sammansättning, avledning) också länkar varje morfem (rot, prefix, osv.) till de färdighetsnivåer där de har använts i datan och till användningsstatistik. Den svenska L2-profilen är tillgänglig för alla fr o m april 2023, med möjlighet till att ladda ner filtrerade datauppsättningar.
DE VIKTIGASTE FORSKNINGSRESULTATEN har dokumenterats i ett flertal artiklar och återspeglar komplexiteten i analysen av inlärarspråket och omfattar bland annat insikter om flerordsenheter i L2-svenska (Lindström Tiedemann et al., Submitted-a), om beteendet hos det som vi kallar kärnordförrådet och det perifera ordförråd per kunskapsnivå (Volodina et al., Accepted), om morfologiska mönster och ordfamiljer (Volodina, et al. submitted; 2022a), om ordbildning (t.ex. Ingves och Lindström Tiedemann, Submitted), om forskningsmetoder som kombinerar automatiska och empiriska metoder med crowdsourcing (Alfter et al., 2021; Volodina et al., Accepted; Lindström Tiedemann, et al. 2022) och många andra aspekter av inlärarspråk och forskning om andraspråk.
Projektresultaten PRESENTERADES på flera olika forskningsseminarier, workshoppar, konferenser och i tidskrifter inom alla de mest relevanta forskningsfälten: lingvistik, nordiska språk, inlärarkorpusforskning (LCR, learner corpus research), andraspråksinlärning (SLA), intelligenta system för datorstödd språkutbildning (ICALL), språkvetenskaplig databehandling (NLP), lexikografi och onomastik. Dissemineringen skedde i form av:
* föredrag, poster- och demopresentationer på konferenser
* publikationer i form av konferenspublikationer, tidskriftsartiklar, bokkapitel
* anordnande av workshoppar, möten och evenemang
* inbjudna föredrag, gästföreläsningar och forskningsseminarier
* en doktorsavhandling och flera master-, magister- och kandidatavhandlingar som har skrivits i koppling till projektet.
För att nå ut till allmänheten publicerades ett antal blogginlägg om spännande resultat.
Alla experiment, dataset och verktyg är väl dokumenterade och öppet tillgängliga för andra forskare/projekt. En serie riktlinjer producerades inom projektet och finns tillgängliga, inklusive riktlinjer för annotering av flerordsenheter, för användning av det lexikografiska verktyget LEGATO för arbete med annotering, för annotering av ordbildning, samt en manual för onlineverktyget SweL2P. Sammanlagt har nio (9) rapporter publicerats i riktlinjeserien (se https://spraakbanken.gu.se/en/projects/l2profiles/l2p-project-output).
ARBETSGÅNGEN___________
Syftet med projektet var att få insikter om utvecklingsmönster i svenska hos icke-modersmålstalare på olika färdighetsnivåer. Arbetet har delats upp i flera delar (som beskrivs kort nedan) och bygger på två korpusar: en kursbokskorpus (COCTAILL, Volodina et al. 2014) och en samling inläraruppsatser (SweLL-pilot, Volodina et al. 2016), båda uppmärkta med färdighetsnivåer enligt Gemensam europeisk referensram för språk (GERS/CEFR, COE 2001), dvs. så kallade GERS/CEFR-nivåer.
WP1: Dataförberedelse: korpusar, resurser, verktyg
1. Första steget inkluderade arbete med dataförberedelser:
* För det första utökades SweLL-pilotkorpusen – som beskrevs i Volodina et al. (2016) – med 163 uppsatser som transkriberades och anonymiserades enligt samma riktlinjer som de initiala 339 uppsatserna.
* För det andra annoterades de två korpusarna automatiskt, inklusive lemmatisering, ordklasstaggning, syntaktisk analys, uppmärkning av flerordsuttryck och ordbetydelser.
* För det tredje normaliserades (dvs. språket i texterna ändrades lite för att närmare likna standardspråket) ett antal inlärartexter ur inlärarkorpusen för underlätta jämförelser med förstaspråksdata och ge insikter om huruvida det här skulle förbättra annoteringen av inlärartexter radikalt. Även de här uppsatserna annoterades sedan som i punkten här ovan.
* För det fjärde granskades den automatiska annoteringskvaliteten manuellt på en delmängd av korpusarna för att säkerställa att den automatiska taggningen ger en god grund för fortsatt forskning (Volodina et al., 2022b).
* Slutligen genererade vi olika listor: betydelsebaserade ordlistor, statistiska representationer av grammatiska särdrag (t.ex. substantivböjningar, adjektivböjningar, böjningsmönster, verbkonjugationer, osv.), och statistiska översikter över substantiv- och verbmönster. Alla ord länkades till Språkbankens övriga lexikografiska resurser för att få rikare information om orden, såsom information om böjningsmönster (Alfter, 2021) och i den morfologiska delen av svenska L2-profiler lades senare även länkar till Svenska akademiens ordlistor till.
2. Det andra steget inkluderade manuell annotering av resurserna ovan:
* Alla automatiskt identifierade flerordsuttryck (MWE), såsom "dra slutsatser" ('draw conclusions'), klassificerades i relevanta undergrupper enligt syntaktiska principer (sammanhängande/icke-sammanhängande), lexikala kategorier (t.ex. nominala, verbala, icke-lexikala, etc.) och verbala underkategorier (t.ex. partikelverb, reflexiva verb, etc.) (Lindström Tiedemann et al., Submitted-a)
* Alla ord i de betydelsebaserade ordlistorna analyserades i morfologiska beståndsdelar (t.ex. rötter, avledningsprefix, fogemorfem, etc.) i deras grundformer (Volodina et al., 2021)
* För att stödja (semi-)manuell annotering i stegen ovan, implementerades verktyget LEGATO (Alfter et al., 2019) som användes med framgång.
3. Insatserna i steg 2 visualiserades i verktyget SweL2P, inklusive grafer, frekvensstatistik och faktiska korpusträffar (Volodina et al., 2022c) inklusive:
* En LEXIKAL PROFIL, inklusive böjning av adjektiv, samt komparationsmönster för adjektiv och adverb, flerordsenheter och den betydelsebaserade ordlistan Sen*Lex (Alfter 2021)
* En GRAMMATISK PROFIL, som omfattar 38 verbmönster och 143 substantivmönster (Lindström Tiedemann et al., Submitted-b)
* En MORFOLOGISK PROFIL, som inkluderar ordfamiljer och morfemfamiljer (Volodina et al., Submitted)
WP 2-4. Lexikala, grammatiska och morfologiska kompetenser
Med hjälp av input från WP1, särskilt punkterna (2) och (3), och visualisering från (3), utfördes en rad studier för att upptäcka mönster som är typiska för inlärares kompetens på olika färdighetsnivåer, bland annat:
* den upplevda lexikala svårighetsgraden, som jämfördes mellan L2-talare och L2-experter (Alfter et al., 2021)
* kärnordförråd kontra perifert ordförråd på olika kompetensnivåer (Volodina et al., Accepted)
* flerordsenheter i andraspråksdata (Lindström Tiedemann et al., Submitted-a)
egennamn i andraspråksdata (Lindström Tiedemann, Accepted)
* ordfamiljer, deras ökning från nivå till nivå och hypotetiska effekter av * ordbildningskunskap på ordinlärning (Volodina et al., Submitted)
* prepositioner, passiv, verbfraser och substantivfraser i inlärarspråk (presenterat på konferenser och seminarier men ännu inte publicerat)
* ...och många fler, se projektets publikationslista
Mer information: https://spraakbanken.gu.se/en/projects/l2profiles
LITTERATURLISTA____________
Council of Europe. Council for Cultural Co-operation. Education Committee. Modern Languages Division. (2001). Common European framework of reference for languages: Learning, teaching, assessment. Cambridge University Press.
Elena Volodina, Ildikó Pilán, Ingegerd Enström, Lorena Llozhi, Peter Lundkvist, Gunlög Sundberg, Monica Sandell. (2016). SweLL on the rise: Swedish Learner Language corpus for European Reference Level studies. Proceedings of LREC 2016, Slovenia.
Elena Volodina, Ildikó Pilán, Stian Rødven Eide and Hannes Heidarsson (2014). You get what you annotate: a pedagogically annotated corpus of coursebooks for Swedish as a Second Language. Proceedings of the third workshop on NLP for computer-assisted language learning. NEALT Proceedings Series 22 / Linköping Electronic Conference Proceedings 107: 128–144.
BLOGGINLÄGG_______
Elena Volodina (December 2021). God Jul from the Swedish Word Family (https://spraakbanken.gu.se/blogg/index.php/2021/12/20/god-jul-with-the-swedish-word-family/). Blog for Språkbanken Text.
Elena Volodina (April 2021) Swedish derivational morphology with CoDeRooMor (https://spraakbanken.gu.se/blogg/index.php/2021/04/14/swedish-derivational-morphology-with-coderoomor/). Blog for Språkbanken Text.
Elena Volodina (September 2020). How reliable is sense disambiguation in texts by native and non-native speakers? (https://spraakbanken.gu.se/blogg/index.php/2020/09/30/how-reliable-is-sense-disambiguation-in-texts-by-native-and-non-native-speakers/). Blog for Språkbanken Text.