SweLL - forskningsinfrastruktur för svenska som andraspråk
Forskning inom svenska som andraspråk (L2) har under de senaste åren fått allt större betydelse, bl.a. i samband med den aktuella flyktingsituationen i Sverige och hela Europa. Detta avspeglas i regeringens beslut att genom Skolverket satsa på Nyanländas lärande med ett mål att ta fram bedömningsmaterial för svenska.
SweLL syftar till att skapa en plattform för att samla in, digitalisera, normalisera, lingvistiskt annotera och elektroniskt tillgängliggöra texter skrivna av inlärare av svenska. En sådan textsamling skulle möjliggöra sökningar efter språkliga strukturer som utmärker inlärarspråk, med en normaliserad version till ett urval av texter. För andra språk finns flera andraspråkskorpusar, men de är en bristvara för svenskans del.
Behovet av en sådan infrastruktur är uttalat inom flera områden inom andraspråksforskning: lexikonstudier behöver L2 material för att kunna besvara frågor om hur ordförrådet utvecklas, studier om syntax behöver material för att verifiera hypoteser från experimentella studier, osv.
För att tillgodose bl.a. dessa behov syftar SweLL till att skapa en infrastruktur som består av:
*en portal för datainsamling, både för import från filer och via online övningar
*verktyg för analys av inlärarspråk
*en L2-korpus på ca 600 texter annoterade med bl.a. fel
*sökmöjligheter för L2-material, såsom sökningar på behärskningsnivåer och grammatiska strukturer
Materialet och verktyg kommer att tillgängliggöras genom Språkbanken.
SweLL syftar till att skapa en plattform för att samla in, digitalisera, normalisera, lingvistiskt annotera och elektroniskt tillgängliggöra texter skrivna av inlärare av svenska. En sådan textsamling skulle möjliggöra sökningar efter språkliga strukturer som utmärker inlärarspråk, med en normaliserad version till ett urval av texter. För andra språk finns flera andraspråkskorpusar, men de är en bristvara för svenskans del.
Behovet av en sådan infrastruktur är uttalat inom flera områden inom andraspråksforskning: lexikonstudier behöver L2 material för att kunna besvara frågor om hur ordförrådet utvecklas, studier om syntax behöver material för att verifiera hypoteser från experimentella studier, osv.
För att tillgodose bl.a. dessa behov syftar SweLL till att skapa en infrastruktur som består av:
*en portal för datainsamling, både för import från filer och via online övningar
*verktyg för analys av inlärarspråk
*en L2-korpus på ca 600 texter annoterade med bl.a. fel
*sökmöjligheter för L2-material, såsom sökningar på behärskningsnivåer och grammatiska strukturer
Materialet och verktyg kommer att tillgängliggöras genom Språkbanken.
Slutredovisning
Infrastrukturprojektet SweLL - Swedish Learner Language - hade som mål att lägga en grund för digitalisering av andraspråksforskning genom att
(1) samla in och manuellt annotera uppsatser skrivna av elever som lär sig svenska på olika nivåer från nybörjare till avancerade;
(2) grundligt beskriva annoteringsprinciperna, tagguppsättningen och processen;
(3) utveckla och dokumentera verktyg för bearbetning och lagring av elevers uppsatser;
(4) göra datan och verktygen tillgängliga via en portal avsedd för digitala resurser och verktyg för andraspråksforskning av svenska.
Vi släpper infrastrukturen enligt följande:
* I SweLL-portalen finns mer än 680 uppsatser som har digitaliserats och transkriberats manuellt från handskrivna kopior samt pseudonymiserats för att dölja varje elevs identitet. En större del av uppsatserna (för närvarande 500 texter) har normaliserats och skrivits om till standardsvenska genom att korrigera felaktigt språk. Varje korrigering har tilldelats en etikett som beskriver skillnaden mellan elevens version och den korrigerade versionen.
* Manualer och riktlinjer finns tillgängliga för varje steg i arbetsflödet:
- Riktlinjer för transkription
- Riktlinjer för pseudonymisering
- Riktlinjer för normalisering
- Riktlinjer för korrigering
- Manual för SVALA-användare
- Manual för användare av SweLL Portal
- Anpassade sökningar i korpussökningsverktyget Korp
* Flera verktyg har utvecklats inom projektet och tillgängliggjorts för framtida användare av infrastrukturen (länkar tillgängliga via projektets sida, se nedan):
- SweLL portalen för insamling och lagring av uppsatser, administration av annoteringen, statistisk översikt, import och export av data;
- SVALA-annoteringsverktyg för att utföra manuell annotering från pseudonymisering till normalisering och annotering av korrigeringar;
- Automatisk pseudonymiseringstjänst som också ingår som en del av SVALA-verktyget och är tillgänglig via github för vidareutveckling eller återanvändning i andra projekt
* Omfattande arbete har utförts för att säkerställa att GDPRs riktlinjer och etiska principer följs. Materialets tillgänglighet har setts över i samråd med universitetets jurister. Tillgång till resursen beviljas efter ansökan. P.g.a. GDPR kan användare utanför Europa inte få omedelbar tillgång till resursen utan deras ansökningar måste behandlas av universitetets jurister från fall till fall. Sökande inom EU kan få tillgång till hela resursen förutsatt att deras avsedda användning rör L2-orienterad forskning och utveckling eller pedagogiska tillämpningar.
* Materialet kan sökas i Korp (https://spraakbanken.gu.se/korp/) med specifika sökfrågor för att underlätta filtrering, för att söka i texter skrivna av t.ex. män, skribenter av ett visst modersmål eller med en viss kunskapsnivå, med möjlighet till visning av hela uppsatser.
Mer information och länkar finns på projektsidan: https://spraakbanken.gu.se/projekt/swell
(1) samla in och manuellt annotera uppsatser skrivna av elever som lär sig svenska på olika nivåer från nybörjare till avancerade;
(2) grundligt beskriva annoteringsprinciperna, tagguppsättningen och processen;
(3) utveckla och dokumentera verktyg för bearbetning och lagring av elevers uppsatser;
(4) göra datan och verktygen tillgängliga via en portal avsedd för digitala resurser och verktyg för andraspråksforskning av svenska.
Vi släpper infrastrukturen enligt följande:
* I SweLL-portalen finns mer än 680 uppsatser som har digitaliserats och transkriberats manuellt från handskrivna kopior samt pseudonymiserats för att dölja varje elevs identitet. En större del av uppsatserna (för närvarande 500 texter) har normaliserats och skrivits om till standardsvenska genom att korrigera felaktigt språk. Varje korrigering har tilldelats en etikett som beskriver skillnaden mellan elevens version och den korrigerade versionen.
* Manualer och riktlinjer finns tillgängliga för varje steg i arbetsflödet:
- Riktlinjer för transkription
- Riktlinjer för pseudonymisering
- Riktlinjer för normalisering
- Riktlinjer för korrigering
- Manual för SVALA-användare
- Manual för användare av SweLL Portal
- Anpassade sökningar i korpussökningsverktyget Korp
* Flera verktyg har utvecklats inom projektet och tillgängliggjorts för framtida användare av infrastrukturen (länkar tillgängliga via projektets sida, se nedan):
- SweLL portalen för insamling och lagring av uppsatser, administration av annoteringen, statistisk översikt, import och export av data;
- SVALA-annoteringsverktyg för att utföra manuell annotering från pseudonymisering till normalisering och annotering av korrigeringar;
- Automatisk pseudonymiseringstjänst som också ingår som en del av SVALA-verktyget och är tillgänglig via github för vidareutveckling eller återanvändning i andra projekt
* Omfattande arbete har utförts för att säkerställa att GDPRs riktlinjer och etiska principer följs. Materialets tillgänglighet har setts över i samråd med universitetets jurister. Tillgång till resursen beviljas efter ansökan. P.g.a. GDPR kan användare utanför Europa inte få omedelbar tillgång till resursen utan deras ansökningar måste behandlas av universitetets jurister från fall till fall. Sökande inom EU kan få tillgång till hela resursen förutsatt att deras avsedda användning rör L2-orienterad forskning och utveckling eller pedagogiska tillämpningar.
* Materialet kan sökas i Korp (https://spraakbanken.gu.se/korp/) med specifika sökfrågor för att underlätta filtrering, för att söka i texter skrivna av t.ex. män, skribenter av ett visst modersmål eller med en viss kunskapsnivå, med möjlighet till visning av hela uppsatser.
Mer information och länkar finns på projektsidan: https://spraakbanken.gu.se/projekt/swell