Kriokorpusprojektet: Digitalisering, systematisering och nätpublicering av språkligt material på det engelskbaserade sierraleonska kreolspråket krio
Sedan 1981 har en forskargrupp samlat in språkmaterial på krio, ett västafrikanskt kreolspråk, som i huvudsak talas i Sierra Leone. Någon systematisk sammanställning av detta omfattande material har inte kunnat genomföras, trots att vi under många år använt delar av det i vår forskning. syftar till att, genom en sådan systematisk sammanställning, skapa en språklig databas innehållande texter på krio. I korpusen skall material, muntligt och skriftligt, från en mängd olika genrer och media, inkluderas. Projektet omfattar fyra faser: (1) materialinsamling, (2) digitalisering, (3) systematisering och (4) nätpublicering.
Under insamlingsfasen kommer dels vårt redan befintliga kriomaterial att inventeras och sammanställas, dels nytt material att samlas in. I digitaliseringsfasen förs det material - även inspelat ljud- och/eller videomaterial digitaliseras och transkriberas - som inte redan är digitaliserat över till databehandlingsbar form. Systematiseringen av materialet innebär indexering för enkel åtkomst, taggning av text samt uppbyggandet av en övergripande struktur för korpusen. Nätpublicering, fas fyra, innebär att kriokorpusen tillgängliggörs för forskarsamfundet i form av en webbplats hos Institutionen för moderna språk, Umeå universitet. Denna kriokorpus skall kunna bidra till att utveckla kreolistiken i allmänhet men i synnerhet till författandet av en grammatik över, och läroböcker i, krio.
Johan Nordlander, institutionen för moderna språk, Umeå universitet
INLEDNING
Kriokorpusprojektets uttalade huvudsyfte är att tillhandahålla forskarsamfundet en sökbar nätbaserad språklig databas, ett konkordansprogram, i vilken en tillräckligt stor mängd språkmaterial ingår. Dessutom är denna databas dynamisk på ett sådant sätt att det är möjligt att kontinuerligt inkludera nytt material och acceptera nya användare på ett enkelt sätt. Databasen, the Umeå Krio Corpus (UKC), administreras av Umeå Krio Research Centre (UKRC) vid avdelningen för engelska vid Institutionen för moderna språk, Umeå Universitet, och är idag på försök tillgänglig för intresserade forskare och har adressen: http://creole.mos.umu.se:8080. Vid sidan om UKC, driver vi även UKRCs webbplats http://www.krio.db.umu.se som har som huvudsyfte att befordra intresset för kriospråket och den kultur som är förknippad med detta språk
KORPUSETS ÖVERGRIPANDE STRUKTUR
I korthet kan korpusets struktur beskrivas på följande sätt:
Kärnan i UKC utgörs naturligtvis av kriotexter, som i första hand systematiserats och organiserats enligt en genreprincip. För närvarande ligger texter ur sex genrer i UKC: "Biblical", "Drama", "Officialese", "Poetry", "Proverb" samt "Short Story". Alla texterna är också indexerade för att användaren enkelt ska kunna söka rätt på den större kontexten där sökträffen förekommer.
Del nummer två i UKC utgörs av själva sökmotorn som används av databasens konkordansfunktion. Sökmotorn är alltså det verktyg som används för att ta fram den information användaren vill ha ur korpusets texter.
En tredje central del av UKC är en data- (export-)funktion som tar sökresultatet och exporterar detta för vidare behandling; statistisk, textmässig, etc. UKC kompletteras dessutom av en helt unik direktkommunikationsfunktion, en så kallad "chat", som startar automatiskt när en användare loggar in (se nedan, avsnitt 4.4). Syftet med denna chat är att förenkla den support (kontakt mellan korpusets administratörer och dess användare) som oundvikligen alltid krävs för att saker och ting ska fungera på ett optimalt sätt. Dessutom möjliggör chatten även direkta on-linesamtal mellan de användare som är inloggade.
KORPUSETS TEXTER OCH DESS ANVÄNDARE
Texter
Allmänt om texterna
I dag innehåller korpuset 43 stycken texter (så kallade "articles") fördelade över de sex olika genrer som nämns ovan i avsnitt 2. Det totala antalet ord uppgår till ca 347600. Dessa texter är indexerade på ett sådant sätt att det är möjligt för användaren att enkelt leta upp träffens större kontext, förutsatt att man har tillgång till de tryckta versionerna av korpusets texter. Förutom de 43 texter som redan finns i korpuset besitter vi också en stor mängd ännu icke digitaliserade texter vilka kommer att inkorporeras i korpuset fortlöpande.
Textinsamling
De texter vi i dagsläget har inkorporerat i korpuset har till största delen samlats in under många år, under 80- och 90-talen, men även ett antal av de texter som samlats in under projektets löptid, det vill säga 2003 - 2004, har hunnit normaliseras och sedan inlemmats i korpuset.
Under vårvintern 2003 företog två av projektets medarbetare resor till Sierra Leones huvudstad Freetown och till Gambia (eftersom det även där finns ett stort antal kriotalare, både infödda gambier men även flyktingar från Sierra Leone). Syftet med dessa resor var främst att samla in nytt material (både i form av skrift, men också i form av inspelad, talad krio), men också för att på plats kunna orientera sig om den generella situationen i Sierra Leone efter inbördeskriget. Resultatet av dessa resor är att vi nu besitter, och dessutom fortlöpande kommer i besittning av, en stor mängd nytt kriomaterial, av vilket en mycket liten del har hunnit normaliseras och införlivas i UKC. Bland annat har vi ca 20 timmar videoinspelningar, i vilka krio används, som vi inte hunnit transkribera ännu.
Ett ytterliga resultat av dessa resor är att vi på detta sätt har kommit i kontakt, eller förnyad kontakt, med ett antal krioforskare, författare och andra drivande krafter dels när det gäller språkets standardisering, dels när det gäller befrämjandet av dess ställning i det sierraleonska samhället. I och med dessa nya kontakter har vi dessutom kunnat öka vår kriokompetens och -förståelse.
Normalisering av texterna
En av projektets absolut tyngsta arbetsuppgifter, som också resulterat i en viss fördröjning när det gäller den planerade tidpunkten för den allmänna publiceringen av vårt korpus, har varit/är att normalisera de insamlade texterna. Denna normalisering gäller främst stavningen och kan sägas vara essentiell för en databas innehållande språk av krios typ, språk som ännu har en bit kvar på vägen mot ett generellt konsensus gällande normering och standardisering av sin struktur och sina stavningskonventioner.
Anledningen till att man måste ställa extra höga krav på normaliseringen i samband med undersökande forskningsinsatser (såsom arbetet med UKC) för denna typ av unga, ej ännu fullt ut stabiliserade och konventionaliserade språk, är att en databas som UKC omedelbart kommer att uppfattas som normledande och -styrande.
En ytterligare komplikation med att normalisera texterna har varit/är det faktum att det inte bara gäller normalisering utan ofta även rent redaktionellt arbete med dem. Till exempel måste varje text gås igenom och kontrolleras med avseende på inkorrekt grammatik, inkorrekt användning, idiomaticitet, etc.
Den stavningskonventionsmodell vi har som norm är den som används i Fyle & Jones (1980) A KRIO-ENGLISH DICTIONARY och av The Bible Society in Sierra Leone i deras översättning av Bibelns Nya Testamente, GUD NYUS FOH OHLMAN.
I detta sammanhang är det också värt att notera att ett antal av de texter som vi tidigare publicerats inom ramen för vår publikationsserie KRIO PUBLICATIONS SERIES (http://www.eng.umu.se/forskning/linguistics/krio_pub_series.asp) har genomgått en revidering med avseende på just normaliseringen av ortografin.
Användare
UKCs målgrupp
UKC vänder sig främst till (a) de kreolister som har ett komparativt intresse för krio; (b) de kreolister och andra språkvetare som är specialiserade på just krio; samt (c) allmänlingvister som vill veta mer om språket. För närvarande kan de registrerade användare vi har sägas höra till de två första kategorierna.
För att informera om UKCs existens och locka användare har vi deltagit vid två kreolistikkonferenser, vid "The 6th Creolistic Workshop i London (15 - 17 april 2004)" och "The 7th Creolistic Workshop i Giessen, Tyskland, (6 - 8 april, 2006)". Vid dessa tillfällen diskuterade vi databasen med intresserade kreolister och knöt dessutom nya kontakter med för oss tidigare okända krioforskare.
Användarkontot
För att kunna använda UKC krävs det att man registrerar sig som användare "user". Detta är en enkel process och är för närvarande helt kostnadsfritt (Vi kan komma att behöva ta ut en viss årsavgift i framtiden dock.) En presumtiv användare som besöker UKCs inloggningssida (som också är korpusets förstasida) och går igenom de texter som ligger där uppmanas i första hand att skicka epost till krio@engelska.umu.se för att erhålla ett UKC-konto. Samma sida informerar också om webbläsarkompabilitet, kriobokstäver och tangentbord, Umeå Krio Research Centre samt RJs roll i finansieringen av korpuset.
När man senare fått sitt konto, som innehåller användarnamn "name", skärmidentitet för chat-funktionen "screen name", samt lösenord "password", kan användaren logga in för första gången och i samband med detta läsa igenom och godkänna användaravtalet "end user licence agreement".
TEKNISKA LÖSNINGAR
Webbapplikationen
Själva motorn i vår nätpublicerade sökbara databas är en webbapplikation byggd med utvecklingsplattformen Ruby on Rails (http://www.rubyonrails.com/). Ruby on Rails är dessutom "open-source" och alltså kostnadsfritt.
All inmatad information (användardata, texter, etc.) lagras i en relationsdatabas av typen PostgreSQL (http://www.postgresql.org/). Denna lösning garanterar skalbarhet (det vill säga, mängden data utgör ingen begränsning utan databasen kan växa dynamiskt när nya texter och nya användare läggs till), integritet (datasäkerhet) och höga prestanda. Vi har dessutom byggt in möjligheten att använda andra typer av databaser i applikationen, bland andra, SQLite, MySQL och Oracle. Användandet av PostgreSQL gör att texterna kan kategoriseras på olika sätt (i dagsläget framförallt enligt genretillhörighet, se avsnitt 3.1 ovan), vilket görs med hjälp av så kallade kopplingar i relationsdatabasen.
Unicode UTF-16
UKC har stöd för ett flertal olika teckenkodningar (US-ASCII, UTF-8, UTF-16 m.m.), av vilka framförallt Unicode UTF-16 är viktig eftersom användandet av denna kodning gör det möjligt, dels för databasen i sig själv, dels för de webbläsare (Safari, Explorer, Firefox, etc.) som ska interagera med databasen, att använda krios speciella ortografi som bygger på det latinska alfabetet med ett tillägg av två (tre) bokstäver hämtade ur IPA:s fonetiska alfabet. I korthet innebär detta att det är möjligt för användare från varsomhelst i världen att aktivt arbeta med och mot vårt korpus. Det enda som krävs är att man använder ett något så när modernt operativsystem (Microsoft Windows XP eller Mac OS X) på sin dator, samt installerar ett lämpligt programvarustöd som möjliggör användandet av olika teckenkodningar i sitt system.
Att göra korpuset helt Unicode UTF-16-kompatibelt har också följder för de texter som inkorporeras i korpuset i och med att dessa måste vara UTF-16 textfiler. Vi har dock, som nämns ovan, byggt in möjligheten att använda rena ASCII-textfiler i korpuset om detta skulle visa sig nödvändigt.
XML-kod
Databasen och konkordansfunktionen stöder två textformat: Ren text (.txt-filer) och ett UKC-specifikt XML-schema.
Metadata kopplad till korpusets textfiler är skriven med så kallad XML-kod (extended markup language) vilket gör att information som inte är direkt språkligt intressant för användaren på ett mycket enkelt sätt kan infogas direkt i själva texterna. I första hand används textfilernas metadata till att ge extra information om textinnehållet såsom författare, indexeringskoder, copyright-anmärkningar, hyperlänkar till andra webplatser, etc. Generellt sett är denna typ av information placerad i en så kallad "header" som ligger i början av textfilerna. Vidare är denna information kopplad till texternas indexering och redovisas i sökresultatet genom att sökträffens index är klickbart, vilket öppnar ett nytt fönster som innehåller de metadata som är kopplade till texten i fråga.
Användandet av XML-kodad metadata gör också att det är relativt enkelt att märka upp delar av de texter som ingår i korpuset. På så sätt kan man bland annat tala om ifall ett stycke inuti en text, till exempel ett förord, är skrivet på ett avvikande språk (exempelvis engelska) när resten av texten är på Krio.
Det är naturligtvis också möjligt (om än tidsödande) att använda XML-kodning för att inkludera indirekt intressant, rent språkvetenskaplig information, såsom ordklass-, satsdels- och morfologisk information etc., i texterna, (så kallad taggning).
Vid sökning och konkordering läser konkordansverktyget av all eventuell XML-information och hanterar denna på det tänkta sättet.
UKCs Chat
I samband med att användaren loggar in till UKC öppnas ovan nämna (se avsnitt, 2. ovan) integrerade chat där alla samtidigt inloggade användare kan kommunicera med varandra. Chatten är baserad på AJAX (http://en.wikipedia.org/wiki/Ajax_(programming)) (Javascript), ett speciellt sätt att utveckla interaktiva webbapplikationer.
SÖKMOTORN -- KONKORDANSVERKTYGET
Den teknik som konkordansverktyget använder är av ett relativt avancerat slag och möjliggör sökningar med hjälp av reguljära uttryck ("regular expressions"), vilket innebär att man kan söka dels på enkla fraser såväl som på komplicerade mönster. Inbyggd i verktyget finns också funktionalitet för att "bygga" reguljära uttryck med hjälp av menyer. Kort innebär detta att användaren enkelt kan bygga egna sökmönster utan att behöva lära sig avancerad söksyntax. Även denna del av UKC är baserad på AJAX (se ovan, avsnitt 4.4).
Sökning
Sökningar i korpuset kan göras på endera av två sätt: för det första är det möjligt att helt enkelt göra en enkel sökning ("quick scan") i en valfri text ("article") från huvudsidan. För det andra kan man klicka sig vidare till sidan för avancerade sökningar ("advanced scan") som möjliggör mer komplexa sökningar.
Enkel sökning
Vid en "quick scan" har man inte möjlighet att bygga några komplicerade "regular expressions" utan är hänvisad till att använda ett sökmönster som går att skriva in direkt i sökformuläret. Man kan dessutom endast söka i en enda text med enkla sökningar. Dock redovisas sökresultatet för enkla sökningar i fönstret för avancerad sökning, vilket innebär att det är relativt enkelt att utöka och utveckla sitt sökande med mer avancerade sökmönster, och på fler än en text.
Avancerad sökning
En "advanced scan" tillhandahåller en betydligt kraftfullare samling sökverktyg för att bygga "regular expressions" och styra sortering och visning av sökresultat. I en avancerad sökning kan ett valfritt urval av texter användas. Det är möjligt att dels söka i speciella genrer eller i speciella texter, eller kombinera dessa två typer av urval.
Möjligheterna att skapa "regular expressions" är mycket omfattande. Användaren kan välja att söka på hela ord och fraser ("literal"), med jokertecken ("wild cards"), enskilda bokstäver ("word character"), ordgräns ("word boundary"), etc., och olika kombinationer av dessa. Ytterligare parametrar som kan ställas för avancerad sökning innefattar även del av ord ("substring matching") och skillnad mellan stora och små bokstäver ("case sensitive").
Sökresultat
Resultatet av sökningen redovisas i första hand direkt i webbläsaren på datorskärmen (se 5.2.1) och sedan har man möjlighet att exportera sökresultatet till sin egen dator (se 5.2.2). Det grundläggande formatet för resultatredovisning är femställigt:
[index] : antal träffar på raden : föregående kontext : sökfras : efterföljande kontext.
[JS1:A5:S1:ANT:80:2] : 1 : we yu : bin : ala.
Indexträffen [JS1:A5:S1:ANT:80:2] ska tolkas som följer.
[JS: ... ] visar att texten det handlar om är JULIOHS SIZA.
[ ... 1: ... ] talar om att detta är korpusets huvudversionen ("main") av texten.
[... A5:S3: ... ] indikerar akt 5, 1:a scenen i detta drama.
[ ... ANT:80:2] pekar på på Marcus Antonius' andra replik på sidan 80 i den tryckta utgåvan av dramat.
Själva sökträffens innehåll (med kolon här tillagda av tydlighetsskäl): 1 : we yu : bin : ala., tolkas som följer:
1, är det exakta antalet träffar.
we yu, är den kontext som föregår sökordet.
bin, är sökordet.
ala, är den kontext som följer på sökordet.
Redovisning på skärm
I samband med att man skapar sin avancerade sökning (se ovan 5.1.2) ställer man även in hur man vill att sökresultatet ska redovisas. För detta väljer bland fem parametrar: matchad textsträng ("matched string"), föregående ord ("previous word"), följande ord ("next word"), index samt och radnummer ("line number").
Redovisning genom export
När man väl har sitt sökresultat uppe på skärmen kan man också välja att skicka detta resultat till ens egen dator (så kallad export), via den epostadress man uppgav när man anhöll om sitt UKC-konto, för vidare behandling i text- eller ordbehandlare, kalkylprogram eller webbläsare. För detta ändamål använder UKC tre olika filformat. För det första kan välja att exportera ren tabavgränsad text (*.TXT). För det andra finns möjligheten att exportera en Microsoft Excelfil (*.XLS). Det tredje exportformatet är "hypertext markup language" (HTML) som kan öppnas direkt av vilken webbläsare som helst.
KOMMENTARER TILL PROJEKTETS URSPRUNGLIGA UPPLÄGG
I Kriokorpusprojektets ursprungliga form var det tänkt att ytterligare tre "komponenter" skulle utarbetas: Databasen skulle göras tillgänglig på CD-ROM och/eller DVD; ljudfiler skulle kopplas till texterna i databasen; texterna skulle taggas med lingvistisk metainformation.
Av olika orsaker finns dessa tre egenskaper inte med i bilden i dagsläget och nedan diskuterar vi dessa tre komponenter.
CD-ROM och DVD
I fråga om att publicera UKC på CD-ROM och DVD hade tiden sprungit ifrån denna idé redan vid tiden för projektets inledning. Möjligheterna att administrera och underhålla ett korpus och de nödvändiga verktygen (konkordansverktyget, till exempel) på ett dynamiskt och flexibelt sätt är naturligtvis ytterst begränsade om mediet för att föra ut korpuset består av fixerade (om än flyttbara) brända skivor. Genom att använda internet och den dynamik, flexibilitet och öppenhet webbpublicering och webbapplikationer medför ökar man möjligheterna dels (a) att underhålla, uppdatera och uppgradera korpuset, dels (b) att nå så många användare som möjligt. I detta fall var alltså valet mycket enkelt: ingen publicering medelst CD-ROM och DVD.
Ljudfiler
När det gäller (kopplade) ljudfiler är situationen annorlunda. Här handlar det om vad som är som är praktiskt möjligt att göra och i detta fall underskattade vi vissa svårigheter med denna typ av koppling. Visserligen är själva XML-märkningen med länkar till ljudfilerna från texterna inte speciellt komplicerad att utföra. Problemet är att på ett praktiskt sätt och med ett användbart resultat koppla relevanta DELAR av ljudfilerna till de sökträffar man får i korpusets texter.
Dock håller vi i dagsläget på att koppla ljudfiler till de texter i korpuset som har genretillhörigheten "proverb" eftersom dessa är så pass korta och inte ingår i några längre textsträngar.
Taggning
Att märka upp textfiler med metainformation angående olika typer av grammatisk och strukturell information, så kallad taggning, förutskickades i den ursprungliga projektbeskrivningen men det långt viktigare normaliseringsarbetet (se ovan, avsnitt 3.1.3) av texterna har till dags dato fått högre prioritet. Vi räknar för närvarande inte med att kunna tagga hela korpuset, utan våra reviderade planer angående detta innebär att vi kommer att tagga några texter, som bedöms vara representativa för språket, framför allt för att möjliggöra för allmänlingvister att bilda sig en uppfattning om språket och dess grammatiska struktur. Lämpliga texter i detta sammanhang är nån eller någon av texterna ur Nya Testamentet, någon av dramatexterna, samt ett urval av ordspråken.
UKCS FRAMTID
I dagsläget har vi börjat få ett ökande antal registrerade användare av korpuset, så kallade "account holders", och glädjande nog ingår några av de främsta forskarna i kreolistfältet bland dessa. Under en testperiod fram till 2006-12-31 kommer dessa att ha fri tillgång till en begränsad del av korpuset. Det är dock inte helt enkelt att uppskatta exakt hur mycket och till vad dessa använder UKC. Vi kräver dock med att man refererar till UKC och till RJ i de fall då data hämtade ur korpuset utgör del av empirin i dessa forskares vetenskapliga produktion. Detta krav finns redovisat i det "end user licence agreement" dokument som användarna godkänner första gången de loggar in till UKC.
Medarbetarna vid Umeå Krio Research Centre arbetar (genom att använda den så kallade "kompetensutvecklingstiden" till detta) kontinuerligt med att (a) leta, samla in och normalisera kriotexter och (b) indexera och i korpuset inkorporera dessa texter. Dessutom fortgår naturligtvis arbetet med att förbättra och förnya själva webbapplikationen som är själva hjärtat i UKC.
All nödvändig datakraft tillhandahålls och betalas av Institutionen för moderna språk, vilket innebär, dels att förefintlig maskin- och programvara bekostats och underhålls av institutionens fast anställde datatekniker, dels att de framtida (med tiden helt nödvändiga) uppgraderingar av både maskinpark och programvara kommer att finansieras av institutionen.
Publikationslista
Dyrvold, Kristian, Sulayman Njie, Johan Nordlander & Neville Shrimpton. Eds. 2002 - . NetNotes on Krio. Net Publication: (http://www.eng.umu.se/forskning/linguistics/Krio/Krio_net_notes.asp). ISSN 1652-7801. Department of Modern Languages, Umeå University.
Nordlander, Johan.2004. "The Basics of Main Clause Temporal Marking in Krio". NetNotes on Krio 2004:1. Net Publication, Department of Modern Languages, Umeå University.
Nordlander, Johan. In print. "The Metonymic Element in Krio Conceptualization. The Cases of BIF and BUSH". In Perspectives on Metonymy. Ed by Kosiecki, Krzysztof. Peter Lang: Frankfurt am Main.
Umeå Krio Corpus (UKC). http://creole.mos.umu.se. Website. Department of Modern Languages, Umeå University.
Umeå Krio Research Centre (UKRC). http://www.krio.db.umu.se. Website. Department of Modern Languages, Umeå University.