Kirk Sullivan

Identifiering av "imiterade" röster: ett forskningsprojekt med applikationer för rättsväsendet och säkerheten

Runt om i världen inser man vikten av samarbetet mellan jurister och lingvister samt fonetiker. Detta samarbete har lett till skapandet av internationella sammanslutningar, vilka anordnar konferenser och ger ut egna tidskrifter. I Sverige har dock detta forskningsområde inte utvecklats i samma takt. I många länder används de specialkunskaper som lingvister och fonetiker har i rättssalar för bedömning av t.ex. inspelade röster. Detta kan leda till att en person binds till ett brott, eller frias. Rösten är en stor del av vår personlighet och det finns anledning att tro att en person inte kan förändra hela sin talapparat i en sådan utsträckning att en identifiering är omöjlig. Syftet med detta projekt är att definiera och klassificera akustiska korrelat för en perceptuellt lyckad röstimitation, att finna individuella särdrag i rösten som möjliggör identifiering även i förställda/imiterade röster. Resultatet av dessa studier kan få betydelse inte bara för identifiering av röster inom rättsväsendet, utan även för säkerheten i sammanhang där man använder sig av automatisk talaridentifiering. En rad metoder kommer att användas, såsom auditiva och akustiska analyser samt perceptionstest. Ett internationellt nätverk av experter med inriktning på forensisk forskning i såväl England, Tyskland, Australien och USA är knutna till projektet.

Slutredovisning

Kirk Sullivan, institutionen för språkstudier, Umeå universitet

Under projektets löptid publicerade Rikspolisstyrelsen rapporten RPS 2005:2. I denna föreskrivs när en röstkonfrontation i identifieringssyfte kan användas. Vårt arbete siktar mot att förbättra denna typ av bevisning och föreslår att fonetiker skall konsulteras samt att konfrontationer skall ske enligt de direktiv som utgått från Rikspolisstyrelsen. De slutsatser som framkommer i denna rapport bör tjäna som information till polisen i sammanhang som röstkonfrontationer och bevisföring från öronvittnen.

Projektets mål var att definiera och klassificera akustiska korrelat som leder till en perceptuellt lyckad röstimitation, samt att finna de individuella drag i en röst som kan göra det möjligt att identifiera imiterade och förvrängda röster. Under projektets gång fokuserade vi dels på de egenskaper hos lyssnaren som ledde till en försämrad upptäckt av imiterade och förvrängda röster, samt dels på egenskaper hos talare som försvårar identifieringen. Denna infallsvinkel valdes för att avgränsa det antal parametrar som kan användas för att identifiera imiterade och förvrängda röster.

Projektets tre huvudsakliga slutsatser är att: (1) dialekt är en central punkt i talaridentifiering, och att denna med lätthet kan användas för att förvilla en lyssnare; (2) förväntningar ökar en lyssnares benägenhet att acceptera en imitation och (3) att isochunks och formantdynamik fungerar väl vid maskinell talaridentifiering, även då materialet utgörs av korta talsegment.

(1) Vi fann att både när infödda bi-dialektala talare och dialektimitationer av hög kvalité användes var lyssnare oförmögna att identifiera talare som använde sin andra dialekt eller den högkvalitativa imitationen. Detta antyder att det är möjligt att dölja sin talaridentitet med hjälp av att använda en dialekt som man normalt inte har.

De nya frågeställningar som uppkommer ur detta resonemang är (a) hur mycket av måldialekten behöver imiteras korrekt för att talaren skall identifieras som talare av måldialekten snarare än sin ursprungliga dialekt eller någon annan, svårplacerad dialekt; (b) existerar det specifika drag som skapar en så god illusion av en dialekt att andra aspekter av rösten ignoreras; (c) kan talare kännas igen om de byter språk, och (d) hur viktigt är det att lyssnaren kan språket/är bekant med dialekten som imiteras?

(2) En imitation är mer framgångsrik om lyssnarens förväntningar infrias. Detta innefattar både ämnesvalet och idiosynkratiska drag i uttalet. En röstimitation accepteras mer sällan om ämnet som diskuteras är något som lyssnaren inte förknippar med den person vars röst imiteras. En lyssnare har förväntningar, och väntar sig att dessa uppfylls. En avvikelse från det förväntade gör att lyssnaren börjar tvivla på äktheten hos det hörda. Detta replikerades i försök gällande imitationer av känslor i vår undersökning av betydelsen hos akustiska korrelat till känslor, avkodning av semantiskemotion.

Ytterligare frågeställningar som väcks av detta är: (a) kan förväntningar manipuleras experimentellt; (b) kan en perfekt imitation övertyga även om ämnesvalet är oväntat, och (c) hur kategoriserar lyssnare en talarimitations ämnesval som oväntat?

(3) Identifieringen av, och separationen mellan talare och imitationer på basis av små datamängder undersöktes med hjälp av isochunks och formantrörelser. En isochunk är ett kort talsegment som förekommer upprepade gånger i en talinspelning tillräckligt lång för att kunna analysera spektrala rörelser. Vår studie genererade lovande resultat gällande förmåga till diskrimination även för imiterade röster, och visade att metoden var okänslig för röstimitation. Användningen av mätning av formantrörelser visade sig även vara en användbar teknik.

Vidare frågor i anknytning till dessa fynd är: (a) kan metoden förfinas så att den leder till ökad säkerhet i identifieringen av röster i rättsliga sammanhang där röstimitation kan misstänkas och (b) kan denna ansats kombineras med andra metoder där analys av formantrörelser används?


Projektet har för närvarande två artiklar ute för peer-review. Dessa två artiklar summerar och sammanfattar många av projektets resultat och kommer därför att utgöra de huvudsakliga publikationerna förbundna med projektet. Den första, Eriksson, E.J., F. Schaeffler, M. Sjöström, K.P.H. Sullivan & E. Zetterholm. On the perceptual dominance of dialect, är skickad för publicering till journalen Perception & Psychophysics. Artikeln syftar till att utreda om det är möjligt att bortse från den percepierade dialekten under försök att identifiera en tidigare hörd röst med annan dialekt. Artikeln visar att domänspecifik kunskap (exempelvis att själv vara talare av den aktuella dialekten) inte är till hjälp för identifieringen av en talare som ändrat sitt tal till en annan dialekt. Detta resultat är oväntat, och inte förutsägbart med hänsyn tagen till tidigare litteratur i ämnet. Ett annat resultat var att lyssnare inte kunde instrueras till att bortse från dialekter. Detta visar på dialektens vikt och potential som medel att dölja en talares identitet.

Den andra artikeln, Eriksson, E.J., K.P.H. Sullivan, E. Zetterholm, P.E. Czigler, Å. Skagerstrand, J. Green & J. van Doorn. Detection of imitated voices, or who are reliable earwitnesses, är skickad för publicering till the International Journal of Speech, Language and the Law. Artikeln sammanfattar många av de faktorer som projektet har undersökt. Sådana innefattar effekter av förväntningar, regionala dialekter, talares kön och ålder, samt åldersrelaterade hörselnedsättningars betydelse för förmågan att identifiera imiterade röster. Artikeln visar att förväntningar är den viktigaste faktorn och att ålder är en sekundär faktor. Korrigerade hörselnedsättningar har ingen inverkan på ett vittnes kompetens. En domstol skall inte avfärda ett öronvittne bara på grundval av att denne bär hörapparat. I de fall då hörapparaten ger än nära normal hörsel är vittnets utsaga lika giltig som en normalhörande persons. Vi planerar att vidare undersöka sambandet mellan hörselnedsättningar och kvalitén hos öronvittnesutsagor i detalj. Artikeln visar vidare återigen att dialektal bakgrund oväntat nog inte har någon inverkan på resultatet.

De två artiklar av betydelse som redan publicerats är: Zetterholm, E. (2007). Detection of speaker characteristics using voice imitation, och Farrús, M., & Eriksson, E. J., Sullivan, Kirk. P. H., & Herndando, J. (2008). Dialect imitations in speaker recognition. Dessa artiklar illustrerar kärnaspekterna av projektets målsättningar.

Projektet har uppmärksammats och presenterats såväl i en rad populärvetenskapliga presentationer i både lokala och nationella media som vid universitetet under dagar öppna för allmänheten. Projektets framskridande och resultat har även presenterats av medlemmar i projektgruppen under seminarier och föreläsningar vid North Carolina State University, USA; Chulalongkorn University, Bangkok, Thailand; Institute of Linguistics, National Center for Social Sciences and Humanities, Hanoi, Vietnam; the School of Languages, International Studies, and Tourism, University of Canberra, Australia; the Phonetics lab, Department of linguistics, The University of Melbourne, Australia; Haskins Laboratories, Yale University, New Haven, USA; the Department of Linguistics, Cambridge University, England; the department of Philosophy and Linguistics, Umeå University; the Department of Linguistics and Phonetics/ Centre for Language and Literature, Lund University; the department of Linguistics, Göteborg University, och Malmö Högskola.

Då projektgruppens deltagare är placerade vid två olika universitet skapades en intern webbsida för att kommunicera idéer, dokument och planering. Detta visade sig vara en god infallsvinkel för samarbete, då ingen exkluderades från den utveckling och de beslut som rörde projektet. Webbsidan var också ett värdefullt verktyg för att organisera dokument och artiklar där flera författare var inblandade. Projektgruppen har fungerat väl både internt och i samspel med den internationella samarbetsgruppen. Exempelvis så har Elisabeth Zetterholm tillbringat totalt sex månader vid Haskins Laboratories, Yale University, New Haven, USA och Erik Eriksson sex månader vid North Carolina State University, Raleigh, USA tillsammans med Robert Rodman och hans forskningsgrupp

Bidragsförvaltare
Umeå universitet
Diarienummer
K2002-1121:1
Summa
SEK 2 000 000
Stödform
Kultur
Ämne
Annan samhällsvetenskap
År
2002