Tidskoordinering av intonation och gester i talad kommunikation
Tidskoordinering av intonation och gester i talad kommunikation
1. Projektets syfte
Det huvudsakliga målet med projektet var att undersöka den tidsmässiga koordinering mellan tal och gester. Utgångspunkten var att mer specifikt undersöka förhållandet mellan talmelodin (intonation) och gester med hjälp av högkvalitativt ljud, video och rörelsedata som möjliggör automatisk extraktion och analys av gester och prosodiska aspekter av talsignalen. Projektet har koncentrerat sig på detta mål. Initialt undersöktes samordningen mellan huvudrörelser och betonade stavelser. Under projektets gång har arbetet också utvidgats till att undersöka den tidsmässiga samordningen mellan handgester och stavelser som funktionellt signalerar potentiella platser för turtagning i en dialog. Slutligen har nya metoder utvecklats och testats inom projektet för automatisk annotering av större tal- och gestenheter utifrån rörelsedata. Detta för att möjliggöra en mer omfattande undersökning av den temporala samordningen och för att kunna skapa avatarer och robotar med naturliga gester. Projektet hade dessutom en bredare och ett mer allmänt syfte att testa hypotesen att gester och intonation som produceras synkront har samma kommunikativa funktion.
2. Projektets tre viktigaste resultat och ett resonemang om dessa
Ett viktigt resultat som härrör från projektet avser tidssynkronisering mellan huvudrörelser och betonade stavelser. Huvudrörelser som markerar prominens (så kallade ”beat gestures”) börjar i genomsnitt något före den betonande stavelsen. Detta stämmer överens med litteraturen om tidssynkronisering mellan tal och gester. Dessa resultat är särskilt intressanta i jämförelse med de resultat som presenteras i litteraturen eftersom resultaten från projektet erhölls från spontan dialog medan i litteraturen presenteras huvudsakligen resultat från uppläst tal. Tidskoordinering av dessa huvudrörelser med den betonade stavelsen antyder att intonationsrörelsen i den betonade stavelsen och huvudnickningen har en gemensam funktion som är att signalera prominens. Dock uppvisar huvudrörelser större tidsvariation jämfört med intonationsrörelse vilket inte ger stöd för hypotesen att det skulle finnas en gemensam motorisk komponent för att generera både huvud- och intonationsgester samtidigt.
Det andra huvudresultatet gäller tidsförhållandet mellan gester och stavelser som utgör potentiella platser för turtagning i en dialog. En viktig relation mellan gester och turtagning kunde konstateras. När talaren lämnar över turen, slutar gesten innan talsignalen slutar. När talaren vill behålla turen kommer talaren att fortsätta gesten så att den sträcker sig en bit efter talsignalens slut. Dessa resultat tyder på att gester fungerar som en del av det prosodiska turtagningssystemet (tillsammans med duration och intonation) men också att gester kan fungera som oberoende ledtrådar för turtagning.
Det tredje huvudresultatet gäller också handgester och är inriktat mot synkroniseringen mellan gestfraser och längre sträckor av tal, men även innebär metodutveckling. Det tekniska området automatisk tal- och gestdetektering går snabbt framåt, och under loppet av projektet har vi sett en stark trend bort från regelbaserad detektering mot maskininlärning. Våra resultat inom detta område avser utveckling av metoder för att automatiskt detektera och annotera längre gestfraser i spontant tal. Dessa metoder möjliggör en mer omfattande undersökning av den temporala samordningen mellan talfraser och gestenheter. Våra resultat visar att det finns en allmän tendens att tal initieras något före lägre gestfraser. Detta förhållande är i motsats till det som förekommer mellan huvudrörelse och stavelsen.
3. Nya forskningsfrågor som har genererats genom projektet
Det inledande arbetet i projektet har varit att undersöka den tidsmässiga samordningen mellan prosodi och gester begränsad till den betonade stavelsen som tidsdomän. En av de viktigaste och mest spännande nya frågor som genereras av projektet avser samordning mellan prosodi och gester i en längre tidsdomän och med olika funktioner såsom turtagning. Vi har hittat en lös tidsrelation där båda betonade stavelser och turfinala stavelser tjänar som ankarpunkter mellan tal och gester som har en och samma funktion, men vi har också funnit en relativt stor variation och en viss valfrihet när det gäller gesternas tidskoordinering. Hur man kan integrera gester i en fullständig beskrivning av det prosodiska systemet med alla dess funktioner är fortfarande en utmanande fråga.
En annan ny forskningsfråga inom projektet är också relaterad till den längre tidsdomänen. Detta område omfattar utveckling och testning av metoder för att modellera gester med hjälp av en Hierarchical Hidden Markov Model (HHMM) i stället för en regelbaserad metod. Denna typ av modellering har testats och validerats inom projektet, men behöver utökas och förfinas till att också omfatta uppdelning av gester i enheter som gestfraser och gestfaser.
4. Projektets internationella förankring
Projektet har presenterats vid internationella konferenser och fick stor uppmärksamhet vid en inbjuden konferenspresentation vid Cambridge, UK (juni 2015). Projektets resultat har också presenterats som inbjudna föredrag vid forskningsseminarier i Tilburg, Nederländerna (oktober 2015); Utrecht, Nederländerna (juli 2016) och Aix-en-Provence, Frankrike (oktober 2016).
Projektet har varit representerad vid tre konferenser i Sverige och sju internationella konferenser. De svenska nationella konferenser är Fonetik 2013 (12-13 juni 2013, Linköping), The Fifth Swedish Language Technology Conference (13-14 november 2014, Uppsala) och Fonetik 2015 (8-10 juni 2015, Lund). De internationella konferenserna är Tilburg Gesture Research Meeting (19-21 juni 2013, Tilburg University, Nederländerna); The 12th International Conference on Auditory-Visual Speech Processing (AVSP2013) (29 augusti - 1 september 2013, Annecy, Frankrike); Phonetics and Phonology in Europe 2015 (29-30 juni 2015, University of Cambridge, UK); The 14th International Pragmatics Conference (26-31 juli 2015, Antwerpen, Belgien); Speech Prosody 2016 (31 maj-3 juni 2016, Boston, USA); Seventh Conference of the International Society for Gesture Studies (18-22 juli 2016, Paris, Frankrike); och International Workshop on Multimodal Analyses enabling Artificial Agents in Human-Machine Interaction (16 november, 2016, Tokyo, Japan). Konferensbidrag kommer att presenteras på följande tre internationella konferenser i år: International Conference on Multimodal Communication: Developing New Theories and Methods (9-11 juni, 2017, Osnabrück, Tyskland) Phonetics and Phonology in Europe 2017. (12- 14 juni 2017, Köln, Tyskland) och The 15th International Pragmatics Conference. (16-21 juli, 2017, Belfast, Nordirland).
Förutom att allmänt stärka forskningsverksamhet på avdelningen för tal, musik och hörsel vid KTH, har projektet lett till ett ökat samarbete med gestforskare vid Lunds universitet och Köpenhamns universitet särskilt inom projektet "Multimodal levels of prominence" som stöds av Stiftelsen Marcus och Amalia Wallenbergs Minnesfond, där David House är en av projektdeltagarna.
5. Forskningsinformativa insatser utanför forskarvärlden
Projektresultat rörande tal och gester har presenterats vid populärvetenskapliga evenemang i Göteborg som anordnas av SweClarin initiativet. Projektet har också varit i kontakt med Disney Research, USA,
6. Projektets två viktigaste publikationer samt ett resonemang om dessa
Zellers, House & Alexanderson (2016) utgör den viktigaste publikation om tidskoordinering mellan handgester och turtagning. En viktig slutsats är att när talarna gestikulerar i närheten av en potentiell plats för turtagning, kommer gesten att avslutas före talet om talaren vill ge upp turen. Däremot om talaren vill behålla turen, tenderar talaren att fortsätta gesten på ungefär en halv sekund efter slutet av talsignalen. Publikationen rapporterar också resultat som visar en högre och mer variabel intonation när turen avslutas i samband med gester. Dessa resultat tyder på att gester fungerar som en del av det prosodiska turtagningssystemet.
Alexanderson, House och Beskow (2016) är den viktigaste publikation som omfattar utveckling och testning av metoder för att modellera gester med hjälp av en Hierarchical Hidden Markov Model (HHMM). Modellen har tränats på en databas med uppmärkta gester och testats på två olika datauppsättningar. Metoden överträffar tidigare resultat vid en körning på ett allmänt tillgängligt dataset. Resultaten har betydelse för automatisk klassificering av gester för att bygga avatarer och robotar med naturliga gester och gestigenkänningsfunktioner.
7. Projektets publiceringsstrategi samt kommentarer till denna.
Publikationsstrategin har varit att publicera fullständiga refererade konferensrapporter (4), korta refererade konferenspapper (5) och andra konferensbidrag (2). Alla dessa publikationer är fritt tillgängliga på projektets webbsida samt författarnas personliga webbsidor. Två tidskriftspublikationer har lämnats in. Om dessa accepteras, kommer dessa publikationer också att göras tillgängliga på projektets och författarnas webbsidor.