Modelling interactive language learning
Detta projekt är ett tvärvetenskapligt forskningsprogram med avsikt att skapa begreppsmässiga modeller för hur olika biologiska, ekologiska och lingvistiska faktorer påverkar språktillägnandet. Utgångspunkten är att barnet inte har någon medfödd språklig kunskap. Tillägnandet av omgivningens språk anses bygga på allmängiltiga perceptuella processer och minnesprocesser vilka är gemensamma för både människor och andra däggdjur. I projektet kommer experimentella tekniker att användas för att undersöka tidigt tal- och språktillägnande parallellt med beteendestudier av enkla inlärningsprocesser hos djur. Data från joller- och talproduktion från spädbarn och småbarn, kommer att samlas in och analyseras för att undersöka antagandet om kopplingar mellan barnets produktions- och perceptionspreferenser. Sampel mellan longitudinella data och tvärsnittsdata kommer att integreras med data från vuxnas adaptiva fonetiska och lingvistiska strategier gentemot barnet. Slutligen kommer tekniska modeller att framställas som ett medel för implementering och testning av de hypoteser som genererats av de experimentella studierna. Genom att använda matematiska modeller för att simulera tal- och språktillägnandesprocesser förväntas detta tvärvetenskapliga och internationella forskarlag att kunna bedöma den relativa vikten av olika komponenter i denna högt integrerade inlärningsprocess. Projektets resultat är av principiell betydelse för utveckling av intelligenta system för informationsbehandling och kan förhoppningsvis även utnyttjas för behandlingsprogram vid avvikande kommunikationsutveckling hos barn.
Project’s goals and deviations from the program
The project Modeling Interactive Language Learning (MILLE) aimed at achieving mathematical models for how the infant’s general sensory, memory and action abilities may lead to the discovery of the ambient language’s linguistic structure. The models were expected to show how initially general representations of the sensory input typically assessable to infants in their ecological context of interaction with speakers of the ambient language can lead to emergent linguistic structure as a result of the infant’s recurrent exposure to multisensory input and own actions.
The project followed the work plan in all its main aspects except on the experimental work with animal models. We have partial data from animal experiments that match the infant and adult studies but we still need to run more subjects to have enough data for publication. This was due to unexpected health problems and death of the animals when they already had gone through the long training periods required to achieve criterion performance on the speech tasks.
Results
High quality video and audio recordings from 35 infant-adult dyads were made at Stockholm University’s Phonetics Laboratory, where the recording studio was adapted to create a naturalistic environment while preserving optimal acoustic characteristics. A total of 145 recordings were made, including 14 with technical problems. Most dyads participated in 5 longitudinal recording sessions (once per month) and one dyad contributed with 11 recording sessions. The most representative sessions have been transcribed for publication in the CHILDES database. The project’s general theoretical model has emerged from insights provided by this recorded longitudinal data, speech perception experiments with infants and adults and the computational simulations carried out on the available data.
The project’s three most important results are:
• A theoretical approach that views the early language acquisition process as an emergent consequence of the infant’s exposure to repetitive utterances linked that are linked to objects or actions available in the infant’s ecological setting
• Empirical demonstrations of the infant’s capacity to derive linguistic referential functions from the implicit correlations between recurrent auditory stimuli and other correlated sensory information also available to the infant
• A deeper understanding of the role of implicit feedback and variance in category learning
Computational modeling of early language acquisition
A computational model using only the acoustic characteristics of the audio signal available to young infants in ecologically relevant adult-infant interaction settings was created (Salvi, 2006; Salvi, 2005; Lacerda, 2009; Lacerda & Sundberg, 2006; Lacerda, 2006; Lacerda et al., 2004). The model shows that the variance in the acoustic characteristics of the speech signal is likely to provide enough information to establish phonetically meaningful hierarchical segmentations of the speech stream available in the infant’s ecological setting. This is important because the model has no built-in knowledge of the nature of the phonetic categories nor does it assume that speech is essentially different from other concurrent acoustic events in the infant’s immediate environment. While emphasizing the importance of the adult speaking styles towards infants at different developmental stages, this approach reaches behind the prosodic characteristics of parentese and focuses instead on the highly repetitive structure of the speech directed to young infants. This notion is supported by our longitudinal recordings. Adults addressing 3-4 month-old infants tend to use many recurrent acoustic patterns in combination with visual or tactile presentations of objects in the infant’s neighborhood. As the infant shows signs of grasping the meaning of some words (like “mamma” or “papa”, towards the end of the first year of life), the adult tends to adopt more explanatory strategy whereby new concepts are introduced and developed by rephrasing previous sentences and relating to other concepts rather than just repeated in phonetically similar utterances. Also the infant’s own actions are crucial for the language acquisition process. They disclose the infant’s beliefs and provide a basis for negotiating with the adult the meaning of utterances. The adult’s acceptance of the infant’s utterances depends critically on the perceived maturation level of the infant and a hierarchy of phonetic variables underlying the adult-infant mutual imitation of utterances and negotiation on the phonetic accuracy of the infant's utterances was discovered (Gustavsson, 2009). It suggests that the adult uses an incremental guidance strategy whereby the infant receives age-related differentiated feedback that does not reflect the general mismatch between the infant and the adult forms but rather the type of phonetic variable involved in the mismatch at a given age.
A more realistic audio-visual model integrating recurrent multi-sensory patterns available in the infant's ecological setting (Hörnstein, J., L. Gustavsson, et al., 2010) was implemented in a robotic infant model, resulting from further collaborative work with VISLAB, IST, Lisbon, Portugal.
Speech category learning
Infants
Several studies of infant speech perception and learning were carried out within the project. The two major outcomes are:
• 8-10 month-old infants can derive linguistic referential functions from implicit relationships between repetitive connected speech and events available in the infant’s ecologic setting after 1 minute of experience (Lacerda, Sundberg, Klintfors, & Gustavsson, 2009; Klintfors & Lacerda, 2006).
• “Innate phonetic knowledge” (Kuhl & Meltzoff, 1982) may result from general neuro-sensory representation processes rather than from specialized speech perception mechanisms. This new research question is currently being investigated.
We have also initiated an investigation on how the infant’s perception of speech categories is affected by the non-speech acoustic contexts preceding these categories. These context effects are robust in adult listeners (Holt, 2006a; 2006b) but it is not yet known if the effect is due to experience with language or a general processing mechanisms.
Adults
To study the role of feedback in early language learning, we developed an innovative new paradigm to teach listeners sound categories incidentally, without their knowledge of the categories, an explicit intention to learn sound categories, or explicit feedback. Specifically, we developed a space-invaders-style videogame with visual creatures, each associated with a category of sounds (Wade & Holt, 2005). The sounds were designed to model some of the multidimensional complexity of speech categories, without sounding like speech. To succeed in the game, participants had to learn to anticipate the appearance of an alien and prepare for appropriate action before the alien was visible on the screen. Similar to the process of learning to treat acoustically distinct speech signals as members of the same speech category, listeners gradually learned that perceptually discriminable creatures’ sounds were functionally equivalent in the game. There was no explicit feedback and participants were not aware of the category learning task, but sounds served a function. After 30 minutes of game play, listeners’ responses indicated significant category learning and generalization to novel sounds. We have also exploited neuroimaging methods to demonstrate that learning to categorize non-speech sounds in this way recruits brain regions typically associated with speech processing (Leech, Holt, Devlin and Dick, 2009) and warps the perceptual space in a manner similar to that observed among infants learning native-language speech categories (Liu and Holt, 2010).
To get a more realistic simulation of the infant’s early language learning situation, we substituted the segmented, single non-speech sounds associated with spectrally rotated versions of “alien sentences” recorded by a female native-English speaker (e.g., Shoot the _____one!, _____ is the enemy, Look out for the ____ one, etc., where the blanks in each sentence were replaced by the words “red”, “green”, “white” and “blue”). The spectrally rotated sound is unintelligible as speech and, indeed, sounds nothing like a human voice. Yet, it preserves the acoustic complexity and regularity of the sound patterns and thus is, in principle, learnable.
Results from experiments where one sentence was repeatedly played within each trial show a modest but significant 33% correct response level relative to the 25% random level. New data are being collected where different but related sentences are played within a trial. The performance level is expected to rise since it should be easier for the subjects to identify the recurrent common word when the rest of the sentence varies.
Future research
We aim at using the game and eye-tracking technology from MILLE to conduct further studies on how variability in phonetic, lexical and syntactic dimensions influences learning and on how auditory and visual information interacts during the linguistic category formation processes.
Five PhD theses were produced during this research project (three in Sweden and two in USA).
============================================================================
Projektets mål och avvikelser från programmet
Projektet ”Modeling Interactive Langauge Learning (MILLE) syftade till att bilda matematiska modeller som visar i vilken utsträckning spädbarnets allmänna sensoriska-, minnes- och handlingsförmågor kan förklara barnets upptäckt av det omgivande språkets lingvistiska struktur. Modellerna skulle visa hur grundläggande generella sensoriska representationer som förekommer i spädbarnets typiska ekologiska kontext av interaktion med vuxna kan leda till upptäckt av emergent lingvistisk struktur till följd av spädbarnets erfarenhet av återkommande multisensoriska stimuli i kombination med barnets egna handlingar.
Projektet följde planen i alla väsentliga delar utom det experimentella arbetet med djurmodeller. Djurdata, som skulle matcha de experimentella studierna med spädbarn och vuxna, är ofullständiga och måste kompletteras inför publicerbar rapporter. Försöksdjuren drabbades av en rad oväntade sjukdomar och dog när de hade genomgått den långa träningsperioden som krävs för att uppnå baskriterierna för testning.
Resultat
Högkvalitets video- och audioinspelningar gjordes på 35 föräldra-barn par. Inspelningarna gjordes i Stockholms universitets Fonetiklabb, som hade inretts för att skapa en naturalistisk inspelningsmiljö med optimala akustiska egenskaper. Det gjordes 145 inspelningar, varav 14 drabbades av tekniska problem. Majoriteten av barn deltog i 5 longitudinella inspelningar (en per månad) och ett barn har spelats in 11 gånger. De mest representativa sessionerna har transkriberats för publikation i CHILDES databas. Projektets allmänna teoretiska modell genererades ur insikter från dessa longitudinella inspelningar, talperceptionsstudier med spädbarn och vuxna samt numeriska modeller och simuleringar baserade på dess empiriska data.
Projektets tre viktigaste resultat är:
• En teori som presenterar den tidiga talspråksutvecklingen som en emergent konsekvens av spädbarnets exponering till repetitiva yttranden, länkade till föremål eller handlingar i spädbarnets ekologiska miljö
• Empiriska demonstrationer av spädbarnets förmåga att härleda lingvistisk referentiell funktion ur implicita korrelationer mellan återkommande hörselstimuli och annan korrelerade sensorisk information som samtidigt är tillgängliga för spädbarnet
• En djupare insikt om den implicita återkopplingens och variansens betydelse för kategoriseringsprocessen
Numeriska modeller av tidig talspråksutveckling
En numerisk modell av hur tidig talspråksutveckling delvis kan förklaras av det barnriktade tal som spädbarnet exponeras för i sin ekologiska miljö föreslås (Salvi, 2006; Salvi 2005; Lacerda 2009; Lacerda & Sundberg, 2006; Lacerda 2006; Lacerda et al., 2004). Modellen visar att akustisk variation i talsignalen kan vara tillräcklig för att skapa meningsfulla hierarkiska strukturer av det kontinuerliga tal som förekommer i spädbarnets ekologiska miljö. Detta är viktigt eftersom modellen inte innefattar inbyggd språklig kunskap och inte heller utgår från att talsignalen är en specifik akustisk företeelse i förhållande till andra konkurrerande ljud som förekommer i spädbarnets omgivning. Modellen framhäver vikten av barnriktat tal under den tidiga talspråksutvecklingen men fokuserar på dess repetitiva karaktär snarare än på framträdande prosodiska egenskaper. Våra longitudinella inspelningar visar att tal riktat mot 3-4 månaders gamla spädbarn ofta innehåller många upprepningar av akustiska mönster, typiskt i samband med att föremål i barnets omgivning presenteras. I takt med att spädbarnet börjar kunna uttala enstaka ord (som "mamma" eller "pappa", vid ungefär ettårs ålder), byter de vuxna till en mer förklarande strategi där nya begrepp relateras till tidigare begrepp med färre upprepningar. Spädbarnets egna handlingar och vokaliseringar är också en viktig komponent av talspråksutvecklingsprocessen. De avslöjar barnets världsbild och utgör en konkret bakgrund för den vuxnes och barnets förhandlingar om hur saker och ting skall refereras till. Till sist beror den vuxnes acceptans av barnets yttranden av hur mogen barnet uppfattas vara (Gustavsson, 2009). Vi har upptäckt en hierarki av fonetiska variabler som är av betydelse när vuxna och barn turas om att härma varandra. Vuxna använder en slags inkrementell styrningsstrategi och ser till att spädbarnet får differentierad bekräftelse på sina imitationsförsök, så att det inte är en allmän missmatch som bedöms, utan stället vilka fonetiska avvikelser som förekommer i förhållande till den för barntes ålder förväntade artikulationsförmågan.
En mera realistisk audiovisuell modell (baby robot) av hur återkommande multisensorisk information kan förklara en del av den tidiga talspråksutvecklingen skapades av VISLAB, IST, Lissabon i samarbete med oss (Hörnstein, Gustavsson, et al. 2010).
Utveckling av kategoriseringsförmåga för talljud
Spädbarn
Flera studier av spädbarnets talperceptionsutveckling har utförts. Två huvudresultat är:
• Att efter bara en minuts erfarenhet av yttranden som refererar till föremål som spädbarnet observerar i sin ekologiska miljö, kan 8-10 månaders gamla spädbarn härleda målordens lingvistiska referentiella funktion (Lacerda, Sundberg, Klintfors & Gustavsson, 2009; Klintfors & Lacerda, 2006).
• Att ”medfödd fonetisk förmåga” (Kuhl & Meltzoff, 1982) kan i själva verket vara en manifestation av allmänna neurosensoriska processer istället för äkta specialiserade talperceptionsmekanismer. Denna nya forskningsfråga har genererat ny pågående forskning.
Vi har också inlett en systematisk studie av hur spädbarnets kategorisering av språkljud påverkas av föregående icke-språkliga akustiska kontexter. Denna sorts kontexteffekter har observerats hos vuxna lyssnare (Holt, 2006a; 2006b) men fortfarande det saknas information om effekten är knuten till den vuxnes erfarenhet av språket eller om det beror på allmänna auditiva fenomen.
Vuxna
Vi har skapat ett nytt paradigm för att studera betydelsen av återkoppling för den tidiga talspråksutvecklingen. Paradigmet går ut på att inducera inlärningen av nya ljudkategorier genom att ge en försöksperson okända men implicita konsekventa återkopplingar som korrelerar med ljudkategorierna. Vi har utvecklat ett datorspel där visuella karaktärer (utomjordingar) kan avslöjas av sina enskilda läten (Wade & Holt, 2005). Dessa läten är skapade så att de avspeglar olika komplexa multidimensionella fonetiska egenskaper utan att låta som tal. För att lyckas med spelet måste försökspersonerna upptäcka utomjordingarna utifrån läten och förbereda olika handlingar för olika utomjordningar innan de faktiskt blir synliga på datorskärmen. Trots att det inte finns explicit feedback i detta spel visar försökspersonerna, efter 30 minuters spel, signifikant inlärningseffekt och generalisering till nya akustiska stimuli inom varje kategori. Vi har också använt teknik för kartläggning av neural aktivitet under spelandet och undersökt hur hjärnan organiserar den akustiska informationen under spelets gång (Leech, Holt, Devlin & Dick, 2009) och hur den perceptuella representationen av dessa akustiska stimuli förvrängs på ett sätt som liknar det som observeras vid spädbarnets kategorisering av talljud som antingen ingår i modersmålet eller i ett främmande språk (Kuhl et al. 1992; Liu & Holt, 2010).
För att få en mera realistisk simulering av spädbarnets tidiga talspråksutveckling, har de isolerade ljuden i spelet ersatts med spektralt roterade versioner av yttranden som presenterar målorden på mera naturligt sätt. Yttranden (t.ex. ”Shoot the__one!; ___ is the enemy!; Look out for the ___ one!, etc. där blankstegen indikerar målorden “red”, “green”, “white” eller “blue”) spelades in av en kvinnlig engelsk talare och behandlades därefter så att spektrum vändes upp-och-ner, vilket resulterar i att yttranden inte går att känna igen som mänsklig röst men ändå behåller det ursprungliga talmaterialets prosodiska och referentiella egenskaper.
I ett första experiment, där ett slumpmässigt valt yttrande hörs upprepade gånger varje gång karaktären den refererar till dyker upp, visar resultaten på en måttligt men signifikant inlärningseffekt (33% mot 25% vid slumpmässiga svar). En ny omgång av experimentet, med akustiskt olika men relaterade yttranden som spelas upp i samband med att karaktären dyker upp, utförs för närvarande. Resultaten förväntas visa en starkare inlärningseffekt i denna situation eftersom spelaren lättare bör kunna hitta målordet som gemensam nämnare mellan ljud och bild på karaktärerna.
Vidare forskning
Vi avser fortsätta att använda spelen och ögonrörelseteknologin i ytterligare undersökningar av hur variationen i fonetiska, lexikala och syntaktiska dimensioner påverkar inlärningen och hur den auditiva och visuella informationen samverkar när nya lingvistiskt relevanta kategorier uppstår.
Under projektet har fem doktorsavhandlingar producerats (tre i Sverige och två i USA).