Abstract
A szemtől szembeni kommunikáció mindennapi életünk meghatározó része, mégis keveset tudunk a sikeres kommunikációt lehetővé tevő kognitív és idegi folyamatokról. Az egyik folyamat, amely több megközelítés szerint is fontos a kommunikáció sikerességének szempontjából, a kommunikációs partner viselkedésének előrejelzése (predikciója). Jelen tanulmányban áttekintjük az előrejelzés és a kommunikáció kapcsolatának főbb modelljeit, különös tekintettel a szimulációs-prediktív megközelítésre, valamint a beszédfordulók időbeli koordinációjának kérdésére. Az empirikus bizonyítékok áttekintése alapján amellett érvelünk, hogy bár az előrejelző folyamatok teszik lehetővé a gyors beszélőváltásokat szemtől szembeni helyzetekben, nem tisztázott, hogy az előrejelzés közvetlen hatással bír-e a kommunikáció kimenetére.
Abstract
Face-to-face verbal communication is an integral part of our everday lives, yet, we know little about the cognitive and neural processes that underlie it. There is one mechanism that is thought to be vital for communication success: anticipating (predicting) the other agent's behavior. In this review we give an overview about the main theories regarding prediction and its role in successful communication with an emphasis on the predictive-simulationist model. We also discuss turn-taking in conversation within this framework. Given the empirical evidence, we argue that prediction has an important role in the timing of turn-taking in conversation, however, we do not know for certain whether prediction has a positive effect on communication success.
Bevezetés
Ha az asztalnál azzal fordulunk egy társunkhoz, hogy: „Ide tudnád adni a sót?”, nem arra vagyunk kíváncsiak, hogy megvan-e az illető azon képessége, hogy átadja a kezünkbe a sószórót, hanem egy kérést fogalmazunk meg felé, és ő – remélhetőleg – így is fogja érteni ezt a mondatot. Számtalan hasonló példát hozhatunk, ahol a nyelvi tartalom nem határozza meg a köznapi jelentést – a mindennapi nyelvhasználatban is gyakori hiányos mondatok, kétértelműségek, metaforák, ironikus kijelentések stb. mind idetartoznak. Különösen szembeötlő ez a szemtől szembeni kommunikáció során, ahol sokszor egyes szavak jelentése csak az adott interakció kontextusában értelmezhető (pl. Clark, 1983, 1996; Levinson, 2006; Noordzij és mtsai, 2010).
Mivel a nyelvi tartalom aluldeterminált, az emberi kommunikáció kognitív pszichológiai kutatásának fő kérdése az, hogy hogyan értjük meg egymást. A kérdéssel foglalkozó legújabb elméletek nagy hangsúlyt helyeznek az előrejelzésre (predikció) mint potenciális mechanizmusra és mint magyarázatot igénylő jelenségre egyaránt. Jelen dolgozatban áttekintjük a predikció feltételezett szerepét a szemtől szembeni kommunikáció sikerének szempontjából.
A tanulmány első szakaszában a predikciót mint a nyelvi megértéshez szükséges mechanizmust tárgyaljuk a szimulációs-prediktív modell keretében. A második szakaszban a predikció alternatív, lehetséges funkcióját vizsgáljuk a szemtől szembeni kommunikáció koordinációjában. A harmadik, kitekintő szakaszban pedig a predikció és a kommunikáció sikerességének feltételezett kapcsolatát mutatjuk be.
A predikció mint a nyelvi megértés mechanizmusa – a szimulációs-prediktív modell
A kommunikáció az ember elsődleges eszköze ahhoz, hogy egy társában a kívánt mentális reprezentációkat aktiválja, vagyis hogy valamilyen mentális és/vagy viselkedéses választ váltson ki a saját viselkedése révén. Bár nem kommunikatív viselkedések is alkalmasak mások befolyásolására (pl. máshogy közelítünk egy dühöngő vagy egy nyugodt személyhez), az emberi kommunikáció különleges abban, hogy osztenzív, vagyis nyilvánvalóvá teszi a „befolyásolási”, azaz kommunikatív szándékot, éppen ezáltal váltva ki a kívánt hatást (Grice, 1989; Scott-Phillips, 2014; Sperber és Wilson, 1995). Ez utóbbit, Sperber és Wilson (1995) nyomán, informatív szándéknak nevezzük. A szemkontaktus és a felénk irányított beszéd, ill. gesztusok mind a kommunikációval együtt járó osztenzív ingerek, amelyek segítenek elhatárolni a kommunikatív és nem kommunikatív viselkedést. Ezzel lehetővé teszik az informatív szándék felismerését, vagyis a sikeres kommunikációt. Egy gyakori példával szemléltetve: ha egy étteremben ülve Aliz felveszi a szemkontaktust a pincérrel, és az üres poharára mutat, az osztenzív viselkedés (szemkontaktus és mutatás) révén a pincér felismeri Aliz kommunikatív szándékát. Ebből következtet az informatív szándékra, vagyis felismeri az újratöltésre irányuló kérést. Az ilyen típusú, ún. osztenzív-következtetéses kommunikáció elsősorban az emberre jellemző (Scott-Phillips, 2014, 2015; vö. Moore, 2016), és kiemelt szerepet játszik a kulturális tudásközvetítésben (Csibra és Gergely, 2009; Csibra, 2010).
Az imént vázolt, eredetileg grice-i (Grice, 1957, 1989) felfogás szerint a másik megértése egyenértékű az informatív szándék felismerésével. Ahogyan már láttuk az előző példánál (üres pohárra mutatás), ehhez szükséges a kommunikatív szándék felismerése. Sőt, ahhoz, hogy a pincér megértse Alizt, ismernie kell az éttermek működését, az éttermi viselkedés normáit, a saját feladatait stb., vagyis a tágabb kontextust. Csak annak ismeretében tud következtetni a kommunikatív viselkedés (mutatás) jelentésére. A kommunikáció osztenzív-következtetéses modellje szerint a kódokon alapuló, nyelvi kommunikáció is ugyanígy írható le. Ennek megfelelően, a nyelvi tartalom dekódolása a lexikon és a nyelvtan alapján általában nem elégséges a megértéshez. Az csupán a beszélő szándékára irányuló következtetések egyik premisszája, ahogyan odatartozik a tágabb kontextus, az adott interakció előzményei, a környezeti ingerek stb. (Brennan, Galati és Kuhlen, 2010; Clark, 1996; Stolk, Verhagen és Toni, 2016; de vö. Gregoromichelaki és mtsai, 2011; Westra és Nagel, 2021). Az egyes következtetések pontosságát kérdésekkel, az interakcióban már korábban használt kifejezésekre történő utalásokkal stb., folyamatosan ellenőrizzük a beszélőváltások során. Ezzel fokozatosan építjük fel a kölcsönös megértés alapjául szolgáló megosztott fogalmi teret (Clark és Brennan, 1991; Stolk és mtsai, 2016).
A nyelvfilozófiai és kvalitatív elemzéseken túl az osztenzív-következtetéses modellt támogatják azok a kísérleti eredmények, amelyek új (korábbról nem ismert) kommunikációs jelek kialakítását és használatát vizsgálták laboratóriumi körülmények között (pl. De Ruiter és mtsai, 2010; Galantucci, 2005; Scott-Phillips, Blythe, Gardner és West, 2012). Ezekben a kísérletekben a résztvevők a megszokottól eltérő csatornákon kommunikálva oldanak meg együttműködést igénylő feladatokat. Ehhez új kommunikációs jeleket kell kitalálniuk. Az ilyen vizsgálatok egyik fő eredménye az, hogy a résztvevők rugalmasan, az egyes interakciók keretein belül, nem általánosítható módon állapodnak meg új jelekről és azok jelentéséről (Galantucci és Garrod, 2011). Ez az eredmény illeszkedik ahhoz az elképzeléshez, miszerint a kódrendszerek rugalmasan, mindig az adott szituáció követelményeinek megfelelően, a résztvevők együttműködése révén nyernek értelmet.
Az osztenzív-következtetéses modell szerint tehát a kommunikáció lényegi mechanizmusa a szándékfelismerés és -tulajdonítás (Sperber és Wilson, 2002). Ennek megfelelően számos próbálkozás született arra, hogy a szándékfelismerés meglévő modelljeit a kommunikáció kutatásában alkalmazzák. A modellek egyik fontos csoportja a szándékfelismerést a mozgáskontroll, ill. a megfigyelt mozgás felismerése felől közelíti meg, és prediktív belső modelleken (szimulációkon) alapuló komputációs szerkezetre épül (Demiris és Khadhouri, 2006; Wolpert, Doya és Kawato, 2003). Az ilyen típusú, szimulációs-prediktív modellek nagyban hozzájárultak a kommunikáció empirikus vizsgálatához is. Ezért, a következő részben részletesebben bemutatjuk Wolpert és munkatársai (2003) szimulációs-prediktív modelljét.
A szándékfelismerés szimulációs-prediktív modellje
A szándékfelismerés szimulációs-prediktív elméletének bemutatásához rövid kitérőt kell tennünk a mozgás/cselekvés kontroll területére.
A mozgásszabályozás klasszikus kérdései, hogy (1) hogyan választunk ki egy adott célnak (a kívánt szenzoros visszacsatolás eléréséhez) megfelelő motoros parancsokat (a szabadságfokok problémája, lásd pl. Kay, 1988), illetve (2) hogyan adaptáljuk a mozdulatot perturbációk hatására (visszacsatolt, illetve előrecsatolt, azaz „feedback/feedforward” szabályozás, pl. Scott, 2004). Egy széles körben elfogadott magyarázat szerint az idegrendszer ezeket a problémákat ún. belső előrecsatolt-inverz („forward-inverse”) modellpárok révén oldja meg ([H]MOSAIC: [Hierarchical] modular selection and identification for control”; Haruno, Wolpert és Kawato, 2001, 2003; Wolpert és Kawato, 1998; Wolpert, Miall és Kawato, 1998). Az elmélet szerint agyunk modellezi a motoros rendszer bemenet-kimenet kapcsolatait. Az előrecsatolt modellek a szenzoros visszacsatolást (pl. saját kéz helyzete a vizuális térben) mint kimenetet számítják ki a motoros parancs mint bemenet ismeretében. Az inverz modellek a fordított feladatot oldják meg és a megfelelő motoros parancsot mint kimenetet számítják ki egy kívánt szenzoros állapotnak megfelelően.
Az elmélet egyik erőssége, hogy az előrecsatolt-inverz modellpárok könnyen megvalósíthatók neurális hálózatokkal (Kawato, Furukawa és Suzuki, 1987; Kawato, 1990), és így hasznos megközelítésnek bizonyultak pl. a robotikában (pl. Floreano, Ijspeert és Schaal, 2014). Leegyszerűsítve, egy előrecsatolt-inverz modellpár a következő módon tanítható együtt: (1) az inverz modell generál egy kezdeti, a célállapot eléréséhez szükséges motoros parancsot; (2) az előrecsatolt modell a motoros parancs és a rendszer állapota alapján előre jelzi a várható szenzoros bemenetet; (3) az előrecsatolt modell tanulásához szükséges hibajel a várt és tapasztalt szenzoros bemenet különbsége; (4) az inverz modell tanulásához szükséges hibajel a célállapot és a tapasztalt szenzoros bemenet különbsége.
Ha egy előrecsatolt és egy inverz modell párban tanul, az előrecsatolt modell képes pontosan előre jelezni az inverz modell által generált motoros parancs várható eredményét (szenzoros input), lehetővé téve egy gyors negatív visszacsatolást mozgás közben (Miall és Wolpert, 1996). Ez magyarázza a gyors adaptációk jelenségét. A komputációs modell kiterjeszthető több párhuzamos, egymással versengő előrecsatolt-inverz modellpárra, melyek együtt képesek megtanulni akár egy összetett, kontextusfüggő motoros repertoárt is (Haruno és mtsai, 2001; Imamizu, Kuroda, Miyauchi, Yoshioka és Kawato, 2003; Wolpert és Kawato, 1998). Az elmélet többszintű, hierarchikus kiterjesztése (Haruno és mtsai, 2003) pedig moduláris, hierarchikus cselekvések elsajátítására is képes. Az egyes szintek ilyenkor számos előrecsatolt-inverz párosból állnak.
A [H]MOSAIC elmélet prediktív abban az értelemben, hogy (1) az egyes előrecsatolt-inverz modellpárok hozzájárulása a mindenkori cselekvéshez az előre jelzett szenzoros bemenettől (pontosabban az előrecsatolt modell kimenetének hibájától) függ, illetve hogy (2) a valós idejű szabályozáshoz szükséges hibajel-visszacsatolás az előrecsatolt modell által előrejelzett szenzoros bemenet eltérése a valóságtól.
Hogyan alkalmazható a mozgáskontroll fenti modellje a szándékfelismerés során? Wolpert és munkatársai (2003) feltételezték, hogy a HMOSAIC modell képes lehet mások mozgásának szimulációjára, és ennek alapján a mozgás céljának felismerésére is. Vegyünk egyelőre egyetlen előrecsatolt-inverz modellpárt: ha pl. egy másik személy kézmozdulatának vizuális koordinátáit transzformálni tudjuk a saját inverz modellünk bemenetének megfelelő egocentrikus koordinátákba, akkor az inverz modell meg tudja becsülni az adott mozgáshoz szükséges motoros parancsot. Ez alapján a hozzá tartozó előrecsatolt modell képes a mozdulat pályájának előrevetítésére, ami pedig újabb bemenetként szolgál az inverz modell számára, és így tovább. A modell pontosság szerint súlyozza a párhuzamos előrecsatolt-inverz modelleket, kiválasztva a másik személy mozgásának leginkább megfelelő saját motoros modult. A hierarchikus modell legfelsőbb szintjein a legvalószínűbbnek tartott előrecsatolt-inverz párok pedig már a lehetséges szándékoknak felelnek meg. Pickering és Garrod (2013) példájával: ha a megfigyelő egy alacsonyabb szinten előre jelzi, hogy a másik személy vállának mozgása a kar emelését okozza, eggyel magasabb szinten ez azzal az előrejelzéssel járhat, hogy a mozdulat egy kézfogásra irányul. Ha utána a másik személy karjának pályája eltér az alacsonyabb szint által várt pályától, például magasabbra emelkedik, és összeszorul a kézfej is, akkor az egy másik alacsonyabb szintű előrecsatolt-inverz párnak felel meg. Ez módosítja az interpretációt a magasabb szinten is, és a legvalószínűbb előrejelzés most már az lesz, hogy a másik személy ütésre készül. Az elmélet szimulációs, amennyiben a másik személy mozgását a megfigyelő saját motoros rendszere a saját mozgásokhoz hasonlóan modellezi.
Röviden összefoglalva, a szimulációs-prediktív megközelítés szerint az észlelt viselkedést (illetve annak célját) a saját motoros rendszerünk szimulációi révén ismerjük fel, és ebben kulcsszerepet játszik a szimulációk előrejelző jellege. Bár a komputációs modell egyes részletei nehezen vizsgálhatók, a motoros szimulációk jelenléte a mozgásmegfigyelés során empirikusan jól alátámasztott, ahogyan azok előrejelző jellege is. Az emberi agyban is megfigyelhető tükörneuronok (Decety és mtsai, 1997; Fadiga, Fogassi, Pavesi és Rizzolatti, 1995) akkor tüzelnek, ha a személy vagy állat célorientált mozgást hajt végre, vagy ha ilyen mozgást figyel meg (pl. Gallese, Fadiga, Fogassi és Rizzolatti, 1996), neurofiziológiai bizonyítékot szolgáltatva a mozgásmegfigyelés és a saját cselekvés mögött álló rendszerek átfedésére. Képalkotó módszerekkel emberben kimutatható egy kiterjedt, főleg motoros területeket magába foglaló hálózat, amely hasonló aktivitást mutat mozgások végrehajtása és azok megfigyelése során (pl. Blakemore és Decety, 2001; Caspers, Zilles, Laird és Eickhoff, 2010; Rizzolatti és Craighero, 2004; Rizzolatti, Cattaneo, Fabbri-Destro és Rozzi, 2014; stb.). Az átfedő agyi aktivitás mozgásmegfigyelés során részben előrejelző (pl. Haueisen és Knösche, 2001; Gordon, Iacoboni és Balasubramaniam, 2018; Umilta és mtsai, 2001), és a motoros tapasztalat befolyásolja a megfigyelés és végrehajtás agyi korrelátumai közötti átfedés mértékét (pl. Calvo-Merino, Ehrenberg, Leung és Haggard, 2010; Calvo-Merino, Glaser, Grèzes, Passingham és Haggard, 2005). A motoros tapasztalat mértéke kapcsolatban van az észlelési előrejelzés pontosságával (pl. Aglioti, Cesari, Romani és Urgesi, 2008; Knoblich és Flach, 2001; Knoblich, Seigerschmidt, Flach és Prinz, 2002), és a motoros rendszert érintő manipulációk (transzkraniális mágneses ingerlés/transzkraniális elektromos ingerlés [TMS/tES] vagy másodlagos feladat segítségével) befolyásolják az előrejelzés pontosságát (pl. Brich, Bächle, Hermsdörfer és Stadler, 2018; Elsner, D'Ausilio, Gredebäck, Falck-Ytter és Fadiga, 2013; Mulligan, Lohse és Hodgescaramazza, 2016).
Fontos megjegyezni, hogy a motoros szimulációk pontos szerepe vitatott a szándékok felismerésében (lásd pl. Caramazza, Anzellotti, Strnad és Lingnau, 2014; Giese és Rizzolatti, 2015; Wilson és Knoblich, 2005), és a mozgásfelismerés és előrejelzés úgy tűnik, érintetlen olyan esetekben is, amikor veleszületett végtag-rendellenességek miatt az egyének motoros repertoárja nem feleltethető meg közvetlenül a megfigyelt mozgásoknak (Vannuscorps és Caramazza, 2016). Ehhez a gondolathoz még visszatérünk, amikor a predikció nélküli nyelvi feldolgozást tárgyaljuk. Előbb azonban – a cselekvéskontroll, illetve motoros szándékfelismerés irányába tett kitérőt lezárva – rátérünk a szimulációs-prediktív megközelítés szerepére a kommunikáció, azon belül pedig a nyelvi megértés területén.
Szimulációs-prediktív modell a kommunikációban
Az elméletalkotók egy része amellett érvel, hogy a mozgás szimulációs-prediktív megközelítése könnyen összeegyeztethető a beszédképzés és a beszédértés folyamataival is (Hickok, 2012; Dell és Chang, 2014; Pickering és Garrod, 2013; Tourville és Guenther, 2011). A továbbiakban Pickering és Garrod (2013; lásd még Garrod és Pickering, 2009; Pickering és Gambi, 2018) elméletére fókuszálunk, amely közvetlenül a már ismertetett HMOSAIC modellt alkalmazza a verbális kommunikációra.
Pickering és Garrod (2013) szerint a beszédképzés és beszédértés a mozgáskontroll és mozgásfelismerés speciális esetei, és így közvetlenül leírhatók belső előrecsatolt-inverz modellpárok segítségével.1 A mozgáskontroll mintájára a beszédképzés során inverz modellek révén előállítjuk a szándékolt beszédnek megfelelő motoros parancsot, és a kapcsolódó előrecsatolt modellek révén ellenőrizzük a saját beszédünket (efferens parancs). Hasonlóan, a beszédértést a mozgásfelismerés mintájára írhatjuk le: beszélgetés közben a megfigyelő (hallgató) észleli a beszélő kommunikatív akcióit, és szándékot, vagyis jelentést társít hozzájuk a megfigyelt viselkedés (beszédképzés) szimulációja révén. Részletesebben: (1) a hallgató a kontextus és az inverz modellek révén visszaállítja a másik beszéde mögötti motoros parancsot, illetve a hierarchikus modell felsőbb szintjein, a motoros parancs mögött feltételezhető szándékot/jelentést; (2) a feltételezhető jelentés alapján, saját előrecsatolt modelljei révén folyamatosan előre jelzi a partner beszédének folytatását; (3) az előrecsatolt modell kimenetének összevetése a beszélő viselkedésével gyors visszacsatolást tesz lehetővé, módosítva az egyes előrecsatolt-inverz modell párok súlyozását, és így a beszélő lehetséges szándékainak egymáshoz viszonyított valószínűségét.
A beszélő megértésében azonban más folyamatok is segítenek. Pickering és Garrod (2013) fontosnak tartják az asszociációkon alapuló, az előrecsatolt-inverz modellektől független előrejelzéseket, ill. az előrejelzések nélküli, a kontextuson és nyelvi jelentésen alapuló következtetéseket is. Összességében azonban a szimulációs-prediktív folyamatok jelentősége mellett érvelnek, különösen a szemtől szembeni kommunikáció során.
A szemtől szembeni kommunikáció több szinten koordinált cselekvés (lásd pl. Clark, 1996; Garrod és Pickering, 2004, 2009): a beszélőváltások gyorsabbak, mint a beszédképzéshez szükséges időtartam (Levinson, 2016); a két beszélőváltás között („turn”) elmondottak tartalmilag szorosan összefüggő egységeket alkotnak (Schegloff és Sacks, 1973); a beszélők koordinálják az egyes kifejezések jelentését (pl. Brennan és Clark, 1996); stb. Pickering és Garrod (2013) elméletének egyik következménye, hogy egy beszélgetés során a beszélő és a hallgató előrecsatolt modelljei egyaránt előrejelzéseket generálnak az éppen folyó beszédhez. Ha a hallgató a megfelelő szándékokat tulajdonítja a beszélőnek, és a saját belső modelljei kellőképpen hasonlítanak a beszélő modelljeihez, a beszélő és hallgató előrejelzései átfednek, vagy lényegében azonosak. Ez az átfedés a szemtől szembeni kommunikáció több, koordinációt igénylő jelenségét is megmagyarázza: (1) a hallgató képes folytatni az éppen elhangzó beszédet, mivel a prediktív szimuláció révén belsőleg követi azt; (2) a hallgató fel tud készülni a beszélgetés következő fázisára, lehetővé téve a gyors beszélőváltást.
Összegezve, a szimulációs-prediktív modell a kommunikatív szándékok közvetítésének és felismerésének mechanizmusszintű leírását nyújtja. A modell szerint a kommunikatív viselkedést – bármilyen egyéb cselekvéshez hasonlóan – leginkább a saját motoros rendszerünk prediktív szimulációi révén értjük meg, így az a sikeres kommunikáció alapfeltétele. A következő részben áttekintjük, hogy milyen bizonyítékok támasztják alá a szimulációs-prediktív hipotézist a beszédértés és beszédképzés, illetve a szemtől szembeni kommunikáció területén.
A szimulációs-prediktív modell empirikus bizonyítékai
Számos eredmény támasztja alá, hogy a beszédértés során a nyelvi bemenet feldolgozása részben prediktív, vagyis még a nyelvi bemenet feldolgozása előtt aktiváljuk a lingvisztikai információnak megfelelő reprezentációkat („prediktív pre-aktiváció”, Altmann és Kamide, 1999; Bonhage, Mueller, Friederici és Fiebach, 2015; DeLong, Urbach és Kutas, 2005; Van Berkum és mtsai, 2005; Wicha, Moreno és Kutas, 2004; összefoglalók: Kuperberg és Jaeger, 2016; Pickering és Gambi, 2018). DeLong és munkatársai (2005) például egy eseményhez kötött potenciál (EKP), az N400 komponens segítségével vizsgálták a beszédértés közbeni előrejelzést. Az N400 akkor figyelhető meg, ha a szemantikai tartalom inkongruens a korábbi kontextussal, így alkalmas predikciós hiba (a bejósolt tartalom és a valós bemenet közötti eltérés) detektálására. A résztvevőknek könnyen vagy nehezen bejósolható szavakra végződő mondatokat mutattak be (pl. „A boy went outside to fly … a kite/an airplane” – A fiú kiment, hogy reptessen egy sárkányrepülőt/repülőt). Eredményeik szerint a könnyen bejósolható szavak kisebb amplitúdójú N400 komponenst váltottak ki, mint a nehezebben bejósolható befejezések. Önmagában ez a hatás magyarázható a nyelvi tartalom integrációjának nehézségével is (lásd: Pickering és Gambi, 2018), azonban hasonló N400 különbséget figyeltek meg a szavakat megelőző névelőknél is (DeLong, Urbach és Kutas, 2005). Vagyis a predikciós hiba már a bejósolt szó előtt megjelent, tehát a résztvevők előre jelezték a kritikus szó alakját.
Hasonlóan a beszédprodukció során is megfigyeltek a saját viselkedés előrejelzését alátámasztó jelenségeket (pl. Franken és mtsai, 2018; Okada, Matchin és Hickok, 2018; Tian és Poeppel, 2010). Okada és munkatársai (2018) például funkcionális mágnesesrezonancia-képalkotás (fMRI) segítségével vizsgálták a beszéd közbeni bejóslást és az előrecsatolt modellek működését. A résztvevőknek először szavakat mutattak be egy képernyőn, majd arra kérték őket, hogy vagy képzeljék el, vagy hang nélkül artikulálják azokat. Bár egyik feladat sem járt hangos beszéddel, a hangtalan artikuláció esetén nagyobb aktivitást találtak a hallókéregben, mint a képzeleti feladatban. A szerzők érvelése szerint az aktivitásnövekedést az előrecsatolt modellek előrejelzései okozhatták, melyek a szándékolt beszéd monitorozásában játszanak szerepet, és amelyek nem aktiválódtak a képzeleti feladat során, amikor nem volt szükség artikulációra.
A szimulációs-prediktív modell azonban többet állít annál, mint hogy előre jelezzük a saját vagy mások viselkedését a nyelvi kommunikáció során. Az elmélet központi hipotézise szerint a beszédértésben a – hagyományos felosztás szerinti – beszédprodukciós rendszer is érintett: a másik személy beszédének szimulációja során az idegrendszer beszédprodukciós reprezentációk révén jelzi előre a beszédet. Indirekt bizonyíték erre az agyi képalkotó eljárásokkal kimutatható átfedés a beszédértés és beszédprodukció közben prediktív aktivációt mutató területek között (pl. Gastaldon, Arcara, Navarrete és Peressotti, 2020). Ugyanakkor többféle, direkt bizonyítékkal szolgáló kísérleti módszerrel is vizsgálható a produkciós rendszer érintettsége a beszédértésben: (1) kettős feladat kísérletekben beszédértés közben egy másodlagos feladattal „lefoglaljuk” vagy éppen serkentjük a beszédprodukciós rendszert, és mérjük a feltételezett interferencia-hatást; (2) beszédértés közben közvetlenül ingerelhetjük TMS/tES révén a produkciós rendszer részét képező agyi területeket, ugyancsak keresve az interferencia-hatást; (3) közvetlenül is mérhető a produkciós rendszer ingerspecifikus beszédértés közbeni aktivációja az egypulzusos TMS által kiváltott motoros potenciálok (MEP) és/vagy artikulációs képalkotás (ultrahang) révén. Az alábbiakban mindhárom típusú vizsgálatra hozunk példát.
Martin, Branzi és Bar (2018) kettős feladat kísérletben vizsgálták a beszédprodukciós rendszer szerepét a megértésben. A résztvevők spanyol nyelven szavanként olvastak fel mondatokat. Eközben verbális vagy nonverbális másodlagos feladatokat hajtottak végre. A mondatok kulcsszava egy könnyen vagy nehezen előre jelezhető főnév volt, és az azt megelőző névelő neme kongruens vagy inkongruens volt a főnévvel. A kísérlet hipotézise szerint, ha a másodlagos feladat verbális, az lefoglalja a produkciós rendszert, és ezáltal interferál a lexikális előrejelzéssel. Mivel egy előre jelzett főnévvel inkongruens névelő általában az N400 EKP komponens megjelenését vonja maga után (DeLong, Urbach és Kutas, 2005; Fleur, Flecken, Rommers és Nieuwland, 2020), a hipotézis szerint a vizsgálatban az interferenciát ennek a komponensnek az elmaradása jelzi. Az eredmények szerint az N400 csak a nonverbális és a kontroll feladathelyzetben volt megfigyelhető, a verbális feladathelyzetben nem. A beszédprodukció tehát interferált a beszédértés közbeni előrejelzéssel. Lelonkiewicz, Rabagliati és Pickering (2021) kettős feladat kísérleteinek eredményei is a szimulációs-prediktív modellt támasztják alá.
Lesage és munkatársai (Lesage, Morgan, Olson, Meyer és Miall, 2012) repetitív transzkraniális mágneses stimulációs (rTMS) kísérletben tesztelték a jobb oldali kisagy szerepét a beszédértésben. A kisagy széles körben elfogadott elméletek szerint a szándékolt motoros kontrollban tölt be fontos szerepet (Murdoch, 2010). A résztvevők a „vizuális világ” feladat (Altmann és Kamide, 1999) egy változatát végezték el. A feladat során a résztvevők mondatokat hallgattak, miközben képeket mutattak nekik, és regisztrálták a szemmozgásaikat. A feladat alkalmas a beszédértés közbeni predikció kimutatására, mivel ismert eredmény, hogy a résztvevők hamarabb helyezik át a tekintetüket a kulcsszót ábrázoló képre jól bejósolható mondatok esetében („A fiú megeszi a … tortát”), mint kevésbé bejósolható mondatoknál („A fiú elmozdítja a … tortát”). A kutatás hipotézise szerint így a jobb kisagyra célzott rTMS – a szimulációs-prediktív modellnek megfelelően – interferálni fog a nyelvi predikcióval, csökkentve annak hatását. Az eredmények alátámasztották a hipotézist: rTMS-t követően a jól bejósolható szót ábrázoló kép fixációjának késleltetése nagyobb volt, mint rTMS nélkül; a kevésbé bejósolható szavaknál nem volt megfigyelhető ilyen hatás. Lesage és munkatársai (2012) kísérletét részben megismételték Miall és munkatársai (2016) transzkraniális elektromos stimuláció (tES) használatával, reprodukálva a jobb kisagy blokkolásának negatív hatását a nyelvi előrejelzésre.
Drake és Corley (2015a) az artikulációs izmok beszédértés közbeni aktivációját vizsgálták nyelv és szájüregi ultrahang segítségével. A résztvevők könnyen előrejelezhető szavakra végződő mondatokat hallottak, de a szó helyett képeket kellett megnevezniük. Az esetek felében a képen ábrázolt tárgyak neve megegyezett az előre jelzett szóval (kongruens feltétel), míg a másik felében az előre jelzett szóval rímelő, de eltérő mássalhangzóval kezdődő szó volt a képen megjelenő tárgy neve (inkongruens feltétel). A kísérletben részt vevők a kongruens feltételben gyorsabban nevezték meg a képeket, mint az inkongruens feltételben. Ez alátámasztja azt a feltételezést, hogy a résztvevők bejósolták a mondatvégi szavakat (lásd még Drake és Corley, 2015b). A fontosabb eredmény azonban az volt, hogy az inkongruens feltételben a képen megjelenő tárgy nevének kimondása előtti rövid időszakban (kb. 400–300 ms-mal a kritikus mássalhangzó vokalizációja előtt) az ultrahangfelvételek alapján nagyobb mértékű artikulációs mozgás volt látható, mint a kongruens kondícióban. Ez az eredmény úgy értelmezhető, hogy az artikulációs aktivitás a beszédmegértés közbeni predikció részét képezte, ahogyan azt a szimulációs-prediktív modell feltételezi. Ez az inkongruens kondícióban interferenciához és ennek következtében több mozgáshoz vezetett. Drake és Corley (2015a) eredményei erős bizonyítékot nyújtanak a produkciós rendszer feltételezett szerepére a beszédmegértésben, mivel már a vokalizáció előtt (az ahhoz tartozó tervezés idejének figyelembevételével) kimutatható volt a fonológiai reprezentációk aktivitása.
Egy további, a szimulációs-prediktív modellnek megfelelő (de azt nem szükségszerűen bizonyító) eredmény a beszédprodukció azon emlékezeti hatására épít, amely szerint a hangosan kiejtett szavakra jobban emlékezünk. Rommers, Dell és Benjamin (2020) eredményei szerint a produkciós hatás kisebb a jól, mint a kevésbé jól bejósolható mondatok esetében. Ez az eredmény könnyen magyarázható a szimulációs-prediktív modell által: ha a produkciós rendszert használjuk a beszédértés közbeni előrejelzés során, akkor a jól bejósolható mondatoknál a hangos felolvasás nem jelent további előnyt a kódolás során, és így az emlékezetből való későbbi előhívásnál sem.
Összességében elmondható, hogy mind a beszédértés, mind a beszédképzés során használunk előrejelzéseket. Az előrejelzések hátterében vélhetően a szimulációs-prediktív modell által leírt szimulációs folyamatok húzódnak meg, vagyis mások beszédének előrejelzéséhez és talán megértéséhez is szükség lehet a hagyományos értelemben vett beszédprodukciós rendszerre.
A predikció mint a koordináció mechanizmusa a szemtől szembeni kommunikáció során
A predikció mint a beszédértés mechanizmusának kritikája
Az eddigiekben a beszédértés és beszédprodukció szimulációs-prediktív modelljére fókuszáltunk, és bemutattuk, hogyan magyarázza a modell a nyelvi megértést a belső (előrecsatolt-inverz párokból álló) modellek működése révén. A modell szerint a szimulációs predikció révén értjük meg a másik mondanivalóját, azaz a predikció mint mechanizmus fontos nyelvi funkciót tölt be. A szimulációs-prediktív modellt alátámasztó eredmények azonban elsősorban a produkciós rendszer előrejelző szerepére irányulnak, nem pedig a predikció nyelvi megértésre gyakorolt hatására. Feltehető a kérdés, hogy vajon a predikció tényleg elengedhetetlen egymás megértéséhez?
Egyes szerzők amellett érvelnek, hogy a predikció nem feltétele a nyelvi megértésnek, csak egyfajta nyelvi „mankó”, amely enyhíti a feldolgozás terheit, és ezért nem szükségszerű eleme a kommunikációnak (Huettig, 2015; Huettig és Mani, 2016; Pickering és Gambi, 2018). Érveik olyan esetekre támaszkodnak, amikor előrejelzés nélkül vagy kisebb mértékű előrejelzés mellett is teljes, vagy közel teljes értékű marad a nyelvi feldolgozás. Ebből a szempontból jelentős a különböző populációk (pl. kétnyelvűek, gyermekek, idősek) vizsgálata, ahol nem egyértelmű, hogy jelen van-e és ha igen, milyen mértékben a predikció a nyelvi megértésben.
Kétéves, már nyelvhasználó gyermekeknél például nem minden esetben jelenik meg előrejelzés: Mani és Huettig (2012) kísérletében csak a nagyobb produktív szókinccsel rendelkező gyerekeknél volt megfigyelhető anticipációs szemmozgás a „vizuális világ” feladatban (lásd még: Mani és Huettig, 2014). Ez az eredmény részben illeszkedik a szimulációs-prediktív megközelítéshez, miszerint előrejelzéskor a produkciós rendszert használjuk. Ugyanakkor a kísérletben nem volt arra utaló jel, hogy a kisebb predikciós hatást mutató gyerekek ne értették volna meg a hallott mondatokat, sőt, a szerzők ingerként csak a gyerekek által ismert szavakat használtak. Második nyelv (L2) használata esetén sem mindig mutatható ki, vagy kisebb mértékű az előrejelző hatás, mint anyanyelvi vizsgálatoknál (Dussias, Kroff, Tamargo és Gerfen, 2013; Grüter, Lew-Williams és Fernald, 2012; Grüter és Rohde, 2013; de vö. Martin és mtsai, 2013).
Beszédprodukciós zavarral élő személyeknél, akiknek a beszédértésük javarészt intakt (pl. Broca-afázia, dadogás) sem mindig kimutatható a beszédértés közbeni predikció. Hanne és munkatársai (2015) és Gastaldon és munkatársai (2023) például csökkent predikciós teljesítményre utaló eredményeket találtak afáziás betegeknél, illetve dadogóknál, míg Warren és munkatársai (Warren, Dickey és Lei, 2016) vizsgálatában nem volt kimutatható különbség az afáziával élő személyek és a kontrollok között az előrejelzést illetően. Megjegyzendő ugyanakkor, hogy a produkciós rendszer sérülése és az előrejelzések együttes elmaradása részben a szimulációs-prediktív modellt támogatja, ahogyan azt a gyermekvizsgálatok esetében is láthattuk (ahol a produkciós rendszer fejlettségétől függ az előrejelzések megjelenése). Idős felnőttek ugyancsak kevésbé mutatnak predikciós hatásokat a fiatalabbakhoz képest, a nyelvi megértés érintetlensége mellett (Federmeier, McLennan, De Ochoa és Kutas, 2002; Federmeier, Kutas és Schul, 2010). Az anticipációs szemmozgásokat vizsgáló kutatásokból az is kiderül, hogy az olvasási képességtől/olvasottságtól is függ az előrejelző képesség. A kevésbé olvasott személyek verbális feladathelyzetben nem mutatnak olyan mértékű előrejelzést, mint az olvasottabbak, annak ellenére, hogy az általános kognitív képességeket mérő teszteken nem teljesítenek rosszabbul, és a mondatokat is tökéletesen megértik (Favier, Meyer és Huettig, 2021; Huettig és Brouwer, 2015; összefoglaló: Huettig és Pickering, 2019). További, a predikció szükségességét megkérdőjelező eredmény, hogy zajos környezetben is kevésbé gyakran mutatható ki a bejóslás (Mitterer, Brouwer és Huettig, 2018).
Már említettük a mozgásfelismerés tárgyalásánál, hogy egy megfigyelt mozgás előrejelzésének pontosságát befolyásolja a releváns motoros tapasztalat mértéke (Aglioti és mtsai, 2008; Knoblich és Flach, 2001; Knoblich és mtsai, 2002). Ennek megfelelően feltételezhető, hogy a kommunikációs tapasztalat elősegíti a nyelvi előrejelzésre való képességet. Ez megmagyarázhatja a gyermekeknél (Gambi, Gorrie, Pickering és Rabagliati, 2018) és a második nyelvi (L2) vizsgálatokban (összefoglaló: Kaan, 2014) kapott eredményeket. Az utóbbi esetben nehézséget okoz, hogy ezek a csoportok igen heterogén összetételűek a nyelvi képzettség szintjét és a nyelvelsajátítás idejét tekintve. Általában elmondható, hogy L2 használata közben a beszélők elmaradnak az anyanyelvű beszélőktől egyes nyelvfeldolgozási képességekben (grammatikai nehézségek: Clahsen és Felser, 2006; Papadopoulou, 2005). Továbbá, a nyelv feldolgozásában részt vevő agyi hálózatok (Weber, Luther, Indefrey és Hagoort, 2016) és egyes nyelvi műveletek által kiváltott EKP-k (például P600) esetén is különbségeket találunk a két csoport között (Hahne és Friederici, 2001). Ehhez hasonlítható, hogy a Broca-afáziával élők is eltérnek az egészséges kontrolloktól a nyelvfeldolgozás tekintetében: a bonyolultabb nyelvtani szerkezetek feldolgozása például nehézséget okoz ezeknek a betegeknek (Caplan, Hildebrandt és Makris, 1996). A kellő tapasztalat hiánya viszont nem magyarázza az időseknél talált csökkent előrejelző működést. Lehetséges, hogy időseknél az alacsonyabb munkamemória-kapacitás és a lassabb feldolgozási sebesség miatt sérül az előrejelző képesség (Huettig és Janse, 2012).
A fenti megállapítások természetesen nem cáfolják az előrejelzés tényét, de megkérdőjelezik azt az állítást, miszerint az előrejelzés alapvető szerepet tölt be a nyelvi feldolgozásban. A bizonyítékok, úgy tűnik, nem feltétlenül támasztják alá, hogy a predikció a nyelvi megértés központi mechanizmusa. Milyen szerepet tölthet még be a predikció a kommunikációban, illetve van-e egyáltalán kommunikációs funkciója?
A predikció mint az idegrendszer működésének alapelve
Az egyik lehetőség, hogy a nyelvi feldolgozásban kimutatható predikció egy általánosabb idegrendszeri mechanizmus egyik megjelenési formája, és mint ilyen, nem rendelkezik specifikusan nyelvi vagy kommunikációs funkcióval. A prediktív kódolás elmélete például központi szerepet tulajdonít a predikciónak az idegrendszer működésében (pl. Clark, 2013; Friston, 2005; Hohwy, 2007), és analóg neokortikális feldolgozási műveletek segítségével magyarázza (Bastos és mtsai, 2012) az észlelés (pl. Huang és Rao, 2011), a cselekvés (pl. Friston, Mattout és Kilner, 2011), sőt a társas kogníció működését is (pl. Tamir és Thornton, 2018).
A prediktív kódolás elmélete szerint agyunk hierarchikus, generatív modelleket konstruál a külső világról, melyek célja, hogy magyarázzák a szenzoros ingereket. Az elmélet előrecsatolt (feedforward) modelleket feltételez, melyek a hierarchia minden szintjén folyamatosan bayesi statisztikai alapon előre jelzik az alattuk lévő szint aktivitását, amely a legalsóbb szinten a szenzoros bemenet előrejelzésének felel meg. Az előrejelzett és az adott szint valós bemenetének összevetése nyomán kialakuló eltérés, az ún. predikciós hiba a hierarchiában felfelé terjed, és a felettes szint számára visszacsatolást nyújt. Minden szint a visszacsatolt predikciós hiba alapján tanul (annak minimalizálása révén), azaz módosítja az alsóbb szintre vonatkozó előrejelzéseit. A teljes rendszer tehát a hibajelek minimalizálására törekszik, azaz a beérkező ingerek minél pontosabb bejóslására. A rendszer működésének legismertebb matematikai modelljében (Friston, 2005) a hiba teljes rendszerre vetített mértékét mint szabad energiát értelmezi, és a rendszer működését a szabad energia minimalizálására való törekvésből vezeti le.
Az elmélet szerint tehát az agyunk általános prediktív, generatív működése révén észleljük a külvilágot, beleértve mások viselkedését, ill. szándékaik felismerését is. Bár a prediktív kódolás elmélete felületesen hasonlónak tűnhet a korábban bemutatott HMOSAIC modellhez, a prediktív kódolás egyszerűbb komputációkkal írja le a szándékfelismerést: mások viselkedésének megfigyelése során a predikciós hiba minimalizálásával mindig a legvalószínűbb szándék kerül kiválasztásra, inverz modellek feltételezése nélkül is (Kilner, Friston és Frith, 2007).
Az elmélet általános jellege miatt alkalmazható a kommunikációra is (Friston és Frith, 2015a, 2015b). Leegyszerűsítve, a másik személy kommunikatív (pl. nyelvi) viselkedését, mint szenzoros bemenetet modellezhetjük egy hierarchikus, generatív modellel, ami tanulás révén képes a másik személy viselkedésének egyre pontosabb bejóslására. Az egyetlen szükséges feltétel a két személy belső dinamikájának hasonlósága, mely révén ugyanazok a generatív modellek használhatóak a másik személy (kommunikatív) viselkedésének bejóslására, amelyek a sajátunkat is előre jelzik (a személyek közötti kisebb eltérések figyelembevétele mellett). A prediktív kódolás elméletének szempontjából az előrejelzés különböző nyelvi szinteken talált bizonyítékai mind ugyanannak az általános idegrendszeri mechanizmusnak a leképeződései. Az elmélet kiterjesztése a cselekvésre („active inference”: Adams, Schipp és Friston, 2013; Friston, Mattout és Kilner, 2011) pedig magyarázattal szolgál a produkciós rendszer előrejelzésben betöltött szerepére is: az észlelés és a cselekvés eszerint ugyanazon generatív modell működésével magyarázható, mivel az előrejelzések egyben betölthetik a motoros parancsok szerepét is.
Kérdéses azonban, hogy a prediktív kódolás elmélete mennyire hasznos a humán kommunikáció megértéséhez. Legáltalánosabb formájában az elmélet a biológiai rendszerek közös működési elveit írja le (Parr, Da Costa és Friston, 2020). Kommunikációra alkalmazott verziója (Friston és Frith, 2015a, 2015b; Friston és mtsai, 2020) sem humánspecifikus, sőt, az elemzett példák az állati kommunikációt (énekesmadarak viselkedését) modellezik, bemutatva a prediktív kódolás és a kommunikáció egyes aspektusainak összeegyeztethetőségét. Így a prediktív kódolás eddigi kifejtései nem magyarázzák sem az állati (kódolás-dekódolás modell) és humán (osztenzív-következtetéses) kommunikáció különbségét, sem az informatív szándék felismerését, hiszen a kommunikatív viselkedés az elmélet szempontjából nem különbözik bármely más viselkedéstől.
Koordináció a szemtől szembeni kommunikációban: a beszélőváltások
Az előrejelzések egy másik lehetséges szerepe a kommunikációban a beszélők közötti időbeli koordináció elősegítése (Pickering és Gambi, 2018; Scott, McGettigan és Eisner, 2009). Korábban már utaltunk a beszélőváltásokra mint a nyelvi predikció egyik fő bizonyítékára a szemtől szembeni kommunikáció során (Levinson, 2016): hétköznapi párbeszédek során az átmenetek sokkal rövidebb időt vesznek igénybe (∼200 ms; Stivers és mtsai, 2009), mint amennyi ideig akár csak egy szó kimondásának a megtervezése tart (∼600 ms; Indefrey és Levelt, 2004). Mivel a nyelvhasználat elsődleges terepe a mindennapi kommunikáció, mely rövid beszédfordulókkal jellemezhető, lehetséges, hogy a beszédmegértés közben megfigyelt előrejelzés általános funkciója a beszélőváltások megkönnyítése. Ez a nézőpont nem feltétlenül függetleníti az előrejelzést a megértéstől, illetve a kommunikáció sikerességétől: ha az előrejelzés gyorsítja a kétoldalú kommunikációt, ezáltal elősegíti azt is, hogy a kommunikáló felek hamarabb, illetve azonos időtartam alatt pontosabban értsék meg egymást. Ez a kapcsolat azonban csak két- vagy többszereplős helyzetekben jelentkezhet, nehezítve a hipotézis vizsgálatát.
Az a gondolat, hogy a partner viselkedésének előrejelzése az időbeli koordinációt szolgálja, általánosabban is jelen van a társas cselekvések („joint action”) kutatásában (Knoblich, Butterfill és Sebanz, 2011; Sebanz, Bekkering és Knoblich, 2006; Sebanz és Knoblich, 2009). Ez a terület a két vagy több személy koordinációját igénylő viselkedéseket (pl. kézfogás, társastánc, egyes sportok stb.) vizsgálja, különös tekintettel az együttműködést alkotó egyéni cselekvések nagy fokú (többek között idői) koordinációjára. Ha például átveszek egy csészét valakitől, a haptikus kapcsolat várhatóan néhány tized másodpercig tart csak (Endo, Pegman, Burgin, Toumi és Wing, 2012; Controzzi és mtsai, 2018; Mason és MacKenzie, 2005), és a csészét átadó személy keze által kifejtett erő pontosan a kontaktus kezdetétől fog csökkenni (Controzzi és mtsai, 2018; Mason és MacKenzie, 2005). Ez a pontosság sok kutató szerint a másik személy viselkedésének reprezentációja, illetve idői előrejelzése révén érhető el (Knoblich és mtsai, 2011; Vesper és mtsai, 2017). Amilyen mértékben a beszélőváltás koordinált motoros viselkedésnek tekinthető, vonatkoztathatók rá a társas cselekvés vizsgálata során megfigyelt szabályok.
Mit is tudunk pontosan az előrejelző folyamatokról a beszélőváltások esetében? Számos kutatás vizsgálta már, hogy mi alapján jelezzük előre, hogy mikor fejezi be a másik fél a mondanivalóját, és mikor vehetjük át tőle a szót (pl. Bögels, 2020; Magyari és De Ruiter, 2012; Magyari, Bastiaansen, De Ruiter és Levinson, 2014; Magyari, De Ruiter és Levinson, 2017). Magyari és munkatársai (2014) kutatásában például a résztvevők természetes telefonbeszélgetéseket hallgattak. A beszédfordulók („turn”) egyik része bejósolható, másik része nem bejósolható szóra végződött. A kísérleti személyek feladata az volt, hogy gombnyomással minél pontosabban jelezzék a beszédfordulók végét. A vizsgálat a bejósolhatóság két fontos hatását mutatta ki: 1) a forduló végének becslése pontosabb volt a bejósolható, mint a nem bejósolható beszédfordulók esetén, és 2) a bejósolható beszédfordulók nagyon korán, már átlagosan 1250 ms-al a forduló vége előtt deszinkronizációt (teljesítménycsökkenést) váltottak ki a béta EEG sávban (14–30 Hz) a figyelem irányításához, valamint a szintaktikai és lexikai feldolgozáshoz köthető agyi területeken (anterior cinguláris kéreg, inferior parietális lebeny). Összességében mind a viselkedéses, mind pedig az EEG adatok azt mutatták, hogy a kísérleti személyek már jóval a beszédforduló vége előtt bejósolták az adott mondat befejező szavait, és ebből következtettek a beszédforduló várható befejezésének idejére.
A beszédforduló idejének előrejelzésére utaló eredményeket kaptak Riest, Jorschick és De Ruiter (2015) is. Kutatásukban a résztvevők feladata hasonló volt az előző vizsgálathoz: természetes párbeszédeket hallgattak, és gombnyomással kellett jelezniük, hogy a beszélő mikor fejezi be a beszédfordulóját. Azt találták, hogy a vizsgálati személyek válaszadási pontossága közel megegyezett abban az esetben, amikor (1) csak a természetes dialógust hallgatták, és (2) amikor előzetesen elolvashatták a beszélgetés teljes leiratát, azaz a teljes szöveg ismeretében kellett jelezniük a beszédforduló végének idejét. Ez az eredmény arra utal, hogy a résztvevők elsősorban nem előzetes tudásukra, hanem a valós időben készített előrejelzésekre alapozták válaszaikat.
Azon túl, hogy tartalmilag bejósoljuk a másik személy beszédét, milyen egyéb folyamatok segítik a gyors és hatékony beszélőváltás elérését? A vizsgálatok túlnyomó többsége szerint a beszédprodukcióra/artikulációra való felkészülés már akkor megkezdődik, amikor a kritikus információ először rendelkezésre áll a beszédforduló végének bejóslásához (Bögels, 2020; Bögels, Magyari és Levinson, 2015; Barthel, Meyer és Levinson, 2017; Magyari és mtsai, 2014). További kérdés, hogy a korai válasz-előkészítés mellett mi váltja ki közvetlenül az artikuláció megindítását. Magyari és munkatársainak eredményei (Magyari és mtsai, 2014; Magyari és mtsai, 2017) szerint a beszédforduló végének időpontját is be tudjuk jósolni. Ugyanakkor Corps és munkatársai (Corps, Gambi és Pickering, 2018) vizsgálata csak tartalmi előrejelzést mutatott ki, idői előrejelzést nem. Más kutatásokból arra következtethetünk, hogy a lexikai, szintaktikai információ önmagában nem elégséges egy beszédforduló végének bejóslásához. A választ közvetlenül a forduló végén megjelenő prozódiai, intonációs stb. jelzések indítják el (Barthel és mtsai, 2017; Bögels és Torreira, 2015).
Összegzésképpen megállapíthatjuk, hogy az előrejelzések szerepe a kommunikációban nem csak abban a formában képzelhető el, hogy a predikció a beszédértés egy alapvető mechanizmusa. Lehetséges oly módon is, hogy prediktív mechanizmusok egyes kommunikatív részfolyamatokban vesznek részt.
Összegzés
A tanulmányban a predikciónak a szemtől szembeni kommunikációban betöltött lehetséges szerepét tárgyaltuk. Az első részben ismertettük a szimulációs-prediktív elképzelést, amely szerint a predikció közvetlenül elősegíti a sikeres kommunikációt. Láthattuk, hogy ez a megközelítés a kommunikatív szándék felismerését a cselekvés felismerésének mintájára kezeli, és hangsúlyozza a belső (prediktív) szimulációt mint a felismerés központi mechanizmusát. Bár a bizonyítékok alátámasztják, hogy belső szimulációk révén jósoljuk be mind a magunk, mind mások kommunikatív viselkedését, a második részben olyan kutatási eredményeket mutattunk be, amelyek megkérdőjelezik az előrejelzés jelentőségét a nyelvi megértésben. Gyerekek, idősek és nem anyanyelvi beszélők adatai alapján érintetlen nyelvi megértés (azaz sikeres kommunikáció) figyelhető meg csökkent, vagy éppen nem kimutatható előrejelzés mellett is. Más szóval: bár gyakran bejósoljuk a másik személy beszédét, és ezt részben a saját motoros rendszerünk révén tesszük meg, az előrejelzés nem elengedhetetlen a sikeres kommunikációhoz.
Ezután a predikció két lehetséges alternatív funkcióját tárgyaltuk. Láthattuk, hogy a szimulációs-prediktív leírás jól összeegyeztethető egy nagyon általános prediktív elmélettel, a prediktív kódolással (Friston, 2005), amelyben a prediktív folyamatok jelentik az alapvető működési elvet az idegrendszerben. A prediktív kódolás jelenlegi változataiban ugyanakkor nem helyezhetők el jól az emberi kommunikáció specifikus jelenségei. Úgy gondoljuk, hogy a szemtől szembeni emberi kommunikáció magyarázatához jelenleg többet tesz hozzá az a következtetés, hogy a mindennapokban megfigyelhető gyors beszélőváltásokhoz elengedhetetlen a predikció. Úgy tűnik, hogy a kommunikációs szerepek koordinációja (lásd a szimulációs-prediktív megközelítést) ugyanúgy nem magyarázható előrejelző folyamatok nélkül, ahogyan az együttes cselekvések során megfigyelt szoros idői koordináció sem. A kísérleti eredmények szerint azonban a gyors beszélőváltást nem csupán a beszédforduló végének előrejelzése teszi lehetővé, hanem az is, hogy a válasz előkészítése még a beszédforduló befejezése előtt megkezdődik.
Mindezek alapján továbbra is nyitott kérdés, hogy feltétlenül szükséges-e a predikció a kommunikáció sikeréhez, illetve hogy milyen mértékben hagyatkozunk előrejelzésekre a nyelvhasználat során. Tudomásunk szerint igen kevés kutatás vizsgálta eddig azt, hogy van-e közvetlen kapcsolat az előrejelzések és a kommunikációs sikeresség között. Példaként említhetjük Stephens, Silbert és Hasson (2010) vizsgálatát, akik kvalitatív elemzésekkel tették mérhetővé a beszédmegértés szintjét egy passzív kommunikációs feladathelyzetben, ahol beszélők és hallgatók agyi aktivitását hasonlították össze funkcionális mágnesesrezonancia-képalkotás (fMRI) segítségével. A szerzők azt találták, hogy a feltételezhetően prediktív agyi aktivitás (idői késleltetés nélkül megjelenő szinkronizálódás a beszélő agyi aktivitásához) pozitív együtt járást mutatott a hallott szöveg megértésének mértékével. Dikker, Silbert, Hasson és Zevin (2014) hasonlóan idegi szinkronizációt vizsgáltak interakciós helyzetben. Ez a kutatás rávilágított arra, hogy a jobban előrejelezhető beszéd magasabb fokú agyak közötti szinkronizációval jár együtt, ami a korábbiak alapján talán sikeresebb kommunikációt is jelenthet. Ezek az eredmények ugyanakkor nem bizonyítják minden kétséget kizáróan a kommunikációs sikeresség és a prediktív folyamatok kapcsolatát. Ehhez további vizsgálatokra lenne szükség. Nehezíti az ilyen vizsgálatok tervezését, hogy a verbális interakciók sikerességének mértékét gyakran nehéz megállapítani.
Úgy gondoljuk tehát, hogy a jövőben kiemelt figyelmet kell fordítani ezen kérdések megválaszolására, és nem csupán az előrejelzések tényét, de annak lehetséges kommunikációs/nyelvi funkcióját is szükséges lenne behatóbban vizsgálni.
Köszönetnyilvánítás
A szerzőket a tanulmány megírásában a Nemzeti Kutatási, Fejlesztési és Innovációs Hivatal támogatása segítette (OTKA K132642).
Irodalom
Adams, R. A., Shipp, S., & Friston, K. J. (2013). Predictions not commands: Active inference in the motor system. Brain Structure and Function, 218, 611–643.
Aglioti, S. M., Cesari, P., Romani, M., & Urgesi, C. (2008). Action anticipation and motor resonance in elite basketball players. Nature Neuroscience, 11(9), 1109–1116.
Altmann, G. T., & Kamide, Y. (1999). Incremental interpretation at verbs: Restricting the domain of subsequent reference. Cognition, 73(3), 247–264.
Barthel, M., Meyer, A. S., & Levinson, S. C. (2017). Next speakers plan their turn early and speak after turn-final “go-signals”. Frontiers in Psychology, 8, 393.
Bastos, A. M., Usrey, W. M., Adams, R. A., Mangun, G. R., Fries, P., & Friston, K. J. (2012). Canonical microcircuits for predictive coding. Neuron, 76(4), 695–711.
Blakemore, S. J., & Decety, J. (2001). From the perception of action to the understanding of intention. Nature Reviews Neuroscience, 2(8), 561–567.
Bögels, S. (2020). Neural correlates of turn-taking in the wild: Response planning starts early in free interviews. Cognition, 203, 104347.
Bögels, S., Magyari, L., & Levinson, S. C. (2015). Neural signatures of response planning occur midway through an incoming question in conversation. Scientific Reports, 5(1), 1–11.
Bögels, S., & Torreira, F. (2015). Listeners use intonational phrase boundaries to project turn ends in spoken interaction. Journal of Phonetics, 52, 46–57.
Bonhage, C. E., Mueller, J. L., Friederici, A. D., & Fiebach, C. J. (2015). Combined eye tracking and fMRI reveals neural basis of linguistic predictions during sentence comprehension. Cortex, 68, 33–47.
Brennan, S. E., & Clark, H. H. (1996). Conceptual pacts and lexical choice in conversation. Journal of Experimental Psychology: Learning, Memory, and Cognition, 22(6), 1482.
Brennan, S. E., Galati, A., & Kuhlen, A. K. (2010). Two minds, one dialog: Coordinating speaking and understanding. Psychology of Learning and Motivation, 53, 301–344 (Academic Press).
Brich, L. F., Bächle, C., Hermsdörfer, J., & Stadler, W. (2018). Real-Time prediction of observed action requires integrity of the dorsal premotor cortex: Evidence from repetitive transcranial magnetic stimulation. Frontiers in Human Neuroscience, 12, 101.
Calvo-Merino, B., Ehrenberg, S., Leung, D., & Haggard, P. (2010). Experts see it all: Configural effects in action observation. Psychological Research PRPF, 74(4), 400–406.
Calvo-Merino, B., Glaser, D. E., Grèzes, J., Passingham, R. E., & Haggard, P. (2005). Action observation and acquired motor skills: An FMRI study with expert dancers. Cerebral Cortex, 15(8), 1243–1249.
Caplan, D., Hildebrandt, N., & Makris, N. (1996). Location of lesions in stroke patients with deficits in syntactic processing in sentence comprehension. Brain, 119(3), 933–949.
Caramazza, A., Anzellotti, S., Strnad, L., & Lingnau, A. (2014). Embodied cognition and mirror neurons: A critical assessment. Annual Review of Neuroscience, 37, 1–15.
Caspers, S., Zilles, K., Laird, A. R., & Eickhoff, S. B. (2010). ALE meta-analysis of action observation and imitation in the human brain. Neuroimage, 50(3), 1148–1167.
Clahsen, H., & Felser, C. (2006). How native-like is non-native language processing? Trends in Cognitive Sciences, 10(12), 564–570.
Clark, H. H. (1983). Making sense of nonce sense. In G. B. Flores d'Arcais, & R. Jarvella (Eds.), The process of language understanding (pp. 297–331). New York: Wiley.
Clark, H. H. (1996). Using language. Cambridge University Press.
Clark, A. (2013). Whatever next? Predictive brains, situated agents, and the future of cognitive science. Behavioral and Brain Sciences, 36(3), 181–204.
Clark, H. H., & Brennan, S. E. (1991). Grounding in communication. In L. B. Resnick, J. M. Levine, & S. D. Teasley (Eds.), Perspectives on socially shared cognition (pp. 127–149).
Controzzi, M., Singh, H., Cini, F., Cecchini, T., Wing, A., & Cipriani, C. (2018). Humans adjust their grip force when passing an object according to the observed speed of the partner’s reaching out movement. Experimental Brain Research, 236(12), 3363–3377.
Corps, R. E., Crossley, A., Gambi, C., & Pickering, M. J. (2018). Early preparation during turn-taking: Listeners use content predictions to determine what to say but not when to say it. Cognition, 175, 77–95.
Csibra, G. (2010). Recognizing communicative intentions in infancy. Mind & Language, 25(2), 141–168.
Csibra, G., & Gergely, G. (2009). Natural pedagogy. Trends in Cognitive Sciences, 13(4), 148–153.
De Ruiter, J. P., Noordzij, M. L., Newman-Norlund, S., Newman-Norlund, R., Hagoort, P., Levinson, S. C., & Toni, I. (2010). Exploring the cognitive infrastructure of communication. Interaction Studies, 11(1), 51–77.
Decety, J., Grezes, J., Costes, N., Perani, D., Jeannerod, M., Procyk, E., … Fazio, F. (1997). Brain activity during observation of actions. Influence of action content and subject's strategy. Brain: A Journal of Neurology, 120(10), 1763–1777.
Dell, G. S., & Chang, F. (2014). The P-chain: Relating sentence production and its disorders to comprehension and acquisition. Philosophical Transactions of the Royal Society B: Biological Sciences, 369(1634), 20120394.
DeLong, K. A., Urbach, T. P., & Kutas, M. (2005). Probabilistic word pre–activation during language comprehension inferred from electrical brain activity. Nature Neuroscience, 8(8), 1117–1121.
Demiris, Y., & Khadhouri, B. (2006). Hierarchical attentive multiple models for execution and recognition of actions. Robotics and Autonomous Systems, 54(5), 361–369.
Dikker, S., Silbert, L. J., Hasson, U., & Zevin, J. D. (2014). On the same wavelength: Predictable language enhances speaker–listener brain-to-brain synchrony in posterior superior temporal gyrus. Journal of Neuroscience, 34(18), 6267–6272.
Drake, E., & Corley, M. (2015a). Articulatory imaging implicates prediction during spoken language comprehension. Memory & Cognition, 43(8), 1136–1147.
Drake, E., & Corley, M. (2015b). Effects in production of word pre-activation during listening: Are listener-generated predictions specified at a speech-sound level? Memory & Cognition, 43(1), 111–120.
Dussias, P. E., Kroff, J. R. V., Tamargo, R. E. G., & Gerfen, C. (2013). When gender and looking go hand in hand: Grammatical gender processing in L2 Spanish. Studies in Second Language Acquisition, 35(2), 353–387.
Elsner, C., D'Ausilio, A., Gredebäck, G., Falck-Ytter, T., & Fadiga, L. (2013). The motor cortex is causally related to predictive eye movements during action observation. Neuropsychologia, 51(3), 488–492.
Endo, S., Pegman, G., Burgin, M., Toumi, T., & Wing, A. M. (2012, June). Haptics in between-person object transfer. In International Conference on Human Haptic Sensing and Touch Enabled Computer Applications (pp. 103–111). Berlin–Heidelberg: Springer.
Fadiga, L., Fogassi, L., Pavesi, G., & Rizzolatti, G. (1995). Motor facilitation during action observation: A magnetic stimulation study. Journal of Neurophysiology, 73(6), 2608–2611.
Favier, S., Meyer, A. S., & Huettig, F. (2021). Literacy can enhance syntactic prediction in spoken language processing. Journal of Experimental Psychology: General, 150(10), 2167–2174.
Federmeier, K. D., Kutas, M., & Schul, R. (2010). Age-related and individual differences in the use of prediction during language comprehension. Brain and Language, 115(3), 149–161.
Federmeier, K. D., McLennan, D. B., De Ochoa, E., & Kutas, M. (2002). The impact of semantic memory organization and sentence context information on spoken language processing by younger and older adults: An ERP study. Psychophysiology, 39(2), 133–146.
Fleur, D. S., Flecken, M., Rommers, J., & Nieuwland, M. S. (2020). Definitely saw it coming? The dual nature of the pre-nominal prediction effect. Cognition, 204, 104335.
Floreano, D., Ijspeert, A. J., & Schaal, S. (2014). Robotics and neuroscience. Current Biology, 24(18), R910–R920.
Franken, M. K., Eisner, F., Acheson, D. J., McQueen, J. M., Hagoort, P., & Schoffelen, J. M. (2018). Self-monitoring in the cerebral cortex: Neural responses to small pitch shifts in auditory feedback during speech production. NeuroImage, 179, 326–336.
Friston, K. (2005). A theory of cortical responses. Philosophical Transactions of the Royal Society B: Biological Sciences, 360(1456), 815–836.
Friston, K. J., & Frith, C. D. (2015). Active inference, communication and hermeneutics. Cortex, 68, 129–143.
Friston, K., & Frith, C. (2015). A duet for one. Consciousness and Cognition, 36, 390–405.
Friston, K., Mattout, J., & Kilner, J. (2011). Action understanding and active inference. Biological Cybernetics, 104, 137–160.
Friston, K. J., Parr, T., Yufik, Y., Sajid, N., Price, C. J., & Holmes, E. (2020). Generative models, linguistic communication and active inference. Neuroscience & Biobehavioral Reviews, 118, 42–64.
Galantucci, B. (2005). An experimental study of the emergence of human communication systems. Cognitive Science, 29(5), 737–767.
Galantucci, B., & Garrod, S. (2011). Experimental semiotics: A review. Frontiers in Human Neuroscience, 5, 11.
Gallese, V., Fadiga, L., Fogassi, L., & Rizzolatti, G. (1996). Action recognition in the premotor cortex. Brain, 119(2), 593–609.
Gambi, C., Gorrie, F., Pickering, M. J., & Rabagliati, H. (2018). The development of linguistic prediction: Predictions of sound and meaning in 2-to 5-year-olds. Journal of Experimental Child Psychology, 173, 351–370.
Garrod, S., & Pickering, M. J. (2009). Joint action, interactive alignment, and dialog. Topics in Cognitive Science, 1(2), 292–304.
Gastaldon, S., Arcara, G., Navarrete, E., & Peressotti, F. (2020). Commonalities in alpha and beta neural desynchronizations during prediction in language comprehension and production. Cortex, 133, 328–345.
Gastaldon, S., Busan, P., Arcara, G., & Peressotti, F. (2023). Inefficient speech-motor control affects predictive speech comprehension: Atypical electrophysiological correlates in stuttering. Cerebral Cortex. https://doi.org/10.1093/cercor/bhad004.
Giese, M. A., & Rizzolatti, G. (2015). Neural and computational mechanisms of action processing: Interaction between visual and motor representations. Neuron, 88(1), 167–180.
Gordon, C. L., Iacoboni, M., & Balasubramaniam, R. (2018). Multimodal music perception engages motor prediction: A TMS study. Frontiers in Neuroscience, 12, 736.
Gregoromichelaki, E., Kempson, R., Purver, M., Mills, G. J., Cann, R., Meyer-Viol, W., & Healey, P. G. (2011). Incrementality and intention-recognition in utterance processing. Dialogue & Discourse, 2(1), 199–233.
Grice, H. P. (1957). Meaning. The Philosophical Review, 66(3), 377–388.
Grice, P. (1989). Studies in the way of words. Harvard University Press.
Grüter, T., Lew-Williams, C., & Fernald, A. (2012). Grammatical gender in L2: A production or a real-time processing problem? Second Language Research, 28(2), 191–215.
Grüter, T., & Rohde, H. (2013). L2 processing is affected by RAGE: Evidence from reference resolution. In the 12th conference on Generative Approaches to Second Language Acquisition (GASLA).
Hahne, A., & Friederici, A. D. (2001). Processing a second language: Late learners' comprehension mechanisms as revealed by event-related brain potentials. Bilingualism. Language and Cognition, 4(2), 123–141.
Hanne, S., Burchert, F., De Bleser, R., & Vasishth, S. (2015). Sentence comprehension and morphological cues in aphasia: What eye-tracking reveals about integration and prediction. Journal of Neurolinguistics, 34, 83–111.
Haruno, M., Wolpert, D. M., & Kawato, M. (2001). Mosaic model for sensorimotor learning and control. Neural Computation, 13(10), 2201–2220.
Haruno, M., Wolpert, D. M., & Kawato, M. (2003, October). Hierarchical MOSAIC for movement generation. International congress series (Vol. 1250, pp. 575–590). Elsevier.
Haueisen, J., & Knösche, T. R. (2001). Involuntary motor activity in pianists evoked by music perception. Journal of Cognitive Neuroscience, 13(6), 786–792.
Hickok, G. (2012). Computational neuroanatomy of speech production. Nature Reviews Neuroscience, 13(2), 135–145.
Hohwy, J. (2007). Functional integration and the mind. Synthese, 159(3), 315–328.
Huang, Y., & Rao, R. P. (2011). Predictive coding. Wiley Interdisciplinary Reviews: Cognitive Science, 2(5), 580–593.
Huettig, F. (2015). Four central questions about prediction in language processing. Brain Research, 1626, 118–135.
Huettig, F., & Brouwer, S. (2015). Delayed anticipatory spoken language processing in adults with dyslexia—evidence from eye‐tracking. Dyslexia, 21(2), 97–122.
Huettig, F., & Janse, E. (2012, September). Anticipatory eye movements are modulated by working memory capacity: Evidence from older adults. In the 18th Annual Conference on Architectures and Mechanisms for Language Processing (AMLaP 2012).
Huettig, F., & Mani, N. (2016). Is prediction necessary to understand language? Probably not. Language, Cognition and Neuroscience, 31(1), 19–31.
Huettig, F., & Pickering, M. J. (2019). Literacy advantages beyond reading: Prediction of spoken language. Trends in Cognitive Sciences, 23(6), 464–475.
Imamizu, H., Kuroda, T., Miyauchi, S., Yoshioka, T., & Kawato, M. (2003). Modular organization of internal models of tools in the human cerebellum. Proceedings of the National Academy of Sciences, 100(9), 5461–5466.
Indefrey, P., & Levelt, W. J. (2004). The spatial and temporal signatures of word production components. Cognition, 92(1–2), 101–144.
Kaan, E. (2014). Predictive sentence processing in L2 and L1: What is different? Linguistic Approaches to Bilingualism, 4(2), 257–282.
Kawato, M. (1990). Feedback-error-learning neural network for supervised motor learning. In Advanced neural computers (pp. 365–372). North-Holland.
Kawato, M., Furukawa, K., & Suzuki, R. (1987). A hierarchical neural-network model for control and learning of voluntary movement. Biological Cybernetics, 57(3), 169–185.
Kay, B. A. (1988). The dimensionality of movement trajectories and the degrees of freedom problem: A tutorial. Human Movement Science, 7(2–4), 343–364.
Kilner, J. M., Friston, K. J., & Frith, C. D. (2007). Predictive coding: An account of the mirror neuron system. Cognitive Processing, 8(3), 159–166.
Knoblich, G., Butterfill, S., & Sebanz, N. (2011). Psychological research on joint action: Theory and data. Psychology of Learning and Motivation, 54, 59–101.
Knoblich, G., & Flach, R. (2001). Predicting the effects of actions: Interactions of perception and action. Psychological Science, 12(6), 467–472.
Knoblich, G., Seigerschmidt, E., Flach, R., & Prinz, W. (2002). Authorship effects in the prediction of handwriting strokes: Evidence for action simulation during action perception. The Quarterly Journal of Experimental Psychology Section A, 55(3), 1027–1046.
Kuperberg, G. R., & Jaeger, T. F. (2016). What do we mean by prediction in language comprehension? Language, Cognition and Neuroscience, 31(1), 32–59.
Lelonkiewicz, J. R., Rabagliati, H., & Pickering, M. J. (2021). The role of language production in making predictions during comprehension. Quarterly Journal of Experimental Psychology, 74(12), 2193–2209.
Lesage, E., Morgan, B. E., Olson, A. C., Meyer, A. S., & Miall, R. C. (2012). Cerebellar rTMS disrupts predictive language processing. Current Biology, 22(18), R794–R795.
Levinson, S. C. (2006). On the human ‘interactional engine’. In N. J. Enfield, & S. C. Levinson (Eds.), Roots of human sociality: Culture, cognition and interaction (pp. 39–69). Oxford: Berg.
Levinson, S. C. (2016). Turn-taking in human communication–origins and implications for language processing. Trends in Cognitive Sciences, 20(1), 6–14.
Magyari, L., Bastiaansen, M. C., De Ruiter, J. P., & Levinson, S. C. (2014). Early anticipation lies behind the speed of response in conversation. Journal of Cognitive Neuroscience, 26(11), 2530–2539.
Magyari, L., & De Ruiter, J. P. (2012). Prediction of turn-ends based on anticipation of upcoming words. Frontiers in Psychology, 3, 376.
Magyari, L., De Ruiter, J. P., & Levinson, S. C. (2017). Temporal preparation for speaking in question-answer sequences. Frontiers in Psychology, 8, 211.
Mani, N., & Huettig, F. (2012). Prediction during language processing is a piece of cake—But only for skilled producers. Journal of Experimental Psychology: Human Perception and Performance, 38(4), 843.
Mani, N., & Huettig, F. (2014). Word reading skill predicts anticipation of upcoming spoken language input: A study of children developing proficiency in reading. Journal of Experimental Child Psychology, 126, 264–279.
Martin, C. D., Branzi, F. M., & Bar, M. (2018). Prediction is Production: The missing link between language production and comprehension. Scientific Reports, 8(1), 1–9.
Martin, C. D., Thierry, G., Kuipers, J. R., Boutonnet, B., Foucart, A., & Costa, A. (2013). Bilinguals reading in their second language do not predict upcoming words as native readers do. Journal of Memory and Language, 69(4), 574–588.
Mason, A. H., & MacKenzie, C. L. (2005). Grip forces when passing an object to a partner. Experimental Brain Research, 163(2), 173–187.
Miall, R. C., Antony, J., Goldsmith-Sumner, A., Harding, S. R., McGovern, C., & Winter, J. L. (2016). Modulation of linguistic prediction by TDCS of the right lateral cerebellum. Neuropsychologia, 86, 103–109.
Miall, R. C., & Wolpert, D. M. (1996). Forward models for physiological motor control. Neural Networks, 9(8), 1265–1279.
Mitterer, H., Brouwer, S., & Huettig, F. (2018). How important is prediction for understanding spontaneous speech? In The interactive mind: Language, vision and attention (pp. 26–40). Macmillan Publishers India.
Moore, R. (2016). Meaning and ostension in great ape gestural communication. Animal Cognition, 19(1), 223–231.
Mulligan, D., Lohse, K. R., & Hodges, N. J. (2016). An action-incongruent secondary task modulates prediction accuracy in experienced performers: Evidence for motor simulation. Psychological Research, 80(4), 496–509.
Murdoch, B. E. (2010). The cerebellum and language: Historical perspective and review. Cortex, 46(7), 858–868.
Noordzij, M. L., Newman-Norlund, S. E., De Ruiter, J. P., Hagoort, P., Levinson, S. C., & Toni, I. (2010). Neural correlates of intentional communication. Frontiers in Neuroscience, 4, 188.
Okada, K., Matchin, W., & Hickok, G. (2018). Neural evidence for predictive coding in auditory cortex during speech production. Psychonomic Bulletin & Review, 25(1), 423–430.
Papadopoulou, D. (2005). Reading-time studies of second language ambiguity resolution. Second Language Research, 21(2), 98–120.
Parr, T., Da Costa, L., & Friston, K. (2020). Markov blankets, information geometry and stochastic thermodynamics. Philosophical Transactions of the Royal Society A, 378(2164), 20190159.
Pickering, M. J., & Gambi, C. (2018). Predicting while comprehending language: A theory and review. Psychological Bulletin, 144(10), 1002.
Pickering, M. J., & Garrod, S. (2004). Toward a mechanistic psychology of dialogue. Behavioral and Brain Sciences, 27(2), 169–190.
Pickering, M. J., & Garrod, S. (2013). An integrated theory of language production and comprehension. Behavioral and Brain Sciences, 36(4), 329–347.
Riest, C., Jorschick, A. B., & de Ruiter, J. P. (2015). Anticipation in turn-taking: Mechanisms and information sources. Frontiers in Psychology, 6, 89.
Rizzolatti, G., Cattaneo, L., Fabbri-Destro, M., & Rozzi, S. (2014). Cortical mechanisms underlying the organization of goal-directed actions and mirror neuron-based action understanding. Physiological Reviews, 94(2), 655–706.
Rizzolatti, G., & Craighero, L. (2004). The mirror-neuron system. Annual Review of Neuroscience, 27, 169–192.
Rommers, J., Dell, G. S., & Benjamin, A. S. (2020). Word predictability blurs the lines between production and comprehension: Evidence from the production effect in memory. Cognition, 198, 104206.
Schegloff, E. A., & Sacks, H. (1973). Opening up closings. Semiotica, 8, 289–327.
Scott, S. H. (2004). Optimal feedback control and the neural basis of volitional motor control. Nature Reviews Neuroscience, 5(7), 532–545.
Scott-Phillips, T. (2014). Speaking our minds: Why human communication is different, and how language evolved to make it special. London, UK: Palgrave MacMillan.
Scott-Phillips, T. C. (2015). Meaning in animal and human communication. Animal Cognition, 18(3), 801–805.
Scott-Phillips, T. C., Blythe, R. A., Gardner, A., & West, S. A. (2012). How do communication systems emerge? Proceedings of the Royal Society B: Biological Sciences, 279(1735), 1943–1949.
Scott, S. K., McGettigan, C., & Eisner, F. (2009). A little more conversation, a little less action—candidate roles for the motor cortex in speech perception. Nature Reviews Neuroscience, 10(4), 295–302.
Sebanz, N., Bekkering, H., & Knoblich, G. (2006). Joint action: Bodies and minds moving together. Trends in Cognitive Sciences, 10(2), 70–76.
Sebanz, N., & Knoblich, G. (2009). Prediction in joint action: What, when, and where. Topics in Cognitive Science, 1(2), 353–367.
Sperber, D., & Wilson, D. (1995). Relevance: Communication and cognition. Oxford: Blackwell.
Sperber, D., & Wilson, D. (2002). Pragmatics, modularity and mind‐reading. Mind & Language, 17(1–2), 3–23.
Stephens, G. J., Silbert, L. J., & Hasson, U. (2010). Speaker–listener neural coupling underlies successful communication. Proceedings of the National Academy of Sciences, 107(32), 14425–14430.
Stivers, T., Enfield, N. J., Brown, P., Englert, C., Hayashi, M., Heinemann, T., … Levinson, S. C. (2009). Universals and cultural variation in turn-taking in conversation. Proceedings of the National Academy of Sciences, 106(26), 10587–10592.
Stolk, A., Verhagen, L., & Toni, I. (2016). Conceptual alignment: How brains achieve mutual understanding. Trends in Cognitive Sciences, 20(3), 180–191.
Tamir, D. I., & Thornton, M. A. (2018). Modeling the predictive social mind. Trends in Cognitive Sciences, 22(3), 201–212.
Tian, X., & Poeppel, D. (2010). Mental imagery of speech and movement implicates the dynamics of internal forward models. Frontiers in Psychology, 1, 166.
Tourville, J. A., & Guenther, F. H. (2011). The DIVA model: A neural theory of speech acquisition and production. Language and Cognitive Processes, 26(7), 952–981.
Umilta, M. A., Kohler, E., Gallese, V., Fogassi, L., Fadiga, L., Keysers, C., & Rizzolatti, G. (2001). I know what you are doing: A neurophysiological study. Neuron, 31(1), 155–165.
Van Berkum, J. J., Brown, C. M., Zwitserlood, P., Kooijman, V., & Hagoort, P. (2005). Anticipating upcoming words in discourse: Evidence from ERPs and reading times. Journal of Experimental Psychology: Learning, Memory, and Cognition, 31(3), 443.
Vannuscorps, G., & Caramazza, A. (2016). Typical action perception and interpretation without motor simulation. Proceedings of the National Academy of Sciences, 113(1), 86–91.
Vesper, C., Abramova, E., Bütepage, J., Ciardo, F., Crossey, B., Effenberg, A., … Wahn, B. (2017). Joint action: Mental representations, shared information and general mechanisms for coordinating with others. Frontiers in Psychology, 7, 2039.
Warren, T., Dickey, M. W., & Lei, C. M. (2016). Structural prediction in aphasia: Evidence from either. Journal of neurolinguistics, 39, 38–48.
Weber, K., Luther, L., Indefrey, P., & Hagoort, P. (2016). Overlap and differences in brain networks underlying the processing of complex sentence structures in second language users compared with native speakers. Brain Connectivity, 6(4), 345–355.
Westra, E., & Nagel, J. (2021). Mindreading in conversation. Cognition, 210, 104618.
Wicha, N. Y., Moreno, E. M., & Kutas, M. (2004). Anticipating words and their gender: An event-related brain potential study of semantic integration, gender expectancy, and gender agreement in Spanish sentence reading. Journal of Cognitive Neuroscience, 16(7), 1272–1288.
Wilson, M., & Knoblich, G. (2005). The case for motor involvement in perceiving conspecifics. Psychological Bulletin, 131(3), 460.
Wolpert, D. M., Doya, K., & Kawato, M. (2003). A unifying computational framework for motor control and social interaction. Philosophical Transactions of the Royal Society of London. Series B: Biological Sciences, 358(1431), 593–602.
Wolpert, D. M., & Kawato, M. (1998). Multiple paired forward and inverse models for motor control. Neural Networks, 11(7–8), 1317–1329.
Wolpert, D. M., Miall, R. C., & Kawato, M. (1998). Internal models in the cerebellum. Trends in Cognitive Sciences, 2(9), 338–347.
Az elmélet összefoglalásában a szimulációs-prediktív megközelítés alkalmazására szorítkozunk, és szándékosan nem térünk ki a beszédképzés és beszédértés szemantikus, szintaktikai és fonetikai reprezentációinak, ill. a közöttük történő megfeleltetés részleteire.