Hoppa till innehållet

McGurk-effekten

Från Wikipedia

McGurk-effekten kallar man det inflytande som ett synkront visuellt intryck från ett ansikte (till exempel läppslutning vid [b]) har på perceptionen av en akustisk talsignal. Denna effekt är uppkallad efter den ena av två författare (Harry McGurk) till den grundläggande artikeln (McGurk & McDonald, 1976) för detta fenomen. Talperception är alltså multimodal.

Effektens natur

[redigera | redigera wikitext]

I det ursprungliga experimentet så presenterades deltagarna en videoinspelning av ett ansikte som uttalade "ga-ga". I den manipulerade inspelningen hade dock ljudet av ett uttalat "ba-ba" spelats in. När dessa spelades upp samtidigt uppstår för de flesta en fusion mellan det visuella och det auditiva intrycket, vilket gör att de flesta percipierar "da-da" (ca 98%).

Det enklaste är att utgå ifrån "informationstillförlitlighetshypotesen" som säger att man förlitar sig på den modalitet som ger mest tillförlitlig information. Auditivt [b] tillsammans med visuellt [g] ger informationen att [b] inte kan uppstå utan att läpparna möts.

Auditivt är informationen dock ett främre ljud och [d] står inte i konflikt med det visuella alltså uppstår fusionen. På samma sätt ger visuellt [e] informationen att det inte kan vara läpprundat [y], men det är auditivt främre, alltså fusionen [i] från auditivt [e]. Visuellt [b] står istället i konflikt med auditivt [g] på grund av bilabialiteten och därför uppstår ingen fusion utan i McGurk och McDonald (1976) mest (54% vuxna) som en kombination av typen [gabga] eller [bagba]. [förtydliga]

Problematiskt är dock förhållandet mellan det visuella och det auditiva när det kommer till perception av vokaler (speciellt främre sådana). Det visar sig då att öppningsgrad uppfattas mest auditivt medan läpprundning uppfattas mest visuellt (Traunmüller & Öhrström, 2005). Det visar sig också att vissa individer är 'skarpsynta', det vill säga att läppavläsning är viktigare än vad de hör. Kvinnor är mer benägna att ta fasta på visuell information (är mer skarpsynta) och tvärtom för män (Johnson et al., 1988; Aloufy et al., 1996). Det har också visat sig att det finns kulturella skillnader för effekten. Japaner använder till exempel visuell information i mindre grad än amerikaner(Sekiyma & Tokhura, 1993).
Det går också att beräkna sannolikheterna (med hjälp av Bayes teorem) för vilka fusioner som bör ske med vilken kombination av visuellt och auditivt stimulus man utsätts för (Massaro & Stork, 1998). Effekten slår också igenom när ansiktsbilden är väldigt begränsad (Rosenblum & Saldaña, 1996).

  • Aloufy, S., Lapidot, M. & Myslobodsky, M. (1996). Differences in susceptibility to the "blending illusion" among native Hebrew and English speakers. Brain and Language, 53: 51–57.
  • Johnson, F. M., Hicks, L., Goldberg, T. & Myslobodsky, M. (1988). Sex differences in lipreading. Bulletin of the Psychonomic Society, 26: 106–108.
  • Massaro, D. W., and D. G. Stork (1998). Speech recognition and sensory integration. American Scientist, 86: 236–244.
  • McGurk, H., and J. MacDonald (1976). Hearing lips and seeing voices. Nature, 264: 746–748
  • Traunmüller, H., and N. Öhrström (2007). Audiovisual perception of openness and lip rounding in front vowels. Journal of Phonetics, 35: 244–258. artikeln som .pdf
  • Rosenblum, L. D. & Saldaña, H. M. (1996). An audiovisual test of kinematic primitives for visual speech perception. Journal of Experimental Psychology: Human Perception and Performance, 22: 318–331.
  • Sekiyama, K. & Tohkura, Y. (1993). Inter-language differences in the influence of visual cues in speech perception. Journal of Phonetics, 21: 427–444.

Vidare läsning

[redigera | redigera wikitext]

Externa länkar

[redigera | redigera wikitext]