你是否在很吵雜的環境當中與他人對話過?即使說話的聲音聽不清楚,但如果是在看得到對方嘴形的狀態之下,基本上還是可以瞭解對方說話的內容。我們平常的對話之所以得以順利進行,除了「聽」得到的語音本身很重要之外,視覺線索也帶來了很大的幫助。
撰文|王冠云
在Garg等人 (2023) 的研究中,整理了過去各種關於臉部表情以及說話內容的相關研究。關於母音發音的舌位高低,例如「阿」的發音屬於低舌位(嘴巴張大、舌頭降低),「屋」的發音屬於高舌位(嘴巴縮小、舌頭升高),很容易從嘴巴的開闔看出差異;另一方面,即使屬於同樣的舌位,如「依」和「屋」,也可以透過嘴唇的圓展,即更開的嘴形或更圓的嘟嘴來發音,以便讓說話的內容可以更清晰地表現出來。
不過,這些和外顯器官(如嘴唇)具有強烈關係的語音,很容易透過更誇張的臉部表情來強化,至於其他的語音線索,研究者也發現,其實眉毛和頭部的運動也會在說話比較清楚與不清楚時,產生若干的差異。例如,當強調某些音節或句子時,會產生更多的頭部運動。眉毛的舒展度,也和聲調的表現有相關,例如較高的聲調同時伴隨著眉毛更多的水平移動,有上升和下降的聲調則會有更多的垂直方向眉毛移動。因此研究者認為,除了母音或子音這些不同發音器官所自然帶出來的語音變化之外,即使是同樣的發聲器官所表現出來的聲音,只要有聲調的不同,應該也會有若干的表情變化。
Garg等人 (2023) 的實驗邀請了20位中文母語者,所使用的實驗刺激為四個聲調不同但母音相同的漢字「阿、鵝、噁、餓」(根據論文英文翻譯而來,可能與實際實驗有差距),這四個字的特色是它們都沒有子音,都是發/ ɣ/的聲音(註一)。除了讓實驗參與者以輕鬆自然的方式說出上述四個字之外,實驗當中也隨機地刻意在參與者發音之後,再次以錯誤的答案詢問發音。例如,在實驗參與者念「餓」之後,追問「請問你剛剛說的是『噁』嗎?」藉此來讓參與者重新以更清晰的方式說出「餓」這個字。如此一來,就能用最自然的方式獲得同一個字,但是卻有「清晰發音」以及「普通發音」兩種風格的發音。每一個字都會隨機重複出現12次,以確保收集到足夠的資料供分析。實驗除了錄音之外,也使用相機把實驗參與者的臉部表情拍攝下來。
在研究中,臉部表情的影片總共抽取出了33個特徵量,包含頭部、眉毛、嘴唇等不同部位的位移距離、移動時間等等。取得特徵量之後,再使用隨機森林來區分「清晰」與「普通」的發音風格,並且將各個特徵的重要性權重進行排序,最後發現總共有12個特徵量在區分說話風格時,具有顯著的差異。這些特徵量包含頭部的位移、眉毛的平均移動距離、嘴唇的開闔時間等等。
「阿、鵝、噁、餓」從表情看得出來嗎?
整體而言,臉部表情的變化量在「清晰」和「普通」的說話風格之間具有差異,那麼如果單就四聲的發音而言,是否也會在這兩種說話風格之間找到可以區別的視覺線索呢?
例如,在區分「一聲」時,「從起始位置低頭時頭部的最大位移」在清晰語音中比普通語音中更大,而「抬頭時頭部位移達到最大的相對時間」在清晰語音中比在普通語音中小。又例如在區分「三聲」時,「嘴唇張開速度達到最大值所需的時間」和「抬頭速度達到最大值所需的時間」在清晰語音中比在普通語音中更短。在Garg等人 (2023) 的研究中仔細地分析了四聲不同的頭部、臉部的變化特徵,驗證了先前研究的假設,也發現了聲調確實也會有不同的視覺線索。
另外,由於聲調的產生牽涉到聲音的高低,所以視覺線索也往往和音高運動的軌跡很相似(一聲是高平調、三聲是降升調)。不過,需要注意的是,這畢竟是電腦分析影片之後所得到的結果,真人在實際判讀的時候,如何感知對方提供的視覺線索,尚有待研究去探索。然而,同一研究團隊Tupper (2021) 等人,過去也曾使用了同一筆資料進行聲學的分析,發現到儘管「啊、鵝、噁、餓」只有聲調的不同,但在音色方面,清晰發音時產生的頻率更高,而斜率更加明顯(例如四聲的下降時間更短)等。由於聲音本身就有清晰發音與普通發音的差異存在,因此實際上在進行真人溝通的時候,究竟如何在聽不清楚的狀況之下判斷對方說得是哪一聲,仍然還無法確定視覺線索及聽覺線索會對於真人辨識語音產生如何的影響。
註釋
註一:/ ɣ/為IPA(國際音標)標音方法,音讀為注音符號的「ㄜ」發音。
參考文獻
本文轉載自台大科教中心 CASE 報科學網站
原文網址:https://case.ntu.edu.tw/blog/?p=43113
------
「阿、鵝、噁、餓」應為「婀、鵝、噁、餓」,才符合發音相同、聲調不同的限制。