從臉部表情「看見」說話的抑揚頓挫

更新於 發佈於 閱讀時間約 5 分鐘

你是否在很吵雜的環境當中與他人對話過?即使說話的聲音聽不清楚,但如果是在看得到對方嘴形的狀態之下,基本上還是可以瞭解對方說話的內容。我們平常的對話之所以得以順利進行,除了「聽」得到的語音本身很重要之外,視覺線索也帶來了很大的幫助。

撰文|王冠云


說話和臉部表情的關係

在Garg等人 (2023) 的研究中,整理了過去各種關於臉部表情以及說話內容的相關研究。關於母音發音的舌位高低,例如「阿」的發音屬於低舌位(嘴巴張大、舌頭降低),「屋」的發音屬於高舌位(嘴巴縮小、舌頭升高),很容易從嘴巴的開闔看出差異;另一方面,即使屬於同樣的舌位,如「依」和「屋」,也可以透過嘴唇的圓展,即更開的嘴形或更圓的嘟嘴來發音,以便讓說話的內容可以更清晰地表現出來。

不過,這些和外顯器官(如嘴唇)具有強烈關係的語音,很容易透過更誇張的臉部表情來強化,至於其他的語音線索,研究者也發現,其實眉毛和頭部的運動也會在說話比較清楚與不清楚時,產生若干的差異。例如,當強調某些音節或句子時,會產生更多的頭部運動。眉毛的舒展度,也和聲調的表現有相關,例如較高的聲調同時伴隨著眉毛更多的水平移動,有上升和下降的聲調則會有更多的垂直方向眉毛移動。因此研究者認為,除了母音或子音這些不同發音器官所自然帶出來的語音變化之外,即使是同樣的發聲器官所表現出來的聲音,只要有聲調的不同,應該也會有若干的表情變化。

 

你剛剛說「噁」嗎?

Garg等人 (2023) 的實驗邀請了20位中文母語者,所使用的實驗刺激為四個聲調不同但母音相同的漢字「阿、鵝、噁、餓」(根據論文英文翻譯而來,可能與實際實驗有差距),這四個字的特色是它們都沒有子音,都是發/ ɣ/的聲音(註一)。除了讓實驗參與者以輕鬆自然的方式說出上述四個字之外,實驗當中也隨機地刻意在參與者發音之後,再次以錯誤的答案詢問發音。例如,在實驗參與者念「餓」之後,追問「請問你剛剛說的是『噁』嗎?」藉此來讓參與者重新以更清晰的方式說出「餓」這個字。如此一來,就能用最自然的方式獲得同一個字,但是卻有「清晰發音」以及「普通發音」兩種風格的發音。每一個字都會隨機重複出現12次,以確保收集到足夠的資料供分析。實驗除了錄音之外,也使用相機把實驗參與者的臉部表情拍攝下來。

在研究中,臉部表情的影片總共抽取出了33個特徵量,包含頭部、眉毛、嘴唇等不同部位的位移距離、移動時間等等。取得特徵量之後,再使用隨機森林來區分「清晰」與「普通」的發音風格,並且將各個特徵的重要性權重進行排序,最後發現總共有12個特徵量在區分說話風格時,具有顯著的差異。這些特徵量包含頭部的位移、眉毛的平均移動距離、嘴唇的開闔時間等等。

「阿、鵝、噁、餓」從表情看得出來嗎?

整體而言,臉部表情的變化量在「清晰」和「普通」的說話風格之間具有差異,那麼如果單就四聲的發音而言,是否也會在這兩種說話風格之間找到可以區別的視覺線索呢?

例如,在區分「一聲」時,「從起始位置低頭時頭部的最大位移」在清晰語音中比普通語音中更大,而「抬頭時頭部位移達到最大的相對時間」在清晰語音中比在普通語音中小。又例如在區分「三聲」時,「嘴唇張開速度達到最大值所需的時間」和「抬頭速度達到最大值所需的時間」在清晰語音中比在普通語音中更短。在Garg等人 (2023) 的研究中仔細地分析了四聲不同的頭部、臉部的變化特徵,驗證了先前研究的假設,也發現了聲調確實也會有不同的視覺線索。

另外,由於聲調的產生牽涉到聲音的高低,所以視覺線索也往往和音高運動的軌跡很相似(一聲是高平調、三聲是降升調)。不過,需要注意的是,這畢竟是電腦分析影片之後所得到的結果,真人在實際判讀的時候,如何感知對方提供的視覺線索,尚有待研究去探索。然而,同一研究團隊Tupper (2021) 等人,過去也曾使用了同一筆資料進行聲學的分析,發現到儘管「啊、鵝、噁、餓」只有聲調的不同,但在音色方面,清晰發音時產生的頻率更高,而斜率更加明顯(例如四聲的下降時間更短)等。由於聲音本身就有清晰發音與普通發音的差異存在,因此實際上在進行真人溝通的時候,究竟如何在聽不清楚的狀況之下判斷對方說得是哪一聲,仍然還無法確定視覺線索及聽覺線索會對於真人辨識語音產生如何的影響。

 


註釋

註一:/ ɣ/為IPA(國際音標)標音方法,音讀為注音符號的「ㄜ」發音。

 


參考文獻

  1. Garg, S., Hamarneh, G., Sereno, J., Jongman, A., & Wang, Y., 2023, Different facial cues for different speech styles in Mandarin tone articulation. Frontiers in Communication, 8, 1148240.
  2. Tupper, P., Leung, K. W., Wang, Y., Jongman, A., & Sereno, J. A., 2021, The contrast between clear and plain speaking style for Mandarin tones. The Journal of the Acoustical Society of America, 150(6), 4464-4473.


本文轉載自台大科教中心 CASE 報科學網站

原文網址:https://case.ntu.edu.tw/blog/?p=43113


------

附註

「阿、鵝、噁、餓」應為「婀、鵝、噁、餓」,才符合發音相同、聲調不同的限制。

avatar-img
114會員
133內容數
高中時候夢想成為一位「文人」,至今依舊。雜食性熱愛學習,念過中文系、心理所、資訊所。古有六藝:禮樂射御書數。願以文字為核心,建立我的六藝。這是我的沙龍,包含文學、心理學、AI、資訊工程,還有很多雜七雜八。透過書寫持續成長,讓今天的自己比昨天更好,散發正能量。E-mail: [email protected]
留言0
查看全部
avatar-img
發表第一個留言支持創作者!
當今「生成式AI」帶來了AI狂潮,不論是照片、圖片、音樂、影片、文章等,都可以找到相關的AI工具來幫助我們製作各式各樣形形色色的內容作品。然而,人類的藝術創造是否備受AI的威脅?心理學家們又怎麼看待人類藝術作品及AI藝術作品各自所帶給觀者的美感體驗呢? 「巧奪天工」的反思 「藝術
當今「生成式AI」帶來了AI狂潮,不論是照片、圖片、音樂、影片、文章等,都可以找到相關的AI工具來幫助我們製作各式各樣形形色色的內容作品。然而,人類的藝術創造是否備受AI的威脅?心理學家們又怎麼看待人類藝術作品及AI藝術作品各自所帶給觀者的美感體驗呢? 「巧奪天工」的反思 「藝術
你可能也想看
Google News 追蹤
Thumbnail
嘿,大家新年快樂~ 新年大家都在做什麼呢? 跨年夜的我趕工製作某個外包設計案,在工作告一段落時趕上倒數。 然後和兩個小孩過了一個忙亂的元旦。在深夜時刻,看到朋友傳來的解籤網站,興致勃勃熬夜體驗了一下,覺得非常好玩,或許有人玩過了,但還是想寫上來分享紀錄一下~
Thumbnail
這篇文章討論了口音對於溝通的影響,強調了自信對口音的重要性。同時提到了溝通中的語音建議,旨在提高溝通效率。文章最後強調口音問題是一個雙向的溝通問題,而且口音本身也是一種多語言能力的體現。
Thumbnail
輔音中響度相對較大的鼻音、邊音具有與元音相似的特性,可以自成音節。我們生活周遭的英語、臺語、客語等都有類似的例子。而除了鼻音、邊音之外,其他響度較小的輔音似乎就沒辦法自成音節......了嗎?
Thumbnail
政經優勢群體人數眾多且趨同,自然形成語言及口音的「相對主流標準」,透過翻譯及語言學習行為將其思想、文化、影響力擴散開來,逐漸形成這些語言及口音在各種領域情境中的話語權。我們應該關切的是「口音」對語言學習的「影響」或「幫助」為何,而不是過於化約的「重要 or 不重要」!
Thumbnail
輔音的響亮程度,決定他在口語中的獨立性。那麼,是什麼決定輔音的大小聲呢?哪些輔音比較大聲?哪些輔音比較小聲?輔音要怎麼獨立說出呢?
開發人聲質量域旨在提升人聲的音質、音量與音域的發聲能力,能令音質變亮、音量變大、音域變寬。 發聲相關的重要部位包含聲帶與鼻口唇齒舌咽,前者若有閉合不全問題,則聲音偏向假音,而若是閉合過度用力,則容易造成聲帶的損傷;後者,則是咬字上子音與母音的創造,靈活的鼻口唇齒舌咽動作變化,是使咬字清晰的關鍵。
開發人聲質量域旨在提升人聲的音質、音量與音域的發聲能力,能令音質變亮、音量變大、音域變寬。 發聲相關的重要部位包含聲帶與鼻口唇齒舌咽,前者若有閉合不全問題,則聲音偏向假音,而若是閉合過度用力,則容易造成聲帶的損傷;後者,則是咬字上子音與母音的創造,靈活的鼻口唇齒舌咽動作變化,是使咬字清晰的關鍵。
開發人聲質量域旨在提升人聲的音質、音量與音域的發聲能力,能令音質變亮、音量變大、音域變寬。 發聲相關的重要部位包含聲帶與鼻口唇齒舌咽,前者若有閉合不全問題,則聲音偏向假音,而若是閉合過度用力,則容易造成聲帶的損傷;後者,則是咬字上子音與母音的創造,靈活的鼻口唇齒舌咽動作變化,是使咬字清晰的關鍵。
開發人聲質量域旨在提升人聲的音質、音量與音域的發聲能力,能令音質變亮、音量變大、音域變寬。 發聲相關的重要部位包含聲帶與鼻口唇齒舌咽,前者若有閉合不全問題,則聲音偏向假音,而若是閉合過度用力,則容易造成聲帶的損傷;後者,則是咬字上子音與母音的創造,靈活的鼻口唇齒舌咽動作變化,是使咬字清晰的關鍵。
Thumbnail
比如你跟對方說話時,對方有回你但臉部沒有表情,你可能會感到不安,因爲你無法辨別對方到底是想什麼,即便說的話是偏向接受你,但你有可能還是會感到不安,而開始語帶保留。 因此表情會影響對方說話意願,而讓人安心的表情,除了微笑,還有認真聽、思考,感興趣的驚訝表情。 表情的作用遠超過我們的想像 在我
Thumbnail
嘿,大家新年快樂~ 新年大家都在做什麼呢? 跨年夜的我趕工製作某個外包設計案,在工作告一段落時趕上倒數。 然後和兩個小孩過了一個忙亂的元旦。在深夜時刻,看到朋友傳來的解籤網站,興致勃勃熬夜體驗了一下,覺得非常好玩,或許有人玩過了,但還是想寫上來分享紀錄一下~
Thumbnail
這篇文章討論了口音對於溝通的影響,強調了自信對口音的重要性。同時提到了溝通中的語音建議,旨在提高溝通效率。文章最後強調口音問題是一個雙向的溝通問題,而且口音本身也是一種多語言能力的體現。
Thumbnail
輔音中響度相對較大的鼻音、邊音具有與元音相似的特性,可以自成音節。我們生活周遭的英語、臺語、客語等都有類似的例子。而除了鼻音、邊音之外,其他響度較小的輔音似乎就沒辦法自成音節......了嗎?
Thumbnail
政經優勢群體人數眾多且趨同,自然形成語言及口音的「相對主流標準」,透過翻譯及語言學習行為將其思想、文化、影響力擴散開來,逐漸形成這些語言及口音在各種領域情境中的話語權。我們應該關切的是「口音」對語言學習的「影響」或「幫助」為何,而不是過於化約的「重要 or 不重要」!
Thumbnail
輔音的響亮程度,決定他在口語中的獨立性。那麼,是什麼決定輔音的大小聲呢?哪些輔音比較大聲?哪些輔音比較小聲?輔音要怎麼獨立說出呢?
開發人聲質量域旨在提升人聲的音質、音量與音域的發聲能力,能令音質變亮、音量變大、音域變寬。 發聲相關的重要部位包含聲帶與鼻口唇齒舌咽,前者若有閉合不全問題,則聲音偏向假音,而若是閉合過度用力,則容易造成聲帶的損傷;後者,則是咬字上子音與母音的創造,靈活的鼻口唇齒舌咽動作變化,是使咬字清晰的關鍵。
開發人聲質量域旨在提升人聲的音質、音量與音域的發聲能力,能令音質變亮、音量變大、音域變寬。 發聲相關的重要部位包含聲帶與鼻口唇齒舌咽,前者若有閉合不全問題,則聲音偏向假音,而若是閉合過度用力,則容易造成聲帶的損傷;後者,則是咬字上子音與母音的創造,靈活的鼻口唇齒舌咽動作變化,是使咬字清晰的關鍵。
開發人聲質量域旨在提升人聲的音質、音量與音域的發聲能力,能令音質變亮、音量變大、音域變寬。 發聲相關的重要部位包含聲帶與鼻口唇齒舌咽,前者若有閉合不全問題,則聲音偏向假音,而若是閉合過度用力,則容易造成聲帶的損傷;後者,則是咬字上子音與母音的創造,靈活的鼻口唇齒舌咽動作變化,是使咬字清晰的關鍵。
開發人聲質量域旨在提升人聲的音質、音量與音域的發聲能力,能令音質變亮、音量變大、音域變寬。 發聲相關的重要部位包含聲帶與鼻口唇齒舌咽,前者若有閉合不全問題,則聲音偏向假音,而若是閉合過度用力,則容易造成聲帶的損傷;後者,則是咬字上子音與母音的創造,靈活的鼻口唇齒舌咽動作變化,是使咬字清晰的關鍵。
Thumbnail
比如你跟對方說話時,對方有回你但臉部沒有表情,你可能會感到不安,因爲你無法辨別對方到底是想什麼,即便說的話是偏向接受你,但你有可能還是會感到不安,而開始語帶保留。 因此表情會影響對方說話意願,而讓人安心的表情,除了微笑,還有認真聽、思考,感興趣的驚訝表情。 表情的作用遠超過我們的想像 在我