在有聲故事劇中,人聲通常是最核心的元素。即使一部作品擁有精緻的配樂、豐富的環境音與成熟的音效設計,只要人聲缺乏說服力,整體敘事往往就會立刻失去力量。其中的原因其實並不難理解。對聽眾來說,人聲不只是傳遞台詞意義的工具,它本身就是角色存在的證據,也是情緒、性格、距離感與心理狀態最直接的載體。我們常常不是先因為一句話的字面意思而被打動,而是先因為那句話被怎麼說出來而有所感受。語氣中的猶豫、重音裡的壓抑、呼吸中的顫抖、停頓中的不安,這些看似細小的特徵,實際上構成了角色的「活性」。
因此,當AI開始能夠生成人聲時,它觸及的並不只是語音技術的一個新應用,而是直接碰觸了敘事藝術的心臟地帶。我們若要理解AI如何用於有聲故事劇創作,就必須明白:AI人聲不是簡單地把文字唸出來,而是試圖重建一整套使聲音像「一個人在說話」的模式。這些模式包含發音本身,也包含語調、節奏、呼吸、情緒曲線與聲音質地。換句話說,AI在處理人聲時,處理的不只是「語言內容」,更是「說話的方式」。而這個「方式」,正是聲音敘事中最接近角色靈魂的部分。
一、從文字轉語音到神經網路語音合成:AI人聲技術的演變
若從歷史角度來看,讓機器發出人聲並不是今天才有的想法。早期的文字轉語音系統(Text-to-Speech, TTS)已經能夠把輸入文字唸成可辨認的語句,但這些系統往往帶有明顯的機械感。它們的問題不在於發音完全錯誤,而在於缺乏自然性。語句可能被正確讀出來,但語氣平板、節奏僵硬、重音不自然,甚至在停頓與斷句上顯得很像一台照著標點符號逐字播報的機器。這種聲音在資訊播報、導航系統或簡單無障礙應用中或許已經足夠,但若要進入戲劇創作,顯然還遠遠不夠。
近年生成式AI的進展,已經大幅改變了這種情況。神經網路語音合成(Neural TTS)之所以重要,正是因為它不再主要依賴大量手工規則來決定每個字該怎麼發,而是透過學習龐大語音資料,直接掌握語音中複雜而細膩的模式。這些模式不只是單字的發音,還包括語句如何起伏、停頓如何出現、哪些地方會自然加重、哪些地方會放輕,甚至說話者如何在情緒變化時調整音高、氣流與節奏。
如果說傳統TTS像是一位嚴格按照說明書唸稿的播音機器,那麼神經網路語音合成更像是一位學過大量人類說話範例的模仿者。它不只是照著文字表面讀音,而是從資料中學會:人類在不同語境下,往往會如何說話。這也是為什麼當代AI語音已經越來越接近自然人聲,有時甚至足以讓人短暫忽略其人工生成的本質。
二、AI怎麼學會「像人一樣說話」:發音之外的韻律結構
要理解神經網路語音合成的關鍵,就必須認識一個非常重要的概念:prosody,中文常譯為「韻律」或「語調韻律」。這個詞在語音學中指的不是單一字音的正確與否,而是說話時更大範圍的聲音表現,包括語速、重音、音高變化、停頓、句子節奏與情感走向等。從敘事角度看,prosody 幾乎就是角色心理狀態在聲音中的投影。
例如,同一句「你終於來了」,可以因為韻律不同而產生截然不同的意思。如果語速慢、尾音下沉、氣息較弱,它可能像是疲憊與鬆了一口氣;如果語速快、音高上揚、重音落在「終於」,它可能帶有抱怨或焦慮;如果前面有明顯停頓,尾音微顫,則可能暗示委屈、激動,甚至壓抑已久的情感。文字內容並未改變,但聲音的表演已經改變了整句話的心理結構。
AI要生成自然人聲,最困難的地方往往不是「唸對文字」,而是「唸得像真的有人在說」。這意味著模型必須從海量語音資料中,學習發音與韻律之間的複雜關係。它要知道句子的語法結構會如何影響斷句,要知道疑問句、命令句、敘述句在音高上的常見差異,也要知道情緒狀態會如何改變音量、呼吸節奏與起伏幅度。
從技術上看,模型會將文字內容與大量對應語音一起訓練,慢慢學會哪些語言模式往往對應哪些聲學表現。這種學習不是靠它「懂得」悲傷或喜悅,而是靠它在資料中發現:當人類表達悲傷時,語速、能量、音高變化與停頓配置常常呈現某種特徵分布。於是,當創作者給出「溫柔」、「壓抑」、「慌張」、「疲憊」之類的條件時,模型可以在聲音空間中找到那些較可能符合此描述的韻律模式。
這裡也再次讓我們看見第二章提過的關鍵概念:AI所掌握的不是情緒本身,而是情緒的聲學痕跡。它並不真的悲傷,但它可以學會生成那些在人類耳中會被辨識為悲傷的語音特徵。
三、呼吸、重音與停頓:為什麼自然人聲如此難以模仿
當我們第一次使用AI人聲工具時,常常會驚訝於它「好像已經很像真人」。但只要多聽幾輪,就會發現高品質人聲生成真正困難的地方,常常不是在字音,而是在那些最微妙的地方:呼吸有沒有生命感,重音是否合理,停頓是否帶有意圖,而不只是機械切分。也正是在這些地方,我們更能看出聲音創作不是單純資訊傳遞,而是帶有心理厚度的時間藝術。
呼吸就是很好的例子。人類說話不是單純把一串字念完,而是在身體氣流限制下進行的節奏活動。當一個人緊張時,呼吸會變短;當一個人哭過,呼吸的穩定度會被打亂;當一個人壓抑情緒時,他的吸氣可能較淺,句尾可能較虛。這些現象不只是附加裝飾,而是說話本身的一部分。AI若只把語言當成文字輸出,而無法處理呼吸與節奏,就會讓聲音聽起來像一段被清理得過於乾淨的機械朗讀。
重音也是如此。人類說話時,重音不只是音量比較大,而是會集中注意力、組織意義關係。它可以指出一句話真正的焦點,也可以洩露角色的防衛、憤怒、心虛或渴望。例如,「我沒有說是他做的」這句話,如果重音落在不同詞上,意思就會大幅改變。真正自然的AI人聲,必須能夠處理這種語意與情緒共同作用下的重音分配。
至於停頓,則更接近戲劇性的核心。停頓不是空白,而是一種有意義的懸置。角色在何處停下來,是因為找不到詞、壓住情緒、等待回應、還是刻意營造壓力?好的有聲故事劇往往不只是依賴台詞本身,而是依賴台詞與沉默之間的張力。AI要做出有戲劇性的聲音,不能只把文字平順輸出,還要能處理說與不說之間的時間結構。
因此,從創作角度來看,AI人聲的品質,往往取決於它是否能夠生成一種具有「時間意圖」的聲音。它不是只有聲音像不像真人,而是說話的身體感、心理感與敘事感是否成立。
四、聲紋提取:AI如何辨識一個人的「聲音身份」
如果說神經網路語音合成的任務,是學會像人一樣說話,那麼聲紋提取(voice embedding或speaker encoding)的任務,則是學會像某一個特定的人說話。這就引出了另一個高度受關注的技術方向:聲音複製,也就是俗稱的 voice cloning。
所謂聲紋,可以暫時理解為一個人聲音中的相對穩定特徵組合。它不等於法律意義上的指紋,也不是一個單一參數,而是一組能夠表徵音色身份的特徵向量。這些特徵包含聲帶振動方式、共鳴位置、頻譜分布、發音習慣、語氣結構等,經過模型分析後,會被壓縮成某種較抽象的內部表示。這個表示就像是那個人聲音的「身份座標」。
在技術上,AI會先接收某位說話者的一段或多段語音樣本,然後從中抽取可代表其音色特性的特徵。這些特徵不必保留原始每一個字的內容,而是更重視「這個聲音像誰」。接著,當系統在進行語音生成時,就能把新的文字內容與這組聲紋特徵結合,使產出的新語音帶有接近該說話者的音色。
這裡很值得注意的是,聲紋提取的重點不是複製一整段語音,而是抽取「使這個人聽起來像這個人」的結構。因此,AI複製聲音並不是像剪貼音檔那樣把原句拼貼重組,而是透過模型學到的表示系統,將新的語言內容生成為具有某種特定音色特徵的語音。也正因如此,voice cloning才會在技術上引發如此大的震動:它意味著人聲不再只能作為原始素材被保留,而可以作為一組特徵模型被重新調用。
五、從模仿音色到塑造角色:聲音複製的創作潛力
一談到聲音複製,許多人的第一反應會是風險與濫用,這確實是值得警覺的一件事。但在進入創作倫理的討論之前,我們可以先來看看,它在創作上為何如此具有吸引力。原因在於,voice cloning 讓人聲不再只是「非得由某個演員現場錄製」的資源,而是變成可被組織、調度與轉譯的敘事材料。
對有聲故事劇創作者而言,這打開了一個很大的空間。創作者可能只有一個人,沒有足夠演員,卻想完成多個角色對話、旁白交錯、不同年齡與不同氣質角色共存的作品。這在過去幾乎意味著要找很多位配音員,或者必須自己勉強變換聲線,常常使作品的品質受限。AI人聲工具則可能讓同一位創作者,在倫理與授權正當的前提下,快速生成多種角色聲線,甚至可進一步控制其年齡感、性別感、語速與語氣風格,讓一人編導多角敘事成為可能。
舉例來說,一位創作者若想創作一部描寫祖孫三代衝突的有聲劇,可能需要年輕女性、壯年男性、年老女性三種差異明顯的人聲。若完全依賴真人錄製,不只要協調演員時間,也要處理錄音品質一致性與表演落差;但AI工具可能讓創作者以較低門檻生成不同角色的初稿版本,再透過選擇與後製,逐步建立角色群像。
更重要的是,AI人聲不只是模仿現實人聲,也可以幫助創作者跨越現實身體的限制。例如,一個創作者本人的聲線可能偏年輕平穩,但他想寫一位歷經戰亂、帶有粗糙生命感的老者;或者他想寫一個尚未變聲的孩童角色、一位帶有機器質感的虛構生命、一個近似夢境回聲的旁白存在。這些角色的聲音,在AI的協助下,便不再完全受限於創作者自身的嗓音條件。
也就是說,AI人聲讓創作者第一次能夠比較自由地處理「聲音選角」這件事。過去電影有視覺選角,現在有聲故事劇也開始真正有了聲音上的選角與聲音美術。這將使創作者不只是在寫台詞,而是在設計一整個角色的聽覺存在方式。
六、跨越語言、年齡與性別限制:AI人聲帶來的敘事擴張
AI人聲另一個極具創作意義的面向,是它能部分跨越語言、年齡與性別的限制。這裡所謂的跨越,不是說它可以完全無限制地任意替代,而是指它提供了一種前所未有的轉譯能力,讓創作者更容易在不同表演條件間移動。
先談語言。過去,如果一部有聲劇需要雙語甚至多語角色,創作者不只要找到會該語言的配音者,還要考慮口音、流利度與情緒表現是否自然。現在,一些進階的AI系統能夠在保留特定音色特徵的同時,生成其他語言內容。這代表角色的「聲音身份」可能在語言切換中較穩定地維持。例如,一個角色可以用華語敘述內心,也可切換到英文對話,而聽覺上仍像同一個人。對於跨文化敘事、國際交流作品或語言學習型劇本而言,這是非常有力的工具。
再談年齡。人聲中的年齡感並不只是音高差異,而涉及發聲力度、共鳴位置、語速穩定度、氣息比例與整體生命狀態。AI在大量數據學習後,已能部分掌握這些模式,使創作者能夠生成「較年幼」、「較成熟」或「較衰老」的聲音版本。這對需要處理回憶、童年視角、未來角色或生命歷程跨度極大的作品非常有幫助。
至於性別,問題則更複雜。因為所謂「男性聲音」或「女性聲音」本來就不只是生理分類,還包含文化期待與聽覺習慣。AI可以學習某些社會上常見的性別化聲音特徵,例如平均音高、共鳴感、咬字方式與語氣傾向。不過,創作者也需要意識到,這些特徵本身帶有文化建構性。因此,AI帶來的不只是模仿不同性別聲音的能力,也讓我們開始反思:角色的聲音性別究竟是生理條件、社會表演,還是敘事策略的一部分?
對創作者而言,這種跨越性最重要的意義是:創作不再被自己的肉身條件完全框住。你不必因為自己不是某種聲音,就永遠無法寫那樣的角色;但同時你也必須更有責任感地使用這種能力,知道自己是在創造角色,而不是任意挪用他人的聲音身份。
七、AI人聲的局限:像真人,不等於就是表演
儘管AI人聲已經發展得很快,但在創作現場中,仍然要清楚看到它的局限。這些局限不只是技術問題,也是敘事與表演問題。因為「聽起來像真人」與「真的形成表演」之間,仍然存在差距。
首先,AI生成的人聲有時雖然在局部很自然,但是遇到長段文本時,情緒的推進未必很穩定。一個真正好的聲音演員,不只是把每一句念得很自然,而是會處理整場戲的情緒弧線:一開始怎麼壓、何時爆開、哪裡保留、何處反轉。這種跨句、跨段的心理控制,對AI而言仍是相當高難度的挑戰。很多生成語音在單句表現上雖然已相當不錯,但是一旦進入複雜的對話、長篇獨白或情緒劇烈起伏的段落,就可能出現情感連續性不足的問題。
其次,AI人聲常常擅長「典型狀態」,卻不一定擅長「矛盾狀態」。例如,一個角色表面冷靜、內心崩潰;語氣看似輕鬆,實則帶著試探與恐懼;或者角色在笑,但笑裡有屈辱的感受。這種複合情緒在人類表演中非常關鍵,因為真正高層次的戲劇常常不是單純悲傷或單純憤怒,而是多種心理狀態同時存在。AI對這類混合狀態的掌握,仍有很大的局限,往往需要創作者透過細緻提示與大量版本比較,才會有機會逼近理想的效果。
第三,AI人聲有時會過於「乾淨」。它能生成清楚、穩定、可辨識的語音,但也因此少了某些人類聲音的偶然性,例如臨時卡詞、細微破音、吞字、抖動、壓不住的呼吸變化。這些不完美,其實恰恰是角色生命感的來源之一。創作者若完全接受AI的平滑結果,而不進行適度修整,作品可能會在資訊上完整,卻在情感上顯得過於無菌,而顯得乾乾癟癟的。
因此,創作者應該把AI人聲看成一位能力很強的助理演員、一套強大的草稿系統,或是一種快速建模的工具,而不是毫無限制的表演替代者。它可以讓你迅速接近角色聲音的可能樣貌,但真正使聲音成為戲劇的,仍然是創作者對表演意圖的把握與後續調度。
八、從工具使用者到聲音導演:創作者應培養的能力
從創作的角度來看,AI人聲的出現,對創作者最大的挑戰其實不是學會按哪個按鈕,而是學會如何聽。這裡的「聽」不是被動接收,而是一種分析性、判斷性與導演性的聽。
第一種要培養的,是角色聽覺分析能力。創作者必須開始問:這個角色應該有什麼樣的聲音?不是指高或低而已,而是他的語速、氣息、重音習慣、說話距離感、情緒控制方式是什麼。這等於是在做角色心理的聲音化分析。
第二種是版本比較能力。當AI一次給你五個、十個版本時,你要能分辨哪一個只是「像」,哪一個是真正「適合」。適合的定義不是單純自然,而是與劇本情境、角色關係、整體風格相一致。這種選擇能力,就是未來創作者極其重要的審美核心。
第三種是人機協作的修整能力。AI的輸出通常不是終點,而是中間材料。創作者應學會重新剪接、局部重生、加上呼吸、調整停頓、疊加空間感、與背景音樂協調,甚至必要時自己補錄一小段。也就是說,最成熟的創作方式往往不是「全交給 AI」,而是把AI視為能夠快速產生候選版本的合作系統。
在這個意義上,AI人聲並沒有讓創作者退場,反而要求創作者進一步升級。你不只是文字作者,也不只是工具操作者,而是角色聲音的設計者與總調度者。
九、本章小結:人聲不是被合成而已,而是被重新定義
總結本章,我們可以說,AI人聲技術的核心,不只是把文字轉成可聽見的語音,而是透過神經網路,學習人類語音中的多層次結構,尤其是韻律、呼吸、節奏、重音與情緒曲線等,使聲音不只具有可辨識性,也具有角色感與敘事感。再進一步,透過聲紋提取與 voice cloning,AI甚至能夠把某種音色身份抽取成可被調用的模型特徵,讓創作者在授權合理的前提下,更自由地進行角色聲音設計。
但我們也同時看到,AI人聲的價值並不在於它完全取代真人,而在於它改變了創作的組織方式。它讓聲音選角、角色分配、多語切換與多角色實驗變得更可行,卻也使創作者更需要具備精細的聽覺判斷與表演理解。真正的關鍵不再是「AI能不能說話」,而是「創作者能不能讓這些說話變成角色、變成場景、變成戲」。
從這裡出發,下一章將把焦點從人聲移向另一個與情緒高度相關的元素:音樂。我們將討論AI如何將旋律、節奏、風格與情緒之間的關係數據化,並進一步生成配樂。若人聲是角色的靈魂外露,那麼音樂往往就是敘事中的情感氣候。理解AI音樂,將使我們更清楚地看見:在生成式得創作中,情緒不只是感受,它也可以是一種可被建模、可被操演、可被選擇的結構。













