AI時代的聲音敘事與創作革命第三章　AI人聲：數位靈魂的編碼

2026/04/03 更新2026/03/31 發佈閱讀 17 分鐘

在有聲故事劇中，人聲通常是最核心的元素。即使一部作品擁有精緻的配樂、豐富的環境音與成熟的音效設計，只要人聲缺乏說服力，整體敘事往往就會立刻失去力量。其中的原因其實並不難理解。對聽眾來說，人聲不只是傳遞台詞意義的工具，它本身就是角色存在的證據，也是情緒、性格、距離感與心理狀態最直接的載體。我們常常不是先因為一句話的字面意思而被打動，而是先因為那句話被怎麼說出來而有所感受。語氣中的猶豫、重音裡的壓抑、呼吸中的顫抖、停頓中的不安，這些看似細小的特徵，實際上構成了角色的「活性」。

因此，當AI開始能夠生成人聲時，它觸及的並不只是語音技術的一個新應用，而是直接碰觸了敘事藝術的心臟地帶。我們若要理解AI如何用於有聲故事劇創作，就必須明白：AI人聲不是簡單地把文字唸出來，而是試圖重建一整套使聲音像「一個人在說話」的模式。這些模式包含發音本身，也包含語調、節奏、呼吸、情緒曲線與聲音質地。換句話說，AI在處理人聲時，處理的不只是「語言內容」，更是「說話的方式」。而這個「方式」，正是聲音敘事中最接近角色靈魂的部分。

一、從文字轉語音到神經網路語音合成：AI人聲技術的演變

若從歷史角度來看，讓機器發出人聲並不是今天才有的想法。早期的文字轉語音系統（Text-to-Speech, TTS）已經能夠把輸入文字唸成可辨認的語句，但這些系統往往帶有明顯的機械感。它們的問題不在於發音完全錯誤，而在於缺乏自然性。語句可能被正確讀出來，但語氣平板、節奏僵硬、重音不自然，甚至在停頓與斷句上顯得很像一台照著標點符號逐字播報的機器。這種聲音在資訊播報、導航系統或簡單無障礙應用中或許已經足夠，但若要進入戲劇創作，顯然還遠遠不夠。

近年生成式AI的進展，已經大幅改變了這種情況。神經網路語音合成（Neural TTS）之所以重要，正是因為它不再主要依賴大量手工規則來決定每個字該怎麼發，而是透過學習龐大語音資料，直接掌握語音中複雜而細膩的模式。這些模式不只是單字的發音，還包括語句如何起伏、停頓如何出現、哪些地方會自然加重、哪些地方會放輕，甚至說話者如何在情緒變化時調整音高、氣流與節奏。

如果說傳統TTS像是一位嚴格按照說明書唸稿的播音機器，那麼神經網路語音合成更像是一位學過大量人類說話範例的模仿者。它不只是照著文字表面讀音，而是從資料中學會：人類在不同語境下，往往會如何說話。這也是為什麼當代AI語音已經越來越接近自然人聲，有時甚至足以讓人短暫忽略其人工生成的本質。

二、AI怎麼學會「像人一樣說話」：發音之外的韻律結構

要理解神經網路語音合成的關鍵，就必須認識一個非常重要的概念：prosody，中文常譯為「韻律」或「語調韻律」。這個詞在語音學中指的不是單一字音的正確與否，而是說話時更大範圍的聲音表現，包括語速、重音、音高變化、停頓、句子節奏與情感走向等。從敘事角度看，prosody 幾乎就是角色心理狀態在聲音中的投影。

例如，同一句「你終於來了」，可以因為韻律不同而產生截然不同的意思。如果語速慢、尾音下沉、氣息較弱，它可能像是疲憊與鬆了一口氣；如果語速快、音高上揚、重音落在「終於」，它可能帶有抱怨或焦慮；如果前面有明顯停頓，尾音微顫，則可能暗示委屈、激動，甚至壓抑已久的情感。文字內容並未改變，但聲音的表演已經改變了整句話的心理結構。

AI要生成自然人聲，最困難的地方往往不是「唸對文字」，而是「唸得像真的有人在說」。這意味著模型必須從海量語音資料中，學習發音與韻律之間的複雜關係。它要知道句子的語法結構會如何影響斷句，要知道疑問句、命令句、敘述句在音高上的常見差異，也要知道情緒狀態會如何改變音量、呼吸節奏與起伏幅度。

從技術上看，模型會將文字內容與大量對應語音一起訓練，慢慢學會哪些語言模式往往對應哪些聲學表現。這種學習不是靠它「懂得」悲傷或喜悅，而是靠它在資料中發現：當人類表達悲傷時，語速、能量、音高變化與停頓配置常常呈現某種特徵分布。於是，當創作者給出「溫柔」、「壓抑」、「慌張」、「疲憊」之類的條件時，模型可以在聲音空間中找到那些較可能符合此描述的韻律模式。

這裡也再次讓我們看見第二章提過的關鍵概念：AI所掌握的不是情緒本身，而是情緒的聲學痕跡。它並不真的悲傷，但它可以學會生成那些在人類耳中會被辨識為悲傷的語音特徵。

三、呼吸、重音與停頓：為什麼自然人聲如此難以模仿

當我們第一次使用AI人聲工具時，常常會驚訝於它「好像已經很像真人」。但只要多聽幾輪，就會發現高品質人聲生成真正困難的地方，常常不是在字音，而是在那些最微妙的地方：呼吸有沒有生命感，重音是否合理，停頓是否帶有意圖，而不只是機械切分。也正是在這些地方，我們更能看出聲音創作不是單純資訊傳遞，而是帶有心理厚度的時間藝術。

呼吸就是很好的例子。人類說話不是單純把一串字念完，而是在身體氣流限制下進行的節奏活動。當一個人緊張時，呼吸會變短；當一個人哭過，呼吸的穩定度會被打亂；當一個人壓抑情緒時，他的吸氣可能較淺，句尾可能較虛。這些現象不只是附加裝飾，而是說話本身的一部分。AI若只把語言當成文字輸出，而無法處理呼吸與節奏，就會讓聲音聽起來像一段被清理得過於乾淨的機械朗讀。

重音也是如此。人類說話時，重音不只是音量比較大，而是會集中注意力、組織意義關係。它可以指出一句話真正的焦點，也可以洩露角色的防衛、憤怒、心虛或渴望。例如，「我沒有說是他做的」這句話，如果重音落在不同詞上，意思就會大幅改變。真正自然的AI人聲，必須能夠處理這種語意與情緒共同作用下的重音分配。

至於停頓，則更接近戲劇性的核心。停頓不是空白，而是一種有意義的懸置。角色在何處停下來，是因為找不到詞、壓住情緒、等待回應、還是刻意營造壓力？好的有聲故事劇往往不只是依賴台詞本身，而是依賴台詞與沉默之間的張力。AI要做出有戲劇性的聲音，不能只把文字平順輸出，還要能處理說與不說之間的時間結構。

因此，從創作角度來看，AI人聲的品質，往往取決於它是否能夠生成一種具有「時間意圖」的聲音。它不是只有聲音像不像真人，而是說話的身體感、心理感與敘事感是否成立。

四、聲紋提取：AI如何辨識一個人的「聲音身份」

如果說神經網路語音合成的任務，是學會像人一樣說話，那麼聲紋提取（voice embedding或speaker encoding）的任務，則是學會像某一個特定的人說話。這就引出了另一個高度受關注的技術方向：聲音複製，也就是俗稱的 voice cloning。

所謂聲紋，可以暫時理解為一個人聲音中的相對穩定特徵組合。它不等於法律意義上的指紋，也不是一個單一參數，而是一組能夠表徵音色身份的特徵向量。這些特徵包含聲帶振動方式、共鳴位置、頻譜分布、發音習慣、語氣結構等，經過模型分析後，會被壓縮成某種較抽象的內部表示。這個表示就像是那個人聲音的「身份座標」。

在技術上，AI會先接收某位說話者的一段或多段語音樣本，然後從中抽取可代表其音色特性的特徵。這些特徵不必保留原始每一個字的內容，而是更重視「這個聲音像誰」。接著，當系統在進行語音生成時，就能把新的文字內容與這組聲紋特徵結合，使產出的新語音帶有接近該說話者的音色。

這裡很值得注意的是，聲紋提取的重點不是複製一整段語音，而是抽取「使這個人聽起來像這個人」的結構。因此，AI複製聲音並不是像剪貼音檔那樣把原句拼貼重組，而是透過模型學到的表示系統，將新的語言內容生成為具有某種特定音色特徵的語音。也正因如此，voice cloning才會在技術上引發如此大的震動：它意味著人聲不再只能作為原始素材被保留，而可以作為一組特徵模型被重新調用。

五、從模仿音色到塑造角色：聲音複製的創作潛力

一談到聲音複製，許多人的第一反應會是風險與濫用，這確實是值得警覺的一件事。但在進入創作倫理的討論之前，我們可以先來看看，它在創作上為何如此具有吸引力。原因在於，voice cloning 讓人聲不再只是「非得由某個演員現場錄製」的資源，而是變成可被組織、調度與轉譯的敘事材料。

對有聲故事劇創作者而言，這打開了一個很大的空間。創作者可能只有一個人，沒有足夠演員，卻想完成多個角色對話、旁白交錯、不同年齡與不同氣質角色共存的作品。這在過去幾乎意味著要找很多位配音員，或者必須自己勉強變換聲線，常常使作品的品質受限。AI人聲工具則可能讓同一位創作者，在倫理與授權正當的前提下，快速生成多種角色聲線，甚至可進一步控制其年齡感、性別感、語速與語氣風格，讓一人編導多角敘事成為可能。

舉例來說，一位創作者若想創作一部描寫祖孫三代衝突的有聲劇，可能需要年輕女性、壯年男性、年老女性三種差異明顯的人聲。若完全依賴真人錄製，不只要協調演員時間，也要處理錄音品質一致性與表演落差；但AI工具可能讓創作者以較低門檻生成不同角色的初稿版本，再透過選擇與後製，逐步建立角色群像。

更重要的是，AI人聲不只是模仿現實人聲，也可以幫助創作者跨越現實身體的限制。例如，一個創作者本人的聲線可能偏年輕平穩，但他想寫一位歷經戰亂、帶有粗糙生命感的老者；或者他想寫一個尚未變聲的孩童角色、一位帶有機器質感的虛構生命、一個近似夢境回聲的旁白存在。這些角色的聲音，在AI的協助下，便不再完全受限於創作者自身的嗓音條件。

也就是說，AI人聲讓創作者第一次能夠比較自由地處理「聲音選角」這件事。過去電影有視覺選角，現在有聲故事劇也開始真正有了聲音上的選角與聲音美術。這將使創作者不只是在寫台詞，而是在設計一整個角色的聽覺存在方式。

六、跨越語言、年齡與性別限制：AI人聲帶來的敘事擴張

AI人聲另一個極具創作意義的面向，是它能部分跨越語言、年齡與性別的限制。這裡所謂的跨越，不是說它可以完全無限制地任意替代，而是指它提供了一種前所未有的轉譯能力，讓創作者更容易在不同表演條件間移動。

先談語言。過去，如果一部有聲劇需要雙語甚至多語角色，創作者不只要找到會該語言的配音者，還要考慮口音、流利度與情緒表現是否自然。現在，一些進階的AI系統能夠在保留特定音色特徵的同時，生成其他語言內容。這代表角色的「聲音身份」可能在語言切換中較穩定地維持。例如，一個角色可以用華語敘述內心，也可切換到英文對話，而聽覺上仍像同一個人。對於跨文化敘事、國際交流作品或語言學習型劇本而言，這是非常有力的工具。

再談年齡。人聲中的年齡感並不只是音高差異，而涉及發聲力度、共鳴位置、語速穩定度、氣息比例與整體生命狀態。AI在大量數據學習後，已能部分掌握這些模式，使創作者能夠生成「較年幼」、「較成熟」或「較衰老」的聲音版本。這對需要處理回憶、童年視角、未來角色或生命歷程跨度極大的作品非常有幫助。

至於性別，問題則更複雜。因為所謂「男性聲音」或「女性聲音」本來就不只是生理分類，還包含文化期待與聽覺習慣。AI可以學習某些社會上常見的性別化聲音特徵，例如平均音高、共鳴感、咬字方式與語氣傾向。不過，創作者也需要意識到，這些特徵本身帶有文化建構性。因此，AI帶來的不只是模仿不同性別聲音的能力，也讓我們開始反思：角色的聲音性別究竟是生理條件、社會表演，還是敘事策略的一部分？

對創作者而言，這種跨越性最重要的意義是：創作不再被自己的肉身條件完全框住。你不必因為自己不是某種聲音，就永遠無法寫那樣的角色；但同時你也必須更有責任感地使用這種能力，知道自己是在創造角色，而不是任意挪用他人的聲音身份。

七、AI人聲的局限：像真人，不等於就是表演

儘管AI人聲已經發展得很快，但在創作現場中，仍然要清楚看到它的局限。這些局限不只是技術問題，也是敘事與表演問題。因為「聽起來像真人」與「真的形成表演」之間，仍然存在差距。

首先，AI生成的人聲有時雖然在局部很自然，但是遇到長段文本時，情緒的推進未必很穩定。一個真正好的聲音演員，不只是把每一句念得很自然，而是會處理整場戲的情緒弧線：一開始怎麼壓、何時爆開、哪裡保留、何處反轉。這種跨句、跨段的心理控制，對AI而言仍是相當高難度的挑戰。很多生成語音在單句表現上雖然已相當不錯，但是一旦進入複雜的對話、長篇獨白或情緒劇烈起伏的段落，就可能出現情感連續性不足的問題。

其次，AI人聲常常擅長「典型狀態」，卻不一定擅長「矛盾狀態」。例如，一個角色表面冷靜、內心崩潰；語氣看似輕鬆，實則帶著試探與恐懼；或者角色在笑，但笑裡有屈辱的感受。這種複合情緒在人類表演中非常關鍵，因為真正高層次的戲劇常常不是單純悲傷或單純憤怒，而是多種心理狀態同時存在。AI對這類混合狀態的掌握，仍有很大的局限，往往需要創作者透過細緻提示與大量版本比較，才會有機會逼近理想的效果。

第三，AI人聲有時會過於「乾淨」。它能生成清楚、穩定、可辨識的語音，但也因此少了某些人類聲音的偶然性，例如臨時卡詞、細微破音、吞字、抖動、壓不住的呼吸變化。這些不完美，其實恰恰是角色生命感的來源之一。創作者若完全接受AI的平滑結果，而不進行適度修整，作品可能會在資訊上完整，卻在情感上顯得過於無菌，而顯得乾乾癟癟的。

因此，創作者應該把AI人聲看成一位能力很強的助理演員、一套強大的草稿系統，或是一種快速建模的工具，而不是毫無限制的表演替代者。它可以讓你迅速接近角色聲音的可能樣貌，但真正使聲音成為戲劇的，仍然是創作者對表演意圖的把握與後續調度。

八、從工具使用者到聲音導演：創作者應培養的能力

從創作的角度來看，AI人聲的出現，對創作者最大的挑戰其實不是學會按哪個按鈕，而是學會如何聽。這裡的「聽」不是被動接收，而是一種分析性、判斷性與導演性的聽。

第一種要培養的，是角色聽覺分析能力。創作者必須開始問：這個角色應該有什麼樣的聲音？不是指高或低而已，而是他的語速、氣息、重音習慣、說話距離感、情緒控制方式是什麼。這等於是在做角色心理的聲音化分析。

第二種是版本比較能力。當AI一次給你五個、十個版本時，你要能分辨哪一個只是「像」，哪一個是真正「適合」。適合的定義不是單純自然，而是與劇本情境、角色關係、整體風格相一致。這種選擇能力，就是未來創作者極其重要的審美核心。

第三種是人機協作的修整能力。AI的輸出通常不是終點，而是中間材料。創作者應學會重新剪接、局部重生、加上呼吸、調整停頓、疊加空間感、與背景音樂協調，甚至必要時自己補錄一小段。也就是說，最成熟的創作方式往往不是「全交給 AI」，而是把AI視為能夠快速產生候選版本的合作系統。

在這個意義上，AI人聲並沒有讓創作者退場，反而要求創作者進一步升級。你不只是文字作者，也不只是工具操作者，而是角色聲音的設計者與總調度者。

九、本章小結：人聲不是被合成而已，而是被重新定義

總結本章，我們可以說，AI人聲技術的核心，不只是把文字轉成可聽見的語音，而是透過神經網路，學習人類語音中的多層次結構，尤其是韻律、呼吸、節奏、重音與情緒曲線等，使聲音不只具有可辨識性，也具有角色感與敘事感。再進一步，透過聲紋提取與 voice cloning，AI甚至能夠把某種音色身份抽取成可被調用的模型特徵，讓創作者在授權合理的前提下，更自由地進行角色聲音設計。

但我們也同時看到，AI人聲的價值並不在於它完全取代真人，而在於它改變了創作的組織方式。它讓聲音選角、角色分配、多語切換與多角色實驗變得更可行，卻也使創作者更需要具備精細的聽覺判斷與表演理解。真正的關鍵不再是「AI能不能說話」，而是「創作者能不能讓這些說話變成角色、變成場景、變成戲」。

從這裡出發，下一章將把焦點從人聲移向另一個與情緒高度相關的元素：音樂。我們將討論AI如何將旋律、節奏、風格與情緒之間的關係數據化，並進一步生成配樂。若人聲是角色的靈魂外露，那麼音樂往往就是敘事中的情感氣候。理解AI音樂，將使我們更清楚地看見：在生成式得創作中，情緒不只是感受，它也可以是一種可被建模、可被操演、可被選擇的結構。

Dino Lee的AI 智識館AI創作實驗室

留言

Dino Lee的AI 智識館