人工智慧如何生成聲音第七章＿聲音生成的基本任務分類

7.1　從架構到任務：為何需要任務分類

前幾章的工作，主要是在回答一個偏向技術內部的問題：如果我們把聲音視為資料、把生成視為機率建模，那麼機器究竟可以用哪些方法來表示、學習與生成聲音？我們已經看過聲音的數位表徵、表徵學習與潛在空間的概念，也看過語音合成從拼接式系統、統計參數模型，到端到端神經網路與各類生成式模型的演進。到這一步，讀者已經知道「模型怎麼做」，但還缺少另一個同樣重要的視角：這些模型究竟是在解決哪些不同性質的問題？

這正是本章的切入點。從工程的角度看，聲音生成不是單一任務，而是一組彼此相關、但目標並不相同的任務家族。文字轉語音的重點，是把語言內容轉成可懂且自然的說話聲；語音轉語音的重點，是在保留某些屬性的同時改變另一些屬性；文字轉音訊與文字轉音樂的重點，則不在語言可懂度，而在文字描述與聲音結果之間的語義對應。音訊修復與增強又不同，它不是「從零生成」一段新的聲音，而是在已有音訊的基礎上，恢復、補全、分離或改善音質。若把這些問題混在一起，只用一句「AI 可以生成聲音」概括，我們就很容易錯估工具能力，也難以理解為什麼不同產品會選擇完全不同的模型與資料策略。

要看清楚這個差異，一個有用的起點是把「任務」看成一種輸入—輸出映射。也就是說，我們不是先問系統用了什麼模型，而是先問：它接收什麼、輸出什麼、什麼結果才算成功。從這個角度來看，本章的任務分類至少牽涉兩個維度。第一個維度是輸入模態：輸入可能是文字、語音、一般音訊、影像、影片，或多種模態的組合。第二個維度是輸出性質：輸出可能是語音、音效、環境聲景、音樂，或一段被增強與修復過的音訊。這兩個維度交叉起來，就形成了當前聲音 AI 主要任務的基本地圖。

任務分類之所以必要，還有一個更實際的原因：不同任務會對資料、模型、評估與產品部署提出完全不同的要求。以 TTS 為例，模型通常需要高品質的文字—語音配對資料，評估重點是自然度、可懂度與說話者一致性；而文字轉音訊則往往依賴音訊—文字描述資料，評估重點變成語義忠實度、聲音事件的合理性與提示詞的吻合程度。語音增強任務甚至連「生成一段全新聲音」都不是它的首要目的，它更像是在條件約束下，去做有保真要求的重建。這意味著，即便兩個系統都使用擴散模型，它們所面對的實際問題也可能截然不同。

因此，本章要建立的不是一張「工具名稱表」，而是一個可操作的任務框架。這個框架至少應幫助我們回答三個問題。第一，這個任務到底要保留什麼、改變什麼、補全什麼？第二，這個任務的成功標準是什麼？第三，這個任務最自然對應到前幾章介紹過的哪一類技術架構？只要能回答這三個問題，後續讀者在面對任何新工具或新論文時，就不會只看到表面的功能標籤，而能更精確地判斷它真正屬於哪一類任務、解決的是什麼問題。

值得補充的是，本章的任務分類主要是一種「問題本質」上的分類，而不是商業產品選單上的分類。真實世界中的系統往往不只做一件事；例如一個即時語音助理同時包含語音識別、語意理解、回應生成與語音合成；一個影片後期工具則可能同時結合音訊分離、語音修復、擬音生成與配音替換。這些整合系統會讓任務邊界看起來變得模糊，但邊界的模糊不代表本質差異消失。恰恰相反，越是整合式系統，越需要清楚區分它內部到底組合了哪些子任務。

此外，像語音識別（ASR）這類從聲音到文字的任務，雖然在聲音 AI 生態中極為重要，但它在本質上屬於辨識任務而非生成任務，因此本文不將其列為本章的主角。不過，在第七章後半與第十二章談到整合式語音代理時，我們仍會看到 ASR 如何與生成任務共同構成一個更大的系統。

帶著這個任務框架，我們接下來依序討論六類核心任務：文字轉語音、語音轉語音／語音轉換、文字轉音訊、文字轉音樂、音訊修復與增強，以及多模態聲音生成。這樣的順序並非任意安排，而是刻意從最成熟、邊界最清楚的任務開始，逐步走向條件更複雜、評估更主觀、任務邊界更模糊的類型。這條路徑也對應著聲音 AI 近十年的發展脈絡：先把「讓機器開口說話」這件事做好，再逐步把「讓機器用不同方式發聲、生成環境聲、創作音樂、與影像和互動整合」這些更高階的能力納入同一個技術圖景中。

7.2　文字轉語音

文字轉語音（Text-to-Speech, TTS）是聲音生成領域最經典、也最成熟的任務。從問題定義上看，它要求系統接收一段文字輸入，輸出與該文字相對應的語音。但若只把它理解成「把字唸出來」，就會低估這個任務真正的複雜度。因為 TTS 不只是內容映射問題，更是一個涉及說話者、韻律、語境與表達風格的條件生成問題。

首先，我們需要釐清 TTS 的最基本要求。最低限度的成功，是輸出的語音應該發音正確、可懂、順序無誤，也就是說，模型不能把字念錯、跳字、重複音節或在句法停頓上出現明顯的錯誤。這對應的是語言內容的保真。然而，對大多數實際使用者而言，這還遠遠不夠。人們通常還要求語音自然、節奏合理、語氣符合文本語義、且在需要時能帶有穩定的說話者身份。於是，TTS 真正要解決的，其實是一個一對多的映射：同一段文字，可以有多種合理的說法，而模型需要知道在什麼條件下選擇哪一種。

這裡的「多種合理說法」至少包含三個來源。第一是說話者差異。不同說話者有不同的音色、共振峰分布、基頻範圍、發聲習慣與語速傾向。第二是韻律差異。同一句話在不同語境下，可以讀成平鋪直敘、提問、強調、諷刺、悲傷或興奮。第三是情境差異。導航語音、有聲書朗讀、客服應答、無障礙輔助和廣播配音，即使文字內容相同，對語音風格的要求也完全不同。因此，成熟的 TTS 系統不只是把文字映射為語音，而是要在「發音正確」之外，進一步學會生成某一種特定的、可控的說話方式。

從工程結構上看，TTS 也是最能體現前幾章技術演進的任務。早期 TTS 依賴大量語音學規則與手工設計模組；深度學習時代則轉向聲學模型與神經聲碼器的兩階段架構；再往後，整合式模型開始將對齊、韻律與波形生成納入單一的訓練目標中。這表示 TTS 的技術史，本身就像是整個聲音生成史的縮影：它幾乎涵蓋了本文前六章出現過的所有核心概念。

TTS 的評估因此也是多維度的。自然度通常以 MOS 作為主觀評估指標，但 MOS 並不能告訴我們語音是否發音正確，也不能精確區分「像不像目標說話者」與「語氣是否得體」。因此，研究與產品實踐通常還會同時使用可懂度、字詞錯誤率、說話者相似度、韻律匹配度等不同指標。這也提醒我們：TTS 不是一個單一目標的任務，而是多個目標的平衡。

如果進一步從應用情境來看，TTS 內部又可以形成一條場景譜系。導航、客服、語音助理傾向要求低延遲與穩定性，因此模型通常重視即時性與可部署性。有聲書與內容朗讀則更在乎長篇文本中的韻律一致性、段落層次與情感表現。個人化輔具與失語者輔助裝置則希望模型能在少量資料下重建某個個人的聲音身份。這些場景差異使得「一個最好的 TTS 模型」其實並不存在，因為最佳選擇總是和應用條件一起定義的。

從問題本質來看，TTS 可以被描述為：以文字為條件，生成語義正確、聲學自然且在必要時具有可控說話者與韻律特性的語音。這個定義看似冗長，卻比「把字唸出來」更接近任務的本質。也正因為如此，TTS 在整個任務地圖中的地位，有點像語言模型之於自然語言處理：它不是整個領域的全部，卻以最清楚、最可檢驗的形式，把一個貫穿所有聲音生成任務的核心張力先行暴露出來：生成系統究竟要忠實於什麼，又要在什麼地方保留變化的自由。這種「內容保真」與「表達生成」之間的平衡，將在後續每一類任務中以不同形式再次出現。

7.3　語音轉語音與語音轉換

如果說 TTS 的典型問題是「從文字生成語音」，那麼語音轉語音（Speech-to-Speech, S2S）與語音轉換（Voice Conversion, VC）則是在問：當輸入本身已經是一段語音時，我們究竟想保留什麼、又想改變什麼？這一類任務的本質，不是從無到有地創造一段聲音，而是在既有語音條件下，進行選擇性的轉換。

最狹義的語音轉換，通常指的是保留語言內容而改變說話者身份。也就是說，輸入說話者 A 的語音，輸出仍說相同的字詞與句子，但聽起來像說話者 B。這種任務的關鍵不在於「能不能產生語音」，而在於模型是否真的把內容與身份分開了。換句話說，VC 的真正核心是表徵學習與解糾纏：模型必須學會什麼是語言內容、什麼是說話者特性，並在轉換時保留前者、替換後者。

這裡的困難，不只來自技術，也來自任務本身的曖昧性。因為人類聲音中的「誰在說」從來不是單一因素。它同時包含聲道形狀、基頻分布、發聲習慣、韻律偏好、局部口音與語音動態。當我們說「把 A 轉成 B」，並不代表有一個簡單的開關可以把 A 的身份完全移除、把 B 的身份完整覆蓋。實際情況通常是：模型只能在某種程度上逼近目標說話者，且這個程度受到來源語音品質、來源與目標說話者差異、訓練資料量，以及模型解糾纏能力的共同限制。

廣義的語音轉語音則比 VC 更寬。它不一定只處理說話者身份，還可以處理語速、情緒、語調、表達風格，甚至語言本身。例如，把一段中性語音轉成帶有悲傷語氣的語音；把快速口語轉成慢速清晰版本；把某人說中文的語音轉成同樣音色下的英文語音；或把一段語音翻譯成另一種語言，同時盡量保留原說話者的聲音特徵。這些任務共同構成了更廣義的 speech-to-speech family。不過，這裡值得做一個區分：狹義的語音轉換（VC）通常假設語言內容不變，只改變說話者身份或其他屬性；而語音翻譯（Speech-to-Speech Translation, S2ST）則必須同時處理語義的跨語言轉換與說話者音色的保留，在技術上涉及的不只是聲學層面的屬性替換，還包含語義理解與跨語言對齊。兩者雖然都是「輸入語音、輸出語音」，但對模型的要求有本質差異。

從表徵角度來看，這類任務與第三章的多層資訊分析高度對應。語音中至少包含內容、說話者、韻律、情緒與環境五個層次，而 S2S/VC 的本質，就是指定哪些層次保持不變，哪些層次允許改變。TTS 是從文字出發重新生成全部聲學細節；語音轉換則是把輸入語音當作一個條件約束，要求模型只在某些子空間中移動。這也解釋了為什麼 S2S 任務通常比 TTS 更依賴良好的中間表徵：若表徵中不同屬性糾纏在一起，轉換時就很容易同時破壞內容與身份，或在保留內容時無法真正逼近目標說話者。

從應用層面看，S2S/VC 的場景比 TTS 更廣泛也更敏感。它可用於配音替換、跨語言配音、個人化聲音輔助、歌聲轉換、情感重演、以及即時語音翻譯。它同時也是 deepfake 聲音風險的直接技術來源之一，因為只要模型能在少量樣本下重建或模仿特定人的聲音特徵，偽造的門檻就會大幅下降。這也是為什麼這一任務在第九章與第十五章會有更深入的技術與倫理討論。

評估這類任務時，也必須比 TTS 更小心。自然度仍然重要，但不再足夠。我們還必須問：內容是否被保留？目標音色是否真的接近？情緒或語速的改變是否符合任務要求？換句話說，S2S/VC 的評估本質上至少包含三重保真度：內容保真、目標屬性保真、以及整體聽感自然度。只看其中一項，很容易得出錯誤結論。例如一段轉換語音可能聽起來很自然，但如果內容改動了，它在語音翻譯或身份保留應用中就不算成功；相反地，一段語音可能內容完全保留，但若目標說話者特性極弱，那也不能說任務完成。

因此，語音轉語音與語音轉換最好的理解方式，不是把它們視為 TTS 的旁支，而是把它們看成「條件受限的生成任務」：輸入已經提供了一部分聲音資訊，模型的工作是沿著特定屬性方向進行受控重寫。只要理解了這一點，讀者就不會再把所有「輸入語音、輸出語音」的系統混為一談，而能更精確地區分它到底是在做說話者替換、情緒轉換、語言遷移，還是更複雜的多屬性聯合轉換。

但這類任務的意義不只是技術上的。它要求模型回答的問題：在一段聲音中，哪些部分屬於不可改動的核心，哪些部分屬於可被替換的可變層，帶有某種本體論意味：它迫使我們重新思考，所謂一個人的聲音、一句話的內容、一段語音的情感，究竟各自是什麼，彼此又如何纏繞。也正因為如此，語音轉換同時也是倫理問題的起點：一旦模型能夠在不破壞內容的前提下穩定地改寫身份，聲音就不再只是表達的媒介，而成為可以被拆解、搬移與重組的對象。

7.4　文字轉音訊

文字轉音訊（Text-to-Audio, TTA）將聲音生成從「語言表達」擴展到更廣泛的聲音世界。它的任務不是讓機器開口說話，而是讓機器根據文字描述，生成對應的非語音音訊，例如腳步聲、雨聲、爆炸聲、街道聲景、森林環境音，甚至帶有明顯敘事情境的複合聲音事件。

表面上來看，TTA 與文字轉影像很像：都以自然語言作為條件，生成與提示詞相符的感知內容。但一旦仔細分析，TTA 面臨的語義問題其實更棘手。影像往往有較穩定的物體與場景對應，而聲音的語義通常是事件性的、時間性的，而且常帶有強烈的情境依賴。「遠處傳來雷聲」和「頭頂炸開的雷聲」都包含同一個事件類別，但在時間包絡、能量、頻率分布、空間感與混響特性上可能完全不同。換言之，TTA 的語義映射不只是「什麼聲音」，還包括「怎麼發生」、「從哪裡來」、「持續多久」、「與什麼背景共存」。

這使得 TTA 的核心挑戰之一，變成了語言描述與聲音事件之間的語義對應。人類閱讀一句描述時，會自然補足許多聲學細節；例如「夜晚的城市街頭」不只是一組名詞，而是一整個聲景假設：稀疏車流、遠方引擎聲、腳步、可能的風聲，以及比白天更大的環境空隙。對模型而言，這些不是直接寫在文字裡的物理量，而是需要從大量配對資料中習得的統計關聯。因此，TTA 的關鍵能力不只在生成器本身，也在跨模態表徵學習是否足夠強大，能不能把文字嵌入真正對準聲音事件與聲景的高層語義。

這也是為什麼近年 TTA 系統高度依賴 CLAP（Contrastive Language-Audio Pretraining；Wu et al., 2023）這類語言—音訊對比式預訓練模型。從功能上看，CLAP 為 TTA 提供了一種共同語義空間：文字與音訊若在語義上相符，它們的嵌入在空間中就應彼此接近；若不相符，就應相對遠離。有了這樣的共同空間，擴散模型或自回歸模型才比較有可能在生成時知道「往哪個方向靠近」才算符合提示詞。

與 TTS 相比，TTA 還有一個重要差異：它通常沒有像可懂度那樣明確且穩定的硬目標。TTS 至少可以問「字念對了嗎」；TTA 則常常只能問「這段聲音是否合理地對應這段描述」。這導致它的評估天然更主觀，也更依賴檢索式或對比式的自動指標，例如 CLAP 分數。這些指標有用，但不能完全等同於人類判斷，因為人類聽覺在評估聲景時，會同時考慮事件合理性、時間結構、質地、空間感與整體敘事一致性，而不是只做語義匹配。

在應用上，TTA 直接連到電影與遊戲聲音設計、影片後製、虛擬世界場景生成、無障礙媒體描述，以及內容創作工具。對創作者而言，TTA 最大的吸引力在於它能顯著降低製作門檻：過去要找素材庫、剪接、混音，現在可能只需從文字提示開始。但也正因為如此，TTA 並不只是「音效搜尋的升級版」，而是在改變聲音素材從檢索到生成的整個工作流程。

因此，在任務分類上，TTA 的本質可以概括為：以文字語義為條件，生成對應的非語音聲音事件或聲景。它和 TTS 一樣都是文字到聲音，但兩者對「正確」的定義完全不同。TTS 的正確性偏向語言保真；TTA 的正確性偏向語義與情境合理性。這個差異，正是後續第十一章深入討論音效與環境音生成時的出發點。

從這個角度著眼，TTA 在某種意義上比 TTS 更像是一種世界知識任務：模型考驗的不是語音規則是否掌握，而是能否把語言放回具體情境，包括事件、材質、距離、空間與時間動態，並據此生成一個在人類聽覺上合理的聲景。也正因為如此，TTA 標誌著聲音生成開始從「語言到發聲」，走向「語言如何召喚一個可聽的世界」。

7.5　文字轉音樂

文字轉音樂（Text-to-Music, TTM）可以說是聲音生成任務中最容易引發想像、也最難被簡單定義的一類。從任務表面看，它要求系統根據文字提示生成一段音樂；但與 TTS 或 TTA 相比，TTM 的難度不只在於輸入和輸出的對應，而在於「音樂本身」就是一種高度結構化、同時又高度主觀的時間藝術。

首先，音樂不是單純的聲音堆疊。它通常具有多層時間結構：短時間尺度上有音高、節奏、音色與力度；中時間尺度上有樂句、和聲進行、動機重複與變化；長時間尺度上還有段落安排、張力鋪陳與整體形式。模型如果只能生成局部聽起來像音樂的片段，卻無法維持數十秒甚至數分鐘的結構一致性，那麼產物就容易流於「表面像音樂、實際沒有作品感」。

這正是 TTM 與 TTS 的一個根本差別。語音的主要結構單位通常在句子或話輪尺度內就能形成相對完整的自然性判斷；音樂則要求模型在更長的時間範圍內維持重複與變化之間的平衡。若沒有長程結構控制，音樂可能會一直重複某個型態，也可能在每一秒都換一種語法，導致聽起來既不穩定也不成形。

第二，音樂生成的條件控制比想像中複雜。使用者常用的提示詞如「悲傷的鋼琴」、「80 年代 synth-pop」、「緊張、電影感、逐漸推進」，本質上都不是直接的聲學指令，而是風格、情緒、配器與文化慣例的混合描述。也就是說，模型不只要知道鋼琴的音色是什麼，還要知道「悲傷」在不同音樂語境中可能意味著較慢節奏、較稀疏配器、某些和聲色彩與旋律走向。這讓 TTM 的條件控制天然帶有強烈的文化與語境依賴。

第三，TTM 同時存在兩條技術路線：符號式與音訊式。符號式音樂生成把音樂當作音符事件序列來建模，優點是更容易處理音樂理論層次的結構，例如和弦進行與旋律發展；音訊式音樂生成則直接處理最終聲音結果，優點是可以同時生成演奏細節、音色、空間感與錄音質地。前者更像在生成「樂譜」，後者更像在生成「作品聲音本身」。這兩條路線不是互相排斥，而是對音樂本體的兩種不同切面。

TTM 的評估因而變得特別困難。語音自然度至少還可以依賴相對穩定的人類共識，而音樂好壞的判斷高度受風格熟悉度、文化背景、創作期待與個人審美影響。同一段音樂，有人會覺得結構完整，有人會覺得過度公式化；有人會覺得它有氛圍，有人則會覺得缺乏真正的主題發展。因此，音樂生成任務不只比 TTS 更難，也比 TTA 更難建立統一評估標準。

在應用上，TTM 應用到廣告配樂、短影音配樂、遊戲與互動媒體、創作者草稿生成、作曲輔助與風格實驗等場景。它的實際價值常不在於一次生成一首完美作品，而在於提供快速草圖、風格探索或特定需求下的素材生成能力。從這個角度看，TTM 更像是一種「高層音樂條件到可聽作品雛形」的生成任務，而不是傳統作曲的完全替代。

因此，若要用一句較準確的話來界定 TTM，我們可以說：它是以語義性或風格性文字條件，生成具有音樂結構、音色組織與情緒一致性的聲音序列。這個定義比「文字生音樂」更重要，因為它點出了三件事：第一，輸出必須是音樂而不只是好聽聲音；第二，條件往往是高層語義而非低層聲學參數；第三，長程結構是這類任務最核心、也最難被真正做好的部分。

因此，TTM 是所有聲音生成任務中最能凸顯「生成不等於創作完成」的一類。模型也許能很快生成一段帶有某種氛圍與配器質地的音樂片段，但這不保證它真的具有主題發展、形式感與整體完成度。TTM 在任務地圖中的特殊地位，正在於它把聲音生成從「條件對應」進一步推向「時間藝術的結構生成」。當生成目標不再只是語音或聲景，而是一種具有形式與審美要求的作品時，模型面對的問題就不再只是對得對不對，而是能不能在時間中維持一種讓人感到「這是一首音樂」的內在組織。

7.6　音訊修復與增強

與前面幾類任務相比，音訊修復與增強（audio restoration and enhancement）有一個很不一樣的性質：它不是以「創造全新聲音」為主要目標，而是以「改善既有音訊」為主要目標。換句話說，這類任務雖然也會用到生成模型，但它的成功標準往往不在創意或多樣性，而在保真、清晰與可用性。

這一類任務可以視為條件受限最強的一組聲音生成問題。系統拿到的不是抽象文字，而是一段已存在但品質不足的音訊。它要做的事情可能包括：去除背景雜訊、降低混響、分離多說話者、把人聲與伴奏拆開、補全遺失片段、提升頻寬、修復失真，或讓舊錄音聽起來更清晰。這些工作看似多樣，其實是共享一個核心問題：模型既要改變音訊，又不能改得太多。也就是說，它需要有生成能力，但同時又必須服從極強的內容約束。

從這個角度來看，音訊修復與增強很能幫助我們理解生成模型的另一面。人們常把生成模型想成「從噪聲生萬物」，但在修復任務中，更重要的是「在已知上下文下，只生成缺失或被污染的部分」。這使得條件生成的角色變得格外突出：去雜訊不是任意生成一段乾淨語音，而是在輸入語音結構與說話者特徵的強約束下，恢復一段更接近乾淨分布的結果；音訊補全不是憑空創作，而是在前後文的一致性條件下填補缺口。

這一類任務常見的子類型可以分得更細。語音增強或去雜訊，重點是把語音從複雜背景中拉出來；去混響，重點是減弱空間反射造成的模糊；聲源分離，重點是把原本混在一起的來源拆開；嚴格來說，聲源分離有時也被視為一類獨立任務，因為它的目標不一定是「改善」音訊，而可能是為了後續混音、karaoke 或個別聲源的再利用；但從生成模型的角度看，它同樣要求模型在強條件約束下重建目標聲源，而非從零開始創造全新聲音，因此本章將其納入這一大類（聲源分離問題的經典表述可追溯到 Cherry (1953) 的雞尾酒會問題。）頻寬擴展，重點則是補回低取樣率訊號缺失的高頻部分；音訊補全，則要在局部遺失的區域重建合理的聲音片段。這些子任務雖然各自不同，但在訓練時都面臨同一個方法論問題：我們該用什麼損失函數來衡量「修復得好不好」？

長期以來，最直覺的做法是讓模型的輸出盡可能逼近乾淨的參考訊號，也就是以 MSE 或 L2 損失為主的逐點重建目標。從數值上看，它們可能確實讓預測波形更接近平均答案；但從感知上看，平均答案往往意味著過度平滑、質地變鈍、高頻細節被抹掉。生成式方法，特別是 GAN 與擴散模型，在這裡的重要性，不是因為它們比較「新」，而是因為它們更能逼近人耳真正關心的感知品質。SEGAN、擴散式語音增強等方法，都可被理解為：用更符合感知的方式，去學習乾淨音訊的條件分布。

在應用層面上，這一類任務其實和日常生活非常接近。視訊會議降噪、錄音修復、播客後製、電話語音增強、老唱片修補、影片人聲分離、直播去環境噪音，都是典型例子。它不像 TTM 那樣充滿創作想像，但它對商業與實用場景的影響往往更直接。

所以，音訊修復與增強最好的任務定義不是「把聲音變好」，而是：在保留輸入中有用資訊的前提下，抑制、去除或補全不理想部分，使輸出更接近目標音訊分布。這一定義看似保守，卻精確指出了它和其他生成任務的核心差別：它的自由度更小，但保真度的要求更高。也正因如此，這一任務很能測試一個生成模型是否真正理解了聲音中的哪些結構是「該變的」，哪些是「不能亂動的」。換句話說，若其他任務考驗的是模型「能生成什麼」，那麼修復與增強考驗的則是模型「知道在哪裡停手」。真正高明的系統，不是最會生成新東西，而是最知道在什麼地方必須克制，讓生成能力服從於保真要求。

7.7　多模態聲音生成

多模態聲音生成（multimodal audio generation）代表了聲音 AI 近年最重要的擴張方向之一。它的基本特徵，是聲音不再被視為孤立的輸入或輸出，而是被放進一個包含文字、影像、影片、動作、語音與互動語境的更大系統裡。也就是說，模型不只要會生成聲音，還要知道聲音如何和其他模態對應、同步與互相約束。

這個任務家族之所以重要，是因為大量真實世界的聲音並不是單獨存在的。人說話時伴隨口形和身體動作；影片中的聲音與畫面事件同步發生；虛擬角色的語音與表情、姿勢、情緒共同形成存在感；互動代理的語音回應也依賴使用者當下的語氣、內容與對話節奏。換句話說，聲音天然就是一種多模態現象，而不是只有音訊波形本身。

其中最典型的一類，是視覺引導的音訊生成。這類任務要求模型根據影片或影像內容生成對應聲音，例如根據腳步畫面生成腳步聲、根據水流或撞擊畫面生成擬音，或根據人物唇形生成與口型同步的語音。這裡的挑戰不是單純辨認物體，而是理解事件如何在時間上展開、材質如何影響聲音、以及聲音何時發生才算同步。影像提供的是視覺事件，聲音提供的是時間化的物理後果，模型需要在兩者之間建立真正的跨模態因果對應。

另一類重要形式，是「文字＋參考音訊」的聯合控制。這在高品質語音合成、語音複製與音樂生成中特別常見。文字可以提供語義內容，參考音訊則提供說話者音色、韻律風格、音樂旋律、環境質地或其他感知模板。這類系統之所以強大，在於它不再只接受單一類型條件，而是允許使用者從不同模態共同指定生成目標。從模型角度看，這類任務要求跨模態條件能在共同空間中被有效融合；從應用角度看，它則提供了遠比純文字提示更精確的控制能力。

即時互動語音代理是多模態聲音生成中最具代表性的綜合任務。這種系統不只是做 TTS，也不只是做語音識別，而是要在聽、懂、想、說之間形成一個低延遲的閉環。使用者輸入語音，系統需要理解語意、掌握語氣、結合上下文生成回應，再以語音輸出，而且整個回應節奏還要符合自然對話。這使得即時語音代理成為一個高度整合的多模態系統：它同時涉及辨識、生成、對話管理與聲音表達。這也是為什麼近年音訊語言模型的發展如此重要，因為它們試圖把原本分散在 ASR、LLM、TTS 之間的模組整合成一個更連續的處理框架。

多模態聲音生成的評估同樣變得更複雜。除了音訊本身自然不自然，還要問它是否和畫面同步、是否與文字語義一致、是否和參考樣本匹配、是否在互動情境中回應得夠快且夠恰當。這表示，多模態系統的品質常常無法由單一音訊指標評估，而需要從時間同步性、跨模態一致性、感知自然度與任務完成度等多個維度一起判斷。

因此，多模態聲音生成最值得把握的本質是：它不是「在聲音上再加上一些條件」，而是把聲音重新放回它原本所屬的複合感知場景之中。這種任務讓聲音不再只是結果，而成為整體世界模型的一部分。也正因如此，它是理解第十二章整合式音訊語言模型最好的前導：因為真正先進的系統，往往不是先問「要不要做 TTS」，而是先問「在這個互動或媒體場景裡，聲音應該怎樣和其他模態一起運作」。

從這個角度看，多模態聲音生成可以被視為本章任務地圖的一個轉折點。它標誌著聲音生成開始從「單模態的產出問題」走向「系統層的協調問題」：模型不再只回答「這段聲音像不像真的」，而開始回答「這段聲音是否在這個場景裡、以這個時間點、和這些其他模態一起運作得合理」。這也正是後續整合式音訊語言模型與即時互動代理之所以值得獨立討論的根本原因。

7.8　任務之間的關係與邊界的模糊化

到目前為止，我們已經區分了六類主要任務：文字轉語音、語音轉語音／語音轉換、文字轉音訊、文字轉音樂、音訊修復與增強，以及多模態聲音生成。從認識角度來看，這種分類非常必要，因為它讓我們看見每個任務的輸入、輸出、約束條件與評估標準都不一樣。然而，若以為這些任務在真實系統中總是彼此分開，那又會走向另一種誤解。當前最值得注意的趨勢，正是任務邊界在技術整合下日益模糊。

這種模糊化首先來自共享技術基礎。說話者嵌入同時可用於 TTS 和語音轉換；CLAP 或類似的跨模態嵌入既可服務文字轉音訊，也能支援某些音樂生成與檢索任務；擴散模型既能做 TTA，也能做音訊補全與語音增強；token 化與 Transformer 語言模型既能應用在語音合成，也能應用在語音複製與多模態代理。也就是說，模型框架開始共享，但共享框架不等於任務本質相同。

這裡需要特別區分兩個層次。第一個層次是技術實作層：單一模型或單一平台可以執行多種任務。第二個層次是問題本質層：不同任務所要求保留與改變的資訊、所依賴的資料條件、以及評估成功的標準，仍然不同。比如，一個整合式音訊語言模型可以同時完成 TTS、語音翻譯與語音對話，但 TTS 仍以語言內容與語音自然度為核心，語音翻譯則還要處理跨語言語義對齊與可能的身份保留問題。歌聲合成（Singing Voice Synthesis, SVS）則是另一個典型例子：它以歌詞與旋律為條件生成歌唱語音，在技術上同時涉及 TTS 的語言對齊控制與音樂生成的音高精確性要求，自然地橫跨了語音與音樂兩類任務的邊界。換言之，模型邊界變模糊，不代表任務邊界消失；但像 SVS 這樣的例子也提醒我們，有些任務本來就處於分類的交界處，而非整齊地屬於某一類。

另一個重要現象是任務的組合性正在成為實際系統的常態。真實應用往往不是「只做一種任務」，而是多個任務串接或聯合。例如一個完整的語音助理至少涉及 ASR、語言理解、回應生成與 TTS；一個配音替換工具可能需要語音分離、語音轉換、唇形對齊與背景聲重建；一個影片自動後製系統則可能同時用到文字轉音訊、音訊修復與視覺引導擬音。這意味著，任務分類的價值不只在學術理解上，也在系統設計上：只有知道每個子任務本質上在做什麼，才能真正理解整體系統能力從哪裡來，又可能在哪一環失敗。

任務邊界的模糊化還會帶來一個認知風險：使用者可能以為一個系統既然能做語音、音效、音樂與多語言互動，就代表它在所有任務上都同樣強。事實通常不是如此。整合式模型常擅長覆蓋多種任務，但在某些專門能力上未必優於專用模型；相反地，某些專門系統可能在單一任務上極強，卻無法自然擴展到鄰近任務。因此，任務分類仍然是判斷工具能力邊界的重要方法。

從更高的角度來看，本章的分類最終要幫助讀者建立一種分析習慣：面對任何聲音 AI 工具時，不先被它的表面功能名稱吸引，而是先問：它的輸入是什麼？輸出是什麼？它真正要保留的資訊是什麼？它主要改變的又是什麼？它的評估標準應該是內容保真、身份相似、語義一致、結構合理，還是整體感知品質？只要這幾個問題問清楚，很多看似神奇的功能，其實都能被拆解成已知的任務組合。

本章因此完成了一個過渡性的工作。前六章讓我們理解了生成聲音的技術原理；第七章則把這些原理重新放進任務地圖中，說明不同技術為何會對應到不同問題。從下一章開始，本文將不再只停留在任務總覽，而會進一步深入具體領域，逐步拆解語音生成的關鍵模組、語音複製、音樂生成、音效生成與整合式音訊模型的設計邏輯。也就是說，現在我們已經不只是知道「AI 可以生成聲音」，而是開始知道：在不同的聲音問題裡，AI 到底是在生成什麼、保留什麼、以及為什麼要用這樣的技術路線。

本章小結

本章的核心工作，是把「聲音生成」從一個看似單一的總稱，拆解為幾類本質不同的任務。文字轉語音關心的是語義到語音的自然映射；語音轉語音與語音轉換關心的是在既有語音條件下進行選擇性的屬性重寫；文字轉音訊處理的是描述到聲景或事件音效的語義對應；文字轉音樂則面對更長程、更高主觀性的音樂結構生成問題；音訊修復與增強把生成能力用在高保真條件重建上；多模態聲音生成則把聲音重新納入文字、影像、影片與互動系統的整體關係中。

這些任務之間共享許多技術基礎，但它們在輸入輸出結構、成功標準、訓練資料需求與產品目標上並不相同。因此，任務分類不是形式性的整理，而是理解工具能力邊界、評估系統設計取捨、以及避免概念混淆的基本前提。

帶著這張任務地圖，後續章節就能更精確地深入各個具體領域。第八章將從語音生成的關鍵模組開始，進一步拆解文字、語者、韻律與聲碼器之間的分工與耦合關係，讓我們從任務層次走入系統內部。

參考文獻

Agostinelli, A., Denk, T. I., Borsos, Z., Engel, J., Verzetti, M., Caillon, A., Huang, Q., Jansen, A., Roberts, A., Tagliasacchi, M., Sharifi, M., Zeghidour, N., & Frank, C. (2023). MusicLM: Generating music from text. arXiv preprint arXiv:2301.11325.

Barrault, L., Chung, Y.-A., Ma, M. C., Zhang, S., Sun, C., Dong, L., Chen, J., Cohen, P. R., Adi, Y., Gat, I., Elbayad, M., Gheini, M., Elbayad, M., Ma, T., Chang, X., Pino, J., Guo, J., Schwartz, E., Tomasello, P., … Tessler, M. H. (2023). SeamlessM4T: Massively multilingual and multimodal machine translation. arXiv preprint arXiv:2308.11596.

Cherry, E. C. (1953). Some experiments on the recognition of speech, with one and with two ears. Journal of the Acoustical Society of America, 25(5), 975–979.

Copet, J., Kreuk, F., Gat, I., Remez, T., Kant, D., Synnaeve, G., Adi, Y., & Défossez, A. (2023). Simple and controllable music generation. In Advances in Neural Information Processing Systems (Vol. 36).

Défossez, A., Sigouin, N., Liutkus, A., & Bach, F. (2019). Music source separation in the waveform domain. arXiv preprint arXiv:1911.13254.

Hennequin, R., Khlif, A., Voituret, F., & Moussallam, M. (2020). Spleeter: A fast and efficient music source separation tool with pre-trained models. Journal of Open Source Software, 5(50), 2154.

Ho, J., Jain, A., & Abbeel, P. (2020). Denoising diffusion probabilistic models. In Advances in Neural Information Processing Systems (Vol. 33, pp. 6840–6851).

Huang, Q., Park, D. S., Wang, T., Denk, T. I., Ly, A., Chen, N., Zhang, Z., Zhang, Z., Yu, J., Frank, C., Engel, J., Ismir, D., Ni, C., Gu, J., & Han, Y. (2023). Make-An-Audio: Text-to-audio generation with prompt-enhanced diffusion models. In Proceedings of the International Conference on Machine Learning，(ICML).

Huang, C.-Z. A., Vaswani, A., Uszkoreit, J., Simon, I., Hawthorne, C., Shazeer, N., Dai, A. M., Hoffman, M. D., Dinculescu, M., & Eck, D. (2019). Music Transformer: Generating music with long-term structure. In Proceedings of the International Conference on Learning Representations (ICLR).

Kim, J., Kong, J., & Son, J. (2021). Conditional variational autoencoder with adversarial learning for end-to-end text-to-speech. In Proceedings of the International Conference on Machine Learning (ICML) (pp. 5530–5540).

Kreuk, F., Synnaeve, G., Polyak, A., Singer, U., Défossez, A., Copet, J., Parikh, D., Taigman, Y., & Adi, Y. (2023). AudioGen: Textually guided audio generation. In Proceedings of the International Conference on Learning Representations (ICLR).

Liu, H., Chen, Z., Yuan, Y., Mei, X., Liu, X., Mandic, D., Wang, W., & Plumbley, M. D. (2023). AudioLDM: Text-to-audio generation with latent diffusion models. In Proceedings of the International Conference on Machine Learning (ICML).

Liu, H., Yuan, Y., Liu, X., Mei, X., Kong, Q., Liu, Q., Kong, Q., Wang, W., & Plumbley, M. D. (2024). AudioLDM 2: Learning holistic audio generation with self-supervised pretraining. IEEE/ACM Transactions on Audio, Speech, and Language Processing, 32, 2871–2883.

Lu, Y.-J., Wang, Z.-Q., Watanabe, S., Richard, A., Yu, C., & Tsao, Y. (2022). Conditional diffusion probabilistic model for speech enhancement. In Proceedings of the IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP) (pp. 7402–7406).

Luo, S., Yan, C., Hu, C., & Zhao, H. (2024). Diff-Foley: Synchronized video-to-audio synthesis with latent diffusion models. In Advances in Neural Information Processing Systems (Vol. 36).

OpenAI. (2024). Hello GPT-4o. https://openai.com/index/hello-gpt-4o/

Pascual, S., Bonafonte, A., & Serrà, J. (2017). SEGAN: Speech enhancement generative adversarial network. In Proceedings of Interspeech 2017 (pp. 3642–3646).

Saeki, T., Xin, D., Nakata, W., Koriyama, T., Takamichi, S., & Saruwatari, H. (2022). UTMOS: UTokyo-SaruLab system for VoiceMOS challenge 2022. In Proceedings of Interspeech 2022 (pp. 4521–4525).

Wang, C., Chen, S., Wu, Y., Zhang, Z., Zhou, L., Liu, S., Chen, Z., Liu, Y., Wang, H., Li, J., He, L., Zhao, S., & Wei, F. (2023). Neural codec language models are zero-shot text to speech synthesizers. arXiv preprint arXiv:2301.02111.

Zhang, Y., Gu, J., Wu, D., Chen, S., Guan, X., Jiang, B., & Qian, X. (2024). FoleyCrafter: Bring silent videos to life with lifelike and synchronized sounds. arXiv preprint arXiv:2407.01494.

7.1 從架構到任務：為何需要任務分類

7.2 文字轉語音

7.3 語音轉語音與語音轉換

7.4 文字轉音訊

7.5 文字轉音樂

7.6 音訊修復與增強

7.7 多模態聲音生成

7.8 任務之間的關係與邊界的模糊化