vocus logo

方格子 vocus

AI時代的聲音敘事與創作革命 第二章 核心概念:聲音在AI眼中並非波形

更新 發佈閱讀 16 分鐘

在上一章中,我們已經初步指出,AI所帶來的改變,不只是讓聲音創作變得更加快速,而是改變了創作的基本邏輯。傳統聲音工作者所面對的,是一段一段可被錄下、編修與混合的聲波;然而,對AI而言,聲音並不是以人類直覺所熟悉的方式存在。它不會像我們一樣「聽見」一個角色聲音裡的疲憊、溫柔或焦躁,也不會直接感受到雨夜巷口的潮濕氣氛。AI所處理的,首先不是意義,而是資料;不是經驗,而是結構;不是情緒本身,而是可被計算的模式。

因此,若要真正理解AI如何參與聲音創作,我們必須先放下日常對「聲音」的直觀理解,轉而問一個更基礎的問題:一段聲音,在AI的世界裡,究竟是什麼?本章的核心工作,就是帶領讀者從聲音的物理本質出發,進一步理解它如何被數位化、如何被切分為可計算的單位、如何被映射到一個抽象的潛在空間之中,以及AI又如何透過機率模型,從這些抽象表示裡生成新的聲音結果。這些概念看似技術性很高,但如果掌握了它們,我們就會開始明白:所謂AI聲音創作,並不是神祕地「變出聲音」,而是在一個高度結構化的數據世界裡,對可能性進行導航與顯影。

一、聲音的第一層轉換:從空氣振動到數位資料

在現實世界中,聲音首先是一種物理現象。當物體振動時,它會推動周圍空氣形成壓力變化,這些壓力變化以波的形式傳遞到我們耳中,刺激聽覺系統,最後被我們經驗為語音、音樂或環境聲響。從物理學的角度看,聲音是一種連續的時間現象,它沒有天然的分格,也沒有明確的切點,而是不斷流動、不斷變化的聲壓波形。

但是,電腦無法直接理解這種連續流動的空氣振動。電腦只能處理離散的數值,因此任何聲音要被AI使用,首先都必須經歷數位化。所謂數位化,就是把原本連續的聲音訊號,以極短的時間間隔反覆測量,將每一個時間點上的振幅記錄下來,形成一串數字。這個過程稱為取樣(sampling)。例如,一段音訊若以每秒 44,100 次的頻率進行取樣,就表示系統每秒鐘都在問 44,100 次:「此刻的波形高度是多少?」於是,原本流動的聲音,就被拆解成一長串數值。

在這個階段,聲音雖然還保留了與原波形的對應關係,但它已不再是自然世界中的聲音,而是一組可被儲存、複製與運算的數據資料。這種轉變非常重要,因為它說明了:AI不會直接面對「聲音本身」,而是面對聲音的數位表徵。也就是說,它接觸到的不是一個人說話時真正的呼吸、情感與意圖,而是那些現象留下來的數值痕跡。

從這裡開始,我們就必須理解一件事:AI對聲音的掌握,從來不是像人一樣「聽懂」,而是從大量數值之間找出可重複出現的規律。這種規律可能對應到某種音高變化、某種音色特徵、某種節奏模式,也可能對應到人類覺得像悲傷、興奮、緊張或溫柔的聲學現象。AI所能掌握的,不是情緒本身,而是那些與情緒高度相關的可計算特徵。

二、解構聲音:為什麼AI不只看波形,而會進一步「切分」聲音

如果只是把聲音理解為一長串波形數值,AI雖然已經可以讀取資料,但仍然難以有效地進行高階生成。原因在於,原始波形的資訊量非常巨大,而且不同層次的訊息混雜在一起。舉例來說,一個人的一句話裡,同時包含了發音內容、語速、音高、音量、口音、情緒、呼吸節奏、環境殘響等因素。若讓模型直接從最原始的波形數值學習,雖然理論上可行,但運算成本高,而且很難穩定抓出對創作有意義的模式。

因此,現代AI聲音系統通常不只停留在波形層次,而會進一步對聲音進行表徵轉換。這種表徵轉換的目的,是把原本連續複雜的聲音,轉成較容易被模型學習與生成的結構。這裡便引出了本章的一個關鍵詞:token,中文可譯為「詞元」或「記號單位」。在文字模型中,token可以是一個字、一個詞或一小段字串;在聲音模型中,token則可理解為被切分後的聲音片段或聲音代碼。它不是自然界本來就有的單位,而是模型為了便於學習,將聲音壓縮、分段與編碼後形成的運算單位。

若用比喻來說,原始波形就像一整條沒有標記的河流,而tokenization則像是在河流上畫出許多可辨識的區段,讓系統知道哪一段比較像子音爆破、哪一段比較像母音延伸、哪一段帶有音樂性的穩定頻率,哪一段則像背景噪音。這個切分不一定是人類聽覺上自然感受到的段落,但對模型而言,它是一種把複雜連續資料變成可預測單位的重要方法。

這裡的關鍵觀念在於:當聲音被token化之後,它就更接近語言模型熟悉的工作方式。模型不再只是面對「一整片聲波」,而是面對一串串可以排序、比對、預測與重組的單位。這使得AI能夠像處理文字序列那樣,處理聲音序列。也正是在這裡,聲音開始從物理現象轉變成可計算的機率事件。

三、潛在空間:AI如何在看不見的聲音地圖中定位特徵

然而,即使聲音已經被數位化並切分成 token,仍然還有一個問題沒有解決:模型如何理解這些片段彼此之間的關係?它怎麼知道某種聲音與某種情緒接近,某種音色與某種角色類型相關,某種語調又與某種場景氛圍相符?要回答這個問題,我們需要引入另一個核心概念:潛在空間(latent space)

潛在空間可以暫時理解為一種高維度的「聲音地圖」。只是,這張地圖並不是實際畫在紙上的,而是存在於模型內部參數所形成的抽象數學空間中。所謂高維度,意思不是只有上下左右前後這樣的三維關係,而可能有幾百維、幾千維,甚至更多維度。每一個維度都不是我們日常可直觀命名的方向,但它們共同構成了一個系統,使模型能夠在裡面標示不同聲音之間的相似與差異。

在這張抽象地圖裡,音色接近的聲音可能彼此靠近,情緒相似的語音模式也可能聚在相近區域。比方說,輕柔、氣音多、語速慢的人聲,可能分布在某個相對接近的位置;緊繃、快速、音高不穩的人聲,則可能落在另一塊區域。又例如,金屬摩擦聲、玻璃碎裂聲與高頻刺耳噪音,可能在某些維度上具有相似性,所以彼此不會距離太遠;而低沉厚重的雷聲、鼓聲與遠方轟鳴,則可能在別的區域形成群聚。

值得注意的是,潛在空間不是人類事先手工設計好的分類表,而是在模型訓練過程中,根據大量資料自動形成的表示系統。模型透過反覆學習,逐漸將看似雜亂的聲音資料壓縮成較有組織的內部結構。於是,「角色悲傷地低聲說話」或「空曠走廊中的腳步回音」這些人類語言描述,便有機會在這張抽象地圖上找到對應的位置區域。

如果用更生活化的比喻來說,潛在空間像是一座巨大的聲音城市。城市裡沒有明文標示「悲傷區」、「恐怖區」或「溫暖旁白區」,但類似的聲音居民會慢慢聚集在相近街區。創作者輸入提示時,等於是在告訴模型:請帶我到這座城市中某個區域,再從那附近找出適合的聲音版本。提示越精準,定位就越準;提示越模糊,模型可能就只會在一大片相近區域中隨機遊走,產出不夠穩定的結果。

四、機率預測:AI為什麼不是「知道」,而是「猜測」

理解了token與潛在空間之後,我們還要再跨一步,才能真正抓住生成式AI的核心邏輯。這個邏輯就是:AI並不是在「知道答案」,而是在「預測機率最高的下一步」。

這件事對初學者來說非常重要。因為很多人第一次接觸AI時,容易把它想成一個懂得創作、懂得情感、甚至懂得世界的系統,好像它真的「知道」什麼叫孤獨、什麼叫恐懼、什麼叫懷念。事實上,從計算層面來看,AI做的不是這種人類式的理解,而是機率推估。它會根據過去學過的大量資料模式,判斷在某個條件下,接下來最可能出現什麼樣的聲音片段、什麼樣的頻譜特徵、什麼樣的節奏變化。

這裡可以借用「猜字」的比喻。在文字生成中,如果句子是「今天天氣很」,多數人很容易猜下一個詞可能是「好」、「熱」或「冷」,因為語境限制了可能性。AI文字模型也是如此,它不是先理解了世界,再寫出答案,而是從統計模式中預測哪個字詞最可能接在後面。

聲音生成在原理上也與文字生成相似。當模型已經生成出一段語音或音訊條件,它會依據目前上下文推算「接下來的聲音單位最可能是什麼」。如果此刻是一句悲傷獨白的中段,模型可能會傾向延續較慢語速、較低能量與較平緩但略帶顫動的頻譜特徵;如果此刻是動作場景中的追逐片段,它則可能傾向產生更密集、更急促、更高張力的聲音模式。

因此,生成不是憑空捏造,而是條件式推估。這也解釋了為什麼同一組提示可以生成多個不同版本:因為機率不是只有一個選項,而是許多可能性的分布。有些版本更保守、更接近常見模式;有些版本則可能因為抽樣策略不同而更有變化、更具偶然性。這裡,AI不是像一位全知的藝術家,而更像一個極其擅長從大數據中猜測「下一步應該像什麼」的系統。

五、自回歸模型:聲音如何一步一步「猜」出來

在眾多生成方式中,自回歸模型(autoregressive model)是一個很重要的基礎觀念。所謂自回歸,簡單說,就是模型根據已經出現的序列,逐步預測下一個單位。生成不是一次完成,而是一格接一格往前推進。就像一個人講話時,不是先把整句話作為一個整體拋出,而是在時間中逐步展開;自回歸模型也類似此種方式,一步一步生成後續內容。

若以聲音token為例,模型可能先根據提示生成第一批聲音單位,再根據這些已經生成的單位,預測下一批,再下一批,如此遞進,直到形成一段完整的音訊。其好處是,模型能夠細緻考慮前後文關係,因此在語音連續性、語調延展與局部細節上,常有不錯表現。它就像一位邊走邊寫的作家,每寫下一句,就依前文推測下一句該怎麼接。

不過,自回歸模型也有其限制。因為它是一步一步生成,所以速度可能較慢;而且如果前面某一步稍微偏掉,後面就可能連鎖受到影響。這種情況有點像口語敘事,一開始情緒方向抓錯了,後面整段獨白都可能越走越偏。因此,在實際應用上,自回歸模型很重視上下文建構,也很依賴前段條件是否清晰。

對創作者而言,理解自回歸模型的價值在於:你會知道,AI生成的聲音不是整體一次「想好」的,而是在時間中連續推演的結果。這有助於你在設計提示時更注意序列性。例如,要生成一段旁白,你就不能只思考角色是誰,還要思考這句話是在前一場戲之後,還是在高潮戲之前;是在喘息後開口,還是在沉默中突然插入;是在燈光熄滅的房間裡低聲說,還是在開闊街道上對著遠方呼喊。因為這些前後文的條件,會直接影響模型如何「猜」出後面的聲音。

六、擴散模型:從雜訊到清晰,聲音是如何被「洗」出來的

除了自回歸模型,另一種近年極具影響力的生成方法,是擴散模型(diffusion model)。如果自回歸比較像一句一句往前猜,那麼擴散模型更像暗房中的顯影過程,或像雕塑家從一團混沌材料中慢慢雕出形狀。

擴散模型的基本想法是:先從雜訊開始,再一步一步去除雜訊,讓目標訊號逐漸浮現。訓練時,模型會學習如何把原始資料逐漸加噪,直到幾乎變成一團隨機訊號;接著再學習如何反向操作,在給定條件下,一層一層地把這些雜訊還原成有結構的聲音。當模型真正用來生成時,它並不是從零直接「寫出」聲音,而是從一片無序的雜訊場開始,在提示條件引導下,慢慢洗出某種符合要求的結果。

這裡的「顯影」比喻便非常合適。想像你在暗房中看著一張照片從模糊液面中逐漸浮現輪廓,原本只是灰濛濛一片,後來慢慢看出臉部、陰影、背景與細節。擴散模型生成聲音時,也有類似感覺:一開始只是沒有明確意義的聲學雜訊,但在條件的引導下,逐步形成節奏、頻譜結構、音色特徵與空間感,最後成為一段可以辨認的人聲、音效或音樂。

這種方法的優勢在於,它往往能生成質感較細膩、整體感較完整的結果,尤其在高品質音訊與複雜聲學紋理上頗具潛力。它不像自回歸那樣完全依賴一步接一步的前進,而是從整體雜訊場中逐漸逼近目標,因此有時更能兼顧局部細節與整體一致性。

對創作者來說,擴散模型傳達了一個很重要的思想:生成不是直接輸出答案,而是逐步逼近答案。你的提示詞、參數設定、範例音訊與條件描述,就像是在告訴模型「應該朝哪個方向把雜訊洗掉」。這也表示,AI創作並不是非黑即白地準確或失敗,而常常是一個不斷逼近、反覆修正的過程。好的結果,通常不是第一次就來,而是在多次生成、比較與微調中逐漸顯現。

七、從波形到機率:創作者位置的重新理解

當我們把上述幾個概念連起來,就能看見AI聲音創作的一個重要全貌:現實世界中的聲音,先被數位化成可計算的資料,再被轉換為適合模型處理的表示形式,例如token或其他壓縮編碼;接著,模型在潛在空間中學會不同聲音特徵之間的關係,並透過機率機制,例如自回歸預測或擴散模型去噪,生成新的聲音結果。這整個過程的核心不是「複製現實」,而是「在模式中重新構成可能的現實」。

這裡正好也能回應創作者常見的一種焦慮:如果聲音是由AI根據機率生成的,那創作者還有什麼價值?這個問題非常值得我們認真思考。答案是,正因為生成來自機率,所以創作者的價值反而更加集中在選擇判斷上。

機率意味著不是只有一個答案,而是多個可能的版本。AI可以生成十種「悲傷的男聲旁白」、二十種「遠處雷聲逐漸逼近」或三十種「帶有孤獨氛圍的鋼琴背景」,但哪一個版本最適合這個角色、這個場景、這一幕的心理張力,AI並不能完全替你決定。它可以根據一般模式給出 plausible,也就是「看起來合理」的結果,但真正屬於作品的必要性,往往仍要由創作者去判定。

這就像攝影師面對一整卷底片,或導演面對大量拍攝素材時的處境。素材再多,不等於作品已經完成。只有當一個人知道自己要的是什麼、排除什麼、保留什麼,素材才會被組織為風格,風格才會轉化為作品。AI的生成能力越強,這種策展式的能力就越重要。也因此,本章其實不只是在介紹技術,更是在重新界定創作者的任務:創作者不再只是直接製造每一個聲音的人,而是機率空間中的導航者,是可能性之間的選擇者,是最後把大量生成結果整合為有意義敘事的人。

八、本章小結:AI聽不見聲音,但它能學會聲音的模式

總結本章,我們可以說,AI並不是像人類那樣「聽」聲音。它面對的是被數位化後的資料,是被切分與編碼後的運算單位,是潛在空間中彼此具有關聯的抽象位置,也是可被機率模型預測與重構的序列。聲音在AI眼中,不再只是連續波形,而是可以被表示、壓縮、推估與生成的資料模式。

這個觀點之所以重要,是因為它改變了我們對創作工具的期待。當你知道AI並不是「懂你想要什麼」,而只是根據提示與資料模式去逼近一個可能答案時,你就不會把它神化,也不會因為第一次生成不理想就感到困惑。你會明白,AI聲音創作的實作,本質上是一種條件設定、機率生成與審美選擇的循環。它不是直接把內心想像完整翻譯出來,而是提供一系列可供逼近的版本,等待創作者在其中辨認最有生命力的那一個。

也因此,本章其實建立了一個非常重要的概念架構:我們開始從日常的「聲音直覺」,走向AI的「資料視角」。只有理解這個資料視角,後面談到AI人聲、AI音樂與AI音效時,我們才不會把它們誤認為單純神奇的黑盒子,而能看見其背後共同的生成邏輯。

下一章我們將進一步聚焦在人聲上,討論AI如何學習人類語音中的呼吸、重音、節奏與情感曲線,也就是所謂的prosody;以及它又如何透過聲紋特徵提取與模型複製,產生近似特定人物音色的效果。到了那裡,我們將更具體看見:所謂「數位靈魂」並不是神秘說法,而是高度結構化的人聲模式,如何在AI系統中被編碼、重建與創作性地運用。

留言
avatar-img
Dino Lee的AI 智識館
2會員
20內容數
這裡是一個探索 人工智慧 × 人文思想 × 跨域研究 的知識空間。 從《深度認識人工智慧》出發,分享 AI 的基礎概念、最新發展,以及它與心理學、哲學、社會的深度對話。
你可能也想看
Thumbnail
創作不只是個人戰,在 vocus ,也可以是一場集體冒險、組隊升級。最具代表性的創作者社群「vocus 野格團」,現在有了更強大的新夥伴加入!除了大家熟悉的「官方主題沙龍」,這次我們徵召了 8 位領域各異的「個人主題專家」,將再度嘗試創作的各種可能,和格友們激發出更多未知的火花。
Thumbnail
創作不只是個人戰,在 vocus ,也可以是一場集體冒險、組隊升級。最具代表性的創作者社群「vocus 野格團」,現在有了更強大的新夥伴加入!除了大家熟悉的「官方主題沙龍」,這次我們徵召了 8 位領域各異的「個人主題專家」,將再度嘗試創作的各種可能,和格友們激發出更多未知的火花。
Thumbnail
看完上篇 4 位新成員的靈魂拷問,是不是意猶未盡?別急,野格團新血的驚喜正接著登場!今天下篇接力的另外 4 位「個人主題專家」,戰力同樣驚人──領域從旅行美食、運動、商業投資到自我成長;這些人如何維持長跑般的創作動力?在爆紅的文章背後,又藏著哪些不為人知的洞察?5 大靈魂拷問繼續出擊
Thumbnail
看完上篇 4 位新成員的靈魂拷問,是不是意猶未盡?別急,野格團新血的驚喜正接著登場!今天下篇接力的另外 4 位「個人主題專家」,戰力同樣驚人──領域從旅行美食、運動、商業投資到自我成長;這些人如何維持長跑般的創作動力?在爆紅的文章背後,又藏著哪些不為人知的洞察?5 大靈魂拷問繼續出擊
Thumbnail
別讓性格限制領導力!SoundWave 將溝通解構為「九大聲音」策略工具箱。本文深度解析「提問、提議、提醒」三大集群的應用與盲點,教您如何像匠人般運用詢問、倡導或挑戰等工具。打破慣性,視情境靈活切換頻率,從「本能反應」轉向「有意識的精準溝通」,真正擁有您的對話。
Thumbnail
別讓性格限制領導力!SoundWave 將溝通解構為「九大聲音」策略工具箱。本文深度解析「提問、提議、提醒」三大集群的應用與盲點,教您如何像匠人般運用詢問、倡導或挑戰等工具。打破慣性,視情境靈活切換頻率,從「本能反應」轉向「有意識的精準溝通」,真正擁有您的對話。
Thumbnail
本文討論最高法院104台上1455。 這個案件值得討論之處在於,這是一件請求不動產所有權移轉登記案件。通常在請求離婚案件或侵害配偶權案件才會出現涉及當事人隱密行為,而有不法取證的可能性。即便如此,本件的第二審判決依然以侵害隱私為由排除使用錄音錄影證物,但第二審法院的判斷未為最高法院及更審法院所接受。
Thumbnail
本文討論最高法院104台上1455。 這個案件值得討論之處在於,這是一件請求不動產所有權移轉登記案件。通常在請求離婚案件或侵害配偶權案件才會出現涉及當事人隱密行為,而有不法取證的可能性。即便如此,本件的第二審判決依然以侵害隱私為由排除使用錄音錄影證物,但第二審法院的判斷未為最高法院及更審法院所接受。
Thumbnail
Hi there,不曉得大家最近有沒有覺得電音領域中,又重新掀起了取樣經典歌曲的風潮,雖然一直都有這樣的做法去取得關注,不過今年也才過了四分之一,就已經有不少的歌曲是採取這樣的方式去發行新歌,在以經典歌曲博取眼球的同時,重新製作過的歌曲也是有很不錯的品質,今天我就選了兩首最近覺得很不錯、取樣
Thumbnail
Hi there,不曉得大家最近有沒有覺得電音領域中,又重新掀起了取樣經典歌曲的風潮,雖然一直都有這樣的做法去取得關注,不過今年也才過了四分之一,就已經有不少的歌曲是採取這樣的方式去發行新歌,在以經典歌曲博取眼球的同時,重新製作過的歌曲也是有很不錯的品質,今天我就選了兩首最近覺得很不錯、取樣
Thumbnail
在聲音後製業界,不論是配樂家或是音效師,很多人都有蒐集聲音的習慣,蒐集聲音就像攝影師一樣,大家都想捕捉到一些特別的當下,而這些靠自己採集到的聲音,也是非常好用的作曲、或聲音設計素材哦。
Thumbnail
在聲音後製業界,不論是配樂家或是音效師,很多人都有蒐集聲音的習慣,蒐集聲音就像攝影師一樣,大家都想捕捉到一些特別的當下,而這些靠自己採集到的聲音,也是非常好用的作曲、或聲音設計素材哦。
Thumbnail
一首經典歌曲,第一項特質就是旋律優美且朗朗上口。在您記憶所及的範圍內,想必有不少個人喜愛的「經典」歌曲,在某個生活片段會突然浮現腦海,輕聲淺唱之時和心情相輔相成。 這首歌〈Stand By Me〉,發行於1961年,原作為Ben E. King演唱。1986年也上映了一部同名電影,1987年成
Thumbnail
一首經典歌曲,第一項特質就是旋律優美且朗朗上口。在您記憶所及的範圍內,想必有不少個人喜愛的「經典」歌曲,在某個生活片段會突然浮現腦海,輕聲淺唱之時和心情相輔相成。 這首歌〈Stand By Me〉,發行於1961年,原作為Ben E. King演唱。1986年也上映了一部同名電影,1987年成
Thumbnail
本文介紹12首被KPOP女團歌曲所取樣的古典樂,包括⟨四季-春⟩、〈拉德茨基進行曲〉、〈D大調帕海貝爾卡農〉、〈勇士的進場進行曲〉、〈給愛麗絲〉、〈G弦上的詠嘆調〉、〈鐘聲〉、〈卡門-哈巴內拉舞曲〉、〈藍色狂想曲〉等,在此不做介紹及賞析,就只給您「聽歌賞樂🎧」的純音樂欣賞。
Thumbnail
本文介紹12首被KPOP女團歌曲所取樣的古典樂,包括⟨四季-春⟩、〈拉德茨基進行曲〉、〈D大調帕海貝爾卡農〉、〈勇士的進場進行曲〉、〈給愛麗絲〉、〈G弦上的詠嘆調〉、〈鐘聲〉、〈卡門-哈巴內拉舞曲〉、〈藍色狂想曲〉等,在此不做介紹及賞析,就只給您「聽歌賞樂🎧」的純音樂欣賞。
追蹤感興趣的內容從 Google News 追蹤更多 vocus 的最新精選內容追蹤 Google News