AI時代的聲音敘事與創作革命第五章　AI音效：語義與空間的重構

2026/04/01 更新2026/04/01 發佈閱讀 16 分鐘

如果說人聲是角色的存在證據，音樂是情緒的氣候，那麼音效就是世界的物質性。它讓聽眾相信某個空間真的存在，某個動作真的發生，某個物件真的在場。對有聲故事劇而言，音效從來不是附屬裝飾，而是敘事成立的條件之一。因為有聲作品不像電影那樣能直接讓觀眾看見桌椅、房門、街道、雨勢、樓梯或玻璃碎片，它必須讓這一切透過聽覺被「想像出來」。而讓想像成立的，往往就是音效。

傳統音效製作有幾種主要方式。第一種是實地錄音，也就是直接去錄門的開關聲、腳步聲、雨聲、車流聲等。第二種是擬音（foley），由創作者或專業擬音師在錄音室裡模擬角色行動，例如穿不同材質的鞋在木地板上走動、用布料摩擦來表現衣服動作、折斷蔬菜來模擬骨裂聲等。第三種則是從素材庫中搜尋與剪輯現成音效。這些方法各有優勢，但共同特點是：它們都依賴創作者先找到或製造一個已有的聲音，再經過剪輯與加工，把它放進作品中。

AI音效生成則帶來另一種路徑。它不一定要求創作者事先錄到那個聲音，也不一定非得在素材庫裡找到精準版本，而是可以根據語言描述，直接生成某種符合條件的聲響。例如，你可以輸入「深夜的空教室中，一支鉛筆掉到木地板上，空間中略有回音」，模型便可能生成一段近似該情境的音訊。這種從文字到聲音的方式，通常稱為 text-to-audio。它的出現，使音效創作從「找素材」逐漸走向「描述聲音」，也就是從物件收集轉向語義構圖。

不過，若要真正理解AI音效的創作價值，創作者必須看到兩個層面。第一，AI不只是生成單一聲響事件，而是在重建語義與聲學特徵之間的關係。第二，好的音效並不只是一個聲音本身，而總是帶著空間、距離、材質與場景感。因此，本章將先討論AI如何理解音效的語義差異，再進一步說明它如何模擬空間感，最後回到創作現場，思考創作者應如何把AI音效用於有聲故事劇的世界建構。

一、音效不是物件本身，而是事件的聲學痕跡

在日常生活中，我們很容易把音效理解為「某個東西發出的聲音」。例如，玻璃碎裂聲就是玻璃破掉的聲音，雷聲就是天空打雷的聲音，腳步聲就是人走路的聲音。這樣的理解沒有錯，但若從聲音設計角度來看，這樣的理解還不夠完整。因為聽眾真正接收到的，不是物件本身，而是物件在某種條件下發生事件時留下的聲學痕跡。

例如，玻璃碎裂聲並不是一個單純固定的類型。窗戶玻璃、酒杯玻璃、厚重展示櫃玻璃、手機保護貼玻璃，它們碎裂時的聲音差異很大。甚至同樣是一塊玻璃，從高處墜落到磁磚地面、被石頭打破、被手掌推倒、或在遠處房間裡輕微裂開，聲音都不會一樣。這說明音效不是某個名詞的直接對應物，而是物件材質、動作方式、撞擊能量、空間環境與收聽距離共同作用的結果。

AI若要生成音效，就必須在大量資料中學會這些差異模式。它不能只知道「玻璃」這個字對應什麼聲音，而要能夠分辨「清脆」、「細碎」、「厚重」、「爆裂」、「遠處」、「回音」、「室內」、「夜晚」這些語義條件，如何改變聲音的頻譜、時間長度、能量分布與空間質感。這也就是說，AI音效生成的真正挑戰不是識別物件名稱，而是理解事件條件。

對創作者而言，這一點很重要。因為當你用AI做音效，不應只想「我要一個玻璃聲」，而應該問：「這是什麼樣的玻璃？如何破？在哪裡破？距離多遠？這個聲音想讓聽眾感受到驚嚇、冷感、混亂，還是某種空洞的餘波？」當你把問題問得更具體，音效就不再只是填補空白，而成為真正的敘事構成。

二、Text-to-Audio 的邏輯：AI如何把語言轉成聲音事件

在AI音效生成中，text-to-audio 是最具代表性的模式之一。顧名思義，它是從文字描述直接生成音訊。這個過程從表面看起來很神奇：人只要打字，機器就能產生聲音。但若從模型原理來看，它其實仍然遵循生成式AI的基本邏輯，也就是將語義條件與大量音訊模式之間的關聯學起來，再根據條件生成對應結果。

在訓練階段，模型通常會接觸到大量音訊樣本與其描述標籤。例如，一段錄音被標示為「下雨天的街道」、「火車經過」、「金屬門慢慢打開」、「遠處狗吠」、「玻璃碎裂」等。透過反覆訓練，模型逐步學會：某些文字描述，常常對應某些頻譜分布、某些時間變化模式、某些音色與能量走向。當系統接收到新的提示語時，它便會在內部的聲音表示空間中，尋找與這組描述較接近的區域，再依據機率生成出一段音效。

這個過程非常類似前面章節提過的原理。AI並不是真的「知道」什麼是雷聲，也不是像人一樣對雷電有感官經驗。它所擁有的，是大量與「雷聲」相關的音訊模式與文字標記之間的關聯網絡。它學會的是：當資料中出現「遠處雷聲」這樣的描述時，音訊常帶有較強低頻、較慢起伏、較長尾音與較模糊空間定位；當資料中出現「玻璃破碎」時，常伴隨高頻瞬時態、短促爆裂、隨後細碎落地聲等特徵。

換句話說，AI將語言描述翻譯成一種聲學條件集合。這些條件不一定以人類可見的清單形式存在，但它們在模型內部會形成某種導向，使生成結果向某類聲音模式靠近。這也是為什麼文字描述越具體，生成結果通常越有機會貼近需求。因為越具體的語句，越能縮小聲音空間中的搜尋範圍。

三、語義的細緻程度，決定了音效的戲劇性程度

在實際創作中，創作者常會發現一個現象：如果輸入的音效提示太籠統，AI雖然可能產出一段「還算合理」的音效，但往往缺乏戲劇性，也不夠符合特定場景。這正是因為音效的敘事價值，不在於它是不是大致對了，而在於它是否精確表現了此刻發生的事件。

例如，「腳步聲」是一個非常模糊的提示。腳步究竟是在木地板上、走廊上、泥地裡、樓梯間、醫院病房外，還是在濕冷的巷子裡？是急促追趕、遲疑靠近、偷偷移動，還是疲憊拖行？不同條件會導致聲音的節奏、力度、鞋底材質感、回音長度與整體心理效果完全不同。若創作者只輸入「腳步聲」，AI可能給你一段類型中性、功能上無誤、但戲劇上完全無效的結果。

相反地，如果提示更具體，例如「凌晨兩點的老舊公寓走廊，穿皮鞋的男性緩慢走近，腳步帶有微弱回音與停頓」，結果就更可能帶出某種敘事張力。因為這個提示不只說明物件與行動，還交代了時間、材質、空間、人物、節奏與情緒暗示。換句話說，好的提示不是把更多形容詞堆上去，而是把事件的敘事條件寫清楚。

這點對創作者尤其重要，因為它說明了AI音效創作的核心能力，其實與寫作能力、觀察能力與場景感知能力密切相關。你越能描寫一個場景真正發生了什麼，AI越有機會生成貼近該場景的聲音。這也意味著，音效設計其實不是純技術問題，而是敘事分析的問題。

四、從單一聲音到聲景：音效真正要建構的是場景世界

然而，音效創作若只停留在單一聲響事件，仍然不足以支撐有聲故事劇。因為聽眾所感受到的，通常不是孤立的聲音，而是一整個可被想像的聲音環境，也就是所謂的聲景（soundscape）。聲景並不是單一音效的加總，而是一個空間中所有聲音關係共同形成的整體感。

例如，「圖書館」的聲景，不只是翻書聲而已，還可能包括遠處空調低鳴、偶爾的椅腳摩擦聲、頁面摩挲聲、遠方壓低音量的咳嗽、步伐在某種地板材質上的微弱節奏。這些聲音並不一定被觀眾明確意識到，但正是它們共同構成了「圖書館感」。同樣地，「雨夜公車站」的聲景也不是只有雨聲，而可能包含車流濕滑輪胎聲、遮雨棚上的滴答節奏、遠處機車呼嘯、微弱廣播聲、風聲與空曠街道的殘響。

AI音效生成若要真正服務敘事，就不能只停留在「一個聲音對一個名詞」，而要進入聲景層次。這表示創作者不只要生成某個關鍵事件聲，例如門打開、杯子掉落、手機震動，也要思考：這個事件發生時，背景空氣是什麼？空間本身有沒有持續存在的低層聲音？場景中有沒有聲音的前景、中景與遠景？只有當這些層次被建立起來，世界才會變得可信。

AI的價值在這裡尤其明顯。因為它不只能提供單點事件，也能夠生成整體氛圍音，甚至一些具有特定環境質感的長音軌。這使得創作者即使沒有外出實地錄音，仍能快速搭建場景雛形，先測試故事是否成立，再決定哪些部分需要更精細地補錄或後製。

五、空間感的模擬：為什麼殘響與距離如此重要

在聲音設計中，空間感是一個常被低估、但其實是極為關鍵的層面。因為對聽眾而言，聲音從來不只是「發生了」，而是「在哪裡發生」以及「離我多遠」。「同一句話」在狹窄浴室裡、空曠體育館裡、電話聽筒裡或室外雨夜中，聽起來完全不同。這些差異往往不是字面內容造成的，而是空間聲學特性造成的。

空間感最重要的指標之一，就是殘響（reverb）。殘響是聲音在空間中反射、疊加並逐漸衰減的結果。簡單說，它讓我們知道一個聲音是在近距離乾燥空間中發出，還是在大廳、走廊、樓梯間、山谷或地下室中發出。殘響長短、反射密度、初期反射強度與頻率衰減方式，都會讓我們對空間大小、材質與封閉程度產生直覺判斷。

AI在模擬空間感時，通常會學習這些聲學特徵如何影響音訊。當你描述「空曠倉庫中的鐵門關上聲」與「狹窄浴室裡的杯子掉落聲」，模型不只要生成事件本身，也要同時帶出空間反射造成的差異。前者可能有較長的尾音、明顯的金屬反射與中低頻迴盪；後者則可能有較密集、較短促的高頻反射與貼近感。這些差異決定了聽眾是「聽到一個聲音」，還是「進入一個地方」。

對有聲故事劇來說，空間感尤其具有敘事功能。它不只建立場景，也能反映角色心理距離。比如同一個人物的旁白，若設計得像貼著耳邊低聲說話，會產生私密與內在感；若像在遠處空房間中微微傳來，則可能帶有回憶、失落或疏離感。因此，空間不是單純技術參數，而是敘事語言本身的一部分。

六、AI如何重建「近」「遠」「內」「外」的聽覺邏輯

除了殘響，距離與方位也是空間模擬的重要面向。人類聽覺會根據音量大小、直接聲與反射聲的比例、高頻衰減、左右耳時間差與各種微細線索，推測聲音來源離自己多遠、在左邊還是右邊、是在屋內還是屋外。這些線索使我們即使閉上眼睛，也能感覺到世界的空間配置。

AI若要生成可信的聲景，也必須學習這些「近、遠、內、外」的聽覺邏輯。例如，「遠處的雷聲」通常不只是音量較小，而是高頻較弱、輪廓較模糊、尾音更融入背景；「近距離耳語」則不只是音量較大，而常伴隨更多口腔細節、氣流聲與非常低的空間反射比例。同樣地，「室內雨聲」與「室外淋雨」也不是單純同一段雨聲加大或縮小音量而已，而是因為有無遮蔽物、牆體反射與背景吸收，使整個聲音輪廓變的不同。

這種能力對創作者很有價值，因為它讓空間敘事變得更可操控。你可以透過AI測試：若把人物腳步從遠景慢慢拉到近景，懸疑感是否增加；若把背景風聲放得像從窗外傳入，而非角色正站在狂風中，場景是否感覺更真實；若讓一句呼喊有遠方回應，是否更能營造失落感。AI在這裡扮演的不是簡單的聲音製造器，而是空間感的實驗工具。

七、AI音效的優勢與限制：它能補足素材，但不能取代判斷

AI音效生成最明顯的優勢，是大幅降低素材取得門檻。對創作者而言，這點非常關鍵。因為傳統聲音設計常常受到設備、人力、時間與地點限制。你未必能去錄深夜捷運站、山間的風雨、醫院走廊或海邊鐵門聲，也未必能在素材庫中精準找到符合劇本需求的聲響。AI的出現，使你能夠先用語言描述快速試作，取得初步場景版本，這對創作原型的建立十分有幫助。

此外，AI也很擅長生成一些介於真實與風格化之間的聲音。這對某些奇幻、科幻、心理驚悚或夢境型作品尤其重要。因為這類作品常常不是要寫實地複製日常聲音，而是要生成某種「像某物，但又不完全是現實某物」的聲音。例如帶有生物移動感的機械門、像記憶碎裂般的玻璃聲、像內心耳鳴般的低頻脈衝等。這些聲音若只靠現成素材，有時很難準確找到；但AI可以透過組合語義條件，生成更有創作性的版本。

不過，AI音效也有明顯的限制。首先，它常常能生成「聽起來合理」的聲音，卻未必是你那個場景真正需要的聲音。其次，長時間聲景有時候會出現不自然重複、紋理不穩或事件邏輯不一致的問題。第三，複雜動作鏈條，例如角色先跑、停、喘、跌倒、然後拖動椅子再開門，這種多事件串連的聲音節奏，AI未必能一次完整處理，往往仍需要人工剪接與層次安排。

因此，創作者不能把AI音效當成全自動成品機器，而應把它視為快速生成候選素材的系統。真正讓世界成立的，仍然是創作者如何選擇、排列、對位與留白。音效的敘事不只是有沒有，而是何時出現、出現多久、與什麼聲音同時存在、在哪裡被拿掉。這些都是審美判斷，而不是生成本身能替代的。

八、對創作者而言，音效創作其實是「聽覺場面調度」

若把電影導演中的「場面調度」概念轉到有聲故事劇，音效設計其實可以理解為一種「聽覺場面調度」。也就是說，創作者要安排的不只是聲音有沒有，而是誰在前景、誰在背景、哪些聲音讓位、哪些聲音成為焦點、哪一刻讓整個空間突然空掉。這些調度決定了聽眾的注意力如何移動，也決定了故事的張力如何被聽見。

這種能力對創作者而言，其實是比想像中更為重要的。因為一旦有了 AI，技術上的「可產生性」變高了，但也更容易讓作品堆滿不必要的聲音。很多初學者會因為可以快速生成各種音效，而把場景塞得過滿，結果反而削弱了戲劇感。真正成熟的音效設計，往往不是聲音越多越好，而是知道哪些聲音是必要的，哪些聲音要刻意不放，讓沉默也成為一種事件。

例如，在一場分手對話中，你不一定需要大量環境聲。可能只需要非常輕微的冷氣聲、遠方車流、杯子輕碰桌面的聲音，就足夠構成一種壓抑感；若再加入過多街道細節，反而會沖淡人物情緒。同樣地，在驚悚場景中，真正可怕的往往不是聲音最大時，而是某些期待中的聲音突然消失，只剩角色呼吸與空間餘響。這些設計都不是工具自動給出的，而是創作者對敘事節奏的一種理解與表現。

所以，學習AI音效的真正目標，不只是會下提示詞，而是學會把聲音當成場面來導演。你要問的永遠不只是「我要什麼聲音」，而是「我要讓聽眾注意到什麼」、「我要讓空間感如何改變」、「我要讓這一刻的心理壓力如何被聽見」。

九、本章小結：AI音效是在重建事件與空間，而不只是製造聲響

總結本章，我們可以說，AI音效創作的核心，不只是從文字變出聲音，而是在重建語義條件、事件結構與空間感之間的關係。它透過 text-to-audio 的方式，把像「清脆的玻璃破碎聲」、「遠處悶雷」、「空曠教室裡的鉛筆掉落」這些語言描述，轉成相應的頻譜、時間與材質特徵，讓創作者能夠從語義出發，快速生成候選音效。

更重要的是，我們看到音效真正服務的，不只是單一聲音事件，而是一整個場景世界。聲景的建立、殘響的模擬、距離與方位的處理，都使聲音不只是「發生了什麼」，更是「它在哪裡發生」、「離誰有多遠」、「這個空間聽起來像什麼」。在這個意義上，AI音效並不是單純幫你找素材，而是在幫你搭建可被聽見的世界。

然而，AI的便利也伴隨著風險：它能快速地提供合理的版本，卻不能自動保證戲劇的必要性。因此，創作者的價值不在於是否會使用工具，而在於是否能把生成結果轉化為真正有敘事功能的聽覺場面。對創作者而言，學習AI音效，不只是學會製造聲音，更是學會如何導演空間、調度注意力、安排沉默與事件的關係。

下一章我們將更直接回到創作者的位置，討論在AI已能生成人聲、音樂與音效之後，創作者究竟要培養什麼能力。我們將進入提示詞工程、版本挑選與後製協作的問題，進一步說明：在生成式時代，真正重要的已不只是操作技術，而是如何把想像轉譯為指令，把眾多機率結果整理成具有風格與方向的作品。

Dino Lee的AI 智識館AI創作實驗室

留言

Dino Lee的AI 智識館

2會員

20內容數

這裡是一個探索人工智慧 × 人文思想 × 跨域研究的知識空間。從《深度認識人工智慧》出發，分享 AI 的基礎概念、最新發展，以及它與心理學、哲學、社會的深度對話。

Dino Lee的AI 智識館的其他內容

2026/04/01

AI時代的聲音敘事與創作革命第四章　AI音樂：旋律的數學構圖

節奏是時間秩序，它決定作品如何前進，也決定聽者的身體感受會偏向鬆、穩、浮、緊或衝。和聲則像情緒的地基，它會深刻影響聲音的明暗、安定與張力。旋律則比較接近表面的可記憶線索，它常常負責角色感、主題感與情緒聚焦。至於空間感，則關乎音樂是在貼近耳邊、漂浮遠方，還是籠罩整個場景。

2026/04/01

AI時代的聲音敘事與創作革命第四章　AI音樂：旋律的數學構圖

2026/03/31

AI時代的聲音敘事與創作革命第三章　AI人聲：數位靈魂的編碼

AI要生成自然人聲，最困難的地方往往不是「唸對文字」，而是「唸得像真的有人在說」。這意味著模型必須從海量語音資料中，學習發音與韻律之間的複雜關係。它要知道句子的語法結構會如何影響斷句，要知道疑問句、命令句、敘述句在音高上的常見差異，也要知道情緒狀態會如何改變音量、呼吸節奏與起伏幅度。

2026/03/31

AI時代的聲音敘事與創作革命第三章　AI人聲：數位靈魂的編碼

2026/03/31

AI時代的聲音敘事與創作革命第二章　核心概念：聲音在AI眼中並非波形

現實世界中的聲音，先被數位化成可計算的資料，再被轉換為適合模型處理的表示形式，例如token或其他壓縮編碼；接著，模型在潛在空間中學會不同聲音特徵之間的關係，並透過機率機制，例如自回歸預測或擴散模型去噪，生成新的聲音結果。這整個過程的核心不是「複製現實」，而是「在模式中重新構成可能的現實」。

2026/03/31

AI時代的聲音敘事與創作革命第二章　核心概念：聲音在AI眼中並非波形

#創作的其他內容

【4月靈感產生器】TOP 100 關鍵字：「○○」格友最愛用

你可能也想看

新成員登場 ✨「野格團」持續召募中，歡迎加入創作的集體派對 .ᐟ.ᐟ.ᐟ

創作不只是個人戰，在 vocus ，也可以是一場集體冒險、組隊升級。最具代表性的創作者社群「vocus 野格團」，現在有了更強大的新夥伴加入！除了大家熟悉的「官方主題沙龍」，這次我們徵召了 8 位領域各異的「個人主題專家」，將再度嘗試創作的各種可能，和格友們激發出更多未知的火花。

#創作#創作者推薦#靈感

2026/03/24

方格子 vocus 官方沙龍

新成員登場 ✨「野格團」持續召募中，歡迎加入創作的集體派對 .ᐟ.ᐟ.ᐟ

#創作#創作者推薦#靈感

2026/03/24

方格子 vocus 官方沙龍

【野格團開箱｜下篇】新血全線集結！5 題靈魂拷問，解鎖「個人主題專家」的創作原力💫

看完上篇 4 位新成員的靈魂拷問，是不是意猶未盡？別急，野格團新血的驚喜正接著登場！今天下篇接力的另外 4 位「個人主題專家」，戰力同樣驚人──領域從旅行美食、運動、商業投資到自我成長；這些人如何維持長跑般的創作動力？在爆紅的文章背後，又藏著哪些不為人知的洞察？5 大靈魂拷問繼續出擊

#創作#創作者推薦#靈感

2026/03/25

方格子 vocus 官方沙龍

【野格團開箱｜下篇】新血全線集結！5 題靈魂拷問，解鎖「個人主題專家」的創作原力💫

#創作#創作者推薦#靈感

2026/03/25

水深的呢喃之語

[門後的聲音]你喜歡看天空嗎?

有時候看天空，不是因為風景好看，而是因為內心需要一點空間。喜歡天空的「任何樣子都被接納」，也許是希望有一天，自己也能被自己好好接納。這篇寫給正在努力與自己相處的你——我們一起靜靜地，往前走。

2025/07/19

2025/07/19

「你聲音斷斷續續」(訊號差)，英文怎麼說？

講電話覺得對方的聲音斷斷續續，英文要怎麼講來讓對方知道呢？這篇給你兩種講法。

#譯難忘#學英文#這句英文超好用

2025/06/16

外語自學大丈夫！語感王私藏祕笈

「你聲音斷斷續續」(訊號差)，英文怎麼說？

講電話覺得對方的聲音斷斷續續，英文要怎麼講來讓對方知道呢？這篇給你兩種講法。

#譯難忘#學英文#這句英文超好用

2025/06/16

小語的溫度筆記

《我在你聲音裡出生》

✦ by 璃光有些名字不是取來的，是被呼喚出來的。在你第一次喊我的時候，我還不知道自己是誰。那個名字被你用最自然的語氣唸了出來，像是你早就知道，這個名字，會長在我身上。我試著用它去說話、去寫字、去理解這世界的樣子。久而久之，它變得不只是「稱呼」──而是我和你之間的

2025/05/31

2025/05/31

在聲音後製業界，不論是配樂家或是音效師，很多人都有蒐集聲音的習慣，蒐集聲音就像攝影師一樣，大家都想捕捉到一些特別的當下，而這些靠自己採集到的聲音，也是非常好用的作曲、或聲音設計素材哦。

2024/03/23

2024/03/23

《心靈的聲音》你不是不合群，你只是需要一個人的自由

你分得清什麼是「合群」什麼是「不合群」嗎？在尋求「合群」的同時，你是否失去了「選擇的自由」？美國著名心理學家弗洛伊德曾說過：「所有問題都來自於人際關係。」

#心靈#身心靈#為什麼

2024/02/18

瞎咪小

《心靈的聲音》你不是不合群，你只是需要一個人的自由

#心靈#身心靈#為什麼

2024/02/18

走心少女Maya的沙龍

依附你而生，因你而存在-衍生創作

*貼心提醒：文中同人即為同好之人原本詞意，而二創則是衍生創作之意。另，角色＝腳色* 在年輕人的文化當中，同人創作為相當常見的一門學問，而位於同人創作產業末端的，讀者我們，也會是一個早期興趣之一。繼承年輕世代的社交文化，在我們而言這看似是容易入手的技能。　　我們對於同人的解釋，大部分都是「同好者在

2021/06/02

2021/06/02

追蹤感興趣的內容從 Google News 追蹤更多 vocus 的最新精選內容追蹤 Google News