如果說人聲是角色的存在證據,音樂是情緒的氣候,那麼音效就是世界的物質性。它讓聽眾相信某個空間真的存在,某個動作真的發生,某個物件真的在場。對有聲故事劇而言,音效從來不是附屬裝飾,而是敘事成立的條件之一。因為有聲作品不像電影那樣能直接讓觀眾看見桌椅、房門、街道、雨勢、樓梯或玻璃碎片,它必須讓這一切透過聽覺被「想像出來」。而讓想像成立的,往往就是音效。
傳統音效製作有幾種主要方式。第一種是實地錄音,也就是直接去錄門的開關聲、腳步聲、雨聲、車流聲等。第二種是擬音(foley),由創作者或專業擬音師在錄音室裡模擬角色行動,例如穿不同材質的鞋在木地板上走動、用布料摩擦來表現衣服動作、折斷蔬菜來模擬骨裂聲等。第三種則是從素材庫中搜尋與剪輯現成音效。這些方法各有優勢,但共同特點是:它們都依賴創作者先找到或製造一個已有的聲音,再經過剪輯與加工,把它放進作品中。
AI音效生成則帶來另一種路徑。它不一定要求創作者事先錄到那個聲音,也不一定非得在素材庫裡找到精準版本,而是可以根據語言描述,直接生成某種符合條件的聲響。例如,你可以輸入「深夜的空教室中,一支鉛筆掉到木地板上,空間中略有回音」,模型便可能生成一段近似該情境的音訊。這種從文字到聲音的方式,通常稱為 text-to-audio。它的出現,使音效創作從「找素材」逐漸走向「描述聲音」,也就是從物件收集轉向語義構圖。
不過,若要真正理解AI音效的創作價值,創作者必須看到兩個層面。第一,AI不只是生成單一聲響事件,而是在重建語義與聲學特徵之間的關係。第二,好的音效並不只是一個聲音本身,而總是帶著空間、距離、材質與場景感。因此,本章將先討論AI如何理解音效的語義差異,再進一步說明它如何模擬空間感,最後回到創作現場,思考創作者應如何把AI音效用於有聲故事劇的世界建構。
一、音效不是物件本身,而是事件的聲學痕跡
在日常生活中,我們很容易把音效理解為「某個東西發出的聲音」。例如,玻璃碎裂聲就是玻璃破掉的聲音,雷聲就是天空打雷的聲音,腳步聲就是人走路的聲音。這樣的理解沒有錯,但若從聲音設計角度來看,這樣的理解還不夠完整。因為聽眾真正接收到的,不是物件本身,而是物件在某種條件下發生事件時留下的聲學痕跡。
例如,玻璃碎裂聲並不是一個單純固定的類型。窗戶玻璃、酒杯玻璃、厚重展示櫃玻璃、手機保護貼玻璃,它們碎裂時的聲音差異很大。甚至同樣是一塊玻璃,從高處墜落到磁磚地面、被石頭打破、被手掌推倒、或在遠處房間裡輕微裂開,聲音都不會一樣。這說明音效不是某個名詞的直接對應物,而是物件材質、動作方式、撞擊能量、空間環境與收聽距離共同作用的結果。
AI若要生成音效,就必須在大量資料中學會這些差異模式。它不能只知道「玻璃」這個字對應什麼聲音,而要能夠分辨「清脆」、「細碎」、「厚重」、「爆裂」、「遠處」、「回音」、「室內」、「夜晚」這些語義條件,如何改變聲音的頻譜、時間長度、能量分布與空間質感。這也就是說,AI音效生成的真正挑戰不是識別物件名稱,而是理解事件條件。
對創作者而言,這一點很重要。因為當你用AI做音效,不應只想「我要一個玻璃聲」,而應該問:「這是什麼樣的玻璃?如何破?在哪裡破?距離多遠?這個聲音想讓聽眾感受到驚嚇、冷感、混亂,還是某種空洞的餘波?」當你把問題問得更具體,音效就不再只是填補空白,而成為真正的敘事構成。
二、Text-to-Audio 的邏輯:AI如何把語言轉成聲音事件
在AI音效生成中,text-to-audio 是最具代表性的模式之一。顧名思義,它是從文字描述直接生成音訊。這個過程從表面看起來很神奇:人只要打字,機器就能產生聲音。但若從模型原理來看,它其實仍然遵循生成式AI的基本邏輯,也就是將語義條件與大量音訊模式之間的關聯學起來,再根據條件生成對應結果。
在訓練階段,模型通常會接觸到大量音訊樣本與其描述標籤。例如,一段錄音被標示為「下雨天的街道」、「火車經過」、「金屬門慢慢打開」、「遠處狗吠」、「玻璃碎裂」等。透過反覆訓練,模型逐步學會:某些文字描述,常常對應某些頻譜分布、某些時間變化模式、某些音色與能量走向。當系統接收到新的提示語時,它便會在內部的聲音表示空間中,尋找與這組描述較接近的區域,再依據機率生成出一段音效。
這個過程非常類似前面章節提過的原理。AI並不是真的「知道」什麼是雷聲,也不是像人一樣對雷電有感官經驗。它所擁有的,是大量與「雷聲」相關的音訊模式與文字標記之間的關聯網絡。它學會的是:當資料中出現「遠處雷聲」這樣的描述時,音訊常帶有較強低頻、較慢起伏、較長尾音與較模糊空間定位;當資料中出現「玻璃破碎」時,常伴隨高頻瞬時態、短促爆裂、隨後細碎落地聲等特徵。
換句話說,AI將語言描述翻譯成一種聲學條件集合。這些條件不一定以人類可見的清單形式存在,但它們在模型內部會形成某種導向,使生成結果向某類聲音模式靠近。這也是為什麼文字描述越具體,生成結果通常越有機會貼近需求。因為越具體的語句,越能縮小聲音空間中的搜尋範圍。
三、語義的細緻程度,決定了音效的戲劇性程度
在實際創作中,創作者常會發現一個現象:如果輸入的音效提示太籠統,AI雖然可能產出一段「還算合理」的音效,但往往缺乏戲劇性,也不夠符合特定場景。這正是因為音效的敘事價值,不在於它是不是大致對了,而在於它是否精確表現了此刻發生的事件。
例如,「腳步聲」是一個非常模糊的提示。腳步究竟是在木地板上、走廊上、泥地裡、樓梯間、醫院病房外,還是在濕冷的巷子裡?是急促追趕、遲疑靠近、偷偷移動,還是疲憊拖行?不同條件會導致聲音的節奏、力度、鞋底材質感、回音長度與整體心理效果完全不同。若創作者只輸入「腳步聲」,AI可能給你一段類型中性、功能上無誤、但戲劇上完全無效的結果。
相反地,如果提示更具體,例如「凌晨兩點的老舊公寓走廊,穿皮鞋的男性緩慢走近,腳步帶有微弱回音與停頓」,結果就更可能帶出某種敘事張力。因為這個提示不只說明物件與行動,還交代了時間、材質、空間、人物、節奏與情緒暗示。換句話說,好的提示不是把更多形容詞堆上去,而是把事件的敘事條件寫清楚。
這點對創作者尤其重要,因為它說明了AI音效創作的核心能力,其實與寫作能力、觀察能力與場景感知能力密切相關。你越能描寫一個場景真正發生了什麼,AI越有機會生成貼近該場景的聲音。這也意味著,音效設計其實不是純技術問題,而是敘事分析的問題。
四、從單一聲音到聲景:音效真正要建構的是場景世界
然而,音效創作若只停留在單一聲響事件,仍然不足以支撐有聲故事劇。因為聽眾所感受到的,通常不是孤立的聲音,而是一整個可被想像的聲音環境,也就是所謂的聲景(soundscape)。聲景並不是單一音效的加總,而是一個空間中所有聲音關係共同形成的整體感。
例如,「圖書館」的聲景,不只是翻書聲而已,還可能包括遠處空調低鳴、偶爾的椅腳摩擦聲、頁面摩挲聲、遠方壓低音量的咳嗽、步伐在某種地板材質上的微弱節奏。這些聲音並不一定被觀眾明確意識到,但正是它們共同構成了「圖書館感」。同樣地,「雨夜公車站」的聲景也不是只有雨聲,而可能包含車流濕滑輪胎聲、遮雨棚上的滴答節奏、遠處機車呼嘯、微弱廣播聲、風聲與空曠街道的殘響。
AI音效生成若要真正服務敘事,就不能只停留在「一個聲音對一個名詞」,而要進入聲景層次。這表示創作者不只要生成某個關鍵事件聲,例如門打開、杯子掉落、手機震動,也要思考:這個事件發生時,背景空氣是什麼?空間本身有沒有持續存在的低層聲音?場景中有沒有聲音的前景、中景與遠景?只有當這些層次被建立起來,世界才會變得可信。
AI的價值在這裡尤其明顯。因為它不只能提供單點事件,也能夠生成整體氛圍音,甚至一些具有特定環境質感的長音軌。這使得創作者即使沒有外出實地錄音,仍能快速搭建場景雛形,先測試故事是否成立,再決定哪些部分需要更精細地補錄或後製。
五、空間感的模擬:為什麼殘響與距離如此重要
在聲音設計中,空間感是一個常被低估、但其實是極為關鍵的層面。因為對聽眾而言,聲音從來不只是「發生了」,而是「在哪裡發生」以及「離我多遠」。「同一句話」在狹窄浴室裡、空曠體育館裡、電話聽筒裡或室外雨夜中,聽起來完全不同。這些差異往往不是字面內容造成的,而是空間聲學特性造成的。
空間感最重要的指標之一,就是殘響(reverb)。殘響是聲音在空間中反射、疊加並逐漸衰減的結果。簡單說,它讓我們知道一個聲音是在近距離乾燥空間中發出,還是在大廳、走廊、樓梯間、山谷或地下室中發出。殘響長短、反射密度、初期反射強度與頻率衰減方式,都會讓我們對空間大小、材質與封閉程度產生直覺判斷。
AI在模擬空間感時,通常會學習這些聲學特徵如何影響音訊。當你描述「空曠倉庫中的鐵門關上聲」與「狹窄浴室裡的杯子掉落聲」,模型不只要生成事件本身,也要同時帶出空間反射造成的差異。前者可能有較長的尾音、明顯的金屬反射與中低頻迴盪;後者則可能有較密集、較短促的高頻反射與貼近感。這些差異決定了聽眾是「聽到一個聲音」,還是「進入一個地方」。
對有聲故事劇來說,空間感尤其具有敘事功能。它不只建立場景,也能反映角色心理距離。比如同一個人物的旁白,若設計得像貼著耳邊低聲說話,會產生私密與內在感;若像在遠處空房間中微微傳來,則可能帶有回憶、失落或疏離感。因此,空間不是單純技術參數,而是敘事語言本身的一部分。
六、AI如何重建「近」「遠」「內」「外」的聽覺邏輯
除了殘響,距離與方位也是空間模擬的重要面向。人類聽覺會根據音量大小、直接聲與反射聲的比例、高頻衰減、左右耳時間差與各種微細線索,推測聲音來源離自己多遠、在左邊還是右邊、是在屋內還是屋外。這些線索使我們即使閉上眼睛,也能感覺到世界的空間配置。
AI若要生成可信的聲景,也必須學習這些「近、遠、內、外」的聽覺邏輯。例如,「遠處的雷聲」通常不只是音量較小,而是高頻較弱、輪廓較模糊、尾音更融入背景;「近距離耳語」則不只是音量較大,而常伴隨更多口腔細節、氣流聲與非常低的空間反射比例。同樣地,「室內雨聲」與「室外淋雨」也不是單純同一段雨聲加大或縮小音量而已,而是因為有無遮蔽物、牆體反射與背景吸收,使整個聲音輪廓變的不同。
這種能力對創作者很有價值,因為它讓空間敘事變得更可操控。你可以透過AI測試:若把人物腳步從遠景慢慢拉到近景,懸疑感是否增加;若把背景風聲放得像從窗外傳入,而非角色正站在狂風中,場景是否感覺更真實;若讓一句呼喊有遠方回應,是否更能營造失落感。AI在這裡扮演的不是簡單的聲音製造器,而是空間感的實驗工具。
七、AI音效的優勢與限制:它能補足素材,但不能取代判斷
AI音效生成最明顯的優勢,是大幅降低素材取得門檻。對創作者而言,這點非常關鍵。因為傳統聲音設計常常受到設備、人力、時間與地點限制。你未必能去錄深夜捷運站、山間的風雨、醫院走廊或海邊鐵門聲,也未必能在素材庫中精準找到符合劇本需求的聲響。AI的出現,使你能夠先用語言描述快速試作,取得初步場景版本,這對創作原型的建立十分有幫助。
此外,AI也很擅長生成一些介於真實與風格化之間的聲音。這對某些奇幻、科幻、心理驚悚或夢境型作品尤其重要。因為這類作品常常不是要寫實地複製日常聲音,而是要生成某種「像某物,但又不完全是現實某物」的聲音。例如帶有生物移動感的機械門、像記憶碎裂般的玻璃聲、像內心耳鳴般的低頻脈衝等。這些聲音若只靠現成素材,有時很難準確找到;但AI可以透過組合語義條件,生成更有創作性的版本。
不過,AI音效也有明顯的限制。首先,它常常能生成「聽起來合理」的聲音,卻未必是你那個場景真正需要的聲音。其次,長時間聲景有時候會出現不自然重複、紋理不穩或事件邏輯不一致的問題。第三,複雜動作鏈條,例如角色先跑、停、喘、跌倒、然後拖動椅子再開門,這種多事件串連的聲音節奏,AI未必能一次完整處理,往往仍需要人工剪接與層次安排。
因此,創作者不能把AI音效當成全自動成品機器,而應把它視為快速生成候選素材的系統。真正讓世界成立的,仍然是創作者如何選擇、排列、對位與留白。音效的敘事不只是有沒有,而是何時出現、出現多久、與什麼聲音同時存在、在哪裡被拿掉。這些都是審美判斷,而不是生成本身能替代的。
八、對創作者而言,音效創作其實是「聽覺場面調度」
若把電影導演中的「場面調度」概念轉到有聲故事劇,音效設計其實可以理解為一種「聽覺場面調度」。也就是說,創作者要安排的不只是聲音有沒有,而是誰在前景、誰在背景、哪些聲音讓位、哪些聲音成為焦點、哪一刻讓整個空間突然空掉。這些調度決定了聽眾的注意力如何移動,也決定了故事的張力如何被聽見。
這種能力對創作者而言,其實是比想像中更為重要的。因為一旦有了 AI,技術上的「可產生性」變高了,但也更容易讓作品堆滿不必要的聲音。很多初學者會因為可以快速生成各種音效,而把場景塞得過滿,結果反而削弱了戲劇感。真正成熟的音效設計,往往不是聲音越多越好,而是知道哪些聲音是必要的,哪些聲音要刻意不放,讓沉默也成為一種事件。
例如,在一場分手對話中,你不一定需要大量環境聲。可能只需要非常輕微的冷氣聲、遠方車流、杯子輕碰桌面的聲音,就足夠構成一種壓抑感;若再加入過多街道細節,反而會沖淡人物情緒。同樣地,在驚悚場景中,真正可怕的往往不是聲音最大時,而是某些期待中的聲音突然消失,只剩角色呼吸與空間餘響。這些設計都不是工具自動給出的,而是創作者對敘事節奏的一種理解與表現。
所以,學習AI音效的真正目標,不只是會下提示詞,而是學會把聲音當成場面來導演。你要問的永遠不只是「我要什麼聲音」,而是「我要讓聽眾注意到什麼」、「我要讓空間感如何改變」、「我要讓這一刻的心理壓力如何被聽見」。
九、本章小結:AI音效是在重建事件與空間,而不只是製造聲響
總結本章,我們可以說,AI音效創作的核心,不只是從文字變出聲音,而是在重建語義條件、事件結構與空間感之間的關係。它透過 text-to-audio 的方式,把像「清脆的玻璃破碎聲」、「遠處悶雷」、「空曠教室裡的鉛筆掉落」這些語言描述,轉成相應的頻譜、時間與材質特徵,讓創作者能夠從語義出發,快速生成候選音效。
更重要的是,我們看到音效真正服務的,不只是單一聲音事件,而是一整個場景世界。聲景的建立、殘響的模擬、距離與方位的處理,都使聲音不只是「發生了什麼」,更是「它在哪裡發生」、「離誰有多遠」、「這個空間聽起來像什麼」。在這個意義上,AI音效並不是單純幫你找素材,而是在幫你搭建可被聽見的世界。
然而,AI的便利也伴隨著風險:它能快速地提供合理的版本,卻不能自動保證戲劇的必要性。因此,創作者的價值不在於是否會使用工具,而在於是否能把生成結果轉化為真正有敘事功能的聽覺場面。對創作者而言,學習AI音效,不只是學會製造聲音,更是學會如何導演空間、調度注意力、安排沉默與事件的關係。
下一章我們將更直接回到創作者的位置,討論在AI已能生成人聲、音樂與音效之後,創作者究竟要培養什麼能力。我們將進入提示詞工程、版本挑選與後製協作的問題,進一步說明:在生成式時代,真正重要的已不只是操作技術,而是如何把想像轉譯為指令,把眾多機率結果整理成具有風格與方向的作品。














