在有聲故事劇中,音樂通常不是最先被注意到的元素,卻常常是最深層地影響聽眾感受的元素。人聲負責推進情節、建立角色,音效負責支撐場景、製造行動感,而音樂則往往像一種情緒的氣候系統,持續而不顯眼地改變整體敘事的溫度、密度與方向。它可以讓一段原本平淡的獨白變得深情,也可以讓一個普通的腳步聲突然帶有不祥預感;它能夠為故事建立秩序,也能夠讓整個秩序崩解。因此,若說人聲是角色的內在外顯,那麼音樂往往就是作品中那個更大、更流動、卻不容易被直接說出來的心理背景。
傳統配樂創作,通常需要相當高的技術門檻。創作者不只要理解情緒與敘事,還必須懂音樂結構、風格語彙、和聲邏輯、編曲方法,甚至還要處理錄音、虛擬樂器、混音與母帶等問題。對許多沒有音樂背景的創作者而言,這些條件往往使「想像中的配樂」與「實際做得出來的配樂」之間出現巨大落差。然而,AI音樂工具的出現,正在重新安排這種創作關係。它並不是讓音樂知識完全失去意義,而是把部分原本屬於專業作曲技術的工作,轉化為可透過描述、選擇與修整來進行的生成流程。也就是說,創作者創作音樂不再一定要從音符開始,而是可以從情境、風格與功能開始。
不過,若要真正用好AI音樂,創作者必須理解:AI生成音樂並不是神奇地「知道你要什麼」,而是根據它學到的大量音樂模式,去推估某種風格與情緒條件下,較可能成立的旋律、節奏、音色與結構。因此,本章將從一個基本問題展開:AI究竟如何理解音樂?它怎麼把「孤獨」、「緊張」、「懷舊」這些情緒描述,轉成某些調式、速度、配器與聲響紋理?又為什麼有些AI音樂偏向「音符排列」,而有些則直接生成帶有空間感與材質感的完整音軌?掌握這些概念,有助於創作者理解AI配樂不是自動按鈕,而是一種新的音樂構圖方式。
一、音樂為什麼能承載情緒:從感受到模式
人類之所以能從音樂中感受到情緒,並不是因為音樂真的「含有」悲傷、喜悅或恐懼,而是因為某些聲音結構長期與特定心理經驗產生聯繫。這種聯繫部分來自文化學習,部分來自身體感知。例如,節奏快速、音量密集、和聲張力高的音樂,常使人感到興奮、焦慮或緊迫;節奏緩慢、旋律下行、音域較低、空間較空曠的音樂,則容易感受為沉思、悲傷或孤獨。這些關聯不是絕對的,但在大量作品與聆聽經驗中,會逐漸形成某種穩定的模式。
AI音樂模型之所以能處理情緒,不是因為它像人一樣真的感受到悲傷,而是因為它能在大規模音樂資料中,學會某些結構模式與人類情緒標記之間的統計關聯。換句話說,AI所學到的不是情緒本身,而是那些常常被人類聽成某種情緒的聲音結構。當資料中有大量標註為「史詩感」、「懸疑」、「浪漫」、「安靜」、「夢幻」的音樂範例時,模型會逐漸掌握:哪些節奏密度、和聲色彩、旋律走向、配器選擇與空間質感,常常和這些描述一起出現。
這裡讓我們再次看到生成式AI的基本原理:它不是從抽象概念直接創造作品,而是從大量資料中的模式,建立概念與聲音之間的可計算橋梁。因此,當一位創作者輸入「孤獨的夜晚、緩慢鋼琴、帶一點微弱的希望感」時,AI其實是在做一種模式匹配:它把這些語義提示,映射到它曾經學過的聲音結構區域中,再生成一段較可能符合該區域特徵的音樂。
二、標籤與風格:AI如何把語言轉成音樂條件
在AI音樂生成中,標籤(tags)是一個極為重要的操作概念。所謂標籤,不只是簡單分類,而是把原本抽象、模糊甚至主觀的音樂需求,轉換成模型可以處理的條件描述。這些標籤可能涉及情緒,如「悲傷」、「溫暖」、「神祕」;也可能涉及風格,如「lo-fi」、「電影配樂」、「爵士」、「電子氛圍」;還可能涉及功能,如「開場」、「追逐場景」、「背景襯底」、「結尾收束」;甚至也會涉及技術性條件,如速度、拍號、配器與音色密度。
對創作者而言,這個過程值得特別注意,因為它顯示出AI音樂生成並不是直接以「樂理」為起點,而常常以「語義條件」為起點。也就是說,創作者不一定先想主和弦、副屬和弦或旋律動機,而是先想:這一幕需要什麼樣的心理氛圍?角色當下的情緒是壓抑、漂浮、躁動,還是鬆動?觀眾應該被推向緊張,還是被維持在某種模糊的不確定中?當這些需求被語言化後,AI才有機會根據它學過的資料模式做出相應的生成音樂。
例如,「孤獨」這個詞在音樂上通常不會直接等於某一個固定旋律,而比較可能對應到一組傾向:速度偏慢、音域較開、樂器較少、和聲色彩略帶空曠、旋律動機重複而不過度展開。相對地,「緊張」則可能對應到另一組傾向:節奏更明顯、低頻或高頻持續施壓、不完全解決的和聲張力、音色的粗糙度增加,或某種反覆而逐漸增壓的節奏設計。AI模型並不是在理解「孤獨」的哲學意義,而是在學會哪些音樂特徵通常與這類標記同時出現。
這裡也提醒我們一件重要的事:標籤永遠不是作品本身,而只是引導方向的條件。即使輸入相同的「悲傷鋼琴」,也可能產生非常不同的版本。有些像電影式抒情,有些像流行抒情歌前奏,有些則偏向極簡的現代配樂。這表示標籤的功能比較像在一張巨大的音樂地圖上縮小搜尋範圍,而不是直接指定唯一答案。創作者若想讓生成結果更貼近故事,就必須比一般使用者更細緻地描述情境,而不是只丟出一個大而空泛的情緒詞。
三、音樂不是只有旋律:AI學的是多層次的結構
初學者談音樂時,常常首先想到旋律,好像一段音樂最重要的就是「那條好不好聽的旋律線」。但對AI來說,音樂通常不是單一線條,而是多層結構同時運作的結果。這些層次至少包括節奏、和聲、旋律、音色、配器、空間感與整體形式。當AI生成配樂時,它其實是在處理這些層次之間的關係,而不只是隨機湊出幾個音。
節奏是時間秩序。它決定作品如何前進,也決定聽者的身體感受會偏向鬆、穩、浮、緊或衝。和聲則像情緒的地基,它不一定被一般聽眾清楚說出,但會深刻影響聲音的明暗、安定與張力。旋律則比較接近表面的可記憶線索,它常常負責角色感、主題感與情緒聚焦。音色與配器則是材質層次,例如同樣一段旋律,由鋼琴、弦樂或合成器演奏,敘事效果可能完全不同。至於空間感,則關乎音樂是在貼近耳邊、漂浮遠方,還是籠罩整個場景。
AI模型要有效生成音樂,就必須在這些層次中抓住模式。這也說明了為什麼有時候使用者明明覺得「旋律好像還可以」,卻仍然覺得整段音樂不對。問題可能不是旋律本身,而是和聲太直白、節奏不符合場景、音色太飽和、空間太滿,或者整體結構無法支持敘事。好的AI音樂應用,不能只追求某段旋律好不好聽,而要問:它是否在多層次上共同支撐了這場戲?
對有聲故事劇而言,這個觀念尤其重要。因為有聲敘事不像純音樂作品那樣能讓配樂佔滿注意力,音樂往往必須與台詞、音效與沉默共存。這表示配樂不能只追求自身完整,還要考慮留白與讓位的能力。若創作者只把AI生成的音樂當成「自動背景」,往往會得到看似完整、實則干擾敘事的結果。真正成熟的做法,是把AI音樂視為敘事結構的一部分,讓它與人聲、音效共同構成聽覺戲劇。
四、生成式配樂的第一條路徑:MIDI型生成
理解AI音樂時,有一個重要區分是:有些系統主要生成的是音樂結構,也就是近似MIDI的內容;有些系統則直接生成最終聽到的音訊。先談前者。所謂 MIDI型生成,可以把它理解為「音符層的生成」。MIDI 本身不是聲音,而是一組關於音高、時值、力度、演奏時序等資訊的指令。它比較像樂譜或演奏控制資料,而不是最後的音色結果。
當AI進行MIDI型生成時,它學習的是音樂的邏輯排列。也就是說,它比較像在回答:「下一個音可能是什麼?這個和聲後面通常接什麼?這種風格裡節奏會如何展開?」這種系統的優勢,在於它較容易控制音樂結構。創作者可以後續更換樂器音色、修改和聲、重排節奏,甚至把它輸入數位音樂工作站中重新編曲。對有一定音樂基礎的創作者來說,這種模式很有吸引力,因為它保留了後製調整空間。
比方說,創作者想做一段懸疑有聲劇的背景音樂,AI可以先生成一段低音持續脈衝、簡短高音動機反覆出現的MIDI結構。接著,創作者可以決定要用鋼琴、弦樂、合成器還是金屬敲擊音色去實現它,也可以手動增減層次、改變速度、拉長停頓。這種方法很像AI先幫你搭出骨架,再由你決定血肉與服裝。
從創作的角度來看,MIDI型生成特別有助於創作者理解「音樂是結構」這件事。因為它迫使使用者區分:哪些是旋律與節奏邏輯,哪些是音色與製作質感。這種區分能讓創作者更清楚地意識到,音樂的情緒不只是來自華麗音色,也來自深層排列方式。當然,它的缺點也很明顯:如果創作者缺乏基本編曲與音色處理能力,光有MIDI可能仍然很難變成成熟作品。因此,MIDI型生成比較像半成品生成,它對創作者保留較多主控權,也要求較多後續能力。
五、生成式配樂的第二條路徑:音訊流生成
相較於MIDI型生成,另一條路徑是直接生成音訊,也就是所謂audio-based 的音樂生成。這種系統產出的不是抽象音符,而是已經具有音色、空間感與表面質感的完整音軌。對一般使用者而言,這種方式通常更直觀,也更容易直接拿來當作配樂草稿甚至成品。
如果用比喻來說,MIDI型生成比較像AI幫你寫譜,而音訊流生成則更像AI直接幫你錄出一段已經演奏好的音樂。這種模式的最大優勢,在於它不只處理旋律與節奏,還能同時生成材質感、氛圍感與空間感。對有聲故事劇來說,這很有吸引力,因為很多時候創作者並不只需要一條旋律,而是需要一整片情緒性的聲音地景。
例如,創作者想為一段夢境場景配樂,他未必要一首可哼唱的曲子,而可能需要一種飄忽、模糊、帶有殘響與不穩定和聲漂移的聲音氛圍。這種需求若只用 MIDI,還必須後續做很多音色設計;但音訊流生成可能直接給出一段已經帶有霧狀質地的完整音軌,使創作者快速進入敘事實驗。
然而,這種便利也伴隨另一種限制。因為當最終音色與空間都已經被一起生成時,創作者後續能微調的空間往往比較小。你可以剪接、加淡出、做EQ或混音修整,但若想改其中一條和聲、換掉某種樂器、拉長某個段落,可能就不如 MIDI型生成那樣容易。因此,音訊流生成比較適合快速探索氛圍、建立初稿、取得靈感,或在作品中用作偏環境性的配樂;而若要做高度精細的結構控制,仍可能需要回到可編輯的形式。
六、AI音樂生成不是「寫歌」,而是建構情緒功能
很多創作者第一次接觸AI音樂時,容易把它理解成「幫我寫一首歌」的工具。但在有聲故事劇裡,更精確的理解應該是:AI在幫你建構情緒功能。也就是說,重點不是音樂本身可不可以獨立成立,而是它在戲劇中扮演什麼功能。
音樂在有聲敘事中,可能有幾種不同用途。有時它負責建立場景氣候,例如讓夜晚顯得更空靈,讓走廊顯得更冷清,讓回憶顯得更柔軟。有時它負責支持角色心理,例如某段反覆鋼琴動機讓角色的執念被聽見。有時它則負責組織敘事的節奏,例如在轉場時維持情緒連續性,或在高潮前慢慢增加張力。有時它甚至扮演反諷作用:畫面或台詞看似平靜,但音樂早已暗示某種不安。
因此,使用AI配樂時,創作者最該先問的不是「我要什麼風格」,而是「這段音樂在此處的敘事任務是什麼」。如果任務不清楚,再多好聽的生成結果也可能只是多餘裝飾。舉例而言,一段角色向過世母親傾訴的獨白,若音樂太滿、太抒情,反而可能壓扁人聲細節,使作品變得煽情;但若只用極簡、稀薄、幾乎像呼吸一樣存在的音樂,可能更能襯托出那種無法言說的空缺感。這時候,AI工具的價值不在於替你決定,而在於快速生成不同功能取向的版本,讓你比較何者能真正服務於故事。
從這個角度來看,AI音樂生成其實很像導演排戲時的試景。你可以嘗試不同風格、不同密度、不同速度的配樂,看哪一種方式最能打開戲的內在空間。真正的重點不是產量,而是比較;不是有沒有生成,而是有沒有選對。
七、配樂的危險:AI容易生成「合理」,卻不一定生成「必要」
AI音樂的強大之處,在於它很容易給出「聽起來像那麼回事」的結果。但這也正是它的危險之處。因為「合理」不等於「必要」,「像配樂」也不等於「這一段非它不可」。很多AI生成音樂的最大問題,不是不好聽,而是太快落入既定的模式。它知道某種情緒常搭配某種和聲、某種節奏常被用來表現懸疑,因此很容易產出符合大眾期待的版本;但真正好的戲劇配樂,往往不是只符合類型慣例,而是精準地貼近這一個特定故事的心理紋理。
例如,「悲傷」不只有一種。失戀的悲傷、喪親的悲傷、自責的悲傷、遲到的理解所帶來的悲傷,在音樂上應該不會完全一樣。若創作者只輸入一個大而籠統的悲傷標籤,AI很可能生成一段標準化的抒情鋼琴,而這樣的結果雖然合理,卻未必對這個作品真正有力。真正成熟的做法,是把情緒寫得更具體:不是單純悲傷,而是「強忍不哭、說話平穩、但內在有巨大空洞感」;不是單純緊張,而是「表面的秩序並未混亂,卻有某種看不見的崩裂正在靠近」。
這裡也可以再次呼應全篇反覆出現的觀念:在AI時代,創作者的價值常常就在於把模糊情緒具體化,並從一堆可能的結果中,選出真正需要的那一個。AI能給你很多「像樣」的音樂,但只有你能判斷哪一段對角色是誠實的,對敘事是精準的。
八、對創作者而言,學會聽配樂比學會下指令更重要
從創作者的角度來說,AI音樂工具的普及,可能會讓創作者誤以為只要學會幾個提示詞公式,就能做好配樂。但實際上,真正重要的能力仍然是聽覺分析與敘事判斷。因為提示詞只是一種轉譯工具,而不是審美本身。
創作者首先應該學會區分不同層次的音樂效果。例如,這段音樂讓你覺得不安,是因為速度、低頻、音色粗糙度,還是因為和聲遲遲不解決?這段音樂讓角色顯得孤單,是因為旋律簡單、音域空曠,還是因為空間殘響把聲音推遠了?當你能夠把感受拆解成結構,你才有可能更有效地指揮 AI,也才有能力在生成版本中做出準確選擇。
其次,創作者要練習的是「配樂功能思維」。同一段音樂拿掉後,場景有何變化?換一種密度後,人聲是否更清楚?讓音樂延後三秒進來,情緒是否更強?這些問題比單純問「好不好聽」更重要,因為有聲故事劇中的音樂不是獨奏,而是整體聲音系統的一部分。
最後,創作者要學會接受AI配樂常常是一個中間結果,而不是最終答案。它可能先幫你找到方向、建立雛形、提供意外靈感,但真正成熟的作品,通常還需要剪輯重組、與音效重新平衡、調整音量動態,甚至拆開不同段落分別處理。這也是為什麼,AI音樂工具越方便,創作者越不能只是消費生成結果,而要學會成為一個真正的聲音導演。
九、小結:音樂不只是旋律,而是情緒結構的生成
總結本章,我們可以說,AI音樂生成的核心不在於神奇地「作曲」,而在於把情緒、風格與功能性的描述,轉換成可計算的音樂結構。這些結構不只包括旋律,也包括節奏、和聲、音色、配器與空間感。AI透過大量資料學習,掌握了某些聲音模式與人類情緒標籤之間的關聯,因此能根據標籤與提示,在音樂空間中生成相應的版本。
此章中我們也區分了兩條主要的音樂生成路徑:一條是 MIDI 型生成,偏向音符與結構的邏輯排列;另一條是音訊流生成,直接產出帶有質感與空間感的完整音軌。前者保留較多後製彈性,後者則更適合快速探索氛圍與建立聲音地景。無論使用哪一種方式,真正重要的都不是工具本身,而是創作者是否清楚音樂在敘事中的任務。
對有聲故事劇而言,配樂的價值不只是好聽,而是它是否成為情緒的秩序、場景的空氣與角色心理的延伸。AI可以快速提供大量可能的選擇,但它常常只能保證「合理」,無法自動保證「必要」。因此,創作者真正要培養的,不是對工具的依賴,而是對配樂功能的敏感與對敘事細節的判斷。
下一章我們將進一步從音樂走向另一個同樣關鍵、但更貼近具體場景建構的領域:AI音效。我們將討論AI如何根據語義描述生成特定聲響,如何辨識「清脆的玻璃破碎聲」與「遠處悶雷」在頻譜與時間結構上的差異,又如何透過環境建模與殘響模擬,讓聲音不只是一個事件,而成為一整個可被聽見的空間。














