【Google MusicLM】只要文字與圖片就能生成音樂的AI工具

2023/05/24閱讀時間約 9 分鐘

音樂屬性魔法師MusicLM

時至今日,文字不僅能生成圖像,還能生成音樂了。不會畫畫,不會作曲,只要出張嘴,就能當魔法師,還是自帶畫畫與音樂屬性的魔法師。
Google 今年1月推出的 MusicLM 是一種可以藉由文本自動生成音樂的AI工具,想去試玩的人可以點選以下連結註冊加入審核名單,審核通過即可開始試用。
Google Music LM註冊畫面
Google的MusicLM 號稱擁有大量AI 模型以及長達28萬小時的訓練資料庫,可以製作非常多樣性的音樂
當然,原本就有在使用音樂類型的AI工具Jukebox點唱機以及Soundraw的創作者,可能會覺得已經很夠用了,Soundraw雖然畫面人性且直觀, 但畢竟還是需要人為去篩選類別,例如先選長度,接著選擇氛圍類別例如恐怖與驚悚類,再選速度慢快還是中等,然後等生成音樂後再進去調整長度與編排曲調強弱,與每段的樂器搭配。
筆者使用上覺得,Soundraw確實已經很好用了,但就操作上來說,MusicLM卻又更加的直觀,更佳的人性,挑明了說就是更符合「懶人」的需求。(只需要出張嘴下指令還不夠懶嗎?)
葛萊芬多魔法三人組都驚呆了
操作上只要想成,原本使用在文字生成圖像AI工具像是Midjourney或是Playground的Prompt,以同樣邏輯將提詞放在MusicLM上即可,不須篩選或挑選類別,幫你省下選擇障礙的時間,只需下一段文字敘述音樂就自動生成,完全是現代版吟遊詩人。

簡單的文字最快的速度

更簡單地說,對於音樂編曲一竅不通也沒關係,只要是為了各類型影音創作需求像是教學影片、線上線下的活動開場、結尾背景音樂、產品開箱、圖文創作故事等等,只要是需在茫茫資料海中快速找尋沒有版權疑慮又合適的背景音樂,就可以使用MusicLM,最簡單的文字敘述給予AI指令來描繪,並用最快的速度取得你需要的背景音樂,例如:「一首空靈的新古典音樂,給人放鬆與平靜的感覺」或是,「一首適合晚宴的爵士樂,曲調輕快並且優雅」等等。
不需要學會看五線譜,不需要懂音律,不會作曲也無所謂,AI都幫你搞定(很適合像筆者這樣的絕對音癡。)
Google有提供詳細的各類型提詞試聽網站,不須註冊即可試聽:

敘述型咒語

至於註冊成功後的咒語詠唱方式也很簡單,MusicLM 註冊過程會清楚告訴你Prompt「咒語」的三個條件:
How to make a good prompt
  • Be very descriptive. Electronic or classical instrument sounds best.
  • 必須是非常具體地描述。電子樂器或古典樂器的聲音最適合。
  • Mention the vibe, mood or emotion you want to create.
  • 需要提及想要創造的氛圍、情緒或情感(舉例像是寧靜、歡快、憂傷、緊湊不安等形容詞)。
  • Certain queries that mention specific artists or include vocals will not be generated.
  • 不會生成涉及特定藝術家或包含人聲的特定查詢。
第三條規則是跟文字生成圖像AI工具最大的不同點之一,像是Midjourney類的圖像生成工具,你可以在Prompt裡加入吉卜力風格,或是迪士尼畫風畢卡索畫風等提詞,直接給予特定人名或工作室名稱讓AI模擬產出風格相似的作品,但MusicLM不行,你不能下像是恩雅(New Age代表歌手之一)風格的嗓音,瑪莉蓮曼森(死亡金屬歌手之一)的歌聲等任何帶有人聲音樂的指令,也不能模擬特定工作室的風格例如一首Two Steps From Hell(知名電影配樂製作公司)風格的音樂等等。
按照上面規則下指令,MusicLM就會生成兩首符合的音樂讓你挑選,只要試聽並選擇你偏愛的版本(點選皇冠圖案),再下載保存即可,音樂不會存在網路上,必須即時下載。

除了敘述型的咒語,筆者覺得與其他音樂聲成工具更不同的地方是,MusicLM還提供了「故事型」咒語以及「圖像型」咒語的音樂生成方式。

故事型咒語 Story Mode:

The audio is generated by providing a sequence of text prompts. These influence how the model continues the semantic tokens derived from the previous caption.
透過提供一系列的文字提示來生成音訊。這些文字提示會影響模型如何延續從前一標題中衍生出的語義單元。
Story Mode
也就是說,假設你今天要製作一支一分鐘長度的冥想引導影片,你可以按照以下範例給予故事線指令進而生成與情境相符的一段背景音樂:
冥想一分鐘範例音樂
  1. time to meditate 冥想時間 (0:00-0:15)
  2. time to wake up 開始慢慢醒來 (0:15-0:30)
  3. time to run 開始起跑 (0:30-0:45)
  4. time to give 100% 開始全力以赴投入跑步 (0:45-0:60)
有興趣的人可以至試聽網站上的Story Mode區塊進行試聽
同樣的你也可以按照此邏輯去生成產品說明、教學影片、或是任何類型的示範影片,比起一段一段的給予敘述生成音樂,故事模式更好的提供了創作者背景音樂的一致性、完整性與音樂編排的便利性。

圖像型咒語生成 Painting Caption Conditioning

前面提到MusicLM除了故事型的音樂生成方式,還有一個讓使用者驚喜的是,透過一張圖像就能生成符合這張圖片的背景音樂。
Painting Caption Conditioning
例如僅提供一張「拿破崙越過阿爾卑斯山(Alps)」的畫作,搭配Wiki百科上的描述:「這幅作品為理想中的拿破崙及其軍隊於1800年5月通過聖貝納爾山口穿越阿爾卑斯山的真實場景。」給MusicLM讓其生成音樂。
拿破崙越過阿爾卑斯山(Alps)
我們先不去試聽網站上生成的音樂,可以先在腦中想像MusicLM會生成什麼樣的音樂再去試聽,同樣的你可以在前面提到的Google試聽網站上的Painting Caption Conditioning 區域試聽到這個範例:
說真的產出的音樂跟筆者想像的大不相同,但每個人對音樂的感受性本來就是很主觀的,這也是為什麼通常會生成兩首音樂讓使用者從中挑選的原因。
試聽網站上有很多範例,其中也有用荷蘭後印象派畫家梵谷的The Starry Night「星空」作為圖像指令生成音樂。這幅畫描繪了梵谷在聖雷米德普羅旺斯的療養院房間,朝東窗外所看見的「日出前景色」,畫中還添加了一個虛構的村莊。
你可以看見,指令中並沒有任何氛圍敘述,沒有寧靜的、祥和的、孤寂、閃閃發光等詞彙,就是簡簡單單的一幅畫與其畫作背景敘述,光是這樣MusicLM就能生成氛圍相符的背景音樂。
梵谷知名的畫作之一: The Starry night
假設筆者今天想為下面這張圖找尋搭配的背景音樂,用Soundraw的話可能就直接去恐怖與驚悚的分類裡找尋挑選,但對節奏快慢還沒有太多概念,這時就可以直接把這張圖丟給MusicLM,搭配文字描述如:「陰暗狹長,看不漸盡頭,空無一人的走廊」等文字來生成相符的音樂供參考。
陰暗狹窄空無一人的走廊

各類咒語提詞試聽

對音樂類型的提詞沒概念的話,Google提供的試聽網站上還羅列了五花八門各種各樣文本提詞可用的節拍、樂器、主題、情境及其對應的試聽檔給使用者參考,而且列舉的非常詳細。
例如光是鋼琴家,網站上就提供了初學者、中級演奏者、專業級、crazy fast professional 演奏者等四種級別的試聽供參考,而這四種級別的敘述也可以同樣地套用在其他樂器上,不一定是鋼琴。
四個級別的鋼琴演奏者
網站上還提供了各個不同年代的俱樂部音樂風格,從50年代到80年代都有,十分有趣。雖然不能去指定特定歌手與樂團風格的音樂,但你還是可以根據不同年代的音樂與情境提詞取得風格相符的音樂。
clubs in the 50s to 80s
試聽網站上提供的咒語類別實在太多了,無法一一列舉,大家可以去聽看看並註冊加入等候名單。
不管你是不是影音創作者,未來都有可能用到需要背景音樂的地方,即便是純文字創作者,時不時也會需要為小說或是文章尋找合適的插圖或配樂作為搭配或靈感,而過去人們常常開玩笑講的「自帶BGM」,「這張圖片有聲音」等話語將不再只是說說而已,而是真正的將話語中的文本轉化成一段音樂。

文章參考資料:
https://www.youtube.com/watch?v=dMsscu6Pa-E
https://techtarian.com/ai/musiclm/
為什麼會看到廣告
黑色鬱金香
黑色鬱金香
什麼都寫什麼都不奇怪,不定時發文。
留言0
查看全部
發表第一個留言支持創作者!