【Google MusicLM】只要文字與圖片就能生成音樂的AI工具

閱讀時間約 9 分鐘

音樂屬性魔法師MusicLM

時至今日,文字不僅能生成圖像,還能生成音樂了。不會畫畫,不會作曲,只要出張嘴,就能當魔法師,還是自帶畫畫與音樂屬性的魔法師。
Google 今年1月推出的 MusicLM 是一種可以藉由文本自動生成音樂的AI工具,想去試玩的人可以點選以下連結註冊加入審核名單,審核通過即可開始試用。
Google Music LM註冊畫面
Google的MusicLM 號稱擁有大量AI 模型以及長達28萬小時的訓練資料庫,可以製作非常多樣性的音樂
當然,原本就有在使用音樂類型的AI工具Jukebox點唱機以及Soundraw的創作者,可能會覺得已經很夠用了,Soundraw雖然畫面人性且直觀, 但畢竟還是需要人為去篩選類別,例如先選長度,接著選擇氛圍類別例如恐怖與驚悚類,再選速度慢快還是中等,然後等生成音樂後再進去調整長度與編排曲調強弱,與每段的樂器搭配。
筆者使用上覺得,Soundraw確實已經很好用了,但就操作上來說,MusicLM卻又更加的直觀,更佳的人性,挑明了說就是更符合「懶人」的需求。(只需要出張嘴下指令還不夠懶嗎?)
葛萊芬多魔法三人組都驚呆了
操作上只要想成,原本使用在文字生成圖像AI工具像是Midjourney或是Playground的Prompt,以同樣邏輯將提詞放在MusicLM上即可,不須篩選或挑選類別,幫你省下選擇障礙的時間,只需下一段文字敘述音樂就自動生成,完全是現代版吟遊詩人。

簡單的文字最快的速度

更簡單地說,對於音樂編曲一竅不通也沒關係,只要是為了各類型影音創作需求像是教學影片、線上線下的活動開場、結尾背景音樂、產品開箱、圖文創作故事等等,只要是需在茫茫資料海中快速找尋沒有版權疑慮又合適的背景音樂,就可以使用MusicLM,最簡單的文字敘述給予AI指令來描繪,並用最快的速度取得你需要的背景音樂,例如:「一首空靈的新古典音樂,給人放鬆與平靜的感覺」或是,「一首適合晚宴的爵士樂,曲調輕快並且優雅」等等。
不需要學會看五線譜,不需要懂音律,不會作曲也無所謂,AI都幫你搞定(很適合像筆者這樣的絕對音癡。)
Google有提供詳細的各類型提詞試聽網站,不須註冊即可試聽:

敘述型咒語

至於註冊成功後的咒語詠唱方式也很簡單,MusicLM 註冊過程會清楚告訴你Prompt「咒語」的三個條件:
How to make a good prompt
  • Be very descriptive. Electronic or classical instrument sounds best.
  • 必須是非常具體地描述。電子樂器或古典樂器的聲音最適合。
  • Mention the vibe, mood or emotion you want to create.
  • 需要提及想要創造的氛圍、情緒或情感(舉例像是寧靜、歡快、憂傷、緊湊不安等形容詞)。
  • Certain queries that mention specific artists or include vocals will not be generated.
  • 不會生成涉及特定藝術家或包含人聲的特定查詢。
第三條規則是跟文字生成圖像AI工具最大的不同點之一,像是Midjourney類的圖像生成工具,你可以在Prompt裡加入吉卜力風格,或是迪士尼畫風畢卡索畫風等提詞,直接給予特定人名或工作室名稱讓AI模擬產出風格相似的作品,但MusicLM不行,你不能下像是恩雅(New Age代表歌手之一)風格的嗓音,瑪莉蓮曼森(死亡金屬歌手之一)的歌聲等任何帶有人聲音樂的指令,也不能模擬特定工作室的風格例如一首Two Steps From Hell(知名電影配樂製作公司)風格的音樂等等。
按照上面規則下指令,MusicLM就會生成兩首符合的音樂讓你挑選,只要試聽並選擇你偏愛的版本(點選皇冠圖案),再下載保存即可,音樂不會存在網路上,必須即時下載。

除了敘述型的咒語,筆者覺得與其他音樂聲成工具更不同的地方是,MusicLM還提供了「故事型」咒語以及「圖像型」咒語的音樂生成方式。

故事型咒語 Story Mode:

The audio is generated by providing a sequence of text prompts. These influence how the model continues the semantic tokens derived from the previous caption.
透過提供一系列的文字提示來生成音訊。這些文字提示會影響模型如何延續從前一標題中衍生出的語義單元。
Story Mode
也就是說,假設你今天要製作一支一分鐘長度的冥想引導影片,你可以按照以下範例給予故事線指令進而生成與情境相符的一段背景音樂:
冥想一分鐘範例音樂
  1. time to meditate 冥想時間 (0:00-0:15)
  2. time to wake up 開始慢慢醒來 (0:15-0:30)
  3. time to run 開始起跑 (0:30-0:45)
  4. time to give 100% 開始全力以赴投入跑步 (0:45-0:60)
有興趣的人可以至試聽網站上的Story Mode區塊進行試聽
同樣的你也可以按照此邏輯去生成產品說明、教學影片、或是任何類型的示範影片,比起一段一段的給予敘述生成音樂,故事模式更好的提供了創作者背景音樂的一致性、完整性與音樂編排的便利性。

圖像型咒語生成 Painting Caption Conditioning

前面提到MusicLM除了故事型的音樂生成方式,還有一個讓使用者驚喜的是,透過一張圖像就能生成符合這張圖片的背景音樂。
Painting Caption Conditioning
例如僅提供一張「拿破崙越過阿爾卑斯山(Alps)」的畫作,搭配Wiki百科上的描述:「這幅作品為理想中的拿破崙及其軍隊於1800年5月通過聖貝納爾山口穿越阿爾卑斯山的真實場景。」給MusicLM讓其生成音樂。
拿破崙越過阿爾卑斯山(Alps)
我們先不去試聽網站上生成的音樂,可以先在腦中想像MusicLM會生成什麼樣的音樂再去試聽,同樣的你可以在前面提到的Google試聽網站上的Painting Caption Conditioning 區域試聽到這個範例:
說真的產出的音樂跟筆者想像的大不相同,但每個人對音樂的感受性本來就是很主觀的,這也是為什麼通常會生成兩首音樂讓使用者從中挑選的原因。
試聽網站上有很多範例,其中也有用荷蘭後印象派畫家梵谷的The Starry Night「星空」作為圖像指令生成音樂。這幅畫描繪了梵谷在聖雷米德普羅旺斯的療養院房間,朝東窗外所看見的「日出前景色」,畫中還添加了一個虛構的村莊。
你可以看見,指令中並沒有任何氛圍敘述,沒有寧靜的、祥和的、孤寂、閃閃發光等詞彙,就是簡簡單單的一幅畫與其畫作背景敘述,光是這樣MusicLM就能生成氛圍相符的背景音樂。
梵谷知名的畫作之一: The Starry night
假設筆者今天想為下面這張圖找尋搭配的背景音樂,用Soundraw的話可能就直接去恐怖與驚悚的分類裡找尋挑選,但對節奏快慢還沒有太多概念,這時就可以直接把這張圖丟給MusicLM,搭配文字描述如:「陰暗狹長,看不漸盡頭,空無一人的走廊」等文字來生成相符的音樂供參考。
陰暗狹窄空無一人的走廊

各類咒語提詞試聽

對音樂類型的提詞沒概念的話,Google提供的試聽網站上還羅列了五花八門各種各樣文本提詞可用的節拍、樂器、主題、情境及其對應的試聽檔給使用者參考,而且列舉的非常詳細。
例如光是鋼琴家,網站上就提供了初學者、中級演奏者、專業級、crazy fast professional 演奏者等四種級別的試聽供參考,而這四種級別的敘述也可以同樣地套用在其他樂器上,不一定是鋼琴。
四個級別的鋼琴演奏者
網站上還提供了各個不同年代的俱樂部音樂風格,從50年代到80年代都有,十分有趣。雖然不能去指定特定歌手與樂團風格的音樂,但你還是可以根據不同年代的音樂與情境提詞取得風格相符的音樂。
clubs in the 50s to 80s
試聽網站上提供的咒語類別實在太多了,無法一一列舉,大家可以去聽看看並註冊加入等候名單。
不管你是不是影音創作者,未來都有可能用到需要背景音樂的地方,即便是純文字創作者,時不時也會需要為小說或是文章尋找合適的插圖或配樂作為搭配或靈感,而過去人們常常開玩笑講的「自帶BGM」,「這張圖片有聲音」等話語將不再只是說說而已,而是真正的將話語中的文本轉化成一段音樂。

文章參考資料:
https://www.youtube.com/watch?v=dMsscu6Pa-E
https://techtarian.com/ai/musiclm/
即將進入廣告,捲動後可繼續閱讀
為什麼會看到廣告
41會員
53Content count
主要為西洋歌曲翻譯評析與推薦,年代不是界限,曲風可以多變。暫時忘記世俗,徜徉在旋律的空間,沉浸在詞曲的感動,帶給你成長的人生好歌。
留言0
查看全部
發表第一個留言支持創作者!
黑色鬱金香的沙龍 的其他內容
昨晚突然很想吃「控罵崩」,懷念起鹹香滷肉汁與白米飯還有入口即化的肥肉,但考慮到若世界末日把自己養太肥會較快被吃掉,還是克制了下,轉而聊勝於無的跑去跟ChatGPT聊了一下炕肉飯。
論及歌詞意境的巧妙,就不得不提有許多華語歌詞也都相當優美富含深意,當然基於中英文語法結構的差異,中文歌詞翻成英文後,同樣會面臨到美感與語意兩相精準度微失衡的問題。
ChatGPT現在全天下你知我知他也知,擴充插件誕生的數量速度堪比手搖飲加盟店,都知道他寫文案好棒棒,人腦與之堪比猶如蝸牛,但文案一誕生,你是很快看過然後複製貼上嗎?
讓ChatGPT創作一首新詩,題目是「隨風而逝的自由」,筆者也用同樣的主題創作新詩,看看人跟語言模組寫出來的詩作內容,究竟會有多大的差別。
請ChatGPT創造了三篇小故事。「AI機器人大衛與小恐龍」「AI人工智能vs.人類存亡之戰」 「沒有感情的吃薯條機器」
OpenAI開發的人工智能聊天機器人ChatGPT目前正夯,筆者請ChatGPT寫出一篇文章大綱,題目是如何經營長久的婚姻?大約20-30秒,ChatGPT就按部就班地給出了10項大綱。
昨晚突然很想吃「控罵崩」,懷念起鹹香滷肉汁與白米飯還有入口即化的肥肉,但考慮到若世界末日把自己養太肥會較快被吃掉,還是克制了下,轉而聊勝於無的跑去跟ChatGPT聊了一下炕肉飯。
論及歌詞意境的巧妙,就不得不提有許多華語歌詞也都相當優美富含深意,當然基於中英文語法結構的差異,中文歌詞翻成英文後,同樣會面臨到美感與語意兩相精準度微失衡的問題。
ChatGPT現在全天下你知我知他也知,擴充插件誕生的數量速度堪比手搖飲加盟店,都知道他寫文案好棒棒,人腦與之堪比猶如蝸牛,但文案一誕生,你是很快看過然後複製貼上嗎?
讓ChatGPT創作一首新詩,題目是「隨風而逝的自由」,筆者也用同樣的主題創作新詩,看看人跟語言模組寫出來的詩作內容,究竟會有多大的差別。
請ChatGPT創造了三篇小故事。「AI機器人大衛與小恐龍」「AI人工智能vs.人類存亡之戰」 「沒有感情的吃薯條機器」
OpenAI開發的人工智能聊天機器人ChatGPT目前正夯,筆者請ChatGPT寫出一篇文章大綱,題目是如何經營長久的婚姻?大約20-30秒,ChatGPT就按部就班地給出了10項大綱。
本篇參與的主題策展
時間是2123年,那是一個下著雨的夜晚,冷風一波接著一波颳起,碩大的雨滴一滴滴地落在金屬上。多拉格睜開了雙眼,眼前是一扇窗戶,窗外一片黑暗,他發現自己在一個狹窄的空間裡,那是一個冷凍艙……
不再證明了/不再為了那些不証自明的事情/焚燒,或凋萎/房間逼仄但內心昶亮/虔恭迎接每個早上/晨光穿窗而來
前言 宇希333年 現在是第14號地球世界的火曆2309年。 病毒「無」專門吞噬「感情」、「感覺」、「愛」、「希望」,大部份被感染的人都無法呈現臉部表情,人類也越來越冷漠。 幸虧第14號地球的科技相當發達,腦細胞可以連線面具讓人可以戴著精緻的面具過活,戴面具的人只要用想的就可以呈現臉部的表情。
以為擁有的 / 其實尚未 / 以為失去的 / 或許換成了另一種獲得
拓荒者,你好: 當你從冷凍艙甦醒後,應該就會看到這封信。我原本奉命,負責引導你了解周遭環境和上層賦予你的任務,但很不巧地,上層臨時指派我其他重要工作,我不得不將引導的任務交付這座觀測站的中央人工智慧,並留下這封信給你。 我今天時間有限,只能引導你到此。期待有機會再相逢。祝你好運,拓荒者。
聖泉,那是最好的東西,也是最壞的東西。 它能讓任何人實現任何願望,所以人們說它是最好的東西。 但傳說尋找聖泉的路上,人們往往會失去對他們來說,最重要的東西。 即使如此,天下人仍紛紛爭先恐後搶奪,踩著彼此的屍體尋找那未知的存在。即便是未知,眾人仍是願意為了那美麗虛幻的存在以身犯險,寧可溺斃於聖泉的傳說
時間是2123年,那是一個下著雨的夜晚,冷風一波接著一波颳起,碩大的雨滴一滴滴地落在金屬上。多拉格睜開了雙眼,眼前是一扇窗戶,窗外一片黑暗,他發現自己在一個狹窄的空間裡,那是一個冷凍艙……
不再證明了/不再為了那些不証自明的事情/焚燒,或凋萎/房間逼仄但內心昶亮/虔恭迎接每個早上/晨光穿窗而來
前言 宇希333年 現在是第14號地球世界的火曆2309年。 病毒「無」專門吞噬「感情」、「感覺」、「愛」、「希望」,大部份被感染的人都無法呈現臉部表情,人類也越來越冷漠。 幸虧第14號地球的科技相當發達,腦細胞可以連線面具讓人可以戴著精緻的面具過活,戴面具的人只要用想的就可以呈現臉部的表情。
以為擁有的 / 其實尚未 / 以為失去的 / 或許換成了另一種獲得
拓荒者,你好: 當你從冷凍艙甦醒後,應該就會看到這封信。我原本奉命,負責引導你了解周遭環境和上層賦予你的任務,但很不巧地,上層臨時指派我其他重要工作,我不得不將引導的任務交付這座觀測站的中央人工智慧,並留下這封信給你。 我今天時間有限,只能引導你到此。期待有機會再相逢。祝你好運,拓荒者。
聖泉,那是最好的東西,也是最壞的東西。 它能讓任何人實現任何願望,所以人們說它是最好的東西。 但傳說尋找聖泉的路上,人們往往會失去對他們來說,最重要的東西。 即使如此,天下人仍紛紛爭先恐後搶奪,踩著彼此的屍體尋找那未知的存在。即便是未知,眾人仍是願意為了那美麗虛幻的存在以身犯險,寧可溺斃於聖泉的傳說
你可能也想看
Thumbnail
重點摘要: 1.9 月降息 2 碼、進一步暗示年內還有 50 bp 降息 2.SEP 上修失業率預期,但快速的降息速率將有助失業率觸頂 3.未來幾個月經濟數據將繼續轉弱,經濟復甦的時點或是 1Q25 季底附近
Thumbnail
近期的「貼文發佈流程 & 版型大更新」功能大家使用了嗎? 新版式整體視覺上「更加凸顯圖片」,為了搭配這次的更新,我們推出首次貼文策展 ❤️ 使用貼文功能並完成這次的指定任務,還有機會獲得富士即可拍,讓你的美好回憶都可以用即可拍珍藏!
Thumbnail
本文深入探討Google關鍵字廣告的運作原理、不同模式及應用策略,幫助企業精準觸達目標受眾,提升品牌曝光和轉換率。
Thumbnail
Google Ads有八大廣告類型,包括關鍵字廣告、購物廣告、多媒體廣告、YouTube廣告、最高成效Pmax、需求開發廣告、智慧型廣告和應用程式廣告。每個廣告類型都有其特定的應用場景和優勢。本文將為你解釋每種廣告類型的特點和適用情況,幫助你有效利用Google廣告。
Thumbnail
一期一會Day25 心累系列特調(?沒有這個特調系列啦XD);那就......打包系列(?)沒想到這也能有系列(笑)
Thumbnail
Google地圖找不到「爆料腸粉」🤤 老饕推薦必點組合:現蒸「牛肉腸粉」,加一碗料多多「牛肚湯」,已滿足
Thumbnail
2022年Google人資長在TFT跨界對談說「學歷≠能力,如果沒有學歷……你要拿什麼證明你的能力那才是更重要的」。去思考我可以做什麼(具備哪些該職缺所需要的能力),或我曾做過什麼並且帶來什麼樣具體的成果(直接拿出客觀量化的實績來說服對方),具體呈現在履歷上,那才是幫自己拿下面試門票的首要任務。
Thumbnail
通过充分利用Google Scholar的功能,我们可以更高效地搜索和获取所需要的学术文献。 Google Scholar是Google提供的一个免费的学术搜索引擎,专门用于搜索学术文献、学术论文、学术会议论文、学位论文、专利和法律文件等学术资源。
Thumbnail
現實生活中沒有小叮噹,但有萬能的觀世音菩薩,認識觀世音菩薩的入門經籍是〈普門品〉,文章是我的三點心得。
Thumbnail
Google母公司Alphabet公佈Q4營收年增1%至760億,低於預期的765億。營業利益下滑17.1%至181億。EPS $1.05 低於預期的 $1.18。Youtube廣告年減7.8%至79億,搜尋廣告年減2%。
常被紅隊用於測試網路防禦韌性的工具Cobalt Strike,在經過十幾年的更新與改進,現在已經發展成為一個成熟的點擊系統,而該工具近期被惡意攻擊者濫用,並將其用作在被害者網路中橫向移動的強大工具,成為第二階段攻擊有效負載的一部分。
Thumbnail
之前研究Google簡報的時候,發現Google簡報並沒有提供畫筆工具、開啟YouTube影片時也沒辦法在影片上直接畫圖寫字。所以這次找了一個Chrome的外掛程式 Web Paint。功能非常簡單,趕快跟著圖卡操作看看吧!
Thumbnail
重點摘要: 1.9 月降息 2 碼、進一步暗示年內還有 50 bp 降息 2.SEP 上修失業率預期,但快速的降息速率將有助失業率觸頂 3.未來幾個月經濟數據將繼續轉弱,經濟復甦的時點或是 1Q25 季底附近
Thumbnail
近期的「貼文發佈流程 & 版型大更新」功能大家使用了嗎? 新版式整體視覺上「更加凸顯圖片」,為了搭配這次的更新,我們推出首次貼文策展 ❤️ 使用貼文功能並完成這次的指定任務,還有機會獲得富士即可拍,讓你的美好回憶都可以用即可拍珍藏!
Thumbnail
本文深入探討Google關鍵字廣告的運作原理、不同模式及應用策略,幫助企業精準觸達目標受眾,提升品牌曝光和轉換率。
Thumbnail
Google Ads有八大廣告類型,包括關鍵字廣告、購物廣告、多媒體廣告、YouTube廣告、最高成效Pmax、需求開發廣告、智慧型廣告和應用程式廣告。每個廣告類型都有其特定的應用場景和優勢。本文將為你解釋每種廣告類型的特點和適用情況,幫助你有效利用Google廣告。
Thumbnail
一期一會Day25 心累系列特調(?沒有這個特調系列啦XD);那就......打包系列(?)沒想到這也能有系列(笑)
Thumbnail
Google地圖找不到「爆料腸粉」🤤 老饕推薦必點組合:現蒸「牛肉腸粉」,加一碗料多多「牛肚湯」,已滿足
Thumbnail
2022年Google人資長在TFT跨界對談說「學歷≠能力,如果沒有學歷……你要拿什麼證明你的能力那才是更重要的」。去思考我可以做什麼(具備哪些該職缺所需要的能力),或我曾做過什麼並且帶來什麼樣具體的成果(直接拿出客觀量化的實績來說服對方),具體呈現在履歷上,那才是幫自己拿下面試門票的首要任務。
Thumbnail
通过充分利用Google Scholar的功能,我们可以更高效地搜索和获取所需要的学术文献。 Google Scholar是Google提供的一个免费的学术搜索引擎,专门用于搜索学术文献、学术论文、学术会议论文、学位论文、专利和法律文件等学术资源。
Thumbnail
現實生活中沒有小叮噹,但有萬能的觀世音菩薩,認識觀世音菩薩的入門經籍是〈普門品〉,文章是我的三點心得。
Thumbnail
Google母公司Alphabet公佈Q4營收年增1%至760億,低於預期的765億。營業利益下滑17.1%至181億。EPS $1.05 低於預期的 $1.18。Youtube廣告年減7.8%至79億,搜尋廣告年減2%。
常被紅隊用於測試網路防禦韌性的工具Cobalt Strike,在經過十幾年的更新與改進,現在已經發展成為一個成熟的點擊系統,而該工具近期被惡意攻擊者濫用,並將其用作在被害者網路中橫向移動的強大工具,成為第二階段攻擊有效負載的一部分。
Thumbnail
之前研究Google簡報的時候,發現Google簡報並沒有提供畫筆工具、開啟YouTube影片時也沒辦法在影片上直接畫圖寫字。所以這次找了一個Chrome的外掛程式 Web Paint。功能非常簡單,趕快跟著圖卡操作看看吧!