Gemini 已經正式推出了音樂生成功能,這背後是由 Google DeepMind 開發的最新音樂模型 Lyria 3 所驅動。
這項功能讓 Gemini 從單純的「文字/圖片處理」進化到能理解並創作出具備節奏、旋律、人聲甚至歌詞的完整音樂。
以下連結為Lyria 3替我產生的歌曲: Prompt: 「一首關於台北雨夜的爵士樂」
https://gemini.google.com/share/59d40158a347
曲目資訊:
- 標題: 雨夜台北 (Rainy Night Taipei)
- 風格: 流暢爵士 / 華語流行
- 氛圍: 溫柔、懷舊、都市感

技術原理:Lyria 3 是如何運作的?
不同於早期的 AI 只是簡單地拼接音訊片段,Lyria 3 採用了更深層的架構來處理音樂的複雜性:
1. 結構化音樂生成 (Structured Generation)
音樂包含極高的資訊密度,每一秒都涉及節拍、音符與和聲的細微變化。Lyria 3 具備 長程一致性 (Long-range Coherence),能確保一段 30 秒的音樂從開頭到結尾在旋律與節奏上邏輯一致,而不會出現突兀的斷裂感。
2. 多模態編碼與擴散模型
Lyria 3 的核心原理類似於圖像生成模型(如 Stable Diffusion),但應用在音訊波形上。
- 音訊 Token 化: 將複雜的音訊信號轉換為離散的數學標記(Tokens)。潛在擴散模型 (Latent Diffusion): 在壓縮的潛在空間中進行去噪與生成。層次化處理: 分別處理底層的節奏(Rhythm)、中層的配器(Instrumentation)與高層的人聲旋律(Vocals)。
3. 安全性與 SynthID 浮水印
為了防止版權爭議與深度偽造,Google 引入了 SynthID 技術。這是一種「數位浮水印」,它直接嵌入在音訊的頻率中:

其中delta(t) 對人類耳朵是完全不可察覺的,但專業軟體可以掃描並識別出該音樂是由 Google AI 生成。
如何使用 Gemini 生成音樂?
目前該功能已整合在 Gemini 的「工具」選單中,支援文字提示詞以及圖片/影片上傳。
使用步驟
- 進入功能: 在 Gemini 網頁版或行動 App 的輸入框下方,點擊「工具」圖示(或音樂符號)。
- 選擇/輸入指令: 純文字: 直接描述你想要的曲風。
例如:「創作一段 80 年代復古合成器風格的音樂,帶有活力感。」 - 結合影像: 上傳一張照片(如:夕陽風景),並輸入:「根據這張照片的氛圍,製作一段柔和的鋼琴配樂。」
- 生成與調整: Gemini 會生成一段 30 秒 的音樂,並由 Nano Banana 模型自動生成一張專屬的專輯封面圖。
- 下載與分享: 你可以直接下載成 MP4(含封面影片)或 MP3(純音訊)格式。
提示詞 (Prompt) 撰寫訣竅
為了獲得更高品質的結果,建議在提示詞中包含以下元素:
- 開頭動詞: 撰寫、編寫、創作。
- 音樂類型: Lo-fi、爵士、Afrobeat、重金屬等。
- 情緒與節奏: 懷舊的、輕快的、每分鐘 120 拍 (BPM 120)。
- 特定樂器: 薩克斯風、電子鼓、合成器音色。
📊 功能規格快速對覽
核心模型Lyria 3 (Google DeepMind)
最大長度30 秒
支援格式MP4 (影片) / MP3 (音訊)
封面生成由 Nano Banana 模型負責
人聲/歌詞支援自動生成與演唱安全性內建 SynthID 浮水印,
禁止模仿特定藝人聲音使用門檻需年滿 18 歲,
支援多國語言(含中日韓、德法西等)
小撇步: 如果你發現生成的音樂不夠精確,可以嘗試增加「負面提示詞」(例如:不要有打擊樂器、不要有人聲),或者透過上傳圖片來引導 AI 理解你想要的「氛圍感」。

















