方格子 vocus

Gemini 應用程式的個人化故事書創作：背後技術大解密

2025/08/06 更新2025/08/06 發佈閱讀 4 分鐘

Google 的 Gemini 應用程式近期 (8/5號) 推出了一項引人入勝的新功能：「個人化插圖故事書」(Storybook, https://gemini.google.com/gem/storybook)，讓使用者能透過簡單的文字指令，在短短幾分鐘內生成一本圖文並茂、附有語音朗讀的 10 頁數位故事書。這項功能的實現，仰賴於 Google 多項先進的人工智慧技術整合應用。

其核心技術主要涵蓋以下三個層面：

1. 強大的大型語言模型 (LLM) - Gemini：

故事的創作核心始於 Gemini 模型本身。使用者輸入的故事情節、角色設定、場景描述，甚至是希望傳達的寓意，都由 Gemini 的大型語言模型進行理解與創作。Gemini 不僅能生成連貫、富有創意的故事文本，更能進一步生成用於圖像生成的提示詞 (prompt)。這意味著 Gemini 不僅是故事的作者，也是指導插畫風格和內容的「導演」。使用者也可以上傳照片或文件，讓 Gemini 從中汲取靈感，創作出更具個人色彩的內容。

2. 先進的圖像生成模型：

當故事文本和圖像提示詞準備就緒後，Gemini 會調用其先進的文生圖模型來繪製插圖。雖然 Google 官方並未明確指出故事書功能使用了哪一款特定的圖像生成模型，但外界普遍推測其背後可能整合了 Google 最新的 Imagen 3 或是專為快速、多模態輸出設計的 Gemini 2.0 Flash 等模型。這些模型能夠根據 Gemini 生成的詳細提示詞，創作出風格多樣的插畫，從像素藝術、漫畫、黏土動畫、鉤針編織到著色本風格，使用者可以自由選擇，為故事書增添獨特的視覺魅力。

3. 自然流暢的文字轉語音 (Text-to-Speech, TTS) 技術：

為了讓故事書更具吸引力，Gemini 還整合了 Google 的文字轉語音技術，為生成的故事提供語音朗讀功能。這項技術能將書面文字轉換為自然、流暢的人聲，讓使用者可以「聽」故事，特別適合親子共讀的場景。使用者甚至可以選擇不同的語音聲調，增添聆聽的樂趣。

整合運作流程：

整個個人化插圖故事書的創建流程可以簡化為以下幾個步驟：

使用者輸入指令： 使用者在 Gemini 應用程式中，以自然語言描述想要創作的故事主題、角色、情節等。
Gemini 生成文本與圖像提示： Gemini 的大型語言模型根據使用者指令，創作出 10 頁的故事文本，並為每一頁生成對應的圖像生成提示。
圖像模型繪製插圖： 圖像生成模型接收到提示後，為每一頁故事繪製出符合風格與內容的插圖。
TTS 產生語音： 文字轉語音模型將故事文本轉換為語音檔案。
整合呈現： Gemini 應用程式將生成的文本、插圖和語音整合在一起，以一本完整的數位故事書形式呈現給使用者。

總而言之，Gemini 的個人化插圖故事書功能，是 Google 在生成式 AI 領域技術實力的一次綜合展現。它巧妙地將大型語言模型、文生圖模型以及文字轉語音技術無縫結合，為使用者提供了一個既簡單又富有創意的工具，將天馬行空的想法轉化為獨一無二的數位藝術品。

留言

Hank吳的沙龍

17會員

161內容數

這不僅僅是一個 Blog，更是一個交流與分享的空間。期待在這裡與你相遇，一起探索科技、體驗生活、夢想旅行！💖

Hank吳的沙龍的其他內容

2025/08/06

真實世界程式設計基準測試 SWE-bench,評估大型語言模型（LLMs）的黃金標準

來深入解析一下「真實世界程式設計基準測試 SWE-bench」。簡單來說，SWE-bench 是一個專門用來評估大型語言模型（LLM）解決真實世界軟體工程問題能力的黃金標準。它跳脫了傳統上讓 AI 解答單一、封閉的程式挑戰（例如「寫一個排序函數」），而是直接將 AI 丟入一個模擬真實軟體工程師工

2025/08/06

真實世界程式設計基準測試 SWE-bench,評估大型語言模型（LLMs）的黃金標準

2025/07/31

梅花易數六十四卦象全覽

梅花易數與《周易》使用相同的六十四個卦象，這些卦象是由八個基本卦（經卦）兩兩相疊而成。每個卦象都由一個「上卦」（或稱外卦）和一個「下卦」（或稱內卦）組成，其組合變化揭示了宇宙萬物運行發展的規律。以下是梅花易數所使用的六十四卦及其卦象結構，依照《周易》的通行順序排列

2025/07/31

梅花易數六十四卦象全覽

2025/07/31

常聽到的AI Agent是甚麼？

你是不是覺得，現在的AI工具雖然厲害，但還是要你一步步下指令呢？🤔 沒關係，有個超酷的新夥伴出現了，那就是『AI Agent』。簡單來說，AI Agent 就像是你的「智慧代理人」，你只要給它一個大目標，它就能自己去規劃、執行、甚至找工具來完成任務，整個過程完全不用你操心。

2025/07/31

#創作的其他內容

🏝️ 方格創作島｜創作地圖組 Round 2 任務說明：四個「我的⋯⋯」邀請你寫下生活裡的人事物

Chloe小窩

花落成詩的季節 § 關於桐花、步道與初夏散策

創作者基地

【我的三推】我推的動畫、歌曲與書本

你可能也想看

方格子 vocus 官方沙龍

🏝️ 方格創作島｜【創作地圖組】全攻略：解鎖靈感，再抽精美家電 ദ്ദി(•̀ ᗜ <)

5 月，方格創作島正式開島。這是一趟 28 天的創作旅程。活動期間，每週都會有新的任務地圖與陪跑計畫，從最簡單的帳號使用、沙龍建立，到帶著你從一句話、一張照片開始，一步一步找到屬於自己的創作節奏。不需要長篇大論，不需要完美的文筆，只需要帶上你今天的日常，就可以出發。征服創作島，抱回靈感與大獎！

#創作#vocus#方格創作島

2026/04/23

方格子 vocus 官方沙龍

🏝️ 方格創作島｜【創作地圖組】全攻略：解鎖靈感，再抽精美家電 ദ്ദി(•̀ ᗜ <)

#創作#vocus#方格創作島

2026/04/23

逍遙資訊

Ask Screenshot 提升 Gemini 聊天便利性，方便傳送網頁文字和截圖

基於大型語言模型的 AI 聊天服務可以協助完成多項工作，為了提升 AI 聊天的互動便利性，許多開發者打造了不同性質的擴充功能，Ask Screenshot for Gemini 就是一款能快速將網頁文字與截圖傳送至 Gemini 對話框的實用工具。

#AI聊天#擴充功能#Gemini

2024/07/05

逍遙資訊

Ask Screenshot 提升 Gemini 聊天便利性，方便傳送網頁文字和截圖

#AI聊天#擴充功能#Gemini

2024/07/05

原來可以這樣做沙龍

從概念到實踐，教你如何運用AI生成來激發視覺和創意

運用生成的AI圖像來激發視覺和創意，無論是生成素材、用在社交媒體上，這些圖像都能為你的的視覺帶來獨特的風格。

#分享#創作#AI

2024/04/24

原來可以這樣做沙龍

從概念到實踐，教你如何運用AI生成來激發視覺和創意

運用生成的AI圖像來激發視覺和創意，無論是生成素材、用在社交媒體上，這些圖像都能為你的的視覺帶來獨特的風格。

#分享#創作#AI

2024/04/24

LV99的初心冒險者

讓AI幫你快速製作簡報PPT---你一定要知道的超簡單製作神器Gamma

讓「Gamma」幫你做簡報，還可以幫你整理簡報大綱，簡報排版美化！靈感激盪跟簡報製作就靠它了！

#AI#AI簡報#簡報

2024/02/24

LV99的初心冒險者

讓AI幫你快速製作簡報PPT---你一定要知道的超簡單製作神器Gamma

讓「Gamma」幫你做簡報，還可以幫你整理簡報大綱，簡報排版美化！靈感激盪跟簡報製作就靠它了！

#AI#AI簡報#簡報

2024/02/24

釀電影，啜一口電影的美好。

往霧的更深處去──從《白色說書人》看轉型正義，與白色恐怖影視文本

見諸參與鄧伯宸口述，鄧湘庭於〈那個大霧的時代〉記述父親回憶，鄧伯宸因故遭受牽連，而案件核心的三人，在鄧伯宸記憶裡：「成立了成大共產黨，他們製作了五星徽章，印刷共產黨宣言——刻鋼板的——他們收集中共空飄的傳單，以及中國共產黨中央委員會有關文化大革命決議文的英文打字稿，另外還有手槍子彈十發。」

#釀電影#釀藝評#藝術評論

2026/05/07

釀電影，啜一口電影的美好。

往霧的更深處去──從《白色說書人》看轉型正義，與白色恐怖影視文本

#釀電影#釀藝評#藝術評論

2026/05/07

於是職徑

讓AI幫你快速製作簡報PPT---你一定要知道的超簡單製作神器Gamma

Gamma是可以使用AI在幾秒鐘內創建精美的文件，簡報和網頁。他可以快速幫你針對主題生成簡報大綱並且幫你快速產生排版美麗的簡報。

#簡報#AI#AI工具推薦

2024/03/19

於是職徑

讓AI幫你快速製作簡報PPT---你一定要知道的超簡單製作神器Gamma

Gamma是可以使用AI在幾秒鐘內創建精美的文件，簡報和網頁。他可以快速幫你針對主題生成簡報大綱並且幫你快速產生排版美麗的簡報。

#簡報#AI#AI工具推薦

2024/03/19

Amily的沙龍

北藝嚴選指南：從兒童藝術節到國際共製，聰明玩家的 75 折選戲術

當時間變少之後，看戲反而變得更加重要——這是在成為母親之後，我第一次誠實地面對這一件事：我沒有那麼多的晚上，可以任性地留給自己了。看戲不再只是「今天有沒有空」，而是牽動整個週末的結構，誰應該照顧孩子，我該在什麼時間回到家，隔天還有沒有精神帶小孩⋯⋯於是，我不得不學會一件以前並不擅長的事：挑選。

#北藝嚴選指南#兒童藝術節#臺北表演藝術中心

2026/04/20

Amily的沙龍

北藝嚴選指南：從兒童藝術節到國際共製，聰明玩家的 75 折選戲術

#北藝嚴選指南#兒童藝術節#臺北表演藝術中心

2026/04/20

釀電影，啜一口電影的美好。

《傳奇：帕拉贊諾夫的十段殘篇》：流動、跨域、變形的「生存之道」

當代名導基里爾．賽勒布倫尼科夫身兼電影、劇場與歌劇導演，其作品流動著強烈的反叛與詩意。在俄烏戰爭爆發後，他持續以創作回應專制體制的壓迫。《傳奇：帕拉贊諾夫的十段殘篇》致敬蘇聯電影大師帕拉贊諾夫。本文作者透過媒介本質的分析，解構賽勒布倫尼科夫如何利用影劇雙棲的特質，在荒謬世道中尋找藝術的「生存之道」。

#釀電影#釀評論#藝術評論

2026/02/28