Google 的 Gemini 應用程式近期 (8/5號) 推出了一項引人入勝的新功能:「個人化插圖故事書」(Storybook, https://gemini.google.com/gem/storybook),讓使用者能透過簡單的文字指令,在短短幾分鐘內生成一本圖文並茂、附有語音朗讀的 10 頁數位故事書。這項功能的實現,仰賴於 Google 多項先進的人工智慧技術整合應用。

其核心技術主要涵蓋以下三個層面:
1. 強大的大型語言模型 (LLM) - Gemini:故事的創作核心始於 Gemini 模型本身。使用者輸入的故事情節、角色設定、場景描述,甚至是希望傳達的寓意,都由 Gemini 的大型語言模型進行理解與創作。Gemini 不僅能生成連貫、富有創意的故事文本,更能進一步生成用於圖像生成的提示詞 (prompt)。這意味著 Gemini 不僅是故事的作者,也是指導插畫風格和內容的「導演」。使用者也可以上傳照片或文件,讓 Gemini 從中汲取靈感,創作出更具個人色彩的內容。
2. 先進的圖像生成模型:
當故事文本和圖像提示詞準備就緒後,Gemini 會調用其先進的文生圖模型來繪製插圖。雖然 Google 官方並未明確指出故事書功能使用了哪一款特定的圖像生成模型,但外界普遍推測其背後可能整合了 Google 最新的 Imagen 3 或是專為快速、多模態輸出設計的 Gemini 2.0 Flash 等模型。這些模型能夠根據 Gemini 生成的詳細提示詞,創作出風格多樣的插畫,從像素藝術、漫畫、黏土動畫、鉤針編織到著色本風格,使用者可以自由選擇,為故事書增添獨特的視覺魅力。
3. 自然流暢的文字轉語音 (Text-to-Speech, TTS) 技術:
為了讓故事書更具吸引力,Gemini 還整合了 Google 的文字轉語音技術,為生成的故事提供語音朗讀功能。這項技術能將書面文字轉換為自然、流暢的人聲,讓使用者可以「聽」故事,特別適合親子共讀的場景。使用者甚至可以選擇不同的語音聲調,增添聆聽的樂趣。
整合運作流程:
整個個人化插圖故事書的創建流程可以簡化為以下幾個步驟:
- 使用者輸入指令: 使用者在 Gemini 應用程式中,以自然語言描述想要創作的故事主題、角色、情節等。
- Gemini 生成文本與圖像提示: Gemini 的大型語言模型根據使用者指令,創作出 10 頁的故事文本,並為每一頁生成對應的圖像生成提示。
- 圖像模型繪製插圖: 圖像生成模型接收到提示後,為每一頁故事繪製出符合風格與內容的插圖。
- TTS 產生語音: 文字轉語音模型將故事文本轉換為語音檔案。
- 整合呈現: Gemini 應用程式將生成的文本、插圖和語音整合在一起,以一本完整的數位故事書形式呈現給使用者。
總而言之,Gemini 的個人化插圖故事書功能,是 Google 在生成式 AI 領域技術實力的一次綜合展現。它巧妙地將大型語言模型、文生圖模型以及文字轉語音技術無縫結合,為使用者提供了一個既簡單又富有創意的工具,將天馬行空的想法轉化為獨一無二的數位藝術品。