Gemini 應用程式的個人化故事書創作:背後技術大解密

更新 發佈閱讀 4 分鐘

Google 的 Gemini 應用程式近期 (8/5號) 推出了一項引人入勝的新功能:「個人化插圖故事書」(Storybook, https://gemini.google.com/gem/storybook),讓使用者能透過簡單的文字指令,在短短幾分鐘內生成一本圖文並茂、附有語音朗讀的 10 頁數位故事書。這項功能的實現,仰賴於 Google 多項先進的人工智慧技術整合應用。

raw-image

其核心技術主要涵蓋以下三個層面:

1. 強大的大型語言模型 (LLM) - Gemini:

故事的創作核心始於 Gemini 模型本身。使用者輸入的故事情節、角色設定、場景描述,甚至是希望傳達的寓意,都由 Gemini 的大型語言模型進行理解與創作。Gemini 不僅能生成連貫、富有創意的故事文本,更能進一步生成用於圖像生成的提示詞 (prompt)。這意味著 Gemini 不僅是故事的作者,也是指導插畫風格和內容的「導演」。使用者也可以上傳照片或文件,讓 Gemini 從中汲取靈感,創作出更具個人色彩的內容。

2. 先進的圖像生成模型:

當故事文本和圖像提示詞準備就緒後,Gemini 會調用其先進的文生圖模型來繪製插圖。雖然 Google 官方並未明確指出故事書功能使用了哪一款特定的圖像生成模型,但外界普遍推測其背後可能整合了 Google 最新的 Imagen 3 或是專為快速、多模態輸出設計的 Gemini 2.0 Flash 等模型。這些模型能夠根據 Gemini 生成的詳細提示詞,創作出風格多樣的插畫,從像素藝術、漫畫、黏土動畫、鉤針編織到著色本風格,使用者可以自由選擇,為故事書增添獨特的視覺魅力。

3. 自然流暢的文字轉語音 (Text-to-Speech, TTS) 技術:

為了讓故事書更具吸引力,Gemini 還整合了 Google 的文字轉語音技術,為生成的故事提供語音朗讀功能。這項技術能將書面文字轉換為自然、流暢的人聲,讓使用者可以「聽」故事,特別適合親子共讀的場景。使用者甚至可以選擇不同的語音聲調,增添聆聽的樂趣。

整合運作流程:

整個個人化插圖故事書的創建流程可以簡化為以下幾個步驟:

  1. 使用者輸入指令: 使用者在 Gemini 應用程式中,以自然語言描述想要創作的故事主題、角色、情節等。
  2. Gemini 生成文本與圖像提示: Gemini 的大型語言模型根據使用者指令,創作出 10 頁的故事文本,並為每一頁生成對應的圖像生成提示。
  3. 圖像模型繪製插圖: 圖像生成模型接收到提示後,為每一頁故事繪製出符合風格與內容的插圖。
  4. TTS 產生語音: 文字轉語音模型將故事文本轉換為語音檔案。
  5. 整合呈現: Gemini 應用程式將生成的文本、插圖和語音整合在一起,以一本完整的數位故事書形式呈現給使用者。

總而言之,Gemini 的個人化插圖故事書功能,是 Google 在生成式 AI 領域技術實力的一次綜合展現。它巧妙地將大型語言模型、文生圖模型以及文字轉語音技術無縫結合,為使用者提供了一個既簡單又富有創意的工具,將天馬行空的想法轉化為獨一無二的數位藝術品。

留言
avatar-img
Hank吳的沙龍
13會員
158內容數
這不僅僅是一個 Blog,更是一個交流與分享的空間。 期待在這裡與你相遇,一起探索科技、體驗生活、夢想旅行!💖
Hank吳的沙龍的其他內容
2025/08/06
來深入解析一下「真實世界程式設計基準測試 SWE-bench」。 簡單來說,SWE-bench 是一個專門用來評估大型語言模型(LLM)解決真實世界軟體工程問題能力的黃金標準。它跳脫了傳統上讓 AI 解答單一、封閉的程式挑戰(例如「寫一個排序函數」),而是直接將 AI 丟入一個模擬真實軟體工程師工
2025/08/06
來深入解析一下「真實世界程式設計基準測試 SWE-bench」。 簡單來說,SWE-bench 是一個專門用來評估大型語言模型(LLM)解決真實世界軟體工程問題能力的黃金標準。它跳脫了傳統上讓 AI 解答單一、封閉的程式挑戰(例如「寫一個排序函數」),而是直接將 AI 丟入一個模擬真實軟體工程師工
2025/07/31
梅花易數與《周易》使用相同的六十四個卦象,這些卦象是由八個基本卦(經卦)兩兩相疊而成。每個卦象都由一個「上卦」(或稱外卦)和一個「下卦」(或稱內卦)組成,其組合變化揭示了宇宙萬物運行發展的規律。 以下是梅花易數所使用的六十四卦及其卦象結構,依照《周易》的通行順序排列
2025/07/31
梅花易數與《周易》使用相同的六十四個卦象,這些卦象是由八個基本卦(經卦)兩兩相疊而成。每個卦象都由一個「上卦」(或稱外卦)和一個「下卦」(或稱內卦)組成,其組合變化揭示了宇宙萬物運行發展的規律。 以下是梅花易數所使用的六十四卦及其卦象結構,依照《周易》的通行順序排列
2025/07/31
你是不是覺得,現在的AI工具雖然厲害,但還是要你一步步下指令呢?🤔 沒關係,有個超酷的新夥伴出現了,那就是『AI Agent』。 簡單來說,AI Agent 就像是你的「智慧代理人」,你只要給它一個大目標,它就能自己去規劃、執行、甚至找工具來完成任務,整個過程完全不用你操心。
2025/07/31
你是不是覺得,現在的AI工具雖然厲害,但還是要你一步步下指令呢?🤔 沒關係,有個超酷的新夥伴出現了,那就是『AI Agent』。 簡單來說,AI Agent 就像是你的「智慧代理人」,你只要給它一個大目標,它就能自己去規劃、執行、甚至找工具來完成任務,整個過程完全不用你操心。
看更多
你可能也想看
Thumbnail
賽勒布倫尼科夫以流亡處境回望蘇聯電影導演帕拉贊諾夫的舞台作品,以十段寓言式殘篇,重新拼貼記憶、暴力與美學,並將審查、政治犯、戰爭陰影與「形式即政治」的劇場傳統推到台前。本文聚焦於《傳奇:帕拉贊諾夫的十段殘篇》的舞台美術、音樂與多重扮演策略,嘗試解析極權底下不可言說之事,將如何成為可被觀看的公共發聲。
Thumbnail
賽勒布倫尼科夫以流亡處境回望蘇聯電影導演帕拉贊諾夫的舞台作品,以十段寓言式殘篇,重新拼貼記憶、暴力與美學,並將審查、政治犯、戰爭陰影與「形式即政治」的劇場傳統推到台前。本文聚焦於《傳奇:帕拉贊諾夫的十段殘篇》的舞台美術、音樂與多重扮演策略,嘗試解析極權底下不可言說之事,將如何成為可被觀看的公共發聲。
Thumbnail
柏林劇團在 2026 北藝嚴選,再次帶來由布萊希特改編的經典劇目《三便士歌劇》(The Threepenny Opera),導演巴里・柯斯基以舞台結構與舞台調度,重新向「疏離」進行提問。本文將從觀眾慾望作為戲劇內核,藉由沉浸與疏離的辯證,解析此作如何再次照見觀眾自身的位置。
Thumbnail
柏林劇團在 2026 北藝嚴選,再次帶來由布萊希特改編的經典劇目《三便士歌劇》(The Threepenny Opera),導演巴里・柯斯基以舞台結構與舞台調度,重新向「疏離」進行提問。本文將從觀眾慾望作為戲劇內核,藉由沉浸與疏離的辯證,解析此作如何再次照見觀眾自身的位置。
Thumbnail
本文深入解析臺灣劇團「晃晃跨幅町」對易卜生經典劇作《海妲.蓋柏樂》的詮釋,從劇本歷史、聲響與舞臺設計,到演員的主體創作方法,探討此版本如何讓經典劇作在當代劇場語境下煥發新生,滿足現代觀眾的觀看慾望。
Thumbnail
本文深入解析臺灣劇團「晃晃跨幅町」對易卜生經典劇作《海妲.蓋柏樂》的詮釋,從劇本歷史、聲響與舞臺設計,到演員的主體創作方法,探討此版本如何讓經典劇作在當代劇場語境下煥發新生,滿足現代觀眾的觀看慾望。
Thumbnail
《轉轉生》為奈及利亞編舞家庫德斯.奧尼奎庫與 Q 舞團創作的當代舞蹈作品,融合舞蹈、音樂、時尚和視覺藝術,透過身體、服裝與群舞結構,回應殖民歷史、城市經驗與祖靈記憶的交錯。本文將從服裝設計、身體語彙與「輪迴」的「誕生—死亡—重生」結構出發,分析《轉轉生》如何以當代目光,形塑去殖民視角的奈及利亞歷史。
Thumbnail
《轉轉生》為奈及利亞編舞家庫德斯.奧尼奎庫與 Q 舞團創作的當代舞蹈作品,融合舞蹈、音樂、時尚和視覺藝術,透過身體、服裝與群舞結構,回應殖民歷史、城市經驗與祖靈記憶的交錯。本文將從服裝設計、身體語彙與「輪迴」的「誕生—死亡—重生」結構出發,分析《轉轉生》如何以當代目光,形塑去殖民視角的奈及利亞歷史。
Thumbnail
你有幾個 Google 帳號?Google 提供許多免費的應用程式,包括大家最常使用的地圖、YouTube、 email、日曆、Meet、Gemini、雲端硬碟、翻譯、文件、Google表單…等,如果你還沒有申請過 Google 帳號,請 抽空到此申請,免費體驗各種功能豐富的應用程式。 下圖右邊都
Thumbnail
你有幾個 Google 帳號?Google 提供許多免費的應用程式,包括大家最常使用的地圖、YouTube、 email、日曆、Meet、Gemini、雲端硬碟、翻譯、文件、Google表單…等,如果你還沒有申請過 Google 帳號,請 抽空到此申請,免費體驗各種功能豐富的應用程式。 下圖右邊都
Thumbnail
基於大型語言模型的 AI 聊天服務可以協助完成多項工作,為了提升 AI 聊天的互動便利性,許多開發者打造了不同性質的擴充功能,Ask Screenshot for Gemini 就是一款能快速將網頁文字與截圖傳送至 Gemini 對話框的實用工具。
Thumbnail
基於大型語言模型的 AI 聊天服務可以協助完成多項工作,為了提升 AI 聊天的互動便利性,許多開發者打造了不同性質的擴充功能,Ask Screenshot for Gemini 就是一款能快速將網頁文字與截圖傳送至 Gemini 對話框的實用工具。
Thumbnail
近日,Google Chrome 發佈最新版本,新版瀏覽器多了「與 Gemini 對話」,在網址列輸入「@」可以選擇與 Gemini 對話,接著輸入對話指令即可傳送至 Gemini 聊天服務並獲得回覆。
Thumbnail
近日,Google Chrome 發佈最新版本,新版瀏覽器多了「與 Gemini 對話」,在網址列輸入「@」可以選擇與 Gemini 對話,接著輸入對話指令即可傳送至 Gemini 聊天服務並獲得回覆。
Thumbnail
Google 提供了免費的雲端服務 Google Apps Script (GAS) ,我們可以撰寫一些簡易的程式APP,串接其他 Google 雲端服務 如 Google Docs ,Sheets …,就能夠幫助我們利用雲端硬碟做日常工作
Thumbnail
Google 提供了免費的雲端服務 Google Apps Script (GAS) ,我們可以撰寫一些簡易的程式APP,串接其他 Google 雲端服務 如 Google Docs ,Sheets …,就能夠幫助我們利用雲端硬碟做日常工作
Thumbnail
運用生成的AI圖像來激發視覺和創意,無論是生成素材、用在社交媒體上,這些圖像都能為你的的視覺帶來獨特的風格。
Thumbnail
運用生成的AI圖像來激發視覺和創意,無論是生成素材、用在社交媒體上,這些圖像都能為你的的視覺帶來獨特的風格。
Thumbnail
Gemini Pro 1.0 和 Gemini Pro 1.5 都是強大的工具,但它們適用於不同的需求並提供不同的功能。以下是它們的主要區別: 模態性 Gemini Pro 1.0 主要基於文字,對圖片和視頻的支持有限(1.0-pro-vision)。 Gemini Pro 1.5 真正的多模
Thumbnail
Gemini Pro 1.0 和 Gemini Pro 1.5 都是強大的工具,但它們適用於不同的需求並提供不同的功能。以下是它們的主要區別: 模態性 Gemini Pro 1.0 主要基於文字,對圖片和視頻的支持有限(1.0-pro-vision)。 Gemini Pro 1.5 真正的多模
Thumbnail
Gamma是可以使用AI在幾秒鐘內創建精美的文件,簡報和網頁。他可以快速幫你針對主題生成簡報大綱並且幫你快速產生排版美麗的簡報。
Thumbnail
Gamma是可以使用AI在幾秒鐘內創建精美的文件,簡報和網頁。他可以快速幫你針對主題生成簡報大綱並且幫你快速產生排版美麗的簡報。
Thumbnail
讓「Gamma」幫你做簡報,還可以幫你整理簡報大綱,簡報排版美化!靈感激盪跟簡報製作就靠它了!
Thumbnail
讓「Gamma」幫你做簡報,還可以幫你整理簡報大綱,簡報排版美化!靈感激盪跟簡報製作就靠它了!
追蹤感興趣的內容從 Google News 追蹤更多 vocus 的最新精選內容追蹤 Google News