Gemini 應用程式的個人化故事書創作:背後技術大解密

更新於 發佈於 閱讀時間約 4 分鐘

Google 的 Gemini 應用程式近期 (8/5號) 推出了一項引人入勝的新功能:「個人化插圖故事書」(Storybook, https://gemini.google.com/gem/storybook),讓使用者能透過簡單的文字指令,在短短幾分鐘內生成一本圖文並茂、附有語音朗讀的 10 頁數位故事書。這項功能的實現,仰賴於 Google 多項先進的人工智慧技術整合應用。

raw-image

其核心技術主要涵蓋以下三個層面:

1. 強大的大型語言模型 (LLM) - Gemini:

故事的創作核心始於 Gemini 模型本身。使用者輸入的故事情節、角色設定、場景描述,甚至是希望傳達的寓意,都由 Gemini 的大型語言模型進行理解與創作。Gemini 不僅能生成連貫、富有創意的故事文本,更能進一步生成用於圖像生成的提示詞 (prompt)。這意味著 Gemini 不僅是故事的作者,也是指導插畫風格和內容的「導演」。使用者也可以上傳照片或文件,讓 Gemini 從中汲取靈感,創作出更具個人色彩的內容。

2. 先進的圖像生成模型:

當故事文本和圖像提示詞準備就緒後,Gemini 會調用其先進的文生圖模型來繪製插圖。雖然 Google 官方並未明確指出故事書功能使用了哪一款特定的圖像生成模型,但外界普遍推測其背後可能整合了 Google 最新的 Imagen 3 或是專為快速、多模態輸出設計的 Gemini 2.0 Flash 等模型。這些模型能夠根據 Gemini 生成的詳細提示詞,創作出風格多樣的插畫,從像素藝術、漫畫、黏土動畫、鉤針編織到著色本風格,使用者可以自由選擇,為故事書增添獨特的視覺魅力。

3. 自然流暢的文字轉語音 (Text-to-Speech, TTS) 技術:

為了讓故事書更具吸引力,Gemini 還整合了 Google 的文字轉語音技術,為生成的故事提供語音朗讀功能。這項技術能將書面文字轉換為自然、流暢的人聲,讓使用者可以「聽」故事,特別適合親子共讀的場景。使用者甚至可以選擇不同的語音聲調,增添聆聽的樂趣。

整合運作流程:

整個個人化插圖故事書的創建流程可以簡化為以下幾個步驟:

  1. 使用者輸入指令: 使用者在 Gemini 應用程式中,以自然語言描述想要創作的故事主題、角色、情節等。
  2. Gemini 生成文本與圖像提示: Gemini 的大型語言模型根據使用者指令,創作出 10 頁的故事文本,並為每一頁生成對應的圖像生成提示。
  3. 圖像模型繪製插圖: 圖像生成模型接收到提示後,為每一頁故事繪製出符合風格與內容的插圖。
  4. TTS 產生語音: 文字轉語音模型將故事文本轉換為語音檔案。
  5. 整合呈現: Gemini 應用程式將生成的文本、插圖和語音整合在一起,以一本完整的數位故事書形式呈現給使用者。

總而言之,Gemini 的個人化插圖故事書功能,是 Google 在生成式 AI 領域技術實力的一次綜合展現。它巧妙地將大型語言模型、文生圖模型以及文字轉語音技術無縫結合,為使用者提供了一個既簡單又富有創意的工具,將天馬行空的想法轉化為獨一無二的數位藝術品。

留言
avatar-img
留言分享你的想法!
avatar-img
Hank吳的沙龍
0會員
82內容數
這不僅僅是一個 Blog,更是一個交流與分享的空間。 期待在這裡與你相遇,一起探索科技、體驗生活、夢想旅行!💖
Hank吳的沙龍的其他內容
2025/08/06
來深入解析一下「真實世界程式設計基準測試 SWE-bench」。 簡單來說,SWE-bench 是一個專門用來評估大型語言模型(LLM)解決真實世界軟體工程問題能力的黃金標準。它跳脫了傳統上讓 AI 解答單一、封閉的程式挑戰(例如「寫一個排序函數」),而是直接將 AI 丟入一個模擬真實軟體工程師工
2025/08/06
來深入解析一下「真實世界程式設計基準測試 SWE-bench」。 簡單來說,SWE-bench 是一個專門用來評估大型語言模型(LLM)解決真實世界軟體工程問題能力的黃金標準。它跳脫了傳統上讓 AI 解答單一、封閉的程式挑戰(例如「寫一個排序函數」),而是直接將 AI 丟入一個模擬真實軟體工程師工
2025/07/31
梅花易數與《周易》使用相同的六十四個卦象,這些卦象是由八個基本卦(經卦)兩兩相疊而成。每個卦象都由一個「上卦」(或稱外卦)和一個「下卦」(或稱內卦)組成,其組合變化揭示了宇宙萬物運行發展的規律。 以下是梅花易數所使用的六十四卦及其卦象結構,依照《周易》的通行順序排列
2025/07/31
梅花易數與《周易》使用相同的六十四個卦象,這些卦象是由八個基本卦(經卦)兩兩相疊而成。每個卦象都由一個「上卦」(或稱外卦)和一個「下卦」(或稱內卦)組成,其組合變化揭示了宇宙萬物運行發展的規律。 以下是梅花易數所使用的六十四卦及其卦象結構,依照《周易》的通行順序排列
2025/07/31
你是不是覺得,現在的AI工具雖然厲害,但還是要你一步步下指令呢?🤔 沒關係,有個超酷的新夥伴出現了,那就是『AI Agent』。 簡單來說,AI Agent 就像是你的「智慧代理人」,你只要給它一個大目標,它就能自己去規劃、執行、甚至找工具來完成任務,整個過程完全不用你操心。
2025/07/31
你是不是覺得,現在的AI工具雖然厲害,但還是要你一步步下指令呢?🤔 沒關係,有個超酷的新夥伴出現了,那就是『AI Agent』。 簡單來說,AI Agent 就像是你的「智慧代理人」,你只要給它一個大目標,它就能自己去規劃、執行、甚至找工具來完成任務,整個過程完全不用你操心。
看更多
你可能也想看
Thumbnail
2025 vocus 推出最受矚目的活動之一——《開箱你的美好生活》,我們跟著創作者一起「開箱」各種故事、景點、餐廳、超值好物⋯⋯甚至那些讓人會心一笑的生活小廢物;這次活動不僅送出了許多獎勵,也反映了「內容有價」——創作不只是分享、紀錄,也能用各種不同形式變現、帶來實際收入。
Thumbnail
2025 vocus 推出最受矚目的活動之一——《開箱你的美好生活》,我們跟著創作者一起「開箱」各種故事、景點、餐廳、超值好物⋯⋯甚至那些讓人會心一笑的生活小廢物;這次活動不僅送出了許多獎勵,也反映了「內容有價」——創作不只是分享、紀錄,也能用各種不同形式變現、帶來實際收入。
Thumbnail
嗨!歡迎來到 vocus vocus 方格子是台灣最大的內容創作與知識變現平台,並且計畫持續拓展東南亞等等國際市場。我們致力於打造讓創作者能夠自由發表、累積影響力並獲得實質收益的創作生態圈!「創作至上」是我們的核心價值,我們致力於透過平台功能與服務,賦予創作者更多的可能。 vocus 平台匯聚了
Thumbnail
嗨!歡迎來到 vocus vocus 方格子是台灣最大的內容創作與知識變現平台,並且計畫持續拓展東南亞等等國際市場。我們致力於打造讓創作者能夠自由發表、累積影響力並獲得實質收益的創作生態圈!「創作至上」是我們的核心價值,我們致力於透過平台功能與服務,賦予創作者更多的可能。 vocus 平台匯聚了
Thumbnail
你有幾個 Google 帳號?Google 提供許多免費的應用程式,包括大家最常使用的地圖、YouTube、 email、日曆、Meet、Gemini、雲端硬碟、翻譯、文件、Google表單…等,如果你還沒有申請過 Google 帳號,請 抽空到此申請,免費體驗各種功能豐富的應用程式。 下圖右邊都
Thumbnail
你有幾個 Google 帳號?Google 提供許多免費的應用程式,包括大家最常使用的地圖、YouTube、 email、日曆、Meet、Gemini、雲端硬碟、翻譯、文件、Google表單…等,如果你還沒有申請過 Google 帳號,請 抽空到此申請,免費體驗各種功能豐富的應用程式。 下圖右邊都
Thumbnail
基於大型語言模型的 AI 聊天服務可以協助完成多項工作,為了提升 AI 聊天的互動便利性,許多開發者打造了不同性質的擴充功能,Ask Screenshot for Gemini 就是一款能快速將網頁文字與截圖傳送至 Gemini 對話框的實用工具。
Thumbnail
基於大型語言模型的 AI 聊天服務可以協助完成多項工作,為了提升 AI 聊天的互動便利性,許多開發者打造了不同性質的擴充功能,Ask Screenshot for Gemini 就是一款能快速將網頁文字與截圖傳送至 Gemini 對話框的實用工具。
Thumbnail
近日,Google Chrome 發佈最新版本,新版瀏覽器多了「與 Gemini 對話」,在網址列輸入「@」可以選擇與 Gemini 對話,接著輸入對話指令即可傳送至 Gemini 聊天服務並獲得回覆。
Thumbnail
近日,Google Chrome 發佈最新版本,新版瀏覽器多了「與 Gemini 對話」,在網址列輸入「@」可以選擇與 Gemini 對話,接著輸入對話指令即可傳送至 Gemini 聊天服務並獲得回覆。
Thumbnail
Google 提供了免費的雲端服務 Google Apps Script (GAS) ,我們可以撰寫一些簡易的程式APP,串接其他 Google 雲端服務 如 Google Docs ,Sheets …,就能夠幫助我們利用雲端硬碟做日常工作
Thumbnail
Google 提供了免費的雲端服務 Google Apps Script (GAS) ,我們可以撰寫一些簡易的程式APP,串接其他 Google 雲端服務 如 Google Docs ,Sheets …,就能夠幫助我們利用雲端硬碟做日常工作
Thumbnail
運用生成的AI圖像來激發視覺和創意,無論是生成素材、用在社交媒體上,這些圖像都能為你的的視覺帶來獨特的風格。
Thumbnail
運用生成的AI圖像來激發視覺和創意,無論是生成素材、用在社交媒體上,這些圖像都能為你的的視覺帶來獨特的風格。
Thumbnail
Gemini Pro 1.0 和 Gemini Pro 1.5 都是強大的工具,但它們適用於不同的需求並提供不同的功能。以下是它們的主要區別: 模態性 Gemini Pro 1.0 主要基於文字,對圖片和視頻的支持有限(1.0-pro-vision)。 Gemini Pro 1.5 真正的多模
Thumbnail
Gemini Pro 1.0 和 Gemini Pro 1.5 都是強大的工具,但它們適用於不同的需求並提供不同的功能。以下是它們的主要區別: 模態性 Gemini Pro 1.0 主要基於文字,對圖片和視頻的支持有限(1.0-pro-vision)。 Gemini Pro 1.5 真正的多模
Thumbnail
Gamma是可以使用AI在幾秒鐘內創建精美的文件,簡報和網頁。他可以快速幫你針對主題生成簡報大綱並且幫你快速產生排版美麗的簡報。
Thumbnail
Gamma是可以使用AI在幾秒鐘內創建精美的文件,簡報和網頁。他可以快速幫你針對主題生成簡報大綱並且幫你快速產生排版美麗的簡報。
Thumbnail
讓「Gamma」幫你做簡報,還可以幫你整理簡報大綱,簡報排版美化!靈感激盪跟簡報製作就靠它了!
Thumbnail
讓「Gamma」幫你做簡報,還可以幫你整理簡報大綱,簡報排版美化!靈感激盪跟簡報製作就靠它了!
Thumbnail
今天我大致問了Gemini兩大類問題, 第一類是問,策展人的型態。Gemini不僅提供我四類策展人的型態,也提供了無論哪一類策展人都需要的能力。以下是Gemini提供的內容:
Thumbnail
今天我大致問了Gemini兩大類問題, 第一類是問,策展人的型態。Gemini不僅提供我四類策展人的型態,也提供了無論哪一類策展人都需要的能力。以下是Gemini提供的內容:
Thumbnail
Gamma是一款AI生成工具,透過對話的方式,可以快速生成文件、簡報及網頁內容。除了提供大量模板使用外,產品最大特色是可以嵌入外部的影片、圖庫(Unsplash、Bing搜尋等)、多元應用程式及簡報觀看數據分析功能。
Thumbnail
Gamma是一款AI生成工具,透過對話的方式,可以快速生成文件、簡報及網頁內容。除了提供大量模板使用外,產品最大特色是可以嵌入外部的影片、圖庫(Unsplash、Bing搜尋等)、多元應用程式及簡報觀看數據分析功能。
追蹤感興趣的內容從 Google News 追蹤更多 vocus 的最新精選內容追蹤 Google News