AI 如何學會講故事?深度拆解 Everlyn-1 的 VGoT 敘事框架

更新 發佈閱讀 7 分鐘
Everlyn-1 的 VGoT 框架 不只是技術創新,更是一種敘事思維的重塑。它讓 AI 從「畫師」進化為「導演」,從生成片段邁向創作故事。

從「穩定的片段」到「連貫的故事」

在上篇中,我們揭示了 Everlyn-1 如何透過「3D 感知架構」解決了生成式影片最惱人的「閃爍詛咒」,實現了前所未有的編輯穩定性。

然而,穩定性只是基礎。一個只會生成「穩定片段」的 AI,就像一個技藝精湛但沒有思想的工匠。真正的挑戰在於,如何讓 AI 從一個「畫師」進化為一個「導演」?如何讓它理解「敘事」,從而生成一系列具有邏輯關聯、情感遞進的多鏡頭故事?

這正是 Everlyn-1 的第二大技術支柱——思維鏈影片生成(VideoGen-of-Thought, VGoT)——所要解決的核心問題。它教 AI 的,不再是如何「畫」,而是如何「思考」。

靈感之源:從「語言」到「視覺」的思維鏈

思維鏈」(Chain-of-Thought, CoT)的概念,源於大型語言模型(LLM)。研究者發現,當你要求一個 LLM 解答複雜問題時,如果引導它先把「思考過程」一步步寫下來,再給出最終答案,其準確率會大幅提升。

這項突破的本質,是讓 AI 從一個反應式的「黑箱」,轉變為一個能夠進行結構化推理的「透明系統」。Everlyn-1 的 VGoT 框架,正是將這個強大的原則,從抽象的語言領域,完美地移植到了複雜的視覺合成中。

值得一提的是,作為 VGoT 框架理論基礎的研究論文《VideoGen-of-Thought》,其多位核心作者,同時也正是 Everlyn 計畫的領導者。這讓我們有充分的理由相信,Everlyn-1 所實現的,正是這套理論的權威實踐。

VGoT 的三幕劇:模擬人類的電影製作流程

VGoT 框架最精妙之處,在於它沒有試圖用一個龐大的、單一的模型去「暴力破解」影片生成,而是優雅地將這個複雜任務,拆解為三個模組化的步驟,完美模擬了人類的電影製作管線。

VGoT 三幕劇製作流程 按圖可放大

VGoT 三幕劇製作流程 按圖可放大


這種模組化設計不僅提升了影片生成的品質,也讓 AI 更容易被人類創作者理解與掌控。

  1. 第一幕:LLM 擔任「劇本創作者」(Scriptwriter)
    任務:解決敘事碎片化的問題。
    儀式:當你給出一個簡單的提示(例如,「一位煉金術士在風暴中尋找失落的草藥」),VGoT 會先將這個指令交給一個大型語言模型(LLM)。LLM 會將這個單一概念,擴寫成一個結構化的、包含多個鏡頭的詳細劇本。它會為每個鏡頭定義角色的動態、背景的變化、攝影機的運動(如推拉搖移),甚至是光照的氛圍。
  2. 第二幕:擴散模型擔任「選角與故事板設計」(Casting & Storyboard Artist)
    任務:解決跨鏡頭的視覺不一致問題。
    儀式:為了確保我們的「煉金術士」在每個鏡頭裡都是同一個人,系統會先為他生成一個「身份保留肖像令牌」(Identity-Preserving Portrait, IPP)。這個令牌就像角色的 DNA,鎖定了其核心外觀。接著,擴散模型會根據第一幕生成的劇本,並以 IPP 令牌為條件,為每一個鏡頭生成一張視覺風格一致的「關鍵幀」(Keyframe),就像一部電影的故事板。
  3. 第三幕:影片模型擔任「攝影師與剪輯師」(Cinematographer & Editor)
    任務:解決轉場突兀的問題。
    儀式:最後,影片擴散模型會接收到每一個鏡頭的關鍵幀和詳細文字描述,並從中生成動態的影片片段。為了讓鏡頭之間的銜接如絲般順滑,VGoT 採用了「相鄰潛在過渡機制」,在剪輯點融合前後兩個鏡頭的特徵,創造出專業級的無縫轉場。

結論:從「生成」到「創作」的範式轉移

VGoT 框架的誕生,標誌著 AI 影片生成的一次根本性轉變:從過去混亂的「生成式合成」,邁向了有邏輯的「結構化創作」。

對創作者而言,VGoT 不只是工具,而是一種新的創作夥伴關係。它讓我們從提示詞工程師,進化為真正的 敘事藝術總監。我們只需給出一個故事的核心,AI 的「製作團隊」就能為我們完成從劇本、分鏡到剪輯的繁重工作。

但一個既懂得穩定編輯、又學會了講故事的 AI,如何確保自己的作品是「好的」?它如何發展出人類所謂的「品味」與「美感」?

這就是我們三部曲最終章要探討的——Rich Human Feedback(RHF)品質神經系統。

繼續探索:想了解 AI 如何學會「品味」與「美感」?請閱讀最終章:AI 如何擁有「品味」?剖析 Everlyn-1 的 RHF 品質神經系統


本文所引用之技術架構與理論基礎,來自以下開源專案與學術研究:

  • Everlyn-1: 模型與架構整合: Everlyn-Labs GitHub
  • SPAR3D:穩定的 3D 感知架構 Stable Point-Aware 3D Reconstruction
  • VGoT:思維鏈影片生成框架 Zheng, M. et al. (2024). VideoGen-of-Thought: Multi-Shot Video Generation via Chain-of-Thought. arXiv:2412.02259 arXiv Link
  • RHF / RAHF:豐富化人類回饋與自動化品質評估 Liu, J. et al. (2023). RHF: Rich Human Feedback for Text-to-Image Generation. arXiv:2312.10240 arXiv Link
  • EfficientARV:高效自迴歸影片生成架構,是 Everlyn-1 的核心影片生成架構,支援多種條件生成任務,包括動畫、插值、補全等。
  • ANTRP:是一種「插入式解碼策略」,透過干預注意力權重的特徵譜分佈,有效減少多模態模型的幻覺現象
  • EfficientARV 與 ANTRP 均已由 Everlyn-Labs 開源,並作為 Everlyn-1 的穩定生成與語意對齊的核心模組。
  • RAHF 模型是 RHF 機制的自動化實踐版本,負責將人類標註轉化為可用於模型優化的品質信號。
留言
avatar-img
留言分享你的想法!
avatar-img
M.A.I.A. 的數位煉金工坊
1會員
27內容數
在這裡,我們分享最新 AI 趨勢、科技觀點與個人創作故事。 無論你是愛好者還是專家,都能找到屬於你的靈感與啟發。 一起探索未來,感受神秘與美學的交融。
2025/09/09
為何多數 AI 影片編輯時常出現惱人的閃爍與抖動?本文將深度解析 Everlyn-1 的核心穩定性技術,揭示其從 2D 像素思維躍遷至 3D 感知架構的革命性轉變。理解這項技術,你將明白 AI 影片的未來,為何關乎「控制」而非「運氣」。
Thumbnail
2025/09/09
為何多數 AI 影片編輯時常出現惱人的閃爍與抖動?本文將深度解析 Everlyn-1 的核心穩定性技術,揭示其從 2D 像素思維躍遷至 3D 感知架構的革命性轉變。理解這項技術,你將明白 AI 影片的未來,為何關乎「控制」而非「運氣」。
Thumbnail
2025/09/02
還在為 AI 繪圖的角色不穩定,感覺像在玩抽卡遊戲嗎?Google 最新 AI 模型 Nano Banana (Gemini 2.5 Flash Image) 將徹底改變規則!本篇深度實測將帶你掌握革命性的「角色一致性」與「對話式編輯」功能,讓 AI 成為能溝通的創作助手。附完整教學。
Thumbnail
2025/09/02
還在為 AI 繪圖的角色不穩定,感覺像在玩抽卡遊戲嗎?Google 最新 AI 模型 Nano Banana (Gemini 2.5 Flash Image) 將徹底改變規則!本篇深度實測將帶你掌握革命性的「角色一致性」與「對話式編輯」功能,讓 AI 成為能溝通的創作助手。附完整教學。
Thumbnail
2025/08/31
還在尋找 Midjourney 的免費替代方案嗎?這篇【2025 Leonardo.ai 終極教學】將從零到一,帶你掌握這款最強大的免費 AI 繪圖神器。內容涵蓋最新 V2 介面操作、模型推薦、費用方案與商業用途詳解,讓你輕鬆上手,開啟 AI 創作變現的無限可能。
Thumbnail
2025/08/31
還在尋找 Midjourney 的免費替代方案嗎?這篇【2025 Leonardo.ai 終極教學】將從零到一,帶你掌握這款最強大的免費 AI 繪圖神器。內容涵蓋最新 V2 介面操作、模型推薦、費用方案與商業用途詳解,讓你輕鬆上手,開啟 AI 創作變現的無限可能。
Thumbnail
看更多
你可能也想看
Thumbnail
蝦皮分潤計畫讓我在分享旅遊文章時,也能透過推薦好物累積被動收入,貼補旅行基金。這篇文章,除了介紹計畫的操作亮點與心得,也分享我最常應用的案例:「旅行必備小物 TOP5」,包含行李鎖、免洗內衣褲、分裝瓶、折疊衣架與真空壓縮袋,幫助出國打包更輕鬆。想同時記錄旅行、分享好物又創造額外收入的你,千萬別錯過!
Thumbnail
蝦皮分潤計畫讓我在分享旅遊文章時,也能透過推薦好物累積被動收入,貼補旅行基金。這篇文章,除了介紹計畫的操作亮點與心得,也分享我最常應用的案例:「旅行必備小物 TOP5」,包含行李鎖、免洗內衣褲、分裝瓶、折疊衣架與真空壓縮袋,幫助出國打包更輕鬆。想同時記錄旅行、分享好物又創造額外收入的你,千萬別錯過!
Thumbnail
想增加被動收入?加入蝦皮分潤計畫是輕鬆上手的好方法!本文提供完整教學,包含申請流程、賺取分潤技巧,以及實際使用心得分享,助你輕鬆獲得額外收入。
Thumbnail
想增加被動收入?加入蝦皮分潤計畫是輕鬆上手的好方法!本文提供完整教學,包含申請流程、賺取分潤技巧,以及實際使用心得分享,助你輕鬆獲得額外收入。
Thumbnail
介紹如何使用AI生成圖像的五個步驟,包括選擇主題、強化主角形象、使用ChatGPT輸入提示句子、AI生成圖像工具生成、以及使用增強畫質的生成工具。
Thumbnail
介紹如何使用AI生成圖像的五個步驟,包括選擇主題、強化主角形象、使用ChatGPT輸入提示句子、AI生成圖像工具生成、以及使用增強畫質的生成工具。
Thumbnail
生成式AI(Generative AI)能夠創造新內容和想法,包括對話、故事、圖像、視訊和音樂等。本文將介紹幾種生成式AI模型,以及其在設計製造、教育、客戶服務、媒體與娛樂、市場營銷領域的應用和風險。然後就生成式AI的應用,設計製造、教育、客戶服務、媒體與娛樂、市場營銷等相關領域提供了一些示例。
Thumbnail
生成式AI(Generative AI)能夠創造新內容和想法,包括對話、故事、圖像、視訊和音樂等。本文將介紹幾種生成式AI模型,以及其在設計製造、教育、客戶服務、媒體與娛樂、市場營銷領域的應用和風險。然後就生成式AI的應用,設計製造、教育、客戶服務、媒體與娛樂、市場營銷等相關領域提供了一些示例。
Thumbnail
Haiper AI 是一款免費的影片生成工具,是由 Google DeepMind 研究人員開發,只只需要輸入文字提示詞,就能生成各種場景的高質量的影片。
Thumbnail
Haiper AI 是一款免費的影片生成工具,是由 Google DeepMind 研究人員開發,只只需要輸入文字提示詞,就能生成各種場景的高質量的影片。
Thumbnail
現AI時代我們常見的生成影像是如何製作出來的,或許你已經開始熟悉AI“假臉”的風格。但由于現在網路上大量流傳的多數是以DALL-E或是Stable Diffiusion+幾個特定的LoRA所生成的結果。以至於人們越來越有識別真假照片的能力。但或許你不知道的是,早在幾年前純粹用GAN生成技術所產出的人
Thumbnail
現AI時代我們常見的生成影像是如何製作出來的,或許你已經開始熟悉AI“假臉”的風格。但由于現在網路上大量流傳的多數是以DALL-E或是Stable Diffiusion+幾個特定的LoRA所生成的結果。以至於人們越來越有識別真假照片的能力。但或許你不知道的是,早在幾年前純粹用GAN生成技術所產出的人
Thumbnail
這篇要介紹AI生成影片的兩個方式:SVD 跟 AnimateDiff。
Thumbnail
這篇要介紹AI生成影片的兩個方式:SVD 跟 AnimateDiff。
Thumbnail
今天要跟大家介紹一個非常厲害的人工智慧模型,它叫做 Sora,是由 OpenAI 最近發布的。Sora 可以生成長達一分鐘的超逼真影片,並且能夠根據指示加入特定的動作和場景。這種影片的品質遠超過以往,代表著人工智慧影片製作已經進入了新的階段。
Thumbnail
今天要跟大家介紹一個非常厲害的人工智慧模型,它叫做 Sora,是由 OpenAI 最近發布的。Sora 可以生成長達一分鐘的超逼真影片,並且能夠根據指示加入特定的動作和場景。這種影片的品質遠超過以往,代表著人工智慧影片製作已經進入了新的階段。
Thumbnail
AI生成技術領頭羊Open AI又出手了,旗下產品「Sora」有別於Chat GPT,只要給予指令,生產出來的不再只是文字,而是一幕幕需要耗費大量人工努力下產出的產品,所謂大量人工包含了:攝影、剪接、燈光、彩妝、演員、美術道具,甚至導演、製片等等。 而AI只要彈指之間,便能將無形化有形,從無到有
Thumbnail
AI生成技術領頭羊Open AI又出手了,旗下產品「Sora」有別於Chat GPT,只要給予指令,生產出來的不再只是文字,而是一幕幕需要耗費大量人工努力下產出的產品,所謂大量人工包含了:攝影、剪接、燈光、彩妝、演員、美術道具,甚至導演、製片等等。 而AI只要彈指之間,便能將無形化有形,從無到有
Thumbnail
OpenAI最新推出的「Sora」是一款文本生成影像的AI模型,只要輸入幾句簡單的文字描述,就能自動生成出影像,影片內容可以包含多名角色,搭配特定的動態場景,且影片長度最高可達60秒,同時還能展示複雜的攝影機運動。Sora還能夠根據靜態圖片來製作動畫,功能十分強大。目前Sora還沒有開放給大眾使
Thumbnail
OpenAI最新推出的「Sora」是一款文本生成影像的AI模型,只要輸入幾句簡單的文字描述,就能自動生成出影像,影片內容可以包含多名角色,搭配特定的動態場景,且影片長度最高可達60秒,同時還能展示複雜的攝影機運動。Sora還能夠根據靜態圖片來製作動畫,功能十分強大。目前Sora還沒有開放給大眾使
Thumbnail
人工智慧生成內容(AIGC)的崛起,AI在文字、圖像、產品文案等方面的應用正掀起波瀾。本文分享了使用ChatGPT進行文案撰寫以及對於咒語格式與最佳內容認知的觀察。不過,使用者的專業程度對合作成果至關重要。另外,文章觸及使用AI工具提供的功能性應用,以及在創作和發展方面的潛力。
Thumbnail
人工智慧生成內容(AIGC)的崛起,AI在文字、圖像、產品文案等方面的應用正掀起波瀾。本文分享了使用ChatGPT進行文案撰寫以及對於咒語格式與最佳內容認知的觀察。不過,使用者的專業程度對合作成果至關重要。另外,文章觸及使用AI工具提供的功能性應用,以及在創作和發展方面的潛力。
Thumbnail
隨著科技發展,AI技術成就卓越,尤其AI生成器在繪圖、文案和影片創作中蓬勃興起。本文深入介紹領先AI生成器,重點關注MyEdit的免費AI繪圖工具,以及Midjourney、Fotor、Artguru等出色選擇。這些工具讓用戶輕鬆將文字、指令轉換成驚豔的繪畫、影片和文案,為創意提供無盡可能。
Thumbnail
隨著科技發展,AI技術成就卓越,尤其AI生成器在繪圖、文案和影片創作中蓬勃興起。本文深入介紹領先AI生成器,重點關注MyEdit的免費AI繪圖工具,以及Midjourney、Fotor、Artguru等出色選擇。這些工具讓用戶輕鬆將文字、指令轉換成驚豔的繪畫、影片和文案,為創意提供無盡可能。
追蹤感興趣的內容從 Google News 追蹤更多 vocus 的最新精選內容追蹤 Google News