AI 如何學會講故事?深度拆解 Everlyn-1 的 VGoT 敘事框架

更新 發佈閱讀 7 分鐘
Everlyn-1 的 VGoT 框架 不只是技術創新,更是一種敘事思維的重塑。它讓 AI 從「畫師」進化為「導演」,從生成片段邁向創作故事。

從「穩定的片段」到「連貫的故事」

在上篇中,我們揭示了 Everlyn-1 如何透過「3D 感知架構」解決了生成式影片最惱人的「閃爍詛咒」,實現了前所未有的編輯穩定性。

然而,穩定性只是基礎。一個只會生成「穩定片段」的 AI,就像一個技藝精湛但沒有思想的工匠。真正的挑戰在於,如何讓 AI 從一個「畫師」進化為一個「導演」?如何讓它理解「敘事」,從而生成一系列具有邏輯關聯、情感遞進的多鏡頭故事?

這正是 Everlyn-1 的第二大技術支柱——思維鏈影片生成(VideoGen-of-Thought, VGoT)——所要解決的核心問題。它教 AI 的,不再是如何「畫」,而是如何「思考」。

靈感之源:從「語言」到「視覺」的思維鏈

思維鏈」(Chain-of-Thought, CoT)的概念,源於大型語言模型(LLM)。研究者發現,當你要求一個 LLM 解答複雜問題時,如果引導它先把「思考過程」一步步寫下來,再給出最終答案,其準確率會大幅提升。

這項突破的本質,是讓 AI 從一個反應式的「黑箱」,轉變為一個能夠進行結構化推理的「透明系統」。Everlyn-1 的 VGoT 框架,正是將這個強大的原則,從抽象的語言領域,完美地移植到了複雜的視覺合成中。

值得一提的是,作為 VGoT 框架理論基礎的研究論文《VideoGen-of-Thought》,其多位核心作者,同時也正是 Everlyn 計畫的領導者。這讓我們有充分的理由相信,Everlyn-1 所實現的,正是這套理論的權威實踐。

VGoT 的三幕劇:模擬人類的電影製作流程

VGoT 框架最精妙之處,在於它沒有試圖用一個龐大的、單一的模型去「暴力破解」影片生成,而是優雅地將這個複雜任務,拆解為三個模組化的步驟,完美模擬了人類的電影製作管線。

VGoT 三幕劇製作流程 按圖可放大

VGoT 三幕劇製作流程 按圖可放大


這種模組化設計不僅提升了影片生成的品質,也讓 AI 更容易被人類創作者理解與掌控。

  1. 第一幕:LLM 擔任「劇本創作者」(Scriptwriter)
    任務:解決敘事碎片化的問題。
    儀式:當你給出一個簡單的提示(例如,「一位煉金術士在風暴中尋找失落的草藥」),VGoT 會先將這個指令交給一個大型語言模型(LLM)。LLM 會將這個單一概念,擴寫成一個結構化的、包含多個鏡頭的詳細劇本。它會為每個鏡頭定義角色的動態、背景的變化、攝影機的運動(如推拉搖移),甚至是光照的氛圍。
  2. 第二幕:擴散模型擔任「選角與故事板設計」(Casting & Storyboard Artist)
    任務:解決跨鏡頭的視覺不一致問題。
    儀式:為了確保我們的「煉金術士」在每個鏡頭裡都是同一個人,系統會先為他生成一個「身份保留肖像令牌」(Identity-Preserving Portrait, IPP)。這個令牌就像角色的 DNA,鎖定了其核心外觀。接著,擴散模型會根據第一幕生成的劇本,並以 IPP 令牌為條件,為每一個鏡頭生成一張視覺風格一致的「關鍵幀」(Keyframe),就像一部電影的故事板。
  3. 第三幕:影片模型擔任「攝影師與剪輯師」(Cinematographer & Editor)
    任務:解決轉場突兀的問題。
    儀式:最後,影片擴散模型會接收到每一個鏡頭的關鍵幀和詳細文字描述,並從中生成動態的影片片段。為了讓鏡頭之間的銜接如絲般順滑,VGoT 採用了「相鄰潛在過渡機制」,在剪輯點融合前後兩個鏡頭的特徵,創造出專業級的無縫轉場。

結論:從「生成」到「創作」的範式轉移

VGoT 框架的誕生,標誌著 AI 影片生成的一次根本性轉變:從過去混亂的「生成式合成」,邁向了有邏輯的「結構化創作」。

對創作者而言,VGoT 不只是工具,而是一種新的創作夥伴關係。它讓我們從提示詞工程師,進化為真正的 敘事藝術總監。我們只需給出一個故事的核心,AI 的「製作團隊」就能為我們完成從劇本、分鏡到剪輯的繁重工作。

但一個既懂得穩定編輯、又學會了講故事的 AI,如何確保自己的作品是「好的」?它如何發展出人類所謂的「品味」與「美感」?

這就是我們三部曲最終章要探討的——Rich Human Feedback(RHF)品質神經系統。

繼續探索:想了解 AI 如何學會「品味」與「美感」?請閱讀最終章:AI 如何擁有「品味」?剖析 Everlyn-1 的 RHF 品質神經系統


本文所引用之技術架構與理論基礎,來自以下開源專案與學術研究:

  • Everlyn-1: 模型與架構整合: Everlyn-Labs GitHub
  • SPAR3D:穩定的 3D 感知架構 Stable Point-Aware 3D Reconstruction
  • VGoT:思維鏈影片生成框架 Zheng, M. et al. (2024). VideoGen-of-Thought: Multi-Shot Video Generation via Chain-of-Thought. arXiv:2412.02259 arXiv Link
  • RHF / RAHF:豐富化人類回饋與自動化品質評估 Liu, J. et al. (2023). RHF: Rich Human Feedback for Text-to-Image Generation. arXiv:2312.10240 arXiv Link
  • EfficientARV:高效自迴歸影片生成架構,是 Everlyn-1 的核心影片生成架構,支援多種條件生成任務,包括動畫、插值、補全等。
  • ANTRP:是一種「插入式解碼策略」,透過干預注意力權重的特徵譜分佈,有效減少多模態模型的幻覺現象
  • EfficientARV 與 ANTRP 均已由 Everlyn-Labs 開源,並作為 Everlyn-1 的穩定生成與語意對齊的核心模組。
  • RAHF 模型是 RHF 機制的自動化實踐版本,負責將人類標註轉化為可用於模型優化的品質信號。
留言
avatar-img
M.A.I.A. 的數位煉金工坊
3會員
36內容數
在這裡,我們分享最新 AI 趨勢、科技觀點與個人創作故事。 無論你是愛好者還是專家,都能找到屬於你的靈感與啟發。 一起探索未來,感受神秘與美學的交融。
2025/09/09
為何多數 AI 影片編輯時常出現惱人的閃爍與抖動?本文將深度解析 Everlyn-1 的核心穩定性技術,揭示其從 2D 像素思維躍遷至 3D 感知架構的革命性轉變。理解這項技術,你將明白 AI 影片的未來,為何關乎「控制」而非「運氣」。
Thumbnail
2025/09/09
為何多數 AI 影片編輯時常出現惱人的閃爍與抖動?本文將深度解析 Everlyn-1 的核心穩定性技術,揭示其從 2D 像素思維躍遷至 3D 感知架構的革命性轉變。理解這項技術,你將明白 AI 影片的未來,為何關乎「控制」而非「運氣」。
Thumbnail
2025/09/02
還在為 AI 繪圖的角色不穩定,感覺像在玩抽卡遊戲嗎?Google 最新 AI 模型 Nano Banana (Gemini 2.5 Flash Image) 將徹底改變規則!本篇深度實測將帶你掌握革命性的「角色一致性」與「對話式編輯」功能,讓 AI 成為能溝通的創作助手。附完整教學。
Thumbnail
2025/09/02
還在為 AI 繪圖的角色不穩定,感覺像在玩抽卡遊戲嗎?Google 最新 AI 模型 Nano Banana (Gemini 2.5 Flash Image) 將徹底改變規則!本篇深度實測將帶你掌握革命性的「角色一致性」與「對話式編輯」功能,讓 AI 成為能溝通的創作助手。附完整教學。
Thumbnail
2025/08/31
還在尋找 Midjourney 的免費替代方案嗎?這篇【2025 Leonardo.ai 終極教學】將從零到一,帶你掌握這款最強大的免費 AI 繪圖神器。內容涵蓋最新 V2 介面操作、模型推薦、費用方案與商業用途詳解,讓你輕鬆上手,開啟 AI 創作變現的無限可能。
Thumbnail
2025/08/31
還在尋找 Midjourney 的免費替代方案嗎?這篇【2025 Leonardo.ai 終極教學】將從零到一,帶你掌握這款最強大的免費 AI 繪圖神器。內容涵蓋最新 V2 介面操作、模型推薦、費用方案與商業用途詳解,讓你輕鬆上手,開啟 AI 創作變現的無限可能。
Thumbnail
看更多
你可能也想看
Thumbnail
在 vocus 與你一起探索內容、發掘靈感的路上,我們又將啟動新的冒險——vocus App 正式推出! 現在起,你可以在 iOS App Store 下載全新上架的 vocus App。 無論是在通勤路上、日常空檔,或一天結束後的放鬆時刻,都能自在沈浸在內容宇宙中。
Thumbnail
在 vocus 與你一起探索內容、發掘靈感的路上,我們又將啟動新的冒險——vocus App 正式推出! 現在起,你可以在 iOS App Store 下載全新上架的 vocus App。 無論是在通勤路上、日常空檔,或一天結束後的放鬆時刻,都能自在沈浸在內容宇宙中。
Thumbnail
vocus 慶祝推出 App,舉辦 2026 全站慶。推出精選內容與數位商品折扣,訂單免費與紅包抽獎、新註冊會員專屬活動、Boba Boost 贊助抽紅包,以及全站徵文,並邀請你一起來回顧過去的一年, vocus 與創作者共同留下了哪些精彩創作。
Thumbnail
vocus 慶祝推出 App,舉辦 2026 全站慶。推出精選內容與數位商品折扣,訂單免費與紅包抽獎、新註冊會員專屬活動、Boba Boost 贊助抽紅包,以及全站徵文,並邀請你一起來回顧過去的一年, vocus 與創作者共同留下了哪些精彩創作。
Thumbnail
介紹如何使用AI生成圖像的五個步驟,包括選擇主題、強化主角形象、使用ChatGPT輸入提示句子、AI生成圖像工具生成、以及使用增強畫質的生成工具。
Thumbnail
介紹如何使用AI生成圖像的五個步驟,包括選擇主題、強化主角形象、使用ChatGPT輸入提示句子、AI生成圖像工具生成、以及使用增強畫質的生成工具。
Thumbnail
生成式AI(Generative AI)能夠創造新內容和想法,包括對話、故事、圖像、視訊和音樂等。本文將介紹幾種生成式AI模型,以及其在設計製造、教育、客戶服務、媒體與娛樂、市場營銷領域的應用和風險。然後就生成式AI的應用,設計製造、教育、客戶服務、媒體與娛樂、市場營銷等相關領域提供了一些示例。
Thumbnail
生成式AI(Generative AI)能夠創造新內容和想法,包括對話、故事、圖像、視訊和音樂等。本文將介紹幾種生成式AI模型,以及其在設計製造、教育、客戶服務、媒體與娛樂、市場營銷領域的應用和風險。然後就生成式AI的應用,設計製造、教育、客戶服務、媒體與娛樂、市場營銷等相關領域提供了一些示例。
Thumbnail
Haiper AI 是一款免費的影片生成工具,是由 Google DeepMind 研究人員開發,只只需要輸入文字提示詞,就能生成各種場景的高質量的影片。
Thumbnail
Haiper AI 是一款免費的影片生成工具,是由 Google DeepMind 研究人員開發,只只需要輸入文字提示詞,就能生成各種場景的高質量的影片。
Thumbnail
現AI時代我們常見的生成影像是如何製作出來的,或許你已經開始熟悉AI“假臉”的風格。但由于現在網路上大量流傳的多數是以DALL-E或是Stable Diffiusion+幾個特定的LoRA所生成的結果。以至於人們越來越有識別真假照片的能力。但或許你不知道的是,早在幾年前純粹用GAN生成技術所產出的人
Thumbnail
現AI時代我們常見的生成影像是如何製作出來的,或許你已經開始熟悉AI“假臉”的風格。但由于現在網路上大量流傳的多數是以DALL-E或是Stable Diffiusion+幾個特定的LoRA所生成的結果。以至於人們越來越有識別真假照片的能力。但或許你不知道的是,早在幾年前純粹用GAN生成技術所產出的人
Thumbnail
這篇要介紹AI生成影片的兩個方式:SVD 跟 AnimateDiff。
Thumbnail
這篇要介紹AI生成影片的兩個方式:SVD 跟 AnimateDiff。
Thumbnail
今天要跟大家介紹一個非常厲害的人工智慧模型,它叫做 Sora,是由 OpenAI 最近發布的。Sora 可以生成長達一分鐘的超逼真影片,並且能夠根據指示加入特定的動作和場景。這種影片的品質遠超過以往,代表著人工智慧影片製作已經進入了新的階段。
Thumbnail
今天要跟大家介紹一個非常厲害的人工智慧模型,它叫做 Sora,是由 OpenAI 最近發布的。Sora 可以生成長達一分鐘的超逼真影片,並且能夠根據指示加入特定的動作和場景。這種影片的品質遠超過以往,代表著人工智慧影片製作已經進入了新的階段。
Thumbnail
AI生成技術領頭羊Open AI又出手了,旗下產品「Sora」有別於Chat GPT,只要給予指令,生產出來的不再只是文字,而是一幕幕需要耗費大量人工努力下產出的產品,所謂大量人工包含了:攝影、剪接、燈光、彩妝、演員、美術道具,甚至導演、製片等等。 而AI只要彈指之間,便能將無形化有形,從無到有
Thumbnail
AI生成技術領頭羊Open AI又出手了,旗下產品「Sora」有別於Chat GPT,只要給予指令,生產出來的不再只是文字,而是一幕幕需要耗費大量人工努力下產出的產品,所謂大量人工包含了:攝影、剪接、燈光、彩妝、演員、美術道具,甚至導演、製片等等。 而AI只要彈指之間,便能將無形化有形,從無到有
Thumbnail
OpenAI最新推出的「Sora」是一款文本生成影像的AI模型,只要輸入幾句簡單的文字描述,就能自動生成出影像,影片內容可以包含多名角色,搭配特定的動態場景,且影片長度最高可達60秒,同時還能展示複雜的攝影機運動。Sora還能夠根據靜態圖片來製作動畫,功能十分強大。目前Sora還沒有開放給大眾使
Thumbnail
OpenAI最新推出的「Sora」是一款文本生成影像的AI模型,只要輸入幾句簡單的文字描述,就能自動生成出影像,影片內容可以包含多名角色,搭配特定的動態場景,且影片長度最高可達60秒,同時還能展示複雜的攝影機運動。Sora還能夠根據靜態圖片來製作動畫,功能十分強大。目前Sora還沒有開放給大眾使
Thumbnail
人工智慧生成內容(AIGC)的崛起,AI在文字、圖像、產品文案等方面的應用正掀起波瀾。本文分享了使用ChatGPT進行文案撰寫以及對於咒語格式與最佳內容認知的觀察。不過,使用者的專業程度對合作成果至關重要。另外,文章觸及使用AI工具提供的功能性應用,以及在創作和發展方面的潛力。
Thumbnail
人工智慧生成內容(AIGC)的崛起,AI在文字、圖像、產品文案等方面的應用正掀起波瀾。本文分享了使用ChatGPT進行文案撰寫以及對於咒語格式與最佳內容認知的觀察。不過,使用者的專業程度對合作成果至關重要。另外,文章觸及使用AI工具提供的功能性應用,以及在創作和發展方面的潛力。
Thumbnail
隨著科技發展,AI技術成就卓越,尤其AI生成器在繪圖、文案和影片創作中蓬勃興起。本文深入介紹領先AI生成器,重點關注MyEdit的免費AI繪圖工具,以及Midjourney、Fotor、Artguru等出色選擇。這些工具讓用戶輕鬆將文字、指令轉換成驚豔的繪畫、影片和文案,為創意提供無盡可能。
Thumbnail
隨著科技發展,AI技術成就卓越,尤其AI生成器在繪圖、文案和影片創作中蓬勃興起。本文深入介紹領先AI生成器,重點關注MyEdit的免費AI繪圖工具,以及Midjourney、Fotor、Artguru等出色選擇。這些工具讓用戶輕鬆將文字、指令轉換成驚豔的繪畫、影片和文案,為創意提供無盡可能。
追蹤感興趣的內容從 Google News 追蹤更多 vocus 的最新精選內容追蹤 Google News