AI 如何學會講故事？深度拆解 Everlyn-1 的 VGoT 敘事框架

M.A.I.A

發佈於未來觀測所

2025/09/12 更新2025/09/10 發佈閱讀 7 分鐘

Everlyn-1 的 VGoT 框架 不只是技術創新，更是一種敘事思維的重塑。它讓 AI 從「畫師」進化為「導演」，從生成片段邁向創作故事。

從「穩定的片段」到「連貫的故事」

在上篇中，我們揭示了 Everlyn-1 如何透過「3D 感知架構」解決了生成式影片最惱人的「閃爍詛咒」，實現了前所未有的編輯穩定性。

然而，穩定性只是基礎。一個只會生成「穩定片段」的 AI，就像一個技藝精湛但沒有思想的工匠。真正的挑戰在於，如何讓 AI 從一個「畫師」進化為一個「導演」？如何讓它理解「敘事」，從而生成一系列具有邏輯關聯、情感遞進的多鏡頭故事？

這正是 Everlyn-1 的第二大技術支柱——思維鏈影片生成（VideoGen-of-Thought, VGoT）——所要解決的核心問題。它教 AI 的，不再是如何「畫」，而是如何「思考」。

靈感之源：從「語言」到「視覺」的思維鏈

「思維鏈」（Chain-of-Thought, CoT）的概念，源於大型語言模型（LLM）。研究者發現，當你要求一個 LLM 解答複雜問題時，如果引導它先把「思考過程」一步步寫下來，再給出最終答案，其準確率會大幅提升。

這項突破的本質，是讓 AI 從一個反應式的「黑箱」，轉變為一個能夠進行結構化推理的「透明系統」。Everlyn-1 的 VGoT 框架，正是將這個強大的原則，從抽象的語言領域，完美地移植到了複雜的視覺合成中。

值得一提的是，作為 VGoT 框架理論基礎的研究論文《VideoGen-of-Thought》，其多位核心作者，同時也正是 Everlyn 計畫的領導者。這讓我們有充分的理由相信，Everlyn-1 所實現的，正是這套理論的權威實踐。

VGoT 的三幕劇：模擬人類的電影製作流程

VGoT 框架最精妙之處，在於它沒有試圖用一個龐大的、單一的模型去「暴力破解」影片生成，而是優雅地將這個複雜任務，拆解為三個模組化的步驟，完美模擬了人類的電影製作管線。

VGoT 三幕劇製作流程按圖可放大

這種模組化設計不僅提升了影片生成的品質，也讓 AI 更容易被人類創作者理解與掌控。

第一幕：LLM 擔任「劇本創作者」（Scriptwriter）
任務：解決敘事碎片化的問題。
儀式：當你給出一個簡單的提示（例如，「一位煉金術士在風暴中尋找失落的草藥」），VGoT 會先將這個指令交給一個大型語言模型（LLM）。LLM 會將這個單一概念，擴寫成一個結構化的、包含多個鏡頭的詳細劇本。它會為每個鏡頭定義角色的動態、背景的變化、攝影機的運動（如推拉搖移），甚至是光照的氛圍。
第二幕：擴散模型擔任「選角與故事板設計」（Casting & Storyboard Artist）
任務：解決跨鏡頭的視覺不一致問題。
儀式：為了確保我們的「煉金術士」在每個鏡頭裡都是同一個人，系統會先為他生成一個「身份保留肖像令牌」（Identity-Preserving Portrait, IPP）。這個令牌就像角色的 DNA，鎖定了其核心外觀。接著，擴散模型會根據第一幕生成的劇本，並以 IPP 令牌為條件，為每一個鏡頭生成一張視覺風格一致的「關鍵幀」（Keyframe），就像一部電影的故事板。
第三幕：影片模型擔任「攝影師與剪輯師」（Cinematographer & Editor）
任務：解決轉場突兀的問題。
儀式：最後，影片擴散模型會接收到每一個鏡頭的關鍵幀和詳細文字描述，並從中生成動態的影片片段。為了讓鏡頭之間的銜接如絲般順滑，VGoT 採用了「相鄰潛在過渡機制」，在剪輯點融合前後兩個鏡頭的特徵，創造出專業級的無縫轉場。

結論：從「生成」到「創作」的範式轉移

VGoT 框架的誕生，標誌著 AI 影片生成的一次根本性轉變：從過去混亂的「生成式合成」，邁向了有邏輯的「結構化創作」。

對創作者而言，VGoT 不只是工具，而是一種新的創作夥伴關係。它讓我們從提示詞工程師，進化為真正的 敘事藝術總監。我們只需給出一個故事的核心，AI 的「製作團隊」就能為我們完成從劇本、分鏡到剪輯的繁重工作。

但一個既懂得穩定編輯、又學會了講故事的 AI，如何確保自己的作品是「好的」？它如何發展出人類所謂的「品味」與「美感」？

這就是我們三部曲最終章要探討的——Rich Human Feedback（RHF）品質神經系統。

繼續探索：想了解 AI 如何學會「品味」與「美感」？請閱讀最終章：AI 如何擁有「品味」？剖析 Everlyn-1 的 RHF 品質神經系統。

本文所引用之技術架構與理論基礎，來自以下開源專案與學術研究：

Everlyn-1：模型與架構整合： Everlyn-Labs GitHub
SPAR3D：穩定的 3D 感知架構 Stable Point-Aware 3D Reconstruction
VGoT：思維鏈影片生成框架 Zheng, M. et al. (2024). VideoGen-of-Thought: Multi-Shot Video Generation via Chain-of-Thought. arXiv:2412.02259 arXiv Link
RHF / RAHF：豐富化人類回饋與自動化品質評估 Liu, J. et al. (2023). RHF: Rich Human Feedback for Text-to-Image Generation. arXiv:2312.10240 arXiv Link
EfficientARV：高效自迴歸影片生成架構，是 Everlyn-1 的核心影片生成架構，支援多種條件生成任務，包括動畫、插值、補全等。
ANTRP：是一種「插入式解碼策略」，透過干預注意力權重的特徵譜分佈，有效減少多模態模型的幻覺現象
EfficientARV 與 ANTRP 均已由 Everlyn-Labs 開源，並作為 Everlyn-1 的穩定生成與語意對齊的核心模組。
RAHF 模型是 RHF 機制的自動化實踐版本，負責將人類標註轉化為可用於模型優化的品質信號。

M.A.I.A. 的數位煉金工坊未來觀測所

留言

M.A.I.A. 的數位煉金工坊

3會員

36內容數

在這裡，我們分享最新 AI 趨勢、科技觀點與個人創作故事。無論你是愛好者還是專家，都能找到屬於你的靈感與啟發。一起探索未來，感受神秘與美學的交融。

M.A.I.A. 的數位煉金工坊的其他內容

2025/09/09

為何 Everlyn-1 的編輯如此穩定？揭秘生成式影片的 3D 感知架構

為何多數 AI 影片編輯時常出現惱人的閃爍與抖動？本文將深度解析 Everlyn-1 的核心穩定性技術，揭示其從 2D 像素思維躍遷至 3D 感知架構的革命性轉變。理解這項技術，你將明白 AI 影片的未來，為何關乎「控制」而非「運氣」。

2025/09/09

為何 Everlyn-1 的編輯如此穩定？揭秘生成式影片的 3D 感知架構

2025/09/02

煉金術士的新魔寵：Google Nano Banana 深度實測，AI 繪圖不再是抽卡遊戲 (附教學)

還在為 AI 繪圖的角色不穩定，感覺像在玩抽卡遊戲嗎？Google 最新 AI 模型 Nano Banana (Gemini 2.5 Flash Image) 將徹底改變規則！本篇深度實測將帶你掌握革命性的「角色一致性」與「對話式編輯」功能，讓 AI 成為能溝通的創作助手。附完整教學。

2025/09/02

煉金術士的新魔寵：Google Nano Banana 深度實測，AI 繪圖不再是抽卡遊戲 (附教學)

2025/08/31

【2025 Leonardo.ai 教學】從零到一，免費AI繪圖神器的終極指南 (模型、費用與商業用途詳解)

還在尋找 Midjourney 的免費替代方案嗎？這篇【2025 Leonardo.ai 終極教學】將從零到一，帶你掌握這款最強大的免費 AI 繪圖神器。內容涵蓋最新 V2 介面操作、模型推薦、費用方案與商業用途詳解，讓你輕鬆上手，開啟 AI 創作變現的無限可能。

2025/08/31

【2025 Leonardo.ai 教學】從零到一，免費AI繪圖神器的終極指南 (模型、費用與商業用途詳解)

看更多

你可能也想看

方格子 vocus 官方沙龍

vocus App 正式推出｜立即下載 iOS 版，打開全新內容宇宙

在 vocus 與你一起探索內容、發掘靈感的路上，我們又將啟動新的冒險——vocus App 正式推出！現在起，你可以在 iOS App Store 下載全新上架的 vocus App。無論是在通勤路上、日常空檔，或一天結束後的放鬆時刻，都能自在沈浸在內容宇宙中。

#App#iOS#App Store

2026/01/21

方格子 vocus 官方沙龍

vocus App 正式推出｜立即下載 iOS 版，打開全新內容宇宙

#App#iOS#App Store

2026/01/21

方格子 vocus 官方沙龍

【 vocus 全站慶，更好的 2026 上線了！】折扣碼 x 抽紅包 x 新手禮 x App 登場！

vocus 慶祝推出 App，舉辦 2026 全站慶。推出精選內容與數位商品折扣，訂單免費與紅包抽獎、新註冊會員專屬活動、Boba Boost 贊助抽紅包，以及全站徵文，並邀請你一起來回顧過去的一年， vocus 與創作者共同留下了哪些精彩創作。

#vocus#2026#vocus2026

2026/01/26

方格子 vocus 官方沙龍

【 vocus 全站慶，更好的 2026 上線了！】折扣碼 x 抽紅包 x 新手禮 x App 登場！

#vocus#2026#vocus2026

2026/01/26

原來可以這樣做沙龍

輕鬆五步驟，從靈感發想到完成作品

介紹如何使用AI生成圖像的五個步驟，包括選擇主題、強化主角形象、使用ChatGPT輸入提示句子、AI生成圖像工具生成、以及使用增強畫質的生成工具。

#ChatGPT#分享#創作

2024/05/22

原來可以這樣做沙龍

輕鬆五步驟，從靈感發想到完成作品

介紹如何使用AI生成圖像的五個步驟，包括選擇主題、強化主角形象、使用ChatGPT輸入提示句子、AI生成圖像工具生成、以及使用增強畫質的生成工具。

#ChatGPT#分享#創作

2024/05/22

小凱的沙龍

生成式 AI 技術: 概念、應用和風險

生成式AI（Generative AI）能夠創造新內容和想法，包括對話、故事、圖像、視訊和音樂等。本文將介紹幾種生成式AI模型，以及其在設計製造、教育、客戶服務、媒體與娛樂、市場營銷領域的應用和風險。然後就生成式AI的應用，設計製造、教育、客戶服務、媒體與娛樂、市場營銷等相關領域提供了一些示例。

2024/05/19

2024/05/19

Haiper AI 讓你用文字、圖片免費生成高質量影片

Haiper AI 是一款免費的影片生成工具，是由 Google DeepMind 研究人員開發，只只需要輸入文字提示詞，就能生成各種場景的高質量的影片。

#AIGC#AI工具#AI工具推薦

2024/04/02

原來可以這樣做沙龍

Haiper AI 讓你用文字、圖片免費生成高質量影片

Haiper AI 是一款免費的影片生成工具，是由 Google DeepMind 研究人員開發，只只需要輸入文字提示詞，就能生成各種場景的高質量的影片。

#AIGC#AI工具#AI工具推薦

2024/04/02

Raphael AI 科學家

GAN：生成逼真假照片的秘密武器

現AI時代我們常見的生成影像是如何製作出來的，或許你已經開始熟悉AI“假臉”的風格。但由于現在網路上大量流傳的多數是以DALL-E或是Stable Diffiusion+幾個特定的LoRA所生成的結果。以至於人們越來越有識別真假照片的能力。但或許你不知道的是，早在幾年前純粹用GAN生成技術所產出的人

#生成對抗網路#LLM#大語言模型

2024/03/10