Everlyn-1 的 VGoT 框架 不只是技術創新,更是一種敘事思維的重塑。它讓 AI 從「畫師」進化為「導演」,從生成片段邁向創作故事。
從「穩定的片段」到「連貫的故事」
在上篇中,我們揭示了 Everlyn-1 如何透過「3D 感知架構」解決了生成式影片最惱人的「閃爍詛咒」,實現了前所未有的編輯穩定性。
然而,穩定性只是基礎。一個只會生成「穩定片段」的 AI,就像一個技藝精湛但沒有思想的工匠。真正的挑戰在於,如何讓 AI 從一個「畫師」進化為一個「導演」?如何讓它理解「敘事」,從而生成一系列具有邏輯關聯、情感遞進的多鏡頭故事?
這正是 Everlyn-1 的第二大技術支柱——思維鏈影片生成(VideoGen-of-Thought, VGoT)——所要解決的核心問題。它教 AI 的,不再是如何「畫」,而是如何「思考」。
靈感之源:從「語言」到「視覺」的思維鏈
「思維鏈」(Chain-of-Thought, CoT)的概念,源於大型語言模型(LLM)。研究者發現,當你要求一個 LLM 解答複雜問題時,如果引導它先把「思考過程」一步步寫下來,再給出最終答案,其準確率會大幅提升。
這項突破的本質,是讓 AI 從一個反應式的「黑箱」,轉變為一個能夠進行結構化推理的「透明系統」。Everlyn-1 的 VGoT 框架,正是將這個強大的原則,從抽象的語言領域,完美地移植到了複雜的視覺合成中。
值得一提的是,作為 VGoT 框架理論基礎的研究論文《VideoGen-of-Thought》,其多位核心作者,同時也正是 Everlyn 計畫的領導者。這讓我們有充分的理由相信,Everlyn-1 所實現的,正是這套理論的權威實踐。
VGoT 的三幕劇:模擬人類的電影製作流程
VGoT 框架最精妙之處,在於它沒有試圖用一個龐大的、單一的模型去「暴力破解」影片生成,而是優雅地將這個複雜任務,拆解為三個模組化的步驟,完美模擬了人類的電影製作管線。

VGoT 三幕劇製作流程 按圖可放大
這種模組化設計不僅提升了影片生成的品質,也讓 AI 更容易被人類創作者理解與掌控。
- 第一幕:LLM 擔任「劇本創作者」(Scriptwriter)
任務:解決敘事碎片化的問題。
儀式:當你給出一個簡單的提示(例如,「一位煉金術士在風暴中尋找失落的草藥」),VGoT 會先將這個指令交給一個大型語言模型(LLM)。LLM 會將這個單一概念,擴寫成一個結構化的、包含多個鏡頭的詳細劇本。它會為每個鏡頭定義角色的動態、背景的變化、攝影機的運動(如推拉搖移),甚至是光照的氛圍。 - 第二幕:擴散模型擔任「選角與故事板設計」(Casting & Storyboard Artist)
任務:解決跨鏡頭的視覺不一致問題。
儀式:為了確保我們的「煉金術士」在每個鏡頭裡都是同一個人,系統會先為他生成一個「身份保留肖像令牌」(Identity-Preserving Portrait, IPP)。這個令牌就像角色的 DNA,鎖定了其核心外觀。接著,擴散模型會根據第一幕生成的劇本,並以 IPP 令牌為條件,為每一個鏡頭生成一張視覺風格一致的「關鍵幀」(Keyframe),就像一部電影的故事板。 - 第三幕:影片模型擔任「攝影師與剪輯師」(Cinematographer & Editor)
任務:解決轉場突兀的問題。
儀式:最後,影片擴散模型會接收到每一個鏡頭的關鍵幀和詳細文字描述,並從中生成動態的影片片段。為了讓鏡頭之間的銜接如絲般順滑,VGoT 採用了「相鄰潛在過渡機制」,在剪輯點融合前後兩個鏡頭的特徵,創造出專業級的無縫轉場。
結論:從「生成」到「創作」的範式轉移
VGoT 框架的誕生,標誌著 AI 影片生成的一次根本性轉變:從過去混亂的「生成式合成」,邁向了有邏輯的「結構化創作」。
對創作者而言,VGoT 不只是工具,而是一種新的創作夥伴關係。它讓我們從提示詞工程師,進化為真正的 敘事藝術總監。我們只需給出一個故事的核心,AI 的「製作團隊」就能為我們完成從劇本、分鏡到剪輯的繁重工作。
但一個既懂得穩定編輯、又學會了講故事的 AI,如何確保自己的作品是「好的」?它如何發展出人類所謂的「品味」與「美感」?
這就是我們三部曲最終章要探討的——Rich Human Feedback(RHF)品質神經系統。
繼續探索:想了解 AI 如何學會「品味」與「美感」?請閱讀最終章:AI 如何擁有「品味」?剖析 Everlyn-1 的 RHF 品質神經系統。
本文所引用之技術架構與理論基礎,來自以下開源專案與學術研究:
- Everlyn-1: 模型與架構整合: Everlyn-Labs GitHub
- SPAR3D:穩定的 3D 感知架構 Stable Point-Aware 3D Reconstruction
- VGoT:思維鏈影片生成框架 Zheng, M. et al. (2024). VideoGen-of-Thought: Multi-Shot Video Generation via Chain-of-Thought. arXiv:2412.02259 arXiv Link
- RHF / RAHF:豐富化人類回饋與自動化品質評估 Liu, J. et al. (2023). RHF: Rich Human Feedback for Text-to-Image Generation. arXiv:2312.10240 arXiv Link
- EfficientARV:高效自迴歸影片生成架構,是 Everlyn-1 的核心影片生成架構,支援多種條件生成任務,包括動畫、插值、補全等。
- ANTRP:是一種「插入式解碼策略」,透過干預注意力權重的特徵譜分佈,有效減少多模態模型的幻覺現象
- EfficientARV 與 ANTRP 均已由 Everlyn-Labs 開源,並作為 Everlyn-1 的穩定生成與語意對齊的核心模組。
- RAHF 模型是 RHF 機制的自動化實踐版本,負責將人類標註轉化為可用於模型優化的品質信號。