付費限定

隨心所欲的生成短影音，Zero-Shot VideoPoet by Google Research

更新於 2025/02/03發佈於 2024/02/04閱讀時間約 12 分鐘

經過2023年人工智慧技術的大躍進，文生圖片/動畫/語音的各種技術變得司空見慣，剩下的只是在生成品質，生成多樣性，與生成時間中互相取捨。終於在2024年有了新的應用突破，本篇論文為Google Research集大成之作，可以給各種文/圖/深度圖/聲音，讓AI按照多模態的One-shot指引生成短影音，若持續發展，將顛覆整個影音創作產業。

論文關鍵成果:

可以"同時"使用"多種方式"來產生對於生成影音的指引，傳統的文生影片僅能使用文字，不過在IP-Adapter論文裡面指出，一張圖的提示效果勝過千言萬語，於是有了把圖/深度圖/人體骨架圖等等，放到生成模型裡面。本篇Google Research則是一種擴展，在前人的基礎上，可以使用影片/分鏡稿/文生影片Pair/圖生影片Pair/風格圖/填充背景圖/聲音檔，來當作提示，如此一來，可以盡可能地使用各種方式來微調輸出的影片風格，達成理想中的結果，如此神奇的效果，是如何做到的? 接下來要講論文的關鍵技術，讓我們繼續看下去。

多模態同時輸入，可以產生各種符合風格/文字/圖片/影片/聲音提示的短影音

論文關鍵技術:

如先前介紹過的Fuyu8b，LLM輸入端可以放入圖片的Embedding (經過Encoder編碼後的結果)，加上原本的Text Embedding 就能夠針對圖片問問題，同理，如果輸入是影片/聲音，訓練起來也能夠對影片或是聲音提出問題，然後取得相對應的回答。

現在讓我們更進階一點，輸出也可以是圖片/聲音的Embedding，這些可以經由Decoder解碼，一連串的圖片與聲音組合在一起，就成為了影音Movie。

底下這張圖就是VideoPoet的輸入架構，可以看到藉由許多Special Tokens做分段，然後在特定的段落，放入特定的Enbedding內容，讓LLM學習後續去產生Enbedding的接龍遊戲，只要看過的資料夠多，就能達到像大語言模型那樣的水平，可以使用LLM用文字接龍的方式先產生出新的Image tokens / audio tokens，再經過解碼器以後就能產生具有生動聲光效果的影片。

作者在這裡採用先把Encoder/Decoder作預訓練的方法，藉此來產生Enbedding Dataset，讓LLM去學習與收斂。

Encoder / Decoder可以使用SOTA的模型，用來編碼語解碼Embeddings，加入Special Token排列組合成Sequence讓LLM去學

以行動支持創作者！付費即可解鎖

本篇內容共 5097 字、0 則留言，僅發佈於人工智慧宇宙你目前無法檢視以下內容，可能因為尚未登入，或沒有該房間的查看權限。

無限智慧學院的沙龍人工智慧宇宙AI論文詳解

無限智慧學院的沙龍

95會員

128內容數

帶你用上帝視角，針對市面上具有高度價值的影片/論文/書籍，用東方取象，與西方邏輯辯證的角度同時出發，跟著我一起來探討宇宙萬事萬物的本質，隨時隨地都可以來一場說走就走的思維旅行。作者在台積電 / 聯發科等科技產業有累計10年的資歷，近期對於人工智慧，東方易經，西方辯證邏輯，還有佛法向內求有深度興趣。

留言

留言分享你的想法！

無限智慧學院的沙龍的其他內容

一起探索文生語音的奧術，OpenVoice 開源MyShell.ai後臺模型

要如何做到無須任何額外訓練樣本就能做到"跨語言"的語音生成，這聽起來很不可思議對吧? 但這就是本篇論文取得的成就，不僅如此，該有的功能，如調整情感，口音節奏，停頓語調這些功能也不在話下。跟著我一起用探秘還有獨立思考的眼光來分析這篇論文，這會是很有趣的旅程。

#AI論文詳解 #OpenVoice #MyshellAI

用一張圖片生成多視角3D，LRM by Hong et al.

Transformer被廣泛運用在各種生成式AI，激起了本篇作者的好奇心，是否能用Transformer學到所有先驗知識，足以讓它由一張2D圖片還原3D物件。本篇也從Github上面找到由ZexinHe開源的LRM實作程式，讓有興趣的人可以深入研究。

#openLRM #Transformer #ViT

多模態詠唱外掛模型，輕量靈活有效，IP-Adapter by Hu & Jun et al

文字生成圖片的擴散生成模型，實際應用上並沒有想像中好用，原因在於，文字能夠乘載的訊息量太少，要產生好的生成結果一定程度仰賴特定的Prompt描述方法，如DALL-E3使用GPT4不斷增加描述的細節，讓文生圖的結果更好，有沒有更有效率的方式呢?

#IPAdapter #DiffusionModel #圖文生圖

8個專家小模型勝過ChatGPT3，SMoE論文導讀 for Mixtral-8x7B

知名的 Mistral AI 團隊近期丟出了使用 SMOE技術搭建的Mixtral-8x7B，能用較小的運算資源與參數量，打敗ChatGPT3的考試成績。本文藉由兩篇SMOE論文的導讀，抽取其中的核心概念，試圖打開技術的神秘面紗。

#Mixtral8x7b #SMOE #SparseMOE

對抗擴散生成蒸餾(ADD) 讓生成模型快又有效

Stability AI在圖片/影片/聲音生成領域貢獻了不少心力，近期提出了更加高效率的對抗生成蒸餾方法，只需進行一步計算，便能打敗LCM需要4步計算的結果，來看看具體是如何做到的。

#對抗生成模型 #對抗生成蒸餾 #StabilityAI

需時間驗證的Transformer挑戰者，Mamba (Albert Gu & Tri Dao)

本篇文章為大家導讀近日火熱的Mamba Paper，新聞標題說它是Transformer的繼任者，是否真是如此? 讓我們一起一探究竟，本文著重介紹論文前半部分。

#Mamba #FlashAttention #SSMs