隨心所欲的生成短影音,Zero-Shot VideoPoet by Google Research

2024/02/04閱讀時間約 12 分鐘

經過2023年人工智慧技術的大躍進,文生圖片/動畫/語音的各種技術變得司空見慣,剩下的只是在生成品質,生成多樣性,與生成時間中互相取捨。終於在2024年有了新的應用突破,本篇論文為Google Research集大成之作,可以給各種文/圖/深度圖/聲音,讓AI按照多模態的One-shot指引生成短影音,若持續發展,將顛覆整個影音創作產業。


論文關鍵成果:

可以"同時"使用"多種方式"來產生對於生成影音的指引,傳統的文生影片僅能使用文字,不過在IP-Adapter論文裡面指出,一張圖的提示效果勝過千言萬語,於是有了把圖/深度圖/人體骨架圖等等,放到生成模型裡面。本篇Google Research則是一種擴展,在前人的基礎上,可以使用影片/分鏡稿/文生影片Pair/圖生影片Pair/風格圖/填充背景圖/聲音檔,來當作提示,如此一來,可以盡可能地使用各種方式來微調輸出的影片風格,達成理想中的結果,如此神奇的效果,是如何做到的? 接下來要講論文的關鍵技術,讓我們繼續看下去。

多模態同時輸入,可以產生各種符合風格/文字/圖片/影片/聲音提示的短影音

多模態同時輸入,可以產生各種符合風格/文字/圖片/影片/聲音提示的短影音


論文關鍵技術:

如先前介紹過的Fuyu8b,LLM輸入端可以放入圖片的Embedding (經過Encoder編碼後的結果),加上原本的Text Embedding 就能夠針對圖片問問題,同理,如果輸入是影片/聲音,訓練起來也能夠對影片或是聲音提出問題,然後取得相對應的回答。

現在讓我們更進階一點,輸出也可以是圖片/聲音的Embedding,這些可以經由Decoder解碼,一連串的圖片與聲音組合在一起,就成為了影音Movie。

底下這張圖就是VideoPoet的輸入架構,可以看到藉由許多Special Tokens做分段,然後在特定的段落,放入特定的Enbedding內容,讓LLM學習後續去產生Enbedding的接龍遊戲,只要看過的資料夠多,就能達到像大語言模型那樣的水平,可以使用LLM用文字接龍的方式先產生出新的Image tokens / audio tokens,再經過解碼器以後就能產生具有生動聲光效果的影片。

作者在這裡採用先把Encoder/Decoder作預訓練的方法,藉此來產生Enbedding Dataset,讓LLM去學習與收斂。

Encoder / Decoder可以使用SOTA的模型,用來編碼語解碼Embeddings,加入Special Token排列組合成Sequence讓LLM去學

Encoder / Decoder可以使用SOTA的模型,用來編碼語解碼Embeddings,加入Special Token排列組合成Sequence讓LLM去學

以行動支持創作者!付費即可解鎖
本篇內容共 5097 字、0 則留言,僅發佈於人工智慧宇宙你目前無法檢視以下內容,可能因為尚未登入,或沒有該房間的查看權限。
90會員
126內容數
帶你用上帝視角,針對市面上具有高度價值的影片/論文/書籍,用東方取象,與西方邏輯辯證的角度同時出發,跟著我一起來探討宇宙萬事萬物的本質,隨時隨地都可以來一場說走就走的思維旅行。作者在台積電 / 聯發科等科技產業有累計10年的資歷,近期對於人工智慧,東方易經,西方辯證邏輯,還有佛法向內求有深度興趣。
留言0
查看全部
發表第一個留言支持創作者!