付費限定

隨心所欲的生成短影音,Zero-Shot VideoPoet by Google Research

更新於 發佈於 閱讀時間約 12 分鐘

經過2023年人工智慧技術的大躍進,文生圖片/動畫/語音的各種技術變得司空見慣,剩下的只是在生成品質,生成多樣性,與生成時間中互相取捨。終於在2024年有了新的應用突破,本篇論文為Google Research集大成之作,可以給各種文/圖/深度圖/聲音,讓AI按照多模態的One-shot指引生成短影音,若持續發展,將顛覆整個影音創作產業。


論文關鍵成果:

可以"同時"使用"多種方式"來產生對於生成影音的指引,傳統的文生影片僅能使用文字,不過在IP-Adapter論文裡面指出,一張圖的提示效果勝過千言萬語,於是有了把圖/深度圖/人體骨架圖等等,放到生成模型裡面。本篇Google Research則是一種擴展,在前人的基礎上,可以使用影片/分鏡稿/文生影片Pair/圖生影片Pair/風格圖/填充背景圖/聲音檔,來當作提示,如此一來,可以盡可能地使用各種方式來微調輸出的影片風格,達成理想中的結果,如此神奇的效果,是如何做到的? 接下來要講論文的關鍵技術,讓我們繼續看下去。

多模態同時輸入,可以產生各種符合風格/文字/圖片/影片/聲音提示的短影音

多模態同時輸入,可以產生各種符合風格/文字/圖片/影片/聲音提示的短影音


論文關鍵技術:

如先前介紹過的Fuyu8b,LLM輸入端可以放入圖片的Embedding (經過Encoder編碼後的結果),加上原本的Text Embedding 就能夠針對圖片問問題,同理,如果輸入是影片/聲音,訓練起來也能夠對影片或是聲音提出問題,然後取得相對應的回答。

現在讓我們更進階一點,輸出也可以是圖片/聲音的Embedding,這些可以經由Decoder解碼,一連串的圖片與聲音組合在一起,就成為了影音Movie。

底下這張圖就是VideoPoet的輸入架構,可以看到藉由許多Special Tokens做分段,然後在特定的段落,放入特定的Enbedding內容,讓LLM學習後續去產生Enbedding的接龍遊戲,只要看過的資料夠多,就能達到像大語言模型那樣的水平,可以使用LLM用文字接龍的方式先產生出新的Image tokens / audio tokens,再經過解碼器以後就能產生具有生動聲光效果的影片。

作者在這裡採用先把Encoder/Decoder作預訓練的方法,藉此來產生Enbedding Dataset,讓LLM去學習與收斂。

Encoder / Decoder可以使用SOTA的模型,用來編碼語解碼Embeddings,加入Special Token排列組合成Sequence讓LLM去學

Encoder / Decoder可以使用SOTA的模型,用來編碼語解碼Embeddings,加入Special Token排列組合成Sequence讓LLM去學

以行動支持創作者!付費即可解鎖
本篇內容共 5097 字、0 則留言,僅發佈於人工智慧宇宙你目前無法檢視以下內容,可能因為尚未登入,或沒有該房間的查看權限。
留言
avatar-img
留言分享你的想法!
avatar-img
無限智慧學院的沙龍
95會員
128內容數
帶你用上帝視角,針對市面上具有高度價值的影片/論文/書籍,用東方取象,與西方邏輯辯證的角度同時出發,跟著我一起來探討宇宙萬事萬物的本質,隨時隨地都可以來一場說走就走的思維旅行。作者在台積電 / 聯發科等科技產業有累計10年的資歷,近期對於人工智慧,東方易經,西方辯證邏輯,還有佛法向內求有深度興趣。
2024/02/28
這次要介紹的這篇,使用Mask-LM的生成方式,可以達到最頂尖的FID/FVD分數,取得超越Diffusion Model的生成品質,並兼顧了生成速度,讓我們一起從MAGVIT開始,逐步理解到MAGVIT-V2,相信能讓對於最新影像生成領域有興趣的讀者,感到收穫滿滿。
Thumbnail
2024/02/28
這次要介紹的這篇,使用Mask-LM的生成方式,可以達到最頂尖的FID/FVD分數,取得超越Diffusion Model的生成品質,並兼顧了生成速度,讓我們一起從MAGVIT開始,逐步理解到MAGVIT-V2,相信能讓對於最新影像生成領域有興趣的讀者,感到收穫滿滿。
Thumbnail
2024/02/20
對於天氣的精密掌握,不僅得以改善各種生存條件,還能藉此訂定各種軍事策略,對於各種地緣政治紛爭的此刻,有其重大意義,於是各國對於快速準確的天氣預測技術,皆十分有興趣。本文介紹Google Research 的研究利用AI來預測天氣,誤差可以勝過傳統超級計算機的估算,讓我們一起看看是怎麼做到的。
Thumbnail
2024/02/20
對於天氣的精密掌握,不僅得以改善各種生存條件,還能藉此訂定各種軍事策略,對於各種地緣政治紛爭的此刻,有其重大意義,於是各國對於快速準確的天氣預測技術,皆十分有興趣。本文介紹Google Research 的研究利用AI來預測天氣,誤差可以勝過傳統超級計算機的估算,讓我們一起看看是怎麼做到的。
Thumbnail
2024/02/10
隨著生成式AI不斷的推陳出新,對於能有效壓縮這些豐富且大量內容的技術,變得至關重要,影響著傳輸速度與執行速度,本文的壓縮架構,能夠有效地做成專用IC,在同樣的畫質水準下,甚至能夠達成JPEG 1/3的壓縮後容量,此方法可應用在各種3D NeRF生成作品上面,各種VR與3D生成技術都必然會用到。
Thumbnail
2024/02/10
隨著生成式AI不斷的推陳出新,對於能有效壓縮這些豐富且大量內容的技術,變得至關重要,影響著傳輸速度與執行速度,本文的壓縮架構,能夠有效地做成專用IC,在同樣的畫質水準下,甚至能夠達成JPEG 1/3的壓縮後容量,此方法可應用在各種3D NeRF生成作品上面,各種VR與3D生成技術都必然會用到。
Thumbnail
看更多
你可能也想看
Thumbnail
常常被朋友問「哪裡買的?」嗎?透過蝦皮分潤計畫,把日常購物的分享多加一個步驟,就能轉換成現金回饋。門檻低、申請簡單,特別適合學生與上班族,讓零碎時間也能創造小確幸。
Thumbnail
常常被朋友問「哪裡買的?」嗎?透過蝦皮分潤計畫,把日常購物的分享多加一個步驟,就能轉換成現金回饋。門檻低、申請簡單,特別適合學生與上班族,讓零碎時間也能創造小確幸。
Thumbnail
嗨!歡迎來到 vocus vocus 方格子是台灣最大的內容創作與知識變現平台,並且計畫持續拓展東南亞等等國際市場。我們致力於打造讓創作者能夠自由發表、累積影響力並獲得實質收益的創作生態圈!「創作至上」是我們的核心價值,我們致力於透過平台功能與服務,賦予創作者更多的可能。 vocus 平台匯聚了
Thumbnail
嗨!歡迎來到 vocus vocus 方格子是台灣最大的內容創作與知識變現平台,並且計畫持續拓展東南亞等等國際市場。我們致力於打造讓創作者能夠自由發表、累積影響力並獲得實質收益的創作生態圈!「創作至上」是我們的核心價值,我們致力於透過平台功能與服務,賦予創作者更多的可能。 vocus 平台匯聚了
Thumbnail
在數位化的世界中,影片的製作和分享變得愈加普遍。然而,為了讓觀眾更好地理解和享受影片內容,添加字幕已成為一項不可或缺的工作。傳統上,這項任務需要耗費大量時間和精力,但現在有了Taption公司的AI自動上字幕軟體,這一切變得輕而易舉。 Taption (www.taption.com)公司於202
Thumbnail
在數位化的世界中,影片的製作和分享變得愈加普遍。然而,為了讓觀眾更好地理解和享受影片內容,添加字幕已成為一項不可或缺的工作。傳統上,這項任務需要耗費大量時間和精力,但現在有了Taption公司的AI自動上字幕軟體,這一切變得輕而易舉。 Taption (www.taption.com)公司於202
Thumbnail
合成聲音技術的未來充滿希望,也存在挑戰。OpenAI呼籲社會各界一起加強對這一新興技術的認識,並共同探索如何有效地利用這項技術,同時保護公眾免受潛在的負面影響。
Thumbnail
合成聲音技術的未來充滿希望,也存在挑戰。OpenAI呼籲社會各界一起加強對這一新興技術的認識,並共同探索如何有效地利用這項技術,同時保護公眾免受潛在的負面影響。
Thumbnail
Haiper AI 是一款免費的影片生成工具,是由 Google DeepMind 研究人員開發,只只需要輸入文字提示詞,就能生成各種場景的高質量的影片。
Thumbnail
Haiper AI 是一款免費的影片生成工具,是由 Google DeepMind 研究人員開發,只只需要輸入文字提示詞,就能生成各種場景的高質量的影片。
Thumbnail
這篇文章整理了多種好用的AI工具,涵蓋了聲音與音樂相關的AI、影音、圖像生成編輯工具和AI搜尋引擎等領域,幫助你節省時間和解放創意與生產力。
Thumbnail
這篇文章整理了多種好用的AI工具,涵蓋了聲音與音樂相關的AI、影音、圖像生成編輯工具和AI搜尋引擎等領域,幫助你節省時間和解放創意與生產力。
Thumbnail
GPT的應用對知識內容型創作者的衝擊,包括減低網站內廣告曝光及內容影片重點可不必觀看完整影片等,對於業配模式和影響也是一大改變。GPT的應用對知識內容型創作者的衝擊,包括減低網站內廣告曝光及內容影片重點可不必觀看完整影片等,對於業配模式和影響也是一大改變。
Thumbnail
GPT的應用對知識內容型創作者的衝擊,包括減低網站內廣告曝光及內容影片重點可不必觀看完整影片等,對於業配模式和影響也是一大改變。GPT的應用對知識內容型創作者的衝擊,包括減低網站內廣告曝光及內容影片重點可不必觀看完整影片等,對於業配模式和影響也是一大改變。
Thumbnail
與其僅從應用面思考AI,不如瞭解其背後的原理。本文章探討生成式AI的發展及應用,包含使用AI生成文章、影片等的原理和技術。透過AI的世界原理記錄,可以達到應用無窮的效果。
Thumbnail
與其僅從應用面思考AI,不如瞭解其背後的原理。本文章探討生成式AI的發展及應用,包含使用AI生成文章、影片等的原理和技術。透過AI的世界原理記錄,可以達到應用無窮的效果。
Thumbnail
如果AI能夠生成高質感的影片,對影視業不啻一場革命。 無需龐大設備和龐大後製團隊,只需要指令,幾分鐘即能輕鬆完成。 這對影視業來說無疑是一場革命。
Thumbnail
如果AI能夠生成高質感的影片,對影視業不啻一場革命。 無需龐大設備和龐大後製團隊,只需要指令,幾分鐘即能輕鬆完成。 這對影視業來說無疑是一場革命。
Thumbnail
幾天前OpenAI公司發表了全新的「AI生成影片」技術:透過一段簡短的「文字」敘述,讓AI生成一分鐘、1080P畫質的精美逼真影片。 礙於能力時間有限,我只能從使用ChatGPT、Bing這一年來獲得的大量經驗,閱讀研究大量AI相關資料整理的結論,分享AI生成圖片影片對「親密關係」可能帶來的衝擊。
Thumbnail
幾天前OpenAI公司發表了全新的「AI生成影片」技術:透過一段簡短的「文字」敘述,讓AI生成一分鐘、1080P畫質的精美逼真影片。 礙於能力時間有限,我只能從使用ChatGPT、Bing這一年來獲得的大量經驗,閱讀研究大量AI相關資料整理的結論,分享AI生成圖片影片對「親密關係」可能帶來的衝擊。
Thumbnail
人工智慧生成內容(AIGC)的崛起,AI在文字、圖像、產品文案等方面的應用正掀起波瀾。本文分享了使用ChatGPT進行文案撰寫以及對於咒語格式與最佳內容認知的觀察。不過,使用者的專業程度對合作成果至關重要。另外,文章觸及使用AI工具提供的功能性應用,以及在創作和發展方面的潛力。
Thumbnail
人工智慧生成內容(AIGC)的崛起,AI在文字、圖像、產品文案等方面的應用正掀起波瀾。本文分享了使用ChatGPT進行文案撰寫以及對於咒語格式與最佳內容認知的觀察。不過,使用者的專業程度對合作成果至關重要。另外,文章觸及使用AI工具提供的功能性應用,以及在創作和發展方面的潛力。
Thumbnail
人工智慧(AI)的發展日新月異,其中生成式AI成為近年矚目的焦點之一。生成式AI不僅能夠模仿人類智能,更能夠創造全新的內容和想法。本文將深入探討生成式AI在影像領域的應用,包括其概念、原理、發展趨勢,以及一些嶄新的生成式AI公司和軟體。
Thumbnail
人工智慧(AI)的發展日新月異,其中生成式AI成為近年矚目的焦點之一。生成式AI不僅能夠模仿人類智能,更能夠創造全新的內容和想法。本文將深入探討生成式AI在影像領域的應用,包括其概念、原理、發展趨勢,以及一些嶄新的生成式AI公司和軟體。
追蹤感興趣的內容從 Google News 追蹤更多 vocus 的最新精選內容追蹤 Google News