付費限定

隨心所欲的生成短影音,Zero-Shot VideoPoet by Google Research

閱讀時間約 12 分鐘

經過2023年人工智慧技術的大躍進,文生圖片/動畫/語音的各種技術變得司空見慣,剩下的只是在生成品質,生成多樣性,與生成時間中互相取捨。終於在2024年有了新的應用突破,本篇論文為Google Research集大成之作,可以給各種文/圖/深度圖/聲音,讓AI按照多模態的One-shot指引生成短影音,若持續發展,將顛覆整個影音創作產業。


論文關鍵成果:

可以"同時"使用"多種方式"來產生對於生成影音的指引,傳統的文生影片僅能使用文字,不過在IP-Adapter論文裡面指出,一張圖的提示效果勝過千言萬語,於是有了把圖/深度圖/人體骨架圖等等,放到生成模型裡面。本篇Google Research則是一種擴展,在前人的基礎上,可以使用影片/分鏡稿/文生影片Pair/圖生影片Pair/風格圖/填充背景圖/聲音檔,來當作提示,如此一來,可以盡可能地使用各種方式來微調輸出的影片風格,達成理想中的結果,如此神奇的效果,是如何做到的? 接下來要講論文的關鍵技術,讓我們繼續看下去。

多模態同時輸入,可以產生各種符合風格/文字/圖片/影片/聲音提示的短影音

多模態同時輸入,可以產生各種符合風格/文字/圖片/影片/聲音提示的短影音


論文關鍵技術:

如先前介紹過的Fuyu8b,LLM輸入端可以放入圖片的Embedding (經過Encoder編碼後的結果),加上原本的Text Embedding 就能夠針對圖片問問題,同理,如果輸入是影片/聲音,訓練起來也能夠對影片或是聲音提出問題,然後取得相對應的回答。

現在讓我們更進階一點,輸出也可以是圖片/聲音的Embedding,這些可以經由Decoder解碼,一連串的圖片與聲音組合在一起,就成為了影音Movie。

底下這張圖就是VideoPoet的輸入架構,可以看到藉由許多Special Tokens做分段,然後在特定的段落,放入特定的Enbedding內容,讓LLM學習後續去產生Enbedding的接龍遊戲,只要看過的資料夠多,就能達到像大語言模型那樣的水平,可以使用LLM用文字接龍的方式先產生出新的Image tokens / audio tokens,再經過解碼器以後就能產生具有生動聲光效果的影片。

作者在這裡採用先把Encoder/Decoder作預訓練的方法,藉此來產生Enbedding Dataset,讓LLM去學習與收斂。

Encoder / Decoder可以使用SOTA的模型,用來編碼語解碼Embeddings,加入Special Token排列組合成Sequence讓LLM去學

Encoder / Decoder可以使用SOTA的模型,用來編碼語解碼Embeddings,加入Special Token排列組合成Sequence讓LLM去學

以行動支持創作者!付費即可解鎖
本篇內容共 5097 字、0 則留言,僅發佈於人工智慧宇宙你目前無法檢視以下內容,可能因為尚未登入,或沒有該房間的查看權限。
96會員
128內容數
帶你用上帝視角,針對市面上具有高度價值的影片/論文/書籍,用東方取象,與西方邏輯辯證的角度同時出發,跟著我一起來探討宇宙萬事萬物的本質,隨時隨地都可以來一場說走就走的思維旅行。作者在台積電 / 聯發科等科技產業有累計10年的資歷,近期對於人工智慧,東方易經,西方辯證邏輯,還有佛法向內求有深度興趣。
留言0
查看全部
發表第一個留言支持創作者!
要如何做到無須任何額外訓練樣本就能做到"跨語言"的語音生成,這聽起來很不可思議對吧? 但這就是本篇論文取得的成就,不僅如此,該有的功能,如調整情感,口音節奏,停頓語調這些功能也不在話下。跟著我一起用探秘還有獨立思考的眼光來分析這篇論文,這會是很有趣的旅程。
Transformer被廣泛運用在各種生成式AI,激起了本篇作者的好奇心,是否能用Transformer學到所有先驗知識,足以讓它由一張2D圖片還原3D物件。本篇也從Github上面找到由ZexinHe開源的LRM實作程式,讓有興趣的人可以深入研究。
文字生成圖片的擴散生成模型,實際應用上並沒有想像中好用,原因在於,文字能夠乘載的訊息量太少,要產生好的生成結果一定程度仰賴特定的Prompt描述方法,如DALL-E3使用GPT4不斷增加描述的細節,讓文生圖的結果更好,有沒有更有效率的方式呢?
知名的 Mistral AI 團隊近期丟出了使用 SMOE技術搭建的Mixtral-8x7B,能用較小的運算資源與參數量,打敗ChatGPT3的考試成績。本文藉由兩篇SMOE論文的導讀,抽取其中的核心概念,試圖打開技術的神秘面紗。
Stability AI在圖片/影片/聲音生成領域貢獻了不少心力,近期提出了更加高效率的對抗生成蒸餾方法,只需進行一步計算,便能打敗LCM需要4步計算的結果,來看看具體是如何做到的。
本篇文章為大家導讀近日火熱的Mamba Paper,新聞標題說它是Transformer的繼任者,是否真是如此? 讓我們一起一探究竟,本文著重介紹論文前半部分。
要如何做到無須任何額外訓練樣本就能做到"跨語言"的語音生成,這聽起來很不可思議對吧? 但這就是本篇論文取得的成就,不僅如此,該有的功能,如調整情感,口音節奏,停頓語調這些功能也不在話下。跟著我一起用探秘還有獨立思考的眼光來分析這篇論文,這會是很有趣的旅程。
Transformer被廣泛運用在各種生成式AI,激起了本篇作者的好奇心,是否能用Transformer學到所有先驗知識,足以讓它由一張2D圖片還原3D物件。本篇也從Github上面找到由ZexinHe開源的LRM實作程式,讓有興趣的人可以深入研究。
文字生成圖片的擴散生成模型,實際應用上並沒有想像中好用,原因在於,文字能夠乘載的訊息量太少,要產生好的生成結果一定程度仰賴特定的Prompt描述方法,如DALL-E3使用GPT4不斷增加描述的細節,讓文生圖的結果更好,有沒有更有效率的方式呢?
知名的 Mistral AI 團隊近期丟出了使用 SMOE技術搭建的Mixtral-8x7B,能用較小的運算資源與參數量,打敗ChatGPT3的考試成績。本文藉由兩篇SMOE論文的導讀,抽取其中的核心概念,試圖打開技術的神秘面紗。
Stability AI在圖片/影片/聲音生成領域貢獻了不少心力,近期提出了更加高效率的對抗生成蒸餾方法,只需進行一步計算,便能打敗LCM需要4步計算的結果,來看看具體是如何做到的。
本篇文章為大家導讀近日火熱的Mamba Paper,新聞標題說它是Transformer的繼任者,是否真是如此? 讓我們一起一探究竟,本文著重介紹論文前半部分。
你可能也想看
Google News 追蹤
Thumbnail
這個秋,Chill 嗨嗨!穿搭美美去賞楓,裝備款款去露營⋯⋯你的秋天怎麼過?秋日 To Do List 等你分享! 秋季全站徵文,我們準備了五個創作主題,參賽還有機會獲得「火烤兩用鍋」,一起來看看如何參加吧~
Thumbnail
美國總統大選只剩下三天, 我們觀察一整週民調與金融市場的變化(包含賭局), 到本週五下午3:00前為止, 誰是美國總統幾乎大概可以猜到60-70%的機率, 本篇文章就是以大選結局為主軸來討論近期甚至到未來四年美股可能的改變
Thumbnail
Faker昨天真的太扯了,中國主播王多多點評的話更是精妙,分享給各位 王多多的點評 「Faker是我們的處境,他是LPL永遠繞不開的一個人和話題,所以我們特別渴望在決賽跟他相遇,去直面我們的處境。 我們曾經稱他為最高的山,最長的河,以為山海就是盡頭,可是Faker用他28歲的年齡...
Thumbnail
愈長大 愈該隨心所欲的生活 ✨一種跟隨內心指引 而不是被框在限制性信念的生活✨
Thumbnail
Netflix 精神病房也會迎來清晨,由漫畫改編似乎特別貼近,句句都是金句,沒想到用每天的午休時間也這樣慢慢地看完了一齣劇,每一個角度都讓我覺得,我們每個人或多或少都有一種精神病。就如同生活一般,兜了一圈串起了每一位角色的故事,無論是親情、愛情、自我認同還有濃濃的友誼。
Thumbnail
僅僅只是這樣想像,都能夠使自己感到平靜,有一種「啊…你還在我身邊呀」的感覺。 如果你已經可以開始自己的旅程了,希望你也要好好的、安心的離開,知道你會好好的,我的內心也能平靜。
Thumbnail
後陽台吹進的風滲著細雨感覺有點冷,走進廚房時也覺得有涼意,深吸了一口氣後打開冰箱細數還剩餘哪些食材。   心裡想著手邊的食材,腦海裡也出現了可搭配的菜色;果然用「想」的比較快,幾秒鐘就完成了數道料理。    距離入院治療的日子越來越近了,所以總想把冰箱裡的食材清空,免得放到壞掉。有肉有菜,
Thumbnail
去年因為某些原因,開啟了我的所謂排毒療程,在去年從66公斤,一路減到了58公斤,因此就怠惰了好一陣子,本想著用著 168的方式,讓體重能夠維持,但就在七月的某一天連著幾天上班,嗑著一整盒的義美小泡芙,再想想那幾條穿不下的熱褲,覺得不應該再這樣了。 合計降了體重3.5kg/體脂降1.2%
Thumbnail
妳想像過四十歲的自己過著什麼樣的生活嗎?是鎮日埋首於家務及育兒而逐漸失去光彩,抑或是活力滿滿在自己的專業與興趣上散發光芒呢? 作者說:「四十歲最大的好處是,開始做某件事之前不需要名分或正當理由。」女人四十,人生真正開始的最佳年紀,也是重新理解自己的時機。
Thumbnail
或許是因為這樣,這更讓我對現在的生活充滿感恩。 我習慣在每天睡覺之前,隨手紀錄一下今天的生活。
Thumbnail
為減緩疫情狀況,「待在家」變成一個新的課題,生命藉此讓每個人試著練習安頓自己的內在。防疫在家發現 #天天玩樂園 這款遊戲,非常容易進入時間漩渦不復返,也想起學生時期那些熬夜打電動的日子,真是青春啊!
Thumbnail
幸福練習曲之一: 〖一張紙、一支筆,然後閉上眼睛,隨意塗鴉!享受睜開眼睛後的那感受!〗 你有多久沒有隨心所欲地畫畫呢? 畫畫是我小時候很喜歡的一件事,在我的童年裡有很多段和畫畫相關的快樂記憶,但是當我再次想起這件曾經很愛的事,卻是我大學畢業以後了,也就是說從小學到大學這一段時間,我沒有認爲畫畫是專長
Thumbnail
撩撥男人心的攻略必殺句 —— ◆「好厲害!」「真不愧是你!」   ◆「我第一次有這種感覺!」    ◆「好MAN喔!真有男子氣概!」
Thumbnail
這個秋,Chill 嗨嗨!穿搭美美去賞楓,裝備款款去露營⋯⋯你的秋天怎麼過?秋日 To Do List 等你分享! 秋季全站徵文,我們準備了五個創作主題,參賽還有機會獲得「火烤兩用鍋」,一起來看看如何參加吧~
Thumbnail
美國總統大選只剩下三天, 我們觀察一整週民調與金融市場的變化(包含賭局), 到本週五下午3:00前為止, 誰是美國總統幾乎大概可以猜到60-70%的機率, 本篇文章就是以大選結局為主軸來討論近期甚至到未來四年美股可能的改變
Thumbnail
Faker昨天真的太扯了,中國主播王多多點評的話更是精妙,分享給各位 王多多的點評 「Faker是我們的處境,他是LPL永遠繞不開的一個人和話題,所以我們特別渴望在決賽跟他相遇,去直面我們的處境。 我們曾經稱他為最高的山,最長的河,以為山海就是盡頭,可是Faker用他28歲的年齡...
Thumbnail
愈長大 愈該隨心所欲的生活 ✨一種跟隨內心指引 而不是被框在限制性信念的生活✨
Thumbnail
Netflix 精神病房也會迎來清晨,由漫畫改編似乎特別貼近,句句都是金句,沒想到用每天的午休時間也這樣慢慢地看完了一齣劇,每一個角度都讓我覺得,我們每個人或多或少都有一種精神病。就如同生活一般,兜了一圈串起了每一位角色的故事,無論是親情、愛情、自我認同還有濃濃的友誼。
Thumbnail
僅僅只是這樣想像,都能夠使自己感到平靜,有一種「啊…你還在我身邊呀」的感覺。 如果你已經可以開始自己的旅程了,希望你也要好好的、安心的離開,知道你會好好的,我的內心也能平靜。
Thumbnail
後陽台吹進的風滲著細雨感覺有點冷,走進廚房時也覺得有涼意,深吸了一口氣後打開冰箱細數還剩餘哪些食材。   心裡想著手邊的食材,腦海裡也出現了可搭配的菜色;果然用「想」的比較快,幾秒鐘就完成了數道料理。    距離入院治療的日子越來越近了,所以總想把冰箱裡的食材清空,免得放到壞掉。有肉有菜,
Thumbnail
去年因為某些原因,開啟了我的所謂排毒療程,在去年從66公斤,一路減到了58公斤,因此就怠惰了好一陣子,本想著用著 168的方式,讓體重能夠維持,但就在七月的某一天連著幾天上班,嗑著一整盒的義美小泡芙,再想想那幾條穿不下的熱褲,覺得不應該再這樣了。 合計降了體重3.5kg/體脂降1.2%
Thumbnail
妳想像過四十歲的自己過著什麼樣的生活嗎?是鎮日埋首於家務及育兒而逐漸失去光彩,抑或是活力滿滿在自己的專業與興趣上散發光芒呢? 作者說:「四十歲最大的好處是,開始做某件事之前不需要名分或正當理由。」女人四十,人生真正開始的最佳年紀,也是重新理解自己的時機。
Thumbnail
或許是因為這樣,這更讓我對現在的生活充滿感恩。 我習慣在每天睡覺之前,隨手紀錄一下今天的生活。
Thumbnail
為減緩疫情狀況,「待在家」變成一個新的課題,生命藉此讓每個人試著練習安頓自己的內在。防疫在家發現 #天天玩樂園 這款遊戲,非常容易進入時間漩渦不復返,也想起學生時期那些熬夜打電動的日子,真是青春啊!
Thumbnail
幸福練習曲之一: 〖一張紙、一支筆,然後閉上眼睛,隨意塗鴉!享受睜開眼睛後的那感受!〗 你有多久沒有隨心所欲地畫畫呢? 畫畫是我小時候很喜歡的一件事,在我的童年裡有很多段和畫畫相關的快樂記憶,但是當我再次想起這件曾經很愛的事,卻是我大學畢業以後了,也就是說從小學到大學這一段時間,我沒有認爲畫畫是專長
Thumbnail
撩撥男人心的攻略必殺句 —— ◆「好厲害!」「真不愧是你!」   ◆「我第一次有這種感覺!」    ◆「好MAN喔!真有男子氣概!」