OpenAI的Sora為什麼重要?

更新於 發佈於 閱讀時間約 6 分鐘
raw-image

好一段時間沒有更新網誌了,一方面是因為個人工作繁忙的關係,另一方面也是因為針對LLM的突破,個人一直還沒有投入足夠的時間去研究,只是略知皮毛。但是昨天OpenAI 發表的Sora,對於我這個浸淫AI繪圖還有AI產生(基礎的)動畫一段時間的人來說,可以說是非常的震撼。經過研究OpenAI發表的Sora 白皮書以後,我認為這是一個相當重大的突破,為什麼說是突破呢? 我想從幾個方面來跟各位分享,分別是 "畫面品質的巨大差異", "影片長度的突破", "突破性的訓練方式" 最後則是"Sora是否開啟了針對物理世界的頓悟現象"。

  1. 畫面品質上的巨大差異

首先如果對於AI製作影片不了解的人,可能會覺得,我們AI繪圖已經這麼厲害了,那麼產生影像應該不是什麼了不起的事情吧? 確實,AI製圖基本上已經相對成熟,無論是要產出怎樣的概念,怎樣的畫風,擬真或是卡通風格,都不難製作出來。

但是影片是跟單一圖片完全不同的概念,因為影片是由非常多張的影像堆疊出來的,而AI產生出來的圖片每一張都是單獨產生的,也就是說每一張都有很多的不確定性,如果直接把他堆疊起來,就會發生很多不一致,很難控制的變化,舉例來說用Deforum產出的影片就是如此。

可以看到因為每一張圖都是獨立產生的,就算已經透過Controlnet 的方式來導引,可以還是會看到背景跟人物不斷的有細微的變化,也就是說AI產生影片第一個要突破的就是如何產出一系列非常一致的圖片(Consistency of the video),讓整段影片絲滑柔順,看起來就跟花大錢做的動畫一樣,這一點Open AI的Sora沒話說,確實是做得很好。

  1. 影片長度上的巨大差異

那麼,難道過去就沒有人把影片的consistency做好嗎? 當然是有的,有兩間公司Pika Labs跟Runway 的Gen-2 text to video就是針對這一點去下苦功,也確實能夠產出非常一致性的影片,但是最大的罩門就是每次只能產出4秒的影片長度,如底下Runway的影片,雖然可以text to video 或是用一張圖片當作導圖,但是就是無法突破4秒鐘。實際上有在玩AI製作影片的人知道,超過四秒鐘以後畫面就會有嚴重的變形或是人物馬上會走鐘,這也是為什麼這些公司不敢開發四秒鐘以上的長度。

而OpenAI一口氣就把長度拉到一分鐘(如底下這個影片),而且中間人物一點都沒有不一致的問題,這可以說是非常大的突破 (對比我上面貼的Deforum產出的人物影片,大家就能夠知道差距有多大)

如果我們細讀Open AI的SORA白皮書的話可以看到,不但單一影片產出長度可以達到一分鐘,而且還可以把不同的影片做串接,或是以一張圖片作為影片的導圖,這也正式的把AI影片製作帶到了可以商業化的境界。那麼,Open AI是怎麼做到的呢?

3. 突破性的Model訓練方式

這就帶我們來到這一點,得益於OpenAI訓練ChatGPT大型語言模型的靈感,訓練LLM的時候,OpenAI把文字拆解成一個一個的Token來進行訓練,而訓練影片的時候Sora則是把影片拆解成"Visual Patches"這樣的小單位,來餵進去給Model做訓練。藉由把影片這種高維度的資訊,拆解成為Patches這樣低維度的可以用矩陣表達的數列,Sora可以更有效率地進行Model的訓練。而事實也證明,這樣的做法可以有效地把影片中的關鍵資訊帶入訓練的模型裡面。

raw-image

過去的文字生影片的方式,多半都是以Diffusion model也就是以文字生圖的方式為主,再加上各式各樣的方式來控制影片的consistency,而OpenAI的做法是結合了Transformer & Diffusion model,是diffusion transformer model,可以說是全新的訓練方式。

無論大家對於OpenAI的看法如何,我個人非常感謝OpenAI作為一個半營利組織,願意公開訓練Model的方式,而這樣突破性的訓練方式一旦公開,無論是open source界或是其他AI公司勢必會跟進,可以想見以文字產生影片的蓬勃發展時代肯定還在前頭。

  1. 證明更大的Model 可能有"頓悟"現象

最後我想談關於Sora為什麼如此重要的一點是,跟ChatGPT等LLM類似,似乎隨著訓練的資訊量上升,大型的模型會有類似"頓悟"的現象發生。就像我們知道GPT4 已經有了基本的推理能力一樣,藉由不斷的提升Sora的訓練資料量,是否能夠讓大型的Diffusion-transformer model 有頓悟的現象呢?

實際上,如果我們看這個連結,會發現SORA的影片能夠正確的理解3D世界的結構,並起產出長度夠長且人物移動符合真實世界物理現象的影片。

如果我們看這個影片,會發現影片中的人物咬了漢堡以後,漢堡會有缺口,這也是一個SORA理解了真實世界物理的現象。

根據目前接露的資訊來看,OpenAI並沒有把類似Unreal Engine等物理引擎的原理放在訓練SORA的內容中,而是直接把影片做為訓練的基本,但是藉由夠大的資料量,看來也確實引發了類似AI的"頓悟"現象。這是很令人期待的一件事情,如果在放更多更多的資料上去訓練 (我想我們不缺資料,畢竟Youtube上有近乎無限的真實世界的影片),那麼大型的Diffusion transformer model是否能夠像人類一樣完整的理解這個世界呢? 屆時可能會再產生更多我們目前尚沒有想像到的功能。

以上就是簡短的對於目前OpenAI的SORA的想法,如果有想得不對或是想要討論的,也歡迎各位留言。






留言
avatar-img
留言分享你的想法!
avatar-img
技術PM路易斯的沙龍
49會員
35內容數
技術PM的AI實驗室,是以輕鬆的角度深入簡出的探討各種生成式AI工具的使用。無論你是想理解AI到底是怎麼運作的? 想知道有那些好用的生成式AI工具? 或者是對AI繪圖有興趣的,都歡迎加入我們的AI實驗室一起輕鬆地玩耍,我們邊玩邊學,學習跟AI一起共創新的可能。
2024/03/31
這陣子使用AI模型,還有參考國內外一些喜歡玩語言模型的同好發文,一個很有趣的結論就是,有時候把大型語言模型(尤其ChatGPT)當作一個人來溝通,會得到比較好的結果,這的確是非常反直覺的,也就是說很多時候ChatGPT耍懶不肯工作的時候,你用加油打氣,或是情緒勒索的方法,確實是可以得到比較好的結果。
Thumbnail
2024/03/31
這陣子使用AI模型,還有參考國內外一些喜歡玩語言模型的同好發文,一個很有趣的結論就是,有時候把大型語言模型(尤其ChatGPT)當作一個人來溝通,會得到比較好的結果,這的確是非常反直覺的,也就是說很多時候ChatGPT耍懶不肯工作的時候,你用加油打氣,或是情緒勒索的方法,確實是可以得到比較好的結果。
Thumbnail
2023/12/23
SDXL Turbo主打可以1 step就產生一定品質的圖片 (圖片品質比SDXL甚至SD 1.5還要低),完全是以速度取勝,那麼SDXL Turbo這個技術代表的是怎樣的突破呢? 究竟秒出圖的技術能夠有什麼實際的應用呢? 這就是我們這篇想要探討的。
Thumbnail
2023/12/23
SDXL Turbo主打可以1 step就產生一定品質的圖片 (圖片品質比SDXL甚至SD 1.5還要低),完全是以速度取勝,那麼SDXL Turbo這個技術代表的是怎樣的突破呢? 究竟秒出圖的技術能夠有什麼實際的應用呢? 這就是我們這篇想要探討的。
Thumbnail
2023/11/18
這篇文章會跟大家介紹,為什麼我覺得ChatGPT的多模態輸入輸出其實是最重要的一個功能之一,讓AI往成為真正人工智慧代理人的路上前進了一大步,我們也會稍微探討(想像)一下,所謂的理想的AI載具到底應該是怎樣的?
Thumbnail
2023/11/18
這篇文章會跟大家介紹,為什麼我覺得ChatGPT的多模態輸入輸出其實是最重要的一個功能之一,讓AI往成為真正人工智慧代理人的路上前進了一大步,我們也會稍微探討(想像)一下,所謂的理想的AI載具到底應該是怎樣的?
Thumbnail
看更多
你可能也想看
Thumbnail
「欸!這是在哪裡買的?求連結 🥺」 誰叫你太有品味,一發就讓大家跟著剁手手? 讓你回購再回購的生活好物,是時候該介紹出場了吧! 「開箱你的美好生活」現正召喚各路好物的開箱使者 🤩
Thumbnail
「欸!這是在哪裡買的?求連結 🥺」 誰叫你太有品味,一發就讓大家跟著剁手手? 讓你回購再回購的生活好物,是時候該介紹出場了吧! 「開箱你的美好生活」現正召喚各路好物的開箱使者 🤩
Thumbnail
以下分享部分Sora生成式電影的片段截圖,影片擁有者禁止在其他網站播放這部影片! 影片連結可點擊圖片下文字(Tiffany Blue) Sora生成式AI微電影部分片段截圖: 邏輯思考 AI實現人類想像中的畫面 人類的想像畫面被AI實現了 為什麼AI可以實現想像畫面? 為什麼人......
Thumbnail
以下分享部分Sora生成式電影的片段截圖,影片擁有者禁止在其他網站播放這部影片! 影片連結可點擊圖片下文字(Tiffany Blue) Sora生成式AI微電影部分片段截圖: 邏輯思考 AI實現人類想像中的畫面 人類的想像畫面被AI實現了 為什麼AI可以實現想像畫面? 為什麼人......
Thumbnail
Open AI影片生成模型Sora橫空出世 Sora是一個 AI 模型,可依據文字指令創建現實和富有想像的場景 這是Open AI首頁關於生成模型Sora的簡介 Open AI執行長將籌資數兆美元重塑全球半導體產業 全美娛樂產業接受訪談的300位主管,認為未來3年將有20萬個工作 受到AI
Thumbnail
Open AI影片生成模型Sora橫空出世 Sora是一個 AI 模型,可依據文字指令創建現實和富有想像的場景 這是Open AI首頁關於生成模型Sora的簡介 Open AI執行長將籌資數兆美元重塑全球半導體產業 全美娛樂產業接受訪談的300位主管,認為未來3年將有20萬個工作 受到AI
Thumbnail
OpenAI於2024年2月15日首次發佈「Sora」:以文字生成影片的AI模型 Sora,源於日文「空」(そら sora),即天空之意,它“喚起了無限創造潛力的想法”。
Thumbnail
OpenAI於2024年2月15日首次發佈「Sora」:以文字生成影片的AI模型 Sora,源於日文「空」(そら sora),即天空之意,它“喚起了無限創造潛力的想法”。
Thumbnail
2024 年 2 月,OpenAI 推出了 Sora 文字生成影片模型,該模型根據用戶輸入的文字描述生成逼真的影片,並且能夠控制影片的細節,例如人物、場景、動作、表情等。Sora 的出現無疑為影視創作領域帶來了革命性的變化。
Thumbnail
2024 年 2 月,OpenAI 推出了 Sora 文字生成影片模型,該模型根據用戶輸入的文字描述生成逼真的影片,並且能夠控制影片的細節,例如人物、場景、動作、表情等。Sora 的出現無疑為影視創作領域帶來了革命性的變化。
Thumbnail
如果AI能夠生成高質感的影片,對影視業不啻一場革命。 無需龐大設備和龐大後製團隊,只需要指令,幾分鐘即能輕鬆完成。 這對影視業來說無疑是一場革命。
Thumbnail
如果AI能夠生成高質感的影片,對影視業不啻一場革命。 無需龐大設備和龐大後製團隊,只需要指令,幾分鐘即能輕鬆完成。 這對影視業來說無疑是一場革命。
Thumbnail
今天要跟大家介紹一個非常厲害的人工智慧模型,它叫做 Sora,是由 OpenAI 最近發布的。Sora 可以生成長達一分鐘的超逼真影片,並且能夠根據指示加入特定的動作和場景。這種影片的品質遠超過以往,代表著人工智慧影片製作已經進入了新的階段。
Thumbnail
今天要跟大家介紹一個非常厲害的人工智慧模型,它叫做 Sora,是由 OpenAI 最近發布的。Sora 可以生成長達一分鐘的超逼真影片,並且能夠根據指示加入特定的動作和場景。這種影片的品質遠超過以往,代表著人工智慧影片製作已經進入了新的階段。
Thumbnail
股癌24.02.19 *OPEN AI鴨子划水,推出文字轉影片的AI模型Sora。 Sora對物體世界有認知,有望成為真正的世界模型,真正教會AI世界運作的道理,AI教會人類手指動作、玻璃碎掉、光影反射的物理狀況。 --之前的文字轉影片 背景會一直閃、因為模型還沒有算得很準。 *Sora相較
Thumbnail
股癌24.02.19 *OPEN AI鴨子划水,推出文字轉影片的AI模型Sora。 Sora對物體世界有認知,有望成為真正的世界模型,真正教會AI世界運作的道理,AI教會人類手指動作、玻璃碎掉、光影反射的物理狀況。 --之前的文字轉影片 背景會一直閃、因為模型還沒有算得很準。 *Sora相較
追蹤感興趣的內容從 Google News 追蹤更多 vocus 的最新精選內容追蹤 Google News