OpenAI的Sora為什麼重要?

更新於 2025/02/17發佈於 2024/02/18閱讀時間約 6 分鐘

好一段時間沒有更新網誌了，一方面是因為個人工作繁忙的關係，另一方面也是因為針對LLM的突破，個人一直還沒有投入足夠的時間去研究，只是略知皮毛。但是昨天OpenAI 發表的Sora，對於我這個浸淫AI繪圖還有AI產生(基礎的)動畫一段時間的人來說，可以說是非常的震撼。經過研究OpenAI發表的Sora 白皮書以後，我認為這是一個相當重大的突破，為什麼說是突破呢? 我想從幾個方面來跟各位分享，分別是 "畫面品質的巨大差異", "影片長度的突破", "突破性的訓練方式" 最後則是"Sora是否開啟了針對物理世界的頓悟現象"。

畫面品質上的巨大差異

首先如果對於AI製作影片不了解的人，可能會覺得，我們AI繪圖已經這麼厲害了，那麼產生影像應該不是什麼了不起的事情吧? 確實，AI製圖基本上已經相對成熟，無論是要產出怎樣的概念，怎樣的畫風，擬真或是卡通風格，都不難製作出來。

但是影片是跟單一圖片完全不同的概念，因為影片是由非常多張的影像堆疊出來的，而AI產生出來的圖片每一張都是單獨產生的，也就是說每一張都有很多的不確定性，如果直接把他堆疊起來，就會發生很多不一致，很難控制的變化，舉例來說用Deforum產出的影片就是如此。

可以看到因為每一張圖都是獨立產生的，就算已經透過Controlnet 的方式來導引，可以還是會看到背景跟人物不斷的有細微的變化，也就是說AI產生影片第一個要突破的就是如何產出一系列非常一致的圖片(Consistency of the video)，讓整段影片絲滑柔順，看起來就跟花大錢做的動畫一樣，這一點Open AI的Sora沒話說，確實是做得很好。

影片長度上的巨大差異

那麼，難道過去就沒有人把影片的consistency做好嗎? 當然是有的，有兩間公司Pika Labs跟Runway 的Gen-2 text to video就是針對這一點去下苦功，也確實能夠產出非常一致性的影片，但是最大的罩門就是每次只能產出4秒的影片長度，如底下Runway的影片，雖然可以text to video 或是用一張圖片當作導圖，但是就是無法突破4秒鐘。實際上有在玩AI製作影片的人知道，超過四秒鐘以後畫面就會有嚴重的變形或是人物馬上會走鐘，這也是為什麼這些公司不敢開發四秒鐘以上的長度。

而OpenAI一口氣就把長度拉到一分鐘(如底下這個影片)，而且中間人物一點都沒有不一致的問題，這可以說是非常大的突破 (對比我上面貼的Deforum產出的人物影片，大家就能夠知道差距有多大)

如果我們細讀Open AI的SORA白皮書的話可以看到，不但單一影片產出長度可以達到一分鐘，而且還可以把不同的影片做串接，或是以一張圖片作為影片的導圖，這也正式的把AI影片製作帶到了可以商業化的境界。那麼，Open AI是怎麼做到的呢?

3. 突破性的Model訓練方式

這就帶我們來到這一點，得益於OpenAI訓練ChatGPT大型語言模型的靈感，訓練LLM的時候，OpenAI把文字拆解成一個一個的Token來進行訓練，而訓練影片的時候Sora則是把影片拆解成"Visual Patches"這樣的小單位，來餵進去給Model做訓練。藉由把影片這種高維度的資訊，拆解成為Patches這樣低維度的可以用矩陣表達的數列，Sora可以更有效率地進行Model的訓練。而事實也證明，這樣的做法可以有效地把影片中的關鍵資訊帶入訓練的模型裡面。

過去的文字生影片的方式，多半都是以Diffusion model也就是以文字生圖的方式為主，再加上各式各樣的方式來控制影片的consistency，而OpenAI的做法是結合了Transformer & Diffusion model，是diffusion transformer model，可以說是全新的訓練方式。

無論大家對於OpenAI的看法如何，我個人非常感謝OpenAI作為一個半營利組織，願意公開訓練Model的方式，而這樣突破性的訓練方式一旦公開，無論是open source界或是其他AI公司勢必會跟進，可以想見以文字產生影片的蓬勃發展時代肯定還在前頭。

證明更大的Model 可能有"頓悟"現象

最後我想談關於Sora為什麼如此重要的一點是，跟ChatGPT等LLM類似，似乎隨著訓練的資訊量上升，大型的模型會有類似"頓悟"的現象發生。就像我們知道GPT4 已經有了基本的推理能力一樣，藉由不斷的提升Sora的訓練資料量，是否能夠讓大型的Diffusion-transformer model 有頓悟的現象呢?

實際上，如果我們看這個連結，會發現SORA的影片能夠正確的理解3D世界的結構，並起產出長度夠長且人物移動符合真實世界物理現象的影片。

如果我們看這個影片，會發現影片中的人物咬了漢堡以後，漢堡會有缺口，這也是一個SORA理解了真實世界物理的現象。

根據目前接露的資訊來看，OpenAI並沒有把類似Unreal Engine等物理引擎的原理放在訓練SORA的內容中，而是直接把影片做為訓練的基本，但是藉由夠大的資料量，看來也確實引發了類似AI的"頓悟"現象。這是很令人期待的一件事情，如果在放更多更多的資料上去訓練 (我想我們不缺資料，畢竟Youtube上有近乎無限的真實世界的影片)，那麼大型的Diffusion transformer model是否能夠像人類一樣完整的理解這個世界呢? 屆時可能會再產生更多我們目前尚沒有想像到的功能。

以上就是簡短的對於目前OpenAI的SORA的想法，如果有想得不對或是想要討論的，也歡迎各位留言。

技術PM路易斯的沙龍技術PM的AI實驗室

留言

留言分享你的想法！

技術PM路易斯的沙龍

49會員

35內容數

技術PM的AI實驗室，是以輕鬆的角度深入簡出的探討各種生成式AI工具的使用。無論你是想理解AI到底是怎麼運作的? 想知道有那些好用的生成式AI工具? 或者是對AI繪圖有興趣的，都歡迎加入我們的AI實驗室一起輕鬆地玩耍，我們邊玩邊學，學習跟AI一起共創新的可能。

技術PM路易斯的沙龍的其他內容

2024/03/31

情緒勒索你的AI來得到最佳的結果

這陣子使用AI模型，還有參考國內外一些喜歡玩語言模型的同好發文，一個很有趣的結論就是，有時候把大型語言模型(尤其ChatGPT)當作一個人來溝通，會得到比較好的結果，這的確是非常反直覺的，也就是說很多時候ChatGPT耍懶不肯工作的時候，你用加油打氣，或是情緒勒索的方法，確實是可以得到比較好的結果。