好一段時間沒有更新網誌了,一方面是因為個人工作繁忙的關係,另一方面也是因為針對LLM的突破,個人一直還沒有投入足夠的時間去研究,只是略知皮毛。但是昨天OpenAI 發表的Sora,對於我這個浸淫AI繪圖還有AI產生(基礎的)動畫一段時間的人來說,可以說是非常的震撼。經過研究OpenAI發表的Sora 白皮書以後,我認為這是一個相當重大的突破,為什麼說是突破呢? 我想從幾個方面來跟各位分享,分別是 "畫面品質的巨大差異", "影片長度的突破", "突破性的訓練方式" 最後則是"Sora是否開啟了針對物理世界的頓悟現象"。
首先如果對於AI製作影片不了解的人,可能會覺得,我們AI繪圖已經這麼厲害了,那麼產生影像應該不是什麼了不起的事情吧? 確實,AI製圖基本上已經相對成熟,無論是要產出怎樣的概念,怎樣的畫風,擬真或是卡通風格,都不難製作出來。
但是影片是跟單一圖片完全不同的概念,因為影片是由非常多張的影像堆疊出來的,而AI產生出來的圖片每一張都是單獨產生的,也就是說每一張都有很多的不確定性,如果直接把他堆疊起來,就會發生很多不一致,很難控制的變化,舉例來說用Deforum產出的影片就是如此。
可以看到因為每一張圖都是獨立產生的,就算已經透過Controlnet 的方式來導引,可以還是會看到背景跟人物不斷的有細微的變化,也就是說AI產生影片第一個要突破的就是如何產出一系列非常一致的圖片(Consistency of the video),讓整段影片絲滑柔順,看起來就跟花大錢做的動畫一樣,這一點Open AI的Sora沒話說,確實是做得很好。
那麼,難道過去就沒有人把影片的consistency做好嗎? 當然是有的,有兩間公司Pika Labs跟Runway 的Gen-2 text to video就是針對這一點去下苦功,也確實能夠產出非常一致性的影片,但是最大的罩門就是每次只能產出4秒的影片長度,如底下Runway的影片,雖然可以text to video 或是用一張圖片當作導圖,但是就是無法突破4秒鐘。實際上有在玩AI製作影片的人知道,超過四秒鐘以後畫面就會有嚴重的變形或是人物馬上會走鐘,這也是為什麼這些公司不敢開發四秒鐘以上的長度。
而OpenAI一口氣就把長度拉到一分鐘(如底下這個影片),而且中間人物一點都沒有不一致的問題,這可以說是非常大的突破 (對比我上面貼的Deforum產出的人物影片,大家就能夠知道差距有多大)
如果我們細讀Open AI的SORA白皮書的話可以看到,不但單一影片產出長度可以達到一分鐘,而且還可以把不同的影片做串接,或是以一張圖片作為影片的導圖,這也正式的把AI影片製作帶到了可以商業化的境界。那麼,Open AI是怎麼做到的呢?
3. 突破性的Model訓練方式
這就帶我們來到這一點,得益於OpenAI訓練ChatGPT大型語言模型的靈感,訓練LLM的時候,OpenAI把文字拆解成一個一個的Token來進行訓練,而訓練影片的時候Sora則是把影片拆解成"Visual Patches"這樣的小單位,來餵進去給Model做訓練。藉由把影片這種高維度的資訊,拆解成為Patches這樣低維度的可以用矩陣表達的數列,Sora可以更有效率地進行Model的訓練。而事實也證明,這樣的做法可以有效地把影片中的關鍵資訊帶入訓練的模型裡面。
過去的文字生影片的方式,多半都是以Diffusion model也就是以文字生圖的方式為主,再加上各式各樣的方式來控制影片的consistency,而OpenAI的做法是結合了Transformer & Diffusion model,是diffusion transformer model,可以說是全新的訓練方式。
無論大家對於OpenAI的看法如何,我個人非常感謝OpenAI作為一個半營利組織,願意公開訓練Model的方式,而這樣突破性的訓練方式一旦公開,無論是open source界或是其他AI公司勢必會跟進,可以想見以文字產生影片的蓬勃發展時代肯定還在前頭。
最後我想談關於Sora為什麼如此重要的一點是,跟ChatGPT等LLM類似,似乎隨著訓練的資訊量上升,大型的模型會有類似"頓悟"的現象發生。就像我們知道GPT4 已經有了基本的推理能力一樣,藉由不斷的提升Sora的訓練資料量,是否能夠讓大型的Diffusion-transformer model 有頓悟的現象呢?
實際上,如果我們看這個連結,會發現SORA的影片能夠正確的理解3D世界的結構,並起產出長度夠長且人物移動符合真實世界物理現象的影片。
如果我們看這個影片,會發現影片中的人物咬了漢堡以後,漢堡會有缺口,這也是一個SORA理解了真實世界物理的現象。
根據目前接露的資訊來看,OpenAI並沒有把類似Unreal Engine等物理引擎的原理放在訓練SORA的內容中,而是直接把影片做為訓練的基本,但是藉由夠大的資料量,看來也確實引發了類似AI的"頓悟"現象。這是很令人期待的一件事情,如果在放更多更多的資料上去訓練 (我想我們不缺資料,畢竟Youtube上有近乎無限的真實世界的影片),那麼大型的Diffusion transformer model是否能夠像人類一樣完整的理解這個世界呢? 屆時可能會再產生更多我們目前尚沒有想像到的功能。
以上就是簡短的對於目前OpenAI的SORA的想法,如果有想得不對或是想要討論的,也歡迎各位留言。