OpenAI的Sora為什麼重要?

閱讀時間約 6 分鐘
raw-image

好一段時間沒有更新網誌了,一方面是因為個人工作繁忙的關係,另一方面也是因為針對LLM的突破,個人一直還沒有投入足夠的時間去研究,只是略知皮毛。但是昨天OpenAI 發表的Sora,對於我這個浸淫AI繪圖還有AI產生(基礎的)動畫一段時間的人來說,可以說是非常的震撼。經過研究OpenAI發表的Sora 白皮書以後,我認為這是一個相當重大的突破,為什麼說是突破呢? 我想從幾個方面來跟各位分享,分別是 "畫面品質的巨大差異", "影片長度的突破", "突破性的訓練方式" 最後則是"Sora是否開啟了針對物理世界的頓悟現象"。

  1. 畫面品質上的巨大差異

首先如果對於AI製作影片不了解的人,可能會覺得,我們AI繪圖已經這麼厲害了,那麼產生影像應該不是什麼了不起的事情吧? 確實,AI製圖基本上已經相對成熟,無論是要產出怎樣的概念,怎樣的畫風,擬真或是卡通風格,都不難製作出來。

但是影片是跟單一圖片完全不同的概念,因為影片是由非常多張的影像堆疊出來的,而AI產生出來的圖片每一張都是單獨產生的,也就是說每一張都有很多的不確定性,如果直接把他堆疊起來,就會發生很多不一致,很難控制的變化,舉例來說用Deforum產出的影片就是如此。

可以看到因為每一張圖都是獨立產生的,就算已經透過Controlnet 的方式來導引,可以還是會看到背景跟人物不斷的有細微的變化,也就是說AI產生影片第一個要突破的就是如何產出一系列非常一致的圖片(Consistency of the video),讓整段影片絲滑柔順,看起來就跟花大錢做的動畫一樣,這一點Open AI的Sora沒話說,確實是做得很好。

  1. 影片長度上的巨大差異

那麼,難道過去就沒有人把影片的consistency做好嗎? 當然是有的,有兩間公司Pika Labs跟Runway 的Gen-2 text to video就是針對這一點去下苦功,也確實能夠產出非常一致性的影片,但是最大的罩門就是每次只能產出4秒的影片長度,如底下Runway的影片,雖然可以text to video 或是用一張圖片當作導圖,但是就是無法突破4秒鐘。實際上有在玩AI製作影片的人知道,超過四秒鐘以後畫面就會有嚴重的變形或是人物馬上會走鐘,這也是為什麼這些公司不敢開發四秒鐘以上的長度。

而OpenAI一口氣就把長度拉到一分鐘(如底下這個影片),而且中間人物一點都沒有不一致的問題,這可以說是非常大的突破 (對比我上面貼的Deforum產出的人物影片,大家就能夠知道差距有多大)

如果我們細讀Open AI的SORA白皮書的話可以看到,不但單一影片產出長度可以達到一分鐘,而且還可以把不同的影片做串接,或是以一張圖片作為影片的導圖,這也正式的把AI影片製作帶到了可以商業化的境界。那麼,Open AI是怎麼做到的呢?

3. 突破性的Model訓練方式

這就帶我們來到這一點,得益於OpenAI訓練ChatGPT大型語言模型的靈感,訓練LLM的時候,OpenAI把文字拆解成一個一個的Token來進行訓練,而訓練影片的時候Sora則是把影片拆解成"Visual Patches"這樣的小單位,來餵進去給Model做訓練。藉由把影片這種高維度的資訊,拆解成為Patches這樣低維度的可以用矩陣表達的數列,Sora可以更有效率地進行Model的訓練。而事實也證明,這樣的做法可以有效地把影片中的關鍵資訊帶入訓練的模型裡面。

raw-image

過去的文字生影片的方式,多半都是以Diffusion model也就是以文字生圖的方式為主,再加上各式各樣的方式來控制影片的consistency,而OpenAI的做法是結合了Transformer & Diffusion model,是diffusion transformer model,可以說是全新的訓練方式。

無論大家對於OpenAI的看法如何,我個人非常感謝OpenAI作為一個半營利組織,願意公開訓練Model的方式,而這樣突破性的訓練方式一旦公開,無論是open source界或是其他AI公司勢必會跟進,可以想見以文字產生影片的蓬勃發展時代肯定還在前頭。

  1. 證明更大的Model 可能有"頓悟"現象

最後我想談關於Sora為什麼如此重要的一點是,跟ChatGPT等LLM類似,似乎隨著訓練的資訊量上升,大型的模型會有類似"頓悟"的現象發生。就像我們知道GPT4 已經有了基本的推理能力一樣,藉由不斷的提升Sora的訓練資料量,是否能夠讓大型的Diffusion-transformer model 有頓悟的現象呢?

實際上,如果我們看這個連結,會發現SORA的影片能夠正確的理解3D世界的結構,並起產出長度夠長且人物移動符合真實世界物理現象的影片。

如果我們看這個影片,會發現影片中的人物咬了漢堡以後,漢堡會有缺口,這也是一個SORA理解了真實世界物理的現象。

根據目前接露的資訊來看,OpenAI並沒有把類似Unreal Engine等物理引擎的原理放在訓練SORA的內容中,而是直接把影片做為訓練的基本,但是藉由夠大的資料量,看來也確實引發了類似AI的"頓悟"現象。這是很令人期待的一件事情,如果在放更多更多的資料上去訓練 (我想我們不缺資料,畢竟Youtube上有近乎無限的真實世界的影片),那麼大型的Diffusion transformer model是否能夠像人類一樣完整的理解這個世界呢? 屆時可能會再產生更多我們目前尚沒有想像到的功能。

以上就是簡短的對於目前OpenAI的SORA的想法,如果有想得不對或是想要討論的,也歡迎各位留言。






    技術PM的AI實驗室,是以輕鬆的角度深入簡出的探討各種生成式AI工具的使用。無論你是想理解AI到底是怎麼運作的? 想知道有那些好用的生成式AI工具? 或者是對AI繪圖有興趣的,都歡迎加入我們的AI實驗室一起輕鬆地玩耍,我們邊玩邊學,學習跟AI一起共創新的可能。
    留言0
    查看全部
    發表第一個留言支持創作者!
    SDXL Turbo主打可以1 step就產生一定品質的圖片 (圖片品質比SDXL甚至SD 1.5還要低),完全是以速度取勝,那麼SDXL Turbo這個技術代表的是怎樣的突破呢? 究竟秒出圖的技術能夠有什麼實際的應用呢? 這就是我們這篇想要探討的。
    這篇文章會跟大家介紹,為什麼我覺得ChatGPT的多模態輸入輸出其實是最重要的一個功能之一,讓AI往成為真正人工智慧代理人的路上前進了一大步,我們也會稍微探討(想像)一下,所謂的理想的AI載具到底應該是怎樣的?
    本篇文章是 以ChatGPT翻譯華頓商學院教授Ethan Mollick的文章,並且稍微加上修飾而來的,是一篇相當好的該如何使用AI的引言,分享給各位。 我們學到的就是,只要使用AI,你就會學會如何使用AI。你只需大量使用AI,直到你弄清楚它的優點和缺點,就可以成為你領域的AI應用專家。
    本篇文章是翻譯自 AI大神 吳恩達 Andrew Ng 的電子信件,吳恩達是史丹福大學計算機科學系和電氣工程系的客座教授,曾任斯坦福人工智慧實驗室主任。他與達芙妮·科勒一起創建了在線教育平台Coursera。本篇文章吳恩達談到AI與邊緣運算。
    本篇文章是筆者近期聽過的一篇非常好的Podcast,為了想要記錄下來於是找了Podcast Note並且配合ChatGPT進行翻譯,想要聽Podcast或是參考原文的請看這邊。 本篇文章從神經心理學上面探討如何增強你的意志力跟監韌性,我覺得非常值得參考,分享給大家。 如何增強你的意志力和堅韌
    上片文章提到的,Dalle-E3這個殺手級的AI繪圖軟體,除了在Bing上面可以使用以外,現在也開放給ChatGPT plus 的使用者了。本篇就來探討關於ChatGPT + DALL-E3可以激盪出什麼不同的火花,我們又該怎麼"正確"的使用這個產品
    SDXL Turbo主打可以1 step就產生一定品質的圖片 (圖片品質比SDXL甚至SD 1.5還要低),完全是以速度取勝,那麼SDXL Turbo這個技術代表的是怎樣的突破呢? 究竟秒出圖的技術能夠有什麼實際的應用呢? 這就是我們這篇想要探討的。
    這篇文章會跟大家介紹,為什麼我覺得ChatGPT的多模態輸入輸出其實是最重要的一個功能之一,讓AI往成為真正人工智慧代理人的路上前進了一大步,我們也會稍微探討(想像)一下,所謂的理想的AI載具到底應該是怎樣的?
    本篇文章是 以ChatGPT翻譯華頓商學院教授Ethan Mollick的文章,並且稍微加上修飾而來的,是一篇相當好的該如何使用AI的引言,分享給各位。 我們學到的就是,只要使用AI,你就會學會如何使用AI。你只需大量使用AI,直到你弄清楚它的優點和缺點,就可以成為你領域的AI應用專家。
    本篇文章是翻譯自 AI大神 吳恩達 Andrew Ng 的電子信件,吳恩達是史丹福大學計算機科學系和電氣工程系的客座教授,曾任斯坦福人工智慧實驗室主任。他與達芙妮·科勒一起創建了在線教育平台Coursera。本篇文章吳恩達談到AI與邊緣運算。
    本篇文章是筆者近期聽過的一篇非常好的Podcast,為了想要記錄下來於是找了Podcast Note並且配合ChatGPT進行翻譯,想要聽Podcast或是參考原文的請看這邊。 本篇文章從神經心理學上面探討如何增強你的意志力跟監韌性,我覺得非常值得參考,分享給大家。 如何增強你的意志力和堅韌
    上片文章提到的,Dalle-E3這個殺手級的AI繪圖軟體,除了在Bing上面可以使用以外,現在也開放給ChatGPT plus 的使用者了。本篇就來探討關於ChatGPT + DALL-E3可以激盪出什麼不同的火花,我們又該怎麼"正確"的使用這個產品
    你可能也想看
    Google News 追蹤
    Thumbnail
    接下來第二部分我們持續討論美國總統大選如何佈局, 以及選前一週到年底的操作策略建議 分析兩位候選人政策利多/ 利空的板塊和股票
    Thumbnail
    🤔為什麼團長的能力是死亡筆記本? 🤔為什麼像是死亡筆記本呢? 🤨作者巧思-讓妮翁死亡合理的幾個伏筆
    Thumbnail
    OpenAI最新推出的「Sora」是一款文本生成影像的AI模型,只要輸入幾句簡單的文字描述,就能自動生成出影像,影片內容可以包含多名角色,搭配特定的動態場景,且影片長度最高可達60秒,同時還能展示複雜的攝影機運動。Sora還能夠根據靜態圖片來製作動畫,功能十分強大。目前Sora還沒有開放給大眾使
    Thumbnail
    幾天前OpenAI公司發表了全新的「AI生成影片」技術:透過一段簡短的「文字」敘述,讓AI生成一分鐘、1080P畫質的精美逼真影片。 礙於能力時間有限,我只能從使用ChatGPT、Bing這一年來獲得的大量經驗,閱讀研究大量AI相關資料整理的結論,分享AI生成圖片影片對「親密關係」可能帶來的衝擊。
    Thumbnail
    2023年4月,紐約成立的Runway AI發佈了一段用AI生成的影音:畫面模糊、卡頓,物體扭曲,僅時長4秒;四個月後,Runway將文生成影音的效果推向4K超高清,實現鏡頭的連貫穩定,長度也從4秒提升至18秒——這是2023年文生成影音的「時長天花板」。
    Thumbnail
    2024年2月16日,OpenAI開發的文字轉影片模型Sora正式揭曉。本文介紹了Sora與Apple Vision Pro AR/XR眼鏡的結合對教育、娛樂、設計、醫療、企業管理、數據視覺化、溝通和協作等領域帶來的革命性影響。
    Thumbnail
    當你聽到「GPT」這三個字母時,你的腦海中會浮現什麼?是OpenAI掀起AI革命的明星產品ChatGPT🤖,抑或是其原本的技術術語「Generative Pre-trained Transformer」(生成型預訓練變換模型)? 事實上這不僅是一個關於詞彙理解的問題,更是一個關於商標權的故事。
    Thumbnail
    根據英國金融時報(FT)的報導,OpenAI 的執行長奧特曼正在與包括台積電(2330)在內的晶片製造業者,以及中東投資者,討論成立新的晶片事業計畫[1]。 OpenAI 對人工智慧(AI)晶片的需求勢將不斷增加,彭博資訊也報導,奧特曼準備籌募規模百億美元的資金,建構起全球半導體製造網[1
    Thumbnail
    科技剪報#1 理得出以下三個要點,跟大家分享,為什麼特斯拉的Cybertruck 值得關注?👉#1 與眾不同的設計與外觀: Cybertruck擁有獨特的外觀設計,靈感來自於電影《銀翼殺手》(Blade Runner),馬斯克說: "I specifically wanted to
    Thumbnail
    包括用於行銷、播客、財務、搜尋引擎優化、新聞等的插件… 其中金融類插件7個,廣告類插件5個,教育類插件4個,本地生活類插件4個,新聞類插件4個,視訊類插件4個。其他類型9個
    Thumbnail
    人工智能(AI)是當今科技界最熱門的話題之一,它有著無限的潛力,也帶來了許多風險和問題。為了讓大家更深入地了解 AI 的現狀和未來,Keio 大學邀請了 OpenAI 的 CEO Sam Altman 來進行一場精彩的演講。
    這篇教學文章將介紹如何使用 OpenAI 的 GPT-3 模型來建立一個簡單的聊天機器人。
    Thumbnail
    接下來第二部分我們持續討論美國總統大選如何佈局, 以及選前一週到年底的操作策略建議 分析兩位候選人政策利多/ 利空的板塊和股票
    Thumbnail
    🤔為什麼團長的能力是死亡筆記本? 🤔為什麼像是死亡筆記本呢? 🤨作者巧思-讓妮翁死亡合理的幾個伏筆
    Thumbnail
    OpenAI最新推出的「Sora」是一款文本生成影像的AI模型,只要輸入幾句簡單的文字描述,就能自動生成出影像,影片內容可以包含多名角色,搭配特定的動態場景,且影片長度最高可達60秒,同時還能展示複雜的攝影機運動。Sora還能夠根據靜態圖片來製作動畫,功能十分強大。目前Sora還沒有開放給大眾使
    Thumbnail
    幾天前OpenAI公司發表了全新的「AI生成影片」技術:透過一段簡短的「文字」敘述,讓AI生成一分鐘、1080P畫質的精美逼真影片。 礙於能力時間有限,我只能從使用ChatGPT、Bing這一年來獲得的大量經驗,閱讀研究大量AI相關資料整理的結論,分享AI生成圖片影片對「親密關係」可能帶來的衝擊。
    Thumbnail
    2023年4月,紐約成立的Runway AI發佈了一段用AI生成的影音:畫面模糊、卡頓,物體扭曲,僅時長4秒;四個月後,Runway將文生成影音的效果推向4K超高清,實現鏡頭的連貫穩定,長度也從4秒提升至18秒——這是2023年文生成影音的「時長天花板」。
    Thumbnail
    2024年2月16日,OpenAI開發的文字轉影片模型Sora正式揭曉。本文介紹了Sora與Apple Vision Pro AR/XR眼鏡的結合對教育、娛樂、設計、醫療、企業管理、數據視覺化、溝通和協作等領域帶來的革命性影響。
    Thumbnail
    當你聽到「GPT」這三個字母時,你的腦海中會浮現什麼?是OpenAI掀起AI革命的明星產品ChatGPT🤖,抑或是其原本的技術術語「Generative Pre-trained Transformer」(生成型預訓練變換模型)? 事實上這不僅是一個關於詞彙理解的問題,更是一個關於商標權的故事。
    Thumbnail
    根據英國金融時報(FT)的報導,OpenAI 的執行長奧特曼正在與包括台積電(2330)在內的晶片製造業者,以及中東投資者,討論成立新的晶片事業計畫[1]。 OpenAI 對人工智慧(AI)晶片的需求勢將不斷增加,彭博資訊也報導,奧特曼準備籌募規模百億美元的資金,建構起全球半導體製造網[1
    Thumbnail
    科技剪報#1 理得出以下三個要點,跟大家分享,為什麼特斯拉的Cybertruck 值得關注?👉#1 與眾不同的設計與外觀: Cybertruck擁有獨特的外觀設計,靈感來自於電影《銀翼殺手》(Blade Runner),馬斯克說: "I specifically wanted to
    Thumbnail
    包括用於行銷、播客、財務、搜尋引擎優化、新聞等的插件… 其中金融類插件7個,廣告類插件5個,教育類插件4個,本地生活類插件4個,新聞類插件4個,視訊類插件4個。其他類型9個
    Thumbnail
    人工智能(AI)是當今科技界最熱門的話題之一,它有著無限的潛力,也帶來了許多風險和問題。為了讓大家更深入地了解 AI 的現狀和未來,Keio 大學邀請了 OpenAI 的 CEO Sam Altman 來進行一場精彩的演講。
    這篇教學文章將介紹如何使用 OpenAI 的 GPT-3 模型來建立一個簡單的聊天機器人。