OpenAI的Sora為什麼重要?

更新於 發佈於 閱讀時間約 6 分鐘
raw-image

好一段時間沒有更新網誌了,一方面是因為個人工作繁忙的關係,另一方面也是因為針對LLM的突破,個人一直還沒有投入足夠的時間去研究,只是略知皮毛。但是昨天OpenAI 發表的Sora,對於我這個浸淫AI繪圖還有AI產生(基礎的)動畫一段時間的人來說,可以說是非常的震撼。經過研究OpenAI發表的Sora 白皮書以後,我認為這是一個相當重大的突破,為什麼說是突破呢? 我想從幾個方面來跟各位分享,分別是 "畫面品質的巨大差異", "影片長度的突破", "突破性的訓練方式" 最後則是"Sora是否開啟了針對物理世界的頓悟現象"。

  1. 畫面品質上的巨大差異

首先如果對於AI製作影片不了解的人,可能會覺得,我們AI繪圖已經這麼厲害了,那麼產生影像應該不是什麼了不起的事情吧? 確實,AI製圖基本上已經相對成熟,無論是要產出怎樣的概念,怎樣的畫風,擬真或是卡通風格,都不難製作出來。

但是影片是跟單一圖片完全不同的概念,因為影片是由非常多張的影像堆疊出來的,而AI產生出來的圖片每一張都是單獨產生的,也就是說每一張都有很多的不確定性,如果直接把他堆疊起來,就會發生很多不一致,很難控制的變化,舉例來說用Deforum產出的影片就是如此。

可以看到因為每一張圖都是獨立產生的,就算已經透過Controlnet 的方式來導引,可以還是會看到背景跟人物不斷的有細微的變化,也就是說AI產生影片第一個要突破的就是如何產出一系列非常一致的圖片(Consistency of the video),讓整段影片絲滑柔順,看起來就跟花大錢做的動畫一樣,這一點Open AI的Sora沒話說,確實是做得很好。

  1. 影片長度上的巨大差異

那麼,難道過去就沒有人把影片的consistency做好嗎? 當然是有的,有兩間公司Pika Labs跟Runway 的Gen-2 text to video就是針對這一點去下苦功,也確實能夠產出非常一致性的影片,但是最大的罩門就是每次只能產出4秒的影片長度,如底下Runway的影片,雖然可以text to video 或是用一張圖片當作導圖,但是就是無法突破4秒鐘。實際上有在玩AI製作影片的人知道,超過四秒鐘以後畫面就會有嚴重的變形或是人物馬上會走鐘,這也是為什麼這些公司不敢開發四秒鐘以上的長度。

而OpenAI一口氣就把長度拉到一分鐘(如底下這個影片),而且中間人物一點都沒有不一致的問題,這可以說是非常大的突破 (對比我上面貼的Deforum產出的人物影片,大家就能夠知道差距有多大)

如果我們細讀Open AI的SORA白皮書的話可以看到,不但單一影片產出長度可以達到一分鐘,而且還可以把不同的影片做串接,或是以一張圖片作為影片的導圖,這也正式的把AI影片製作帶到了可以商業化的境界。那麼,Open AI是怎麼做到的呢?

3. 突破性的Model訓練方式

這就帶我們來到這一點,得益於OpenAI訓練ChatGPT大型語言模型的靈感,訓練LLM的時候,OpenAI把文字拆解成一個一個的Token來進行訓練,而訓練影片的時候Sora則是把影片拆解成"Visual Patches"這樣的小單位,來餵進去給Model做訓練。藉由把影片這種高維度的資訊,拆解成為Patches這樣低維度的可以用矩陣表達的數列,Sora可以更有效率地進行Model的訓練。而事實也證明,這樣的做法可以有效地把影片中的關鍵資訊帶入訓練的模型裡面。

raw-image

過去的文字生影片的方式,多半都是以Diffusion model也就是以文字生圖的方式為主,再加上各式各樣的方式來控制影片的consistency,而OpenAI的做法是結合了Transformer & Diffusion model,是diffusion transformer model,可以說是全新的訓練方式。

無論大家對於OpenAI的看法如何,我個人非常感謝OpenAI作為一個半營利組織,願意公開訓練Model的方式,而這樣突破性的訓練方式一旦公開,無論是open source界或是其他AI公司勢必會跟進,可以想見以文字產生影片的蓬勃發展時代肯定還在前頭。

  1. 證明更大的Model 可能有"頓悟"現象

最後我想談關於Sora為什麼如此重要的一點是,跟ChatGPT等LLM類似,似乎隨著訓練的資訊量上升,大型的模型會有類似"頓悟"的現象發生。就像我們知道GPT4 已經有了基本的推理能力一樣,藉由不斷的提升Sora的訓練資料量,是否能夠讓大型的Diffusion-transformer model 有頓悟的現象呢?

實際上,如果我們看這個連結,會發現SORA的影片能夠正確的理解3D世界的結構,並起產出長度夠長且人物移動符合真實世界物理現象的影片。

如果我們看這個影片,會發現影片中的人物咬了漢堡以後,漢堡會有缺口,這也是一個SORA理解了真實世界物理的現象。

根據目前接露的資訊來看,OpenAI並沒有把類似Unreal Engine等物理引擎的原理放在訓練SORA的內容中,而是直接把影片做為訓練的基本,但是藉由夠大的資料量,看來也確實引發了類似AI的"頓悟"現象。這是很令人期待的一件事情,如果在放更多更多的資料上去訓練 (我想我們不缺資料,畢竟Youtube上有近乎無限的真實世界的影片),那麼大型的Diffusion transformer model是否能夠像人類一樣完整的理解這個世界呢? 屆時可能會再產生更多我們目前尚沒有想像到的功能。

以上就是簡短的對於目前OpenAI的SORA的想法,如果有想得不對或是想要討論的,也歡迎各位留言。






技術PM的AI實驗室,是以輕鬆的角度深入簡出的探討各種生成式AI工具的使用。無論你是想理解AI到底是怎麼運作的? 想知道有那些好用的生成式AI工具? 或者是對AI繪圖有興趣的,都歡迎加入我們的AI實驗室一起輕鬆地玩耍,我們邊玩邊學,學習跟AI一起共創新的可能。
留言0
查看全部
avatar-img
發表第一個留言支持創作者!
SDXL Turbo主打可以1 step就產生一定品質的圖片 (圖片品質比SDXL甚至SD 1.5還要低),完全是以速度取勝,那麼SDXL Turbo這個技術代表的是怎樣的突破呢? 究竟秒出圖的技術能夠有什麼實際的應用呢? 這就是我們這篇想要探討的。
這篇文章會跟大家介紹,為什麼我覺得ChatGPT的多模態輸入輸出其實是最重要的一個功能之一,讓AI往成為真正人工智慧代理人的路上前進了一大步,我們也會稍微探討(想像)一下,所謂的理想的AI載具到底應該是怎樣的?
本篇文章是 以ChatGPT翻譯華頓商學院教授Ethan Mollick的文章,並且稍微加上修飾而來的,是一篇相當好的該如何使用AI的引言,分享給各位。 我們學到的就是,只要使用AI,你就會學會如何使用AI。你只需大量使用AI,直到你弄清楚它的優點和缺點,就可以成為你領域的AI應用專家。
本篇文章是翻譯自 AI大神 吳恩達 Andrew Ng 的電子信件,吳恩達是史丹福大學計算機科學系和電氣工程系的客座教授,曾任斯坦福人工智慧實驗室主任。他與達芙妮·科勒一起創建了在線教育平台Coursera。本篇文章吳恩達談到AI與邊緣運算。
本篇文章是筆者近期聽過的一篇非常好的Podcast,為了想要記錄下來於是找了Podcast Note並且配合ChatGPT進行翻譯,想要聽Podcast或是參考原文的請看這邊。 本篇文章從神經心理學上面探討如何增強你的意志力跟監韌性,我覺得非常值得參考,分享給大家。 如何增強你的意志力和堅韌
上片文章提到的,Dalle-E3這個殺手級的AI繪圖軟體,除了在Bing上面可以使用以外,現在也開放給ChatGPT plus 的使用者了。本篇就來探討關於ChatGPT + DALL-E3可以激盪出什麼不同的火花,我們又該怎麼"正確"的使用這個產品
SDXL Turbo主打可以1 step就產生一定品質的圖片 (圖片品質比SDXL甚至SD 1.5還要低),完全是以速度取勝,那麼SDXL Turbo這個技術代表的是怎樣的突破呢? 究竟秒出圖的技術能夠有什麼實際的應用呢? 這就是我們這篇想要探討的。
這篇文章會跟大家介紹,為什麼我覺得ChatGPT的多模態輸入輸出其實是最重要的一個功能之一,讓AI往成為真正人工智慧代理人的路上前進了一大步,我們也會稍微探討(想像)一下,所謂的理想的AI載具到底應該是怎樣的?
本篇文章是 以ChatGPT翻譯華頓商學院教授Ethan Mollick的文章,並且稍微加上修飾而來的,是一篇相當好的該如何使用AI的引言,分享給各位。 我們學到的就是,只要使用AI,你就會學會如何使用AI。你只需大量使用AI,直到你弄清楚它的優點和缺點,就可以成為你領域的AI應用專家。
本篇文章是翻譯自 AI大神 吳恩達 Andrew Ng 的電子信件,吳恩達是史丹福大學計算機科學系和電氣工程系的客座教授,曾任斯坦福人工智慧實驗室主任。他與達芙妮·科勒一起創建了在線教育平台Coursera。本篇文章吳恩達談到AI與邊緣運算。
本篇文章是筆者近期聽過的一篇非常好的Podcast,為了想要記錄下來於是找了Podcast Note並且配合ChatGPT進行翻譯,想要聽Podcast或是參考原文的請看這邊。 本篇文章從神經心理學上面探討如何增強你的意志力跟監韌性,我覺得非常值得參考,分享給大家。 如何增強你的意志力和堅韌
上片文章提到的,Dalle-E3這個殺手級的AI繪圖軟體,除了在Bing上面可以使用以外,現在也開放給ChatGPT plus 的使用者了。本篇就來探討關於ChatGPT + DALL-E3可以激盪出什麼不同的火花,我們又該怎麼"正確"的使用這個產品
你可能也想看
Google News 追蹤
Thumbnail
大家好,我是woody,是一名料理創作者,非常努力地在嘗試將複雜的料理簡單化,讓大家也可以體驗到料理的樂趣而我也非常享受料理的過程,今天想跟大家聊聊,除了料理本身,料理創作背後的成本。
Thumbnail
哈囉~很久沒跟各位自我介紹一下了~ 大家好~我是爺恩 我是一名圖文插畫家,有追蹤我一段時間的應該有發現爺恩這個品牌經營了好像.....快五年了(汗)時間過得真快!隨著時間過去,創作這件事好像變得更忙碌了,也很開心跟很多厲害的創作者以及廠商互相合作幫忙,還有最重要的是大家的支持與陪伴🥹。  
Thumbnail
嘿,大家新年快樂~ 新年大家都在做什麼呢? 跨年夜的我趕工製作某個外包設計案,在工作告一段落時趕上倒數。 然後和兩個小孩過了一個忙亂的元旦。在深夜時刻,看到朋友傳來的解籤網站,興致勃勃熬夜體驗了一下,覺得非常好玩,或許有人玩過了,但還是想寫上來分享紀錄一下~
Thumbnail
Open AI影片生成模型Sora橫空出世 Sora是一個 AI 模型,可依據文字指令創建現實和富有想像的場景 這是Open AI首頁關於生成模型Sora的簡介 Open AI執行長將籌資數兆美元重塑全球半導體產業 全美娛樂產業接受訪談的300位主管,認為未來3年將有20萬個工作 受到AI
Thumbnail
OpenAI於2024年2月15日首次發佈「Sora」:以文字生成影片的AI模型 Sora,源於日文「空」(そら sora),即天空之意,它“喚起了無限創造潛力的想法”。
Thumbnail
Open AI Sora 及 網通 光通訊 概念股
Thumbnail
2024 年 2 月,OpenAI 推出了 Sora 文字生成影片模型,該模型根據用戶輸入的文字描述生成逼真的影片,並且能夠控制影片的細節,例如人物、場景、動作、表情等。Sora 的出現無疑為影視創作領域帶來了革命性的變化。
Thumbnail
如果AI能夠生成高質感的影片,對影視業不啻一場革命。 無需龐大設備和龐大後製團隊,只需要指令,幾分鐘即能輕鬆完成。 這對影視業來說無疑是一場革命。
Thumbnail
AI生成技術領頭羊Open AI又出手了,旗下產品「Sora」有別於Chat GPT,只要給予指令,生產出來的不再只是文字,而是一幕幕需要耗費大量人工努力下產出的產品,所謂大量人工包含了:攝影、剪接、燈光、彩妝、演員、美術道具,甚至導演、製片等等。 而AI只要彈指之間,便能將無形化有形,從無到有
Thumbnail
OpenAI最新推出的「Sora」是一款文本生成影像的AI模型,只要輸入幾句簡單的文字描述,就能自動生成出影像,影片內容可以包含多名角色,搭配特定的動態場景,且影片長度最高可達60秒,同時還能展示複雜的攝影機運動。Sora還能夠根據靜態圖片來製作動畫,功能十分強大。目前Sora還沒有開放給大眾使
Thumbnail
幾天前OpenAI公司發表了全新的「AI生成影片」技術:透過一段簡短的「文字」敘述,讓AI生成一分鐘、1080P畫質的精美逼真影片。 礙於能力時間有限,我只能從使用ChatGPT、Bing這一年來獲得的大量經驗,閱讀研究大量AI相關資料整理的結論,分享AI生成圖片影片對「親密關係」可能帶來的衝擊。
Thumbnail
大家好,我是woody,是一名料理創作者,非常努力地在嘗試將複雜的料理簡單化,讓大家也可以體驗到料理的樂趣而我也非常享受料理的過程,今天想跟大家聊聊,除了料理本身,料理創作背後的成本。
Thumbnail
哈囉~很久沒跟各位自我介紹一下了~ 大家好~我是爺恩 我是一名圖文插畫家,有追蹤我一段時間的應該有發現爺恩這個品牌經營了好像.....快五年了(汗)時間過得真快!隨著時間過去,創作這件事好像變得更忙碌了,也很開心跟很多厲害的創作者以及廠商互相合作幫忙,還有最重要的是大家的支持與陪伴🥹。  
Thumbnail
嘿,大家新年快樂~ 新年大家都在做什麼呢? 跨年夜的我趕工製作某個外包設計案,在工作告一段落時趕上倒數。 然後和兩個小孩過了一個忙亂的元旦。在深夜時刻,看到朋友傳來的解籤網站,興致勃勃熬夜體驗了一下,覺得非常好玩,或許有人玩過了,但還是想寫上來分享紀錄一下~
Thumbnail
Open AI影片生成模型Sora橫空出世 Sora是一個 AI 模型,可依據文字指令創建現實和富有想像的場景 這是Open AI首頁關於生成模型Sora的簡介 Open AI執行長將籌資數兆美元重塑全球半導體產業 全美娛樂產業接受訪談的300位主管,認為未來3年將有20萬個工作 受到AI
Thumbnail
OpenAI於2024年2月15日首次發佈「Sora」:以文字生成影片的AI模型 Sora,源於日文「空」(そら sora),即天空之意,它“喚起了無限創造潛力的想法”。
Thumbnail
Open AI Sora 及 網通 光通訊 概念股
Thumbnail
2024 年 2 月,OpenAI 推出了 Sora 文字生成影片模型,該模型根據用戶輸入的文字描述生成逼真的影片,並且能夠控制影片的細節,例如人物、場景、動作、表情等。Sora 的出現無疑為影視創作領域帶來了革命性的變化。
Thumbnail
如果AI能夠生成高質感的影片,對影視業不啻一場革命。 無需龐大設備和龐大後製團隊,只需要指令,幾分鐘即能輕鬆完成。 這對影視業來說無疑是一場革命。
Thumbnail
AI生成技術領頭羊Open AI又出手了,旗下產品「Sora」有別於Chat GPT,只要給予指令,生產出來的不再只是文字,而是一幕幕需要耗費大量人工努力下產出的產品,所謂大量人工包含了:攝影、剪接、燈光、彩妝、演員、美術道具,甚至導演、製片等等。 而AI只要彈指之間,便能將無形化有形,從無到有
Thumbnail
OpenAI最新推出的「Sora」是一款文本生成影像的AI模型,只要輸入幾句簡單的文字描述,就能自動生成出影像,影片內容可以包含多名角色,搭配特定的動態場景,且影片長度最高可達60秒,同時還能展示複雜的攝影機運動。Sora還能夠根據靜態圖片來製作動畫,功能十分強大。目前Sora還沒有開放給大眾使
Thumbnail
幾天前OpenAI公司發表了全新的「AI生成影片」技術:透過一段簡短的「文字」敘述,讓AI生成一分鐘、1080P畫質的精美逼真影片。 礙於能力時間有限,我只能從使用ChatGPT、Bing這一年來獲得的大量經驗,閱讀研究大量AI相關資料整理的結論,分享AI生成圖片影片對「親密關係」可能帶來的衝擊。