2024-03-15|閱讀時間 ‧ 約 25 分鐘

【Sora」そら.文字轉影片的AI模型

一、 OpenAI於米國時間2024年2月15日首次發佈「Sora」:以文字生成影片的AI模型

  • OpenAI 將其新系統命名為 Sora,源於日文「空」(そら sora),即天空之意,技術團隊表示之所以選擇這個名字,是因為它“喚起了無限創造潛力的想法”。
  • Sora能夠依照使用者所給予的提示(prompt),將一段簡短的文字描述(或靜態圖片也可以)自動轉換生成最多長達一分鐘的高清1080p的短影片(text-to-video)。逼真並且富有想像力。經過測試,Sora 可以生成各種風格(包括真實電影,動漫風或歷史運鏡)的影片,長度可達一分鐘,遠遠超過目前大多數其他市面上的文字轉影片模型,而且影片都盡可能保持合理與連貫的高水準。
  • OpenAI:「Sora對語言有深刻的理解,使其能夠準確理解提示,並生成表現生動情感的引人入勝的角色。該模型不僅了解使用者在提示中要求的內容,還了解這些事物在物理世界中的存在方式。」→根本要往人類的思維邁進了(?)
  • 點我看更多

然而,Sora 並非完美無缺。它可能在模擬複雜場景的物理特性時遇到困難,可能無法理解特定的因果關係。例如,一個人咬了一口餅乾,但之後餅乾可能沒有出現咬痕。模型也可能混淆提示中的空間細節,例如左右混淆,並且可能難以精確描述隨著時間推移發生的事件,比如遵循特定的攝影機軌跡、吹不動的蠟燭、被遮擋後就原地消失。

二、Sora is a Diffusion transformer.

  • Sora是建立在GPT模型和DALL·E的研究基礎之上。技術文件指出Sora應用了DALL·E 3 Diffusion 擴散模型,能專為視覺資料生成高度描述性的標題,所以經過訓練後可以將文字描述轉換為視覺圖像,隨機像素模糊轉換為圖片(random pixels into a picture),簡單來說就像是逐格放大後,補上圖面細節的過程。而像GPT-4這種tranformer模型,就很擅長找關聯性,所以OpenAI就是讓 transformer 模型來監督 Diffusion 做影片。
  • ChatGPT 理解內容的最小單位是 token,token 類似單詞的文字語意,ChatGPT 用 token產生有連續性且有意義句子和文章。為了讓 transformer 看懂圖片的方式,發展出了patch,patch可以想成是圖片版的token,讓ChatGPT可以用圖片,得出有連貫性的圖片。Sora官方提供的訓練說明圖上,最後所形成的方塊就patch,這些patch 是包含時間在內的4D立體拼圖,可以針對畫面與時間的連續性進行計算。


三、Sora更多的驚喜

  • Sora 可以取樣寬螢幕 1920x1080p 影片、垂直 1080×1920 影片以及介於兩者之間的所有影片。這使得Sora 會依照硬體設備的大小產生相對應尺寸的影片,並可以調整改善影片的構圖和取景。
  • 強大的圖片轉影片
  • 不同影片的串接Connecting videos
  • 影片風格環境的變換編輯
  • 生成圖片:可產生各種尺寸的影像,解析度高達 2048x2048
  • 動態的攝影機視角Sora can generate videos with dynamic camera motion
  • 與真實世界互動

四、Sora現況與未來

  • AI生成內容有許多爭議與風險,例如版權、虛假訊息或不當內容等問題,由於無法預測人們如何使用Sora,他可能存在被不法分子以多種方式濫用的潛在風險,Sora目前處於預覽研究階段,僅向特定合作夥伴提供使用權限,包括藝術家、設計師和電影製作人,確保模型用於創意專業領域的實際應用,以獲得如何使用模型對創意專業人士更有幫助的回饋,並持續改進模型。
  • 安全性是關鍵考量之一,OpenAI表示目前正與專家合作,探索模型的漏洞,並且建立工具來檢測影片是否由Sora生成。目前OpenAI透過浮水印標籤來表明它們是用AI創建的,但這個標記是可能被抹除的。
  • OpenAI表示正在與紅隊成員(錯誤訊息、仇恨內容和偏見等領域的領域專家)合作,強調將進行對抗性安全測試,並與全球政策制定者、教育者和藝術家合作,探討技術的正面應用。

五、觀察:

  • 展望未來Sora的應用前景非常廣闊,最直接的應用在影片製作領域,像是情境化廣告影片,Sora可以輕鬆的客製化各種風格特效與角色內容;又或是應用於YT、教育、娛樂、遊戲、旅遊等等領域皆是,Sora 的出現降低了影片創作門檻,節省不少時間和拍攝成本,Sora生成內容充滿想像力,讓人們可以看見逼真的虛擬世界。
  • 隨著越來越多的網路AI影音服務出現,如果沒有適當的風險控制,將形成「深偽即服務(Deepfake as a Service;DaaS)」暗黑產業鏈。這將是資安的重大威脅。


以上是近期整理的SORA,能夠見到這樣一個驚為天人的黑科技的誕生,覺得好榮幸!

我是科技小白,歡迎大家一起留言討論,想想有趣的promt(?) 那我們下次見啦!





分享至
成為作者繼續創作的動力吧!
誤闖技術單位瑟瑟發抖的職場小白,也是育有1子1女的苦惱馬麻(扶額),立志把科技新知理解成人人能懂的白話中文(?),希望能幫助到一樣無助的您,然後分享一些小日子的日常有感 ♥♥♥♥
從 Google News 追蹤更多 vocus 的最新精選內容從 Google News 追蹤更多 vocus 的最新精選內容

丁丁的沙龍 的其他內容

發表回應

成為會員 後即可發表留言
© 2024 vocus All rights reserved.