【Sora」そら.文字轉影片的AI模型

閱讀時間約 5 分鐘

一、 OpenAI於米國時間2024年2月15日首次發佈「Sora」:以文字生成影片的AI模型

  • OpenAI 將其新系統命名為 Sora,源於日文「空」(そら sora),即天空之意,技術團隊表示之所以選擇這個名字,是因為它“喚起了無限創造潛力的想法”。
  • Sora能夠依照使用者所給予的提示(prompt),將一段簡短的文字描述(或靜態圖片也可以)自動轉換生成最多長達一分鐘的高清1080p的短影片(text-to-video)。逼真並且富有想像力。經過測試,Sora 可以生成各種風格(包括真實電影,動漫風或歷史運鏡)的影片,長度可達一分鐘,遠遠超過目前大多數其他市面上的文字轉影片模型,而且影片都盡可能保持合理與連貫的高水準。
  • OpenAI:「Sora對語言有深刻的理解,使其能夠準確理解提示,並生成表現生動情感的引人入勝的角色。該模型不僅了解使用者在提示中要求的內容,還了解這些事物在物理世界中的存在方式。」→根本要往人類的思維邁進了(?)
  • 點我看更多

然而,Sora 並非完美無缺。它可能在模擬複雜場景的物理特性時遇到困難,可能無法理解特定的因果關係。例如,一個人咬了一口餅乾,但之後餅乾可能沒有出現咬痕。模型也可能混淆提示中的空間細節,例如左右混淆,並且可能難以精確描述隨著時間推移發生的事件,比如遵循特定的攝影機軌跡、吹不動的蠟燭、被遮擋後就原地消失。

二、Sora is a Diffusion transformer.

  • Sora是建立在GPT模型和DALL·E的研究基礎之上。技術文件指出Sora應用了DALL·E 3 Diffusion 擴散模型,能專為視覺資料生成高度描述性的標題,所以經過訓練後可以將文字描述轉換為視覺圖像,隨機像素模糊轉換為圖片(random pixels into a picture),簡單來說就像是逐格放大後,補上圖面細節的過程。而像GPT-4這種tranformer模型,就很擅長找關聯性,所以OpenAI就是讓 transformer 模型來監督 Diffusion 做影片。
  • ChatGPT 理解內容的最小單位是 token,token 類似單詞的文字語意,ChatGPT 用 token產生有連續性且有意義句子和文章。為了讓 transformer 看懂圖片的方式,發展出了patch,patch可以想成是圖片版的token,讓ChatGPT可以用圖片,得出有連貫性的圖片。Sora官方提供的訓練說明圖上,最後所形成的方塊就patch,這些patch 是包含時間在內的4D立體拼圖,可以針對畫面與時間的連續性進行計算。


三、Sora更多的驚喜

  • Sora 可以取樣寬螢幕 1920x1080p 影片、垂直 1080×1920 影片以及介於兩者之間的所有影片。這使得Sora 會依照硬體設備的大小產生相對應尺寸的影片,並可以調整改善影片的構圖和取景。
  • 強大的圖片轉影片
  • 不同影片的串接Connecting videos
  • 影片風格環境的變換編輯
  • 生成圖片:可產生各種尺寸的影像,解析度高達 2048x2048
  • 動態的攝影機視角Sora can generate videos with dynamic camera motion
  • 與真實世界互動

四、Sora現況與未來

  • AI生成內容有許多爭議與風險,例如版權、虛假訊息或不當內容等問題,由於無法預測人們如何使用Sora,他可能存在被不法分子以多種方式濫用的潛在風險,Sora目前處於預覽研究階段,僅向特定合作夥伴提供使用權限,包括藝術家、設計師和電影製作人,確保模型用於創意專業領域的實際應用,以獲得如何使用模型對創意專業人士更有幫助的回饋,並持續改進模型。
  • 安全性是關鍵考量之一,OpenAI表示目前正與專家合作,探索模型的漏洞,並且建立工具來檢測影片是否由Sora生成。目前OpenAI透過浮水印標籤來表明它們是用AI創建的,但這個標記是可能被抹除的。
  • OpenAI表示正在與紅隊成員(錯誤訊息、仇恨內容和偏見等領域的領域專家)合作,強調將進行對抗性安全測試,並與全球政策制定者、教育者和藝術家合作,探討技術的正面應用。

五、觀察:

  • 展望未來Sora的應用前景非常廣闊,最直接的應用在影片製作領域,像是情境化廣告影片,Sora可以輕鬆的客製化各種風格特效與角色內容;又或是應用於YT、教育、娛樂、遊戲、旅遊等等領域皆是,Sora 的出現降低了影片創作門檻,節省不少時間和拍攝成本,Sora生成內容充滿想像力,讓人們可以看見逼真的虛擬世界。
  • 隨著越來越多的網路AI影音服務出現,如果沒有適當的風險控制,將形成「深偽即服務(Deepfake as a Service;DaaS)」暗黑產業鏈。這將是資安的重大威脅。


以上是近期整理的SORA,能夠見到這樣一個驚為天人的黑科技的誕生,覺得好榮幸!

我是科技小白,歡迎大家一起留言討論,想想有趣的promt(?) 那我們下次見啦!





0會員
2內容數
留言0
查看全部
發表第一個留言支持創作者!
丁丁的沙龍 的其他內容
【DDoS】連發攻擊
閱讀時間約 2 分鐘
你可能也想看
avatar
多多學投資
2024-03-12
Sora : 網路通訊大革命Open AI Sora 及 網通 光通訊 概念股
Thumbnail
avatar
多多學投資
2024-02-22
「Sora」Open AI最新影片AI生成工具!附教學影片一鍵完成AI的重大發表「Sora」於2/15首次發布了,據說Sora可以根據使用者輸入的文字描述產生長達60秒的AI影片,但是由於還存在著某種安全危機,因此只開放部分專業人士有訪問權限。喜歡AI工具的讀者們,讓我們一起了解這項最新的AI影片生成器吧! Sora|最新影片生成AI工具 Sora是今年Ope
avatar
Marcia
2024-02-22
OpenAI Sora 將改變影視創作產業?AI 模型是否會被大公司壟斷?2024 年 2 月,OpenAI 推出了 Sora 文字生成影片模型,該模型根據用戶輸入的文字描述生成逼真的影片,並且能夠控制影片的細節,例如人物、場景、動作、表情等。Sora 的出現無疑為影視創作領域帶來了革命性的變化。
Thumbnail
avatar
Jasmine
2024-02-21
Sora Unleashes Market Storm, Global Mofy Metaverse (GMM.US) "Sora Unleashes Market Storm, Global Mofy Metaverse (GMM.US) Rides High on AI Wave in 2024"    At the beginning of 2024, the AI world is experiencin
avatar
EQS Newswire
2024-02-21
OpenAI Sora:一個能夠生成超逼真影片的人工智慧模型今天要跟大家介紹一個非常厲害的人工智慧模型,它叫做 Sora,是由 OpenAI 最近發布的。Sora 可以生成長達一分鐘的超逼真影片,並且能夠根據指示加入特定的動作和場景。這種影片的品質遠超過以往,代表著人工智慧影片製作已經進入了新的階段。
Thumbnail
avatar
悠緣船帆
2024-02-19
OpenAI的Sora為什麼重要?OpenAI 發表的Sora,對於我這個浸淫AI繪圖還有AI產生(基礎的)動畫一段時間的人來說,可以說是非常的震撼。為什麼Sora 跟其他的文字產生影片的工具如Pika 或是 Runway 完全不同呢? 他對我們來說又有什麼意義呢? 這就是這篇文章我們想探討的。
Thumbnail
avatar
技術PM路易斯
2024-02-18
什麼是Sora?Open AI生成影片釋出,真真假假須臾之間。AI生成技術領頭羊Open AI又出手了,旗下產品「Sora」有別於Chat GPT,只要給予指令,生產出來的不再只是文字,而是一幕幕需要耗費大量人工努力下產出的產品,所謂大量人工包含了:攝影、剪接、燈光、彩妝、演員、美術道具,甚至導演、製片等等。 而AI只要彈指之間,便能將無形化有形,從無到有
Thumbnail
avatar
莊凱仲 Ivan
2024-02-18
OpenAI Sora:文生成影音的新時代2023年4月,紐約成立的Runway AI發佈了一段用AI生成的影音:畫面模糊、卡頓,物體扭曲,僅時長4秒;四個月後,Runway將文生成影音的效果推向4K超高清,實現鏡頭的連貫穩定,長度也從4秒提升至18秒——這是2023年文生成影音的「時長天花板」。
Thumbnail
avatar
三十好幾
2024-02-16
當 OpenAI Sora 撞見 Apple Vision Pro:AI 想像力宇宙大爆炸的開始....2024年2月16日,OpenAI開發的文字轉影片模型Sora正式揭曉。本文介紹了Sora與Apple Vision Pro AR/XR眼鏡的結合對教育、娛樂、設計、醫療、企業管理、數據視覺化、溝通和協作等領域帶來的革命性影響。
Thumbnail
avatar
廖肇弘 John Liao
2024-02-16