【Sora」そら.文字轉影片的AI模型

更新於 發佈於 閱讀時間約 5 分鐘

一、 OpenAI於米國時間2024年2月15日首次發佈「Sora」:以文字生成影片的AI模型

  • OpenAI 將其新系統命名為 Sora,源於日文「空」(そら sora),即天空之意,技術團隊表示之所以選擇這個名字,是因為它“喚起了無限創造潛力的想法”。
  • Sora能夠依照使用者所給予的提示(prompt),將一段簡短的文字描述(或靜態圖片也可以)自動轉換生成最多長達一分鐘的高清1080p的短影片(text-to-video)。逼真並且富有想像力。經過測試,Sora 可以生成各種風格(包括真實電影,動漫風或歷史運鏡)的影片,長度可達一分鐘,遠遠超過目前大多數其他市面上的文字轉影片模型,而且影片都盡可能保持合理與連貫的高水準。
  • OpenAI:「Sora對語言有深刻的理解,使其能夠準確理解提示,並生成表現生動情感的引人入勝的角色。該模型不僅了解使用者在提示中要求的內容,還了解這些事物在物理世界中的存在方式。」→根本要往人類的思維邁進了(?)
  • 點我看更多

然而,Sora 並非完美無缺。它可能在模擬複雜場景的物理特性時遇到困難,可能無法理解特定的因果關係。例如,一個人咬了一口餅乾,但之後餅乾可能沒有出現咬痕。模型也可能混淆提示中的空間細節,例如左右混淆,並且可能難以精確描述隨著時間推移發生的事件,比如遵循特定的攝影機軌跡、吹不動的蠟燭、被遮擋後就原地消失。

二、Sora is a Diffusion transformer.

  • Sora是建立在GPT模型和DALL·E的研究基礎之上。技術文件指出Sora應用了DALL·E 3 Diffusion 擴散模型,能專為視覺資料生成高度描述性的標題,所以經過訓練後可以將文字描述轉換為視覺圖像,隨機像素模糊轉換為圖片(random pixels into a picture),簡單來說就像是逐格放大後,補上圖面細節的過程。而像GPT-4這種tranformer模型,就很擅長找關聯性,所以OpenAI就是讓 transformer 模型來監督 Diffusion 做影片。
  • ChatGPT 理解內容的最小單位是 token,token 類似單詞的文字語意,ChatGPT 用 token產生有連續性且有意義句子和文章。為了讓 transformer 看懂圖片的方式,發展出了patch,patch可以想成是圖片版的token,讓ChatGPT可以用圖片,得出有連貫性的圖片。Sora官方提供的訓練說明圖上,最後所形成的方塊就patch,這些patch 是包含時間在內的4D立體拼圖,可以針對畫面與時間的連續性進行計算。


三、Sora更多的驚喜

  • Sora 可以取樣寬螢幕 1920x1080p 影片、垂直 1080×1920 影片以及介於兩者之間的所有影片。這使得Sora 會依照硬體設備的大小產生相對應尺寸的影片,並可以調整改善影片的構圖和取景。
  • 強大的圖片轉影片
  • 不同影片的串接Connecting videos
  • 影片風格環境的變換編輯
  • 生成圖片:可產生各種尺寸的影像,解析度高達 2048x2048
  • 動態的攝影機視角Sora can generate videos with dynamic camera motion
  • 與真實世界互動

四、Sora現況與未來

  • AI生成內容有許多爭議與風險,例如版權、虛假訊息或不當內容等問題,由於無法預測人們如何使用Sora,他可能存在被不法分子以多種方式濫用的潛在風險,Sora目前處於預覽研究階段,僅向特定合作夥伴提供使用權限,包括藝術家、設計師和電影製作人,確保模型用於創意專業領域的實際應用,以獲得如何使用模型對創意專業人士更有幫助的回饋,並持續改進模型。
  • 安全性是關鍵考量之一,OpenAI表示目前正與專家合作,探索模型的漏洞,並且建立工具來檢測影片是否由Sora生成。目前OpenAI透過浮水印標籤來表明它們是用AI創建的,但這個標記是可能被抹除的。
  • OpenAI表示正在與紅隊成員(錯誤訊息、仇恨內容和偏見等領域的領域專家)合作,強調將進行對抗性安全測試,並與全球政策制定者、教育者和藝術家合作,探討技術的正面應用。

五、觀察:

  • 展望未來Sora的應用前景非常廣闊,最直接的應用在影片製作領域,像是情境化廣告影片,Sora可以輕鬆的客製化各種風格特效與角色內容;又或是應用於YT、教育、娛樂、遊戲、旅遊等等領域皆是,Sora 的出現降低了影片創作門檻,節省不少時間和拍攝成本,Sora生成內容充滿想像力,讓人們可以看見逼真的虛擬世界。
  • 隨著越來越多的網路AI影音服務出現,如果沒有適當的風險控制,將形成「深偽即服務(Deepfake as a Service;DaaS)」暗黑產業鏈。這將是資安的重大威脅。


以上是近期整理的SORA,能夠見到這樣一個驚為天人的黑科技的誕生,覺得好榮幸!

我是科技小白,歡迎大家一起留言討論,想想有趣的promt(?) 那我們下次見啦!





avatar-img
0會員
2內容數
留言0
查看全部
avatar-img
發表第一個留言支持創作者!
丁丁的沙龍 的其他內容
什麼是DDoS?讓人氣氣氣氣的小東喜!歐兜ㄎㄟˇ~~~~
什麼是DDoS?讓人氣氣氣氣的小東喜!歐兜ㄎㄟˇ~~~~
你可能也想看
Google News 追蹤
Thumbnail
嘿,大家新年快樂~ 新年大家都在做什麼呢? 跨年夜的我趕工製作某個外包設計案,在工作告一段落時趕上倒數。 然後和兩個小孩過了一個忙亂的元旦。在深夜時刻,看到朋友傳來的解籤網站,興致勃勃熬夜體驗了一下,覺得非常好玩,或許有人玩過了,但還是想寫上來分享紀錄一下~
Thumbnail
Open AI影片生成模型Sora橫空出世 Sora是一個 AI 模型,可依據文字指令創建現實和富有想像的場景 這是Open AI首頁關於生成模型Sora的簡介 Open AI執行長將籌資數兆美元重塑全球半導體產業 全美娛樂產業接受訪談的300位主管,認為未來3年將有20萬個工作 受到AI
Thumbnail
Open AI Sora 及 網通 光通訊 概念股
Thumbnail
2024 年 2 月,OpenAI 推出了 Sora 文字生成影片模型,該模型根據用戶輸入的文字描述生成逼真的影片,並且能夠控制影片的細節,例如人物、場景、動作、表情等。Sora 的出現無疑為影視創作領域帶來了革命性的變化。
Thumbnail
今天要跟大家介紹一個非常厲害的人工智慧模型,它叫做 Sora,是由 OpenAI 最近發布的。Sora 可以生成長達一分鐘的超逼真影片,並且能夠根據指示加入特定的動作和場景。這種影片的品質遠超過以往,代表著人工智慧影片製作已經進入了新的階段。
Thumbnail
OpenAI 影片生成模型 Sora / Google Bard 更名 Gemini / 紐約植物園 NYBG 新 LOGO 與訂製字體 / 2026 冬奧吉祥物出爐 / Midjourney 網頁 alpha 功能體驗標準降低
Thumbnail
OpenAI 發表的Sora,對於我這個浸淫AI繪圖還有AI產生(基礎的)動畫一段時間的人來說,可以說是非常的震撼。為什麼Sora 跟其他的文字產生影片的工具如Pika 或是 Runway 完全不同呢? 他對我們來說又有什麼意義呢? 這就是這篇文章我們想探討的。
Thumbnail
OpenAI最新推出的「Sora」是一款文本生成影像的AI模型,只要輸入幾句簡單的文字描述,就能自動生成出影像,影片內容可以包含多名角色,搭配特定的動態場景,且影片長度最高可達60秒,同時還能展示複雜的攝影機運動。Sora還能夠根據靜態圖片來製作動畫,功能十分強大。目前Sora還沒有開放給大眾使
Thumbnail
2024年2月16日,OpenAI開發的文字轉影片模型Sora正式揭曉。本文介紹了Sora與Apple Vision Pro AR/XR眼鏡的結合對教育、娛樂、設計、醫療、企業管理、數據視覺化、溝通和協作等領域帶來的革命性影響。
Thumbnail
嘿,大家新年快樂~ 新年大家都在做什麼呢? 跨年夜的我趕工製作某個外包設計案,在工作告一段落時趕上倒數。 然後和兩個小孩過了一個忙亂的元旦。在深夜時刻,看到朋友傳來的解籤網站,興致勃勃熬夜體驗了一下,覺得非常好玩,或許有人玩過了,但還是想寫上來分享紀錄一下~
Thumbnail
Open AI影片生成模型Sora橫空出世 Sora是一個 AI 模型,可依據文字指令創建現實和富有想像的場景 這是Open AI首頁關於生成模型Sora的簡介 Open AI執行長將籌資數兆美元重塑全球半導體產業 全美娛樂產業接受訪談的300位主管,認為未來3年將有20萬個工作 受到AI
Thumbnail
Open AI Sora 及 網通 光通訊 概念股
Thumbnail
2024 年 2 月,OpenAI 推出了 Sora 文字生成影片模型,該模型根據用戶輸入的文字描述生成逼真的影片,並且能夠控制影片的細節,例如人物、場景、動作、表情等。Sora 的出現無疑為影視創作領域帶來了革命性的變化。
Thumbnail
今天要跟大家介紹一個非常厲害的人工智慧模型,它叫做 Sora,是由 OpenAI 最近發布的。Sora 可以生成長達一分鐘的超逼真影片,並且能夠根據指示加入特定的動作和場景。這種影片的品質遠超過以往,代表著人工智慧影片製作已經進入了新的階段。
Thumbnail
OpenAI 影片生成模型 Sora / Google Bard 更名 Gemini / 紐約植物園 NYBG 新 LOGO 與訂製字體 / 2026 冬奧吉祥物出爐 / Midjourney 網頁 alpha 功能體驗標準降低
Thumbnail
OpenAI 發表的Sora,對於我這個浸淫AI繪圖還有AI產生(基礎的)動畫一段時間的人來說,可以說是非常的震撼。為什麼Sora 跟其他的文字產生影片的工具如Pika 或是 Runway 完全不同呢? 他對我們來說又有什麼意義呢? 這就是這篇文章我們想探討的。
Thumbnail
OpenAI最新推出的「Sora」是一款文本生成影像的AI模型,只要輸入幾句簡單的文字描述,就能自動生成出影像,影片內容可以包含多名角色,搭配特定的動態場景,且影片長度最高可達60秒,同時還能展示複雜的攝影機運動。Sora還能夠根據靜態圖片來製作動畫,功能十分強大。目前Sora還沒有開放給大眾使
Thumbnail
2024年2月16日,OpenAI開發的文字轉影片模型Sora正式揭曉。本文介紹了Sora與Apple Vision Pro AR/XR眼鏡的結合對教育、娛樂、設計、醫療、企業管理、數據視覺化、溝通和協作等領域帶來的革命性影響。