【Sora」そら.文字轉影片的AI模型

更新 發佈閱讀 5 分鐘

一、 OpenAI於米國時間2024年2月15日首次發佈「Sora」:以文字生成影片的AI模型

  • OpenAI 將其新系統命名為 Sora,源於日文「空」(そら sora),即天空之意,技術團隊表示之所以選擇這個名字,是因為它“喚起了無限創造潛力的想法”。
  • Sora能夠依照使用者所給予的提示(prompt),將一段簡短的文字描述(或靜態圖片也可以)自動轉換生成最多長達一分鐘的高清1080p的短影片(text-to-video)。逼真並且富有想像力。經過測試,Sora 可以生成各種風格(包括真實電影,動漫風或歷史運鏡)的影片,長度可達一分鐘,遠遠超過目前大多數其他市面上的文字轉影片模型,而且影片都盡可能保持合理與連貫的高水準。
  • OpenAI:「Sora對語言有深刻的理解,使其能夠準確理解提示,並生成表現生動情感的引人入勝的角色。該模型不僅了解使用者在提示中要求的內容,還了解這些事物在物理世界中的存在方式。」→根本要往人類的思維邁進了(?)
  • 點我看更多

然而,Sora 並非完美無缺。它可能在模擬複雜場景的物理特性時遇到困難,可能無法理解特定的因果關係。例如,一個人咬了一口餅乾,但之後餅乾可能沒有出現咬痕。模型也可能混淆提示中的空間細節,例如左右混淆,並且可能難以精確描述隨著時間推移發生的事件,比如遵循特定的攝影機軌跡、吹不動的蠟燭、被遮擋後就原地消失。

二、Sora is a Diffusion transformer.

  • Sora是建立在GPT模型和DALL·E的研究基礎之上。技術文件指出Sora應用了DALL·E 3 Diffusion 擴散模型,能專為視覺資料生成高度描述性的標題,所以經過訓練後可以將文字描述轉換為視覺圖像,隨機像素模糊轉換為圖片(random pixels into a picture),簡單來說就像是逐格放大後,補上圖面細節的過程。而像GPT-4這種tranformer模型,就很擅長找關聯性,所以OpenAI就是讓 transformer 模型來監督 Diffusion 做影片。
  • ChatGPT 理解內容的最小單位是 token,token 類似單詞的文字語意,ChatGPT 用 token產生有連續性且有意義句子和文章。為了讓 transformer 看懂圖片的方式,發展出了patch,patch可以想成是圖片版的token,讓ChatGPT可以用圖片,得出有連貫性的圖片。Sora官方提供的訓練說明圖上,最後所形成的方塊就patch,這些patch 是包含時間在內的4D立體拼圖,可以針對畫面與時間的連續性進行計算。


三、Sora更多的驚喜

  • Sora 可以取樣寬螢幕 1920x1080p 影片、垂直 1080×1920 影片以及介於兩者之間的所有影片。這使得Sora 會依照硬體設備的大小產生相對應尺寸的影片,並可以調整改善影片的構圖和取景。
  • 強大的圖片轉影片
  • 不同影片的串接Connecting videos
  • 影片風格環境的變換編輯
  • 生成圖片:可產生各種尺寸的影像,解析度高達 2048x2048
  • 動態的攝影機視角Sora can generate videos with dynamic camera motion
  • 與真實世界互動

四、Sora現況與未來

  • AI生成內容有許多爭議與風險,例如版權、虛假訊息或不當內容等問題,由於無法預測人們如何使用Sora,他可能存在被不法分子以多種方式濫用的潛在風險,Sora目前處於預覽研究階段,僅向特定合作夥伴提供使用權限,包括藝術家、設計師和電影製作人,確保模型用於創意專業領域的實際應用,以獲得如何使用模型對創意專業人士更有幫助的回饋,並持續改進模型。
  • 安全性是關鍵考量之一,OpenAI表示目前正與專家合作,探索模型的漏洞,並且建立工具來檢測影片是否由Sora生成。目前OpenAI透過浮水印標籤來表明它們是用AI創建的,但這個標記是可能被抹除的。
  • OpenAI表示正在與紅隊成員(錯誤訊息、仇恨內容和偏見等領域的領域專家)合作,強調將進行對抗性安全測試,並與全球政策制定者、教育者和藝術家合作,探討技術的正面應用。

五、觀察:

  • 展望未來Sora的應用前景非常廣闊,最直接的應用在影片製作領域,像是情境化廣告影片,Sora可以輕鬆的客製化各種風格特效與角色內容;又或是應用於YT、教育、娛樂、遊戲、旅遊等等領域皆是,Sora 的出現降低了影片創作門檻,節省不少時間和拍攝成本,Sora生成內容充滿想像力,讓人們可以看見逼真的虛擬世界。
  • 隨著越來越多的網路AI影音服務出現,如果沒有適當的風險控制,將形成「深偽即服務(Deepfake as a Service;DaaS)」暗黑產業鏈。這將是資安的重大威脅。


以上是近期整理的SORA,能夠見到這樣一個驚為天人的黑科技的誕生,覺得好榮幸!

我是科技小白,歡迎大家一起留言討論,想想有趣的promt(?) 那我們下次見啦!





留言
avatar-img
丁丁的沙龍
0會員
2內容數
你可能也想看
Thumbnail
2024 年 2 月,OpenAI 推出了 Sora 文字生成影片模型,該模型根據用戶輸入的文字描述生成逼真的影片,並且能夠控制影片的細節,例如人物、場景、動作、表情等。Sora 的出現無疑為影視創作領域帶來了革命性的變化。
Thumbnail
2024 年 2 月,OpenAI 推出了 Sora 文字生成影片模型,該模型根據用戶輸入的文字描述生成逼真的影片,並且能夠控制影片的細節,例如人物、場景、動作、表情等。Sora 的出現無疑為影視創作領域帶來了革命性的變化。
Thumbnail
AI生成技術領頭羊Open AI又出手了,旗下產品「Sora」有別於Chat GPT,只要給予指令,生產出來的不再只是文字,而是一幕幕需要耗費大量人工努力下產出的產品,所謂大量人工包含了:攝影、剪接、燈光、彩妝、演員、美術道具,甚至導演、製片等等。 而AI只要彈指之間,便能將無形化有形,從無到有
Thumbnail
AI生成技術領頭羊Open AI又出手了,旗下產品「Sora」有別於Chat GPT,只要給予指令,生產出來的不再只是文字,而是一幕幕需要耗費大量人工努力下產出的產品,所謂大量人工包含了:攝影、剪接、燈光、彩妝、演員、美術道具,甚至導演、製片等等。 而AI只要彈指之間,便能將無形化有形,從無到有
Thumbnail
長期以來,西方美學以《維特魯威人》式的幾何比例定義「完美身體」,這種視覺標準無形中成為殖民擴張與種族分類的暴力工具。本文透過分析奈及利亞編舞家庫德斯.奧尼奎庫的舞作《轉轉生》,探討當代非洲舞蹈如何跳脫「標本式」的文化觀看。
Thumbnail
長期以來,西方美學以《維特魯威人》式的幾何比例定義「完美身體」,這種視覺標準無形中成為殖民擴張與種族分類的暴力工具。本文透過分析奈及利亞編舞家庫德斯.奧尼奎庫的舞作《轉轉生》,探討當代非洲舞蹈如何跳脫「標本式」的文化觀看。
Thumbnail
本文深度解析賽勒布倫尼科夫的舞臺作品《傳奇:帕拉贊諾夫的十段殘篇》,如何以十段殘篇,結合帕拉贊諾夫的電影美學、象徵意象與當代政治流亡抗爭,探討藝術在儀式消失的現代社會如何承接意義,並展現不羈的自由靈魂。
Thumbnail
本文深度解析賽勒布倫尼科夫的舞臺作品《傳奇:帕拉贊諾夫的十段殘篇》,如何以十段殘篇,結合帕拉贊諾夫的電影美學、象徵意象與當代政治流亡抗爭,探討藝術在儀式消失的現代社會如何承接意義,並展現不羈的自由靈魂。
Thumbnail
以下分享部分Sora生成式電影的片段截圖,影片擁有者禁止在其他網站播放這部影片! 影片連結可點擊圖片下文字(Tiffany Blue) Sora生成式AI微電影部分片段截圖: 邏輯思考 AI實現人類想像中的畫面 人類的想像畫面被AI實現了 為什麼AI可以實現想像畫面? 為什麼人......
Thumbnail
以下分享部分Sora生成式電影的片段截圖,影片擁有者禁止在其他網站播放這部影片! 影片連結可點擊圖片下文字(Tiffany Blue) Sora生成式AI微電影部分片段截圖: 邏輯思考 AI實現人類想像中的畫面 人類的想像畫面被AI實現了 為什麼AI可以實現想像畫面? 為什麼人......
Thumbnail
全新版本的《三便士歌劇》如何不落入「復刻經典」的巢臼,反而利用華麗的秀場視覺,引導觀眾在晚期資本主義的消費愉悅之中,而能驚覺「批判」本身亦可能被收編——而當絞繩升起,這場關於如何生存的黑色遊戲,又將帶領新時代的我們走向何種後現代的自我解構?
Thumbnail
全新版本的《三便士歌劇》如何不落入「復刻經典」的巢臼,反而利用華麗的秀場視覺,引導觀眾在晚期資本主義的消費愉悅之中,而能驚覺「批判」本身亦可能被收編——而當絞繩升起,這場關於如何生存的黑色遊戲,又將帶領新時代的我們走向何種後現代的自我解構?
Thumbnail
Open AI影片生成模型Sora橫空出世 Sora是一個 AI 模型,可依據文字指令創建現實和富有想像的場景 這是Open AI首頁關於生成模型Sora的簡介 Open AI執行長將籌資數兆美元重塑全球半導體產業 全美娛樂產業接受訪談的300位主管,認為未來3年將有20萬個工作 受到AI
Thumbnail
Open AI影片生成模型Sora橫空出世 Sora是一個 AI 模型,可依據文字指令創建現實和富有想像的場景 這是Open AI首頁關於生成模型Sora的簡介 Open AI執行長將籌資數兆美元重塑全球半導體產業 全美娛樂產業接受訪談的300位主管,認為未來3年將有20萬個工作 受到AI
Thumbnail
若說易卜生的《玩偶之家》為 19 世紀的女性,開啟了一扇離家的窄門,那麼《海妲.蓋柏樂》展現的便是門後的窒息世界。本篇文章由劇場演員 Amily 執筆,同為熟稔文本的演員,亦是深刻體察制度縫隙的當代女性,此文所看見的不僅僅是崩壞前夕的最後發聲,更是女人被迫置於冷酷的制度之下,步步陷入無以言說的困境。
Thumbnail
若說易卜生的《玩偶之家》為 19 世紀的女性,開啟了一扇離家的窄門,那麼《海妲.蓋柏樂》展現的便是門後的窒息世界。本篇文章由劇場演員 Amily 執筆,同為熟稔文本的演員,亦是深刻體察制度縫隙的當代女性,此文所看見的不僅僅是崩壞前夕的最後發聲,更是女人被迫置於冷酷的制度之下,步步陷入無以言說的困境。
Thumbnail
OpenAI於2024年2月15日首次發佈「Sora」:以文字生成影片的AI模型 Sora,源於日文「空」(そら sora),即天空之意,它“喚起了無限創造潛力的想法”。
Thumbnail
OpenAI於2024年2月15日首次發佈「Sora」:以文字生成影片的AI模型 Sora,源於日文「空」(そら sora),即天空之意,它“喚起了無限創造潛力的想法”。
Thumbnail
今天要跟大家介紹一個非常厲害的人工智慧模型,它叫做 Sora,是由 OpenAI 最近發布的。Sora 可以生成長達一分鐘的超逼真影片,並且能夠根據指示加入特定的動作和場景。這種影片的品質遠超過以往,代表著人工智慧影片製作已經進入了新的階段。
Thumbnail
今天要跟大家介紹一個非常厲害的人工智慧模型,它叫做 Sora,是由 OpenAI 最近發布的。Sora 可以生成長達一分鐘的超逼真影片,並且能夠根據指示加入特定的動作和場景。這種影片的品質遠超過以往,代表著人工智慧影片製作已經進入了新的階段。
Thumbnail
如果AI能夠生成高質感的影片,對影視業不啻一場革命。 無需龐大設備和龐大後製團隊,只需要指令,幾分鐘即能輕鬆完成。 這對影視業來說無疑是一場革命。
Thumbnail
如果AI能夠生成高質感的影片,對影視業不啻一場革命。 無需龐大設備和龐大後製團隊,只需要指令,幾分鐘即能輕鬆完成。 這對影視業來說無疑是一場革命。
Thumbnail
OpenAI 發表的Sora,對於我這個浸淫AI繪圖還有AI產生(基礎的)動畫一段時間的人來說,可以說是非常的震撼。為什麼Sora 跟其他的文字產生影片的工具如Pika 或是 Runway 完全不同呢? 他對我們來說又有什麼意義呢? 這就是這篇文章我們想探討的。
Thumbnail
OpenAI 發表的Sora,對於我這個浸淫AI繪圖還有AI產生(基礎的)動畫一段時間的人來說,可以說是非常的震撼。為什麼Sora 跟其他的文字產生影片的工具如Pika 或是 Runway 完全不同呢? 他對我們來說又有什麼意義呢? 這就是這篇文章我們想探討的。
追蹤感興趣的內容從 Google News 追蹤更多 vocus 的最新精選內容追蹤 Google News