【Sora」そら.文字轉影片的AI模型

更新於 發佈於 閱讀時間約 5 分鐘

一、 OpenAI於米國時間2024年2月15日首次發佈「Sora」:以文字生成影片的AI模型

  • OpenAI 將其新系統命名為 Sora,源於日文「空」(そら sora),即天空之意,技術團隊表示之所以選擇這個名字,是因為它“喚起了無限創造潛力的想法”。
  • Sora能夠依照使用者所給予的提示(prompt),將一段簡短的文字描述(或靜態圖片也可以)自動轉換生成最多長達一分鐘的高清1080p的短影片(text-to-video)。逼真並且富有想像力。經過測試,Sora 可以生成各種風格(包括真實電影,動漫風或歷史運鏡)的影片,長度可達一分鐘,遠遠超過目前大多數其他市面上的文字轉影片模型,而且影片都盡可能保持合理與連貫的高水準。
  • OpenAI:「Sora對語言有深刻的理解,使其能夠準確理解提示,並生成表現生動情感的引人入勝的角色。該模型不僅了解使用者在提示中要求的內容,還了解這些事物在物理世界中的存在方式。」→根本要往人類的思維邁進了(?)
  • 點我看更多

然而,Sora 並非完美無缺。它可能在模擬複雜場景的物理特性時遇到困難,可能無法理解特定的因果關係。例如,一個人咬了一口餅乾,但之後餅乾可能沒有出現咬痕。模型也可能混淆提示中的空間細節,例如左右混淆,並且可能難以精確描述隨著時間推移發生的事件,比如遵循特定的攝影機軌跡、吹不動的蠟燭、被遮擋後就原地消失。

二、Sora is a Diffusion transformer.

  • Sora是建立在GPT模型和DALL·E的研究基礎之上。技術文件指出Sora應用了DALL·E 3 Diffusion 擴散模型,能專為視覺資料生成高度描述性的標題,所以經過訓練後可以將文字描述轉換為視覺圖像,隨機像素模糊轉換為圖片(random pixels into a picture),簡單來說就像是逐格放大後,補上圖面細節的過程。而像GPT-4這種tranformer模型,就很擅長找關聯性,所以OpenAI就是讓 transformer 模型來監督 Diffusion 做影片。
  • ChatGPT 理解內容的最小單位是 token,token 類似單詞的文字語意,ChatGPT 用 token產生有連續性且有意義句子和文章。為了讓 transformer 看懂圖片的方式,發展出了patch,patch可以想成是圖片版的token,讓ChatGPT可以用圖片,得出有連貫性的圖片。Sora官方提供的訓練說明圖上,最後所形成的方塊就patch,這些patch 是包含時間在內的4D立體拼圖,可以針對畫面與時間的連續性進行計算。


三、Sora更多的驚喜

  • Sora 可以取樣寬螢幕 1920x1080p 影片、垂直 1080×1920 影片以及介於兩者之間的所有影片。這使得Sora 會依照硬體設備的大小產生相對應尺寸的影片,並可以調整改善影片的構圖和取景。
  • 強大的圖片轉影片
  • 不同影片的串接Connecting videos
  • 影片風格環境的變換編輯
  • 生成圖片:可產生各種尺寸的影像,解析度高達 2048x2048
  • 動態的攝影機視角Sora can generate videos with dynamic camera motion
  • 與真實世界互動

四、Sora現況與未來

  • AI生成內容有許多爭議與風險,例如版權、虛假訊息或不當內容等問題,由於無法預測人們如何使用Sora,他可能存在被不法分子以多種方式濫用的潛在風險,Sora目前處於預覽研究階段,僅向特定合作夥伴提供使用權限,包括藝術家、設計師和電影製作人,確保模型用於創意專業領域的實際應用,以獲得如何使用模型對創意專業人士更有幫助的回饋,並持續改進模型。
  • 安全性是關鍵考量之一,OpenAI表示目前正與專家合作,探索模型的漏洞,並且建立工具來檢測影片是否由Sora生成。目前OpenAI透過浮水印標籤來表明它們是用AI創建的,但這個標記是可能被抹除的。
  • OpenAI表示正在與紅隊成員(錯誤訊息、仇恨內容和偏見等領域的領域專家)合作,強調將進行對抗性安全測試,並與全球政策制定者、教育者和藝術家合作,探討技術的正面應用。

五、觀察:

  • 展望未來Sora的應用前景非常廣闊,最直接的應用在影片製作領域,像是情境化廣告影片,Sora可以輕鬆的客製化各種風格特效與角色內容;又或是應用於YT、教育、娛樂、遊戲、旅遊等等領域皆是,Sora 的出現降低了影片創作門檻,節省不少時間和拍攝成本,Sora生成內容充滿想像力,讓人們可以看見逼真的虛擬世界。
  • 隨著越來越多的網路AI影音服務出現,如果沒有適當的風險控制,將形成「深偽即服務(Deepfake as a Service;DaaS)」暗黑產業鏈。這將是資安的重大威脅。


以上是近期整理的SORA,能夠見到這樣一個驚為天人的黑科技的誕生,覺得好榮幸!

我是科技小白,歡迎大家一起留言討論,想想有趣的promt(?) 那我們下次見啦!





留言
avatar-img
留言分享你的想法!
avatar-img
丁丁的沙龍
0會員
2內容數
你可能也想看
Thumbnail
每年4月、5月都是最多稅要繳的月份,當然大部份的人都是有機會繳到「綜合所得稅」,只是相當相當多人還不知道,原來繳給政府的稅!可以透過一些有活動的銀行信用卡或電子支付來繳,從繳費中賺一點點小確幸!就是賺個1%~2%大家也是很開心的,因為你們把沒回饋變成有回饋,就是用卡的最高境界 所得稅線上申報
Thumbnail
每年4月、5月都是最多稅要繳的月份,當然大部份的人都是有機會繳到「綜合所得稅」,只是相當相當多人還不知道,原來繳給政府的稅!可以透過一些有活動的銀行信用卡或電子支付來繳,從繳費中賺一點點小確幸!就是賺個1%~2%大家也是很開心的,因為你們把沒回饋變成有回饋,就是用卡的最高境界 所得稅線上申報
Thumbnail
全球科技產業的焦點,AKA 全村的希望 NVIDIA,於五月底正式發布了他們在今年 2025 第一季的財報 (輝達內部財務年度為 2026 Q1,實際日曆期間為今年二到四月),交出了打敗了市場預期的成績單。然而,在銷售持續高速成長的同時,川普政府加大對於中國的晶片管制......
Thumbnail
全球科技產業的焦點,AKA 全村的希望 NVIDIA,於五月底正式發布了他們在今年 2025 第一季的財報 (輝達內部財務年度為 2026 Q1,實際日曆期間為今年二到四月),交出了打敗了市場預期的成績單。然而,在銷售持續高速成長的同時,川普政府加大對於中國的晶片管制......
Thumbnail
重點摘要: 6 月繼續維持基準利率不變,強調維持高利率主因為關稅 點陣圖表現略為鷹派,收斂 2026、2027 年降息預期 SEP 連續 2 季下修 GDP、上修通膨預測值 --- 1.繼續維持利率不變,強調需要維持高利率是因為關稅: 聯準會 (Fed) 召開 6 月利率會議
Thumbnail
重點摘要: 6 月繼續維持基準利率不變,強調維持高利率主因為關稅 點陣圖表現略為鷹派,收斂 2026、2027 年降息預期 SEP 連續 2 季下修 GDP、上修通膨預測值 --- 1.繼續維持利率不變,強調需要維持高利率是因為關稅: 聯準會 (Fed) 召開 6 月利率會議
Thumbnail
以下分享部分Sora生成式電影的片段截圖,影片擁有者禁止在其他網站播放這部影片! 影片連結可點擊圖片下文字(Tiffany Blue) Sora生成式AI微電影部分片段截圖: 邏輯思考 AI實現人類想像中的畫面 人類的想像畫面被AI實現了 為什麼AI可以實現想像畫面? 為什麼人......
Thumbnail
以下分享部分Sora生成式電影的片段截圖,影片擁有者禁止在其他網站播放這部影片! 影片連結可點擊圖片下文字(Tiffany Blue) Sora生成式AI微電影部分片段截圖: 邏輯思考 AI實現人類想像中的畫面 人類的想像畫面被AI實現了 為什麼AI可以實現想像畫面? 為什麼人......
Thumbnail
Open AI影片生成模型Sora橫空出世 Sora是一個 AI 模型,可依據文字指令創建現實和富有想像的場景 這是Open AI首頁關於生成模型Sora的簡介 Open AI執行長將籌資數兆美元重塑全球半導體產業 全美娛樂產業接受訪談的300位主管,認為未來3年將有20萬個工作 受到AI
Thumbnail
Open AI影片生成模型Sora橫空出世 Sora是一個 AI 模型,可依據文字指令創建現實和富有想像的場景 這是Open AI首頁關於生成模型Sora的簡介 Open AI執行長將籌資數兆美元重塑全球半導體產業 全美娛樂產業接受訪談的300位主管,認為未來3年將有20萬個工作 受到AI
Thumbnail
OpenAI於2024年2月15日首次發佈「Sora」:以文字生成影片的AI模型 Sora,源於日文「空」(そら sora),即天空之意,它“喚起了無限創造潛力的想法”。
Thumbnail
OpenAI於2024年2月15日首次發佈「Sora」:以文字生成影片的AI模型 Sora,源於日文「空」(そら sora),即天空之意,它“喚起了無限創造潛力的想法”。
Thumbnail
2024 年 2 月,OpenAI 推出了 Sora 文字生成影片模型,該模型根據用戶輸入的文字描述生成逼真的影片,並且能夠控制影片的細節,例如人物、場景、動作、表情等。Sora 的出現無疑為影視創作領域帶來了革命性的變化。
Thumbnail
2024 年 2 月,OpenAI 推出了 Sora 文字生成影片模型,該模型根據用戶輸入的文字描述生成逼真的影片,並且能夠控制影片的細節,例如人物、場景、動作、表情等。Sora 的出現無疑為影視創作領域帶來了革命性的變化。
Thumbnail
如果AI能夠生成高質感的影片,對影視業不啻一場革命。 無需龐大設備和龐大後製團隊,只需要指令,幾分鐘即能輕鬆完成。 這對影視業來說無疑是一場革命。
Thumbnail
如果AI能夠生成高質感的影片,對影視業不啻一場革命。 無需龐大設備和龐大後製團隊,只需要指令,幾分鐘即能輕鬆完成。 這對影視業來說無疑是一場革命。
Thumbnail
今天要跟大家介紹一個非常厲害的人工智慧模型,它叫做 Sora,是由 OpenAI 最近發布的。Sora 可以生成長達一分鐘的超逼真影片,並且能夠根據指示加入特定的動作和場景。這種影片的品質遠超過以往,代表著人工智慧影片製作已經進入了新的階段。
Thumbnail
今天要跟大家介紹一個非常厲害的人工智慧模型,它叫做 Sora,是由 OpenAI 最近發布的。Sora 可以生成長達一分鐘的超逼真影片,並且能夠根據指示加入特定的動作和場景。這種影片的品質遠超過以往,代表著人工智慧影片製作已經進入了新的階段。
Thumbnail
OpenAI 發表的Sora,對於我這個浸淫AI繪圖還有AI產生(基礎的)動畫一段時間的人來說,可以說是非常的震撼。為什麼Sora 跟其他的文字產生影片的工具如Pika 或是 Runway 完全不同呢? 他對我們來說又有什麼意義呢? 這就是這篇文章我們想探討的。
Thumbnail
OpenAI 發表的Sora,對於我這個浸淫AI繪圖還有AI產生(基礎的)動畫一段時間的人來說,可以說是非常的震撼。為什麼Sora 跟其他的文字產生影片的工具如Pika 或是 Runway 完全不同呢? 他對我們來說又有什麼意義呢? 這就是這篇文章我們想探討的。
Thumbnail
AI生成技術領頭羊Open AI又出手了,旗下產品「Sora」有別於Chat GPT,只要給予指令,生產出來的不再只是文字,而是一幕幕需要耗費大量人工努力下產出的產品,所謂大量人工包含了:攝影、剪接、燈光、彩妝、演員、美術道具,甚至導演、製片等等。 而AI只要彈指之間,便能將無形化有形,從無到有
Thumbnail
AI生成技術領頭羊Open AI又出手了,旗下產品「Sora」有別於Chat GPT,只要給予指令,生產出來的不再只是文字,而是一幕幕需要耗費大量人工努力下產出的產品,所謂大量人工包含了:攝影、剪接、燈光、彩妝、演員、美術道具,甚至導演、製片等等。 而AI只要彈指之間,便能將無形化有形,從無到有
Thumbnail
2023年4月,紐約成立的Runway AI發佈了一段用AI生成的影音:畫面模糊、卡頓,物體扭曲,僅時長4秒;四個月後,Runway將文生成影音的效果推向4K超高清,實現鏡頭的連貫穩定,長度也從4秒提升至18秒——這是2023年文生成影音的「時長天花板」。
Thumbnail
2023年4月,紐約成立的Runway AI發佈了一段用AI生成的影音:畫面模糊、卡頓,物體扭曲,僅時長4秒;四個月後,Runway將文生成影音的效果推向4K超高清,實現鏡頭的連貫穩定,長度也從4秒提升至18秒——這是2023年文生成影音的「時長天花板」。
追蹤感興趣的內容從 Google News 追蹤更多 vocus 的最新精選內容追蹤 Google News