2024 年 2 月,OpenAI 推出了 Sora 文字生成影片模型,該模型根據用戶輸入的文字描述生成逼真的影片,並且能夠控制影片的細節,例如人物、場景、動作、表情等。一推出就受到廣泛的討論,也代表人類在 AI 領域的重大突破。
OpenAI Sora 透過文字產生的影片:
Sora 建立在 DALL-E 2 圖像生成模型的基礎上,DALL-E 2 模型可以根據用戶輸入的文字描述生成圖片,Sora 融合了 ChatGPT 的 Transformer 技術和 Diffusion 技術,在平面圖片的基礎上增加了空間與時間的概念,使得動態物件在不同時間點保持高度一致性,達到專業攝影效果。
Sora 的出現無疑為影視創作領域帶來了革命性的變化,任何影視創作 (電影、YouTube)都可以使用 AI 生成技術來創造複雜的視覺效果,甚至是生成完整的動畫短片,這不僅降低了創作門檻,更重要的是創作成本也會大幅下降。
儘管在 Sora 目前還有一些缺點,像是難以正確的模擬複雜場景的物理原理,也無法理解因果關係的具體實例,例如:一個人可能咬了一口餅乾,但下一秒餅乾沒有咬痕。但是模型會隨著時間改進,Sora 依然展現了在影視創作領域巨大的潛力和可能性。
我認為會的,原因如下