美國加州的領先人工智能公司OpenAI於2月15日發布了名為Sora的文本轉視頻模型。這一突破性的技術能夠根據用戶的提示詞生成長達一分鐘的逼真視頻,引起了業界的驚訝和興奮。Sora的推出被認為是人工智能領域的一個重要里程碑,被譽為AI技術的時代轉折點。
Sora的名稱源自日文詞彙「空」,意為天空,象徵其無限的創造潛力。該模型使用生成式人工智能技術,能夠根據用戶的文本提示生成長達60秒的視頻,同時也可以從現有的靜止圖像生成視頻。生成式人工智能是人工智能的一個分支,利用AI來創作新內容,例如文本、圖片、音樂、音頻和視頻。OpenAI先前推出的ChatGPT和DALL-E等模型就屬於這一類型。
OpenAI在展示Sora生成的多個高清視頻時,展示了其在人物、動物和物品的特寫細節上的出色表現。這些視頻具有逼真的質感,背景豐富、畫面流暢,令人難以置信。然而,OpenAI也指出Sora仍然存在一些弱點,例如在處理空間和因果關係方面可能出現問題,例如可能出現「一個人咬一口餅乾,但之後餅乾可能沒有咬痕」的情況。
實際上,在OpenAI之前,Runway、Pika等公司已經推出過展示文本生成視頻技術的模型,引起了一波AI視頻應用的熱潮。然而,Sora之所以引起如此大的震撼,是因為它在視頻質量和時長方面取得了顯著突破。首先,Sora能夠生成長達一分鐘的視頻,而其他文本生成視頻模型通常只能生成3至4秒的視頻。其次,Sora能夠實現多角度的拍攝,即在一段視頻中實現遠、中、近景、特寫等不同鏡頭的切換,而其他模型則傾向於生成單一鏡頭的語言。此外,Sora在處理真實世界的細節方面表現出色,包括光影反射、運動方式、鏡頭移動等,從而極大地提升了視頻的真實感。
業界評論認為,Sora的推出標誌著人工智能研究的一個重要里程碑。憑藉其模擬和理解現實世界的能力,Sora為實現通用人工智能(AGI)奠定了基礎。然而,由於擔心Sora可能被濫用,OpenAI表示目前沒有計劃向公眾發布該模型,而是給予少數研究人員有限的訪問權限,以確保技術的負責任使用和應用。OpenAI承諾將繼續與研究社區合作,進一步探索和解決Sora的弱點,並努力實現人工智能技術的公平、安全和透明使用。