2023年4月,紐約成立的Runway AI發佈了一段用AI生成的影音:畫面模糊、卡頓,物體扭曲,僅時長4秒;四個月後,Runway將文生成影音的效果推向4K超高清,實現鏡頭的連貫穩定,長度也從4秒提升至18秒——這是2023年文生成影音的「時長天花板」。
然而,就在2024年2月16日凌晨,「時長天花板」被OpenAI再次打破,他們發布了能生成60秒影音的AI模型Sora。Sora的出現,預示著AI影音生成將迎來巨變。它不僅能根據文字指令創造出逼真且富有想像力的場景,還能生成長達一分鐘的影音並一鏡到底。
OpenAI表示,他們正在教導AI理解和模擬運動中的物理世界,目標是訓練模型來幫助人們解決需要現實世界互動的問題。隨後OpenAI解釋了Sora的工作原理,Sora是一個擴散模型,它從類似於靜態噪聲的視頻開始,通過多個步驟逐漸去除噪聲,視頻也從最初的隨機像素轉化為清晰的圖像場景。
Sora使用了Transformer架構,有極強的擴充性。視訊和圖像是被稱為「補丁」的較小資料單位集合,每個「補丁」都類似於GPT中的一個標記(Token),透過統一的資料表達方式,可以在更廣泛的視覺資料上訓練和擴散變化,包括不同的時間、解析度和縱橫比。
——引述《界面新聞》
可以說,隨著Sora的出現,我們正式踏入了文字生成影片的全新時代,在短短24小時內,這款革命性的產品已引起了廣泛的關注和討論。
身為數位內容製作人,又曾於內容產業工作逾八年,很難不關注這條新聞。出於對新工具的好奇,下面簡單爬梳了相關的內容,結合與朋友的討論,初步彙整訊息如下:
OpenAI作為人工智慧領域的先驅之一,一直致力於推動人工智慧的發展和應用。他們開發了許多引領潮流的技術和產品,如GPT系列文本生成模型。Sora的出現,再次展示了OpenAI在該領域的領先地位和創新能力。
Sora可以根據用戶的文字提示生成長達一分鐘的高清影片,這在之前是無法想像的。它所生成的影片不僅極度逼真,還能涵蓋多個角色與多個場景,並帶入運鏡效果,使得生成的影片更加生動。這種技術的突破,意味著我們可以用更低的成本和更短的時間創造出高品質的影片,相關行業亦將帶迎來巨大變革。
Sora的強大之處在於其革命性的技術應用,基於Transformer架構,並使用更具擴展性的狀態空間模型(SSM)來生成高分辨率、逼真度極高的影音內容。Sora被認為是一個「世界模擬器」,具有多種有趣的模擬能力,包括3D一致性、長期一致性和對象持久性等。這使得Sora能夠直接在不同設備上創建內容,並展示出多樣的功能。
評論者表示,Sora像是一個數據驅動的物理引擎,能夠模擬各種世界,並通過學習複雜的渲染、物理特性和推理來生成高品質的影音。OpenAI也將其視為潛在的通用模擬器,認為擴展影音生成模型是一個有前途的途徑。
Sora的出現將對需要大量的人力和時間等成本來製作影片的行業帶來重大變革,包含影視製作、廣告業、短影音等從業者與相關的大學科系——傳統的影視行業分工精細,但AI可以大幅簡化製作流程並降低成本;傳統的廣告公司也將面臨顛覆,因為AI技術能夠以更低成本提供類似甚至更好的效果;隨著AI技術的普及,短影音相關的行業將迎來更加激烈的競爭局面。此外,傳統藝術設計等相關科系將面臨市場需求下降,同時,畢業生的就業發展亦可能受到影響。
生成式AI需要清晰明瞭的文字描述來產生內容,如果無法準確描述出所需的內容,可能會影響到最終的影音品質。對於傳統的影音從業人員而言,如果他們的語言能力或文字敘事能力不足的話,在面對生成式AI時可能會遇到困難。因此,對於從業人員來說,提升語言敘事能力將會成為重要的競爭優勢。
以上,老熊維尼如是說。
Sora的出現降低了影音作品製作的門檻,使得影音創作變得更加簡單。對於影視行業從業者而言,他們可以更加集中精力在故事與創意而非技術細節;對於一般使用者而言,他們無需專業技能即可生成各類影音內容,只需提供文字提示,這將幫助更多的創作者能以較低成本生產出優秀作品,進而帶來更靈活的發展空間。
顯然,具有較強文字能力的創意發想者更有機會成為這一波變革的獲利者。
下面很精簡地摘要自非公開的資料來源,得到AI學習圈的〈4大行业将因OpenAI超强Sora模型变天,给你3条应对变革浪潮的小建议〉:
初步彙整至此,似乎應該有個小結尾。
那麼結尾就附上其他的參考資料啦: