OpenAI Sora:文生成影音的新時代

2024/02/16閱讀時間約 5 分鐘

2023年4月,紐約成立的Runway AI發佈了一段用AI生成的影音:畫面模糊、卡頓,物體扭曲,僅時長4秒;四個月後,Runway將文生成影音的效果推向4K超高清,實現鏡頭的連貫穩定,長度也從4秒提升至18秒——這是2023年文生成影音的「時長天花板」。

然而,就在2024年2月16日凌晨,「時長天花板」被OpenAI再次打破,他們發布了能生成60秒影音的AI模型Sora。Sora的出現,預示著AI影音生成將迎來巨變。它不僅能根據文字指令創造出逼真且富有想像力的場景,還能生成長達一分鐘的影音並一鏡到底。

OpenAI表示,他們正在教導AI理解和模擬運動中的物理世界,目標是訓練模型來幫助人們解決需要現實世界互動的問題。隨後OpenAI解釋了Sora的工作原理,Sora是一個擴散模型,它從類似於靜態噪聲的視頻開始,通過多個步驟逐漸去除噪聲,視頻也從最初的隨機像素轉化為清晰的圖像場景。

Sora使用了Transformer架構,有極強的擴充性。視訊和圖像是被稱為「補丁」的較小資料單位集合,每個「補丁」都類似於GPT中的一個標記(Token),透過統一的資料表達方式,可以在更廣泛的視覺資料上訓練和擴散變化,包括不同的時間、解析度和縱橫比。

——引述《界面新聞》


可以說,隨著Sora的出現,我們正式踏入了文字生成影片的全新時代,在短短24小時內,這款革命性的產品已引起了廣泛的關注和討論。

身為數位內容製作人,又曾於內容產業工作逾八年,很難不關注這條新聞。出於對新工具的好奇,下面簡單爬梳了相關的內容,結合與朋友的討論,初步彙整訊息如下:


OpenAI的背景?

OpenAI作為人工智慧領域的先驅之一,一直致力於推動人工智慧的發展和應用。他們開發了許多引領潮流的技術和產品,如GPT系列文本生成模型。Sora的出現,再次展示了OpenAI在該領域的領先地位和創新能力。

Sora標誌的里程碑?

Sora可以根據用戶的文字提示生成長達一分鐘的高清影片,這在之前是無法想像的。它所生成的影片不僅極度逼真,還能涵蓋多個角色與多個場景,並帶入運鏡效果,使得生成的影片更加生動。這種技術的突破,意味著我們可以用更低的成本和更短的時間創造出高品質的影片,相關行業亦將帶迎來巨大變革。

Sora的技術厲害在哪?

Sora的強大之處在於其革命性的技術應用,基於Transformer架構,並使用更具擴展性的狀態空間模型(SSM)來生成高分辨率、逼真度極高的影音內容。Sora被認為是一個「世界模擬器」,具有多種有趣的模擬能力,包括3D一致性、長期一致性和對象持久性等。這使得Sora能夠直接在不同設備上創建內容,並展示出多樣的功能。

評論者表示,Sora像是一個數據驅動的物理引擎,能夠模擬各種世界,並通過學習複雜的渲染、物理特性和推理來生成高品質的影音。OpenAI也將其視為潛在的通用模擬器,認為擴展影音生成模型是一個有前途的途徑。

Sora將可能顛覆哪些行業?

Sora的出現將對需要大量的人力和時間等成本來製作影片的行業帶來重大變革,包含影視製作、廣告業、短影音等從業者與相關的大學科系——傳統的影視行業分工精細,但AI可以大幅簡化製作流程並降低成本;傳統的廣告公司也將面臨顛覆,因為AI技術能夠以更低成本提供類似甚至更好的效果;隨著AI技術的普及,短影音相關的行業將迎來更加激烈的競爭局面。此外,傳統藝術設計等相關科系將面臨市場需求下降,同時,畢業生的就業發展亦可能受到影響。

什麼樣的人可能被浪捲走?

生成式AI需要清晰明瞭的文字描述來產生內容,如果無法準確描述出所需的內容,可能會影響到最終的影音品質。對於傳統的影音從業人員而言,如果他們的語言能力或文字敘事能力不足的話,在面對生成式AI時可能會遇到困難。因此,對於從業人員來說,提升語言敘事能力將會成為重要的競爭優勢。

以上,老熊維尼如是說。

如何運用Sora創造新機會

Sora的出現降低了影音作品製作的門檻,使得影音創作變得更加簡單。對於影視行業從業者而言,他們可以更加集中精力在故事與創意而非技術細節;對於一般使用者而言,他們無需專業技能即可生成各類影音內容,只需提供文字提示,這將幫助更多的創作者能以較低成本生產出優秀作品,進而帶來更靈活的發展空間。

顯然,具有較強文字能力的創意發想者更有機會成為這一波變革的獲利者。

普通人如何面對變革浪潮

下面很精簡地摘要自非公開的資料來源,得到AI學習圈的〈4大行业将因OpenAI超强Sora模型变天,给你3条应对变革浪潮的小建议〉:

  1. 積極擁抱變化,成為AI領域的專家:面對變革,我們應該試著成為自己的交友圈與工作圈中最了解AI的人。透過學習和探索技術,開發新的技能,例如:利用AI製作旅遊遊記影音,或者成為AI時代的旅遊影音部落客。
  2. 想像自己是一家一人公司的創始人:想像自己註冊了一家一人公司,專注於解決某個領域的痛點或提供個性化服務。例如,利用AI技術為個人用戶提供定制化的PPT製作服務,將AI應用於文案撰寫、設計和排版。
  3. 保持好奇心,放大興趣:在AI普及的時代,建議保持好奇心,將注意力集中在自己感興趣且擅長的領域,並且多加利用技術補足自己的短板,更靈活地運用AI技術,提升創意表達和個人品牌建設的能力。


初步彙整至此,似乎應該有個小結尾。

那麼結尾就附上其他的參考資料啦:


69會員
92內容數
我和我的日常觀察、讀書筆記,還有基於個人生活經驗的反思與體驗; 我和你和他的互動、以及跨越不同社會關係網絡而激起的煙花、水花與火花。
留言0
查看全部
發表第一個留言支持創作者!