OpenAI Sora:文生成影音的新時代

更新於 發佈於 閱讀時間約 6 分鐘

2023年4月,紐約成立的Runway AI發佈了一段用AI生成的影音:畫面模糊、卡頓,物體扭曲,僅時長4秒;四個月後,Runway將文生成影音的效果推向4K超高清,實現鏡頭的連貫穩定,長度也從4秒提升至18秒——這是2023年文生成影音的「時長天花板」。

然而,就在2024年2月16日凌晨,「時長天花板」被OpenAI再次打破,他們發布了能生成60秒影音的AI模型Sora。Sora的出現,預示著AI影音生成將迎來巨變。它不僅能根據文字指令創造出逼真且富有想像力的場景,還能生成長達一分鐘的影音並一鏡到底。

OpenAI表示,他們正在教導AI理解和模擬運動中的物理世界,目標是訓練模型來幫助人們解決需要現實世界互動的問題。隨後OpenAI解釋了Sora的工作原理,Sora是一個擴散模型,它從類似於靜態噪聲的視頻開始,通過多個步驟逐漸去除噪聲,視頻也從最初的隨機像素轉化為清晰的圖像場景。

Sora使用了Transformer架構,有極強的擴充性。視訊和圖像是被稱為「補丁」的較小資料單位集合,每個「補丁」都類似於GPT中的一個標記(Token),透過統一的資料表達方式,可以在更廣泛的視覺資料上訓練和擴散變化,包括不同的時間、解析度和縱橫比。

——引述《界面新聞》


可以說,隨著Sora的出現,我們正式踏入了文字生成影片的全新時代,在短短24小時內,這款革命性的產品已引起了廣泛的關注和討論。

身為數位內容製作人,又曾於內容產業工作逾八年,很難不關注這條新聞。出於對新工具的好奇,下面簡單爬梳了相關的內容,結合與朋友的討論,初步彙整訊息如下:


OpenAI的背景?

OpenAI作為人工智慧領域的先驅之一,一直致力於推動人工智慧的發展和應用。他們開發了許多引領潮流的技術和產品,如GPT系列文本生成模型。Sora的出現,再次展示了OpenAI在該領域的領先地位和創新能力。

Sora標誌的里程碑?

Sora可以根據用戶的文字提示生成長達一分鐘的高清影片,這在之前是無法想像的。它所生成的影片不僅極度逼真,還能涵蓋多個角色與多個場景,並帶入運鏡效果,使得生成的影片更加生動。這種技術的突破,意味著我們可以用更低的成本和更短的時間創造出高品質的影片,相關行業亦將帶迎來巨大變革。

Sora的技術厲害在哪?

Sora的強大之處在於其革命性的技術應用,基於Transformer架構,並使用更具擴展性的狀態空間模型(SSM)來生成高分辨率、逼真度極高的影音內容。Sora被認為是一個「世界模擬器」,具有多種有趣的模擬能力,包括3D一致性、長期一致性和對象持久性等。這使得Sora能夠直接在不同設備上創建內容,並展示出多樣的功能。

評論者表示,Sora像是一個數據驅動的物理引擎,能夠模擬各種世界,並通過學習複雜的渲染、物理特性和推理來生成高品質的影音。OpenAI也將其視為潛在的通用模擬器,認為擴展影音生成模型是一個有前途的途徑。

Sora將可能顛覆哪些行業?

Sora的出現將對需要大量的人力和時間等成本來製作影片的行業帶來重大變革,包含影視製作、廣告業、短影音等從業者與相關的大學科系——傳統的影視行業分工精細,但AI可以大幅簡化製作流程並降低成本;傳統的廣告公司也將面臨顛覆,因為AI技術能夠以更低成本提供類似甚至更好的效果;隨著AI技術的普及,短影音相關的行業將迎來更加激烈的競爭局面。此外,傳統藝術設計等相關科系將面臨市場需求下降,同時,畢業生的就業發展亦可能受到影響。

什麼樣的人可能被浪捲走?

生成式AI需要清晰明瞭的文字描述來產生內容,如果無法準確描述出所需的內容,可能會影響到最終的影音品質。對於傳統的影音從業人員而言,如果他們的語言能力或文字敘事能力不足的話,在面對生成式AI時可能會遇到困難。因此,對於從業人員來說,提升語言敘事能力將會成為重要的競爭優勢。

以上,老熊維尼如是說。

如何運用Sora創造新機會

Sora的出現降低了影音作品製作的門檻,使得影音創作變得更加簡單。對於影視行業從業者而言,他們可以更加集中精力在故事與創意而非技術細節;對於一般使用者而言,他們無需專業技能即可生成各類影音內容,只需提供文字提示,這將幫助更多的創作者能以較低成本生產出優秀作品,進而帶來更靈活的發展空間。

顯然,具有較強文字能力的創意發想者更有機會成為這一波變革的獲利者。

普通人如何面對變革浪潮

下面很精簡地摘要自非公開的資料來源,得到AI學習圈的〈4大行业将因OpenAI超强Sora模型变天,给你3条应对变革浪潮的小建议〉:

  1. 積極擁抱變化,成為AI領域的專家:面對變革,我們應該試著成為自己的交友圈與工作圈中最了解AI的人。透過學習和探索技術,開發新的技能,例如:利用AI製作旅遊遊記影音,或者成為AI時代的旅遊影音部落客。
  2. 想像自己是一家一人公司的創始人:想像自己註冊了一家一人公司,專注於解決某個領域的痛點或提供個性化服務。例如,利用AI技術為個人用戶提供定制化的PPT製作服務,將AI應用於文案撰寫、設計和排版。
  3. 保持好奇心,放大興趣:在AI普及的時代,建議保持好奇心,將注意力集中在自己感興趣且擅長的領域,並且多加利用技術補足自己的短板,更靈活地運用AI技術,提升創意表達和個人品牌建設的能力。


初步彙整至此,似乎應該有個小結尾。

那麼結尾就附上其他的參考資料啦:


留言
avatar-img
留言分享你的想法!
avatar-img
Sylvie的移動城堡
71會員
108內容數
我和我的日常觀察、讀書筆記,還有基於個人生活經驗的反思與體驗; 我和你和他的互動、以及跨越不同社會關係網絡而激起的煙花、水花與火花。
Sylvie的移動城堡的其他內容
2024/04/07
因為工作的關係,時常在寫英文;而最近因為英語演講會的社團活動,寫英文演講稿的頻率更高了。這一年多下來,想分享一下一個超好用的外掛程式:Grammarly。 雖然有ChatGPT,但是尚未能勝過的Grammarly。 在網路上搜了一番,發現有人寫過類似的分享,如果是完全不認識Grammarly的人
Thumbnail
2024/04/07
因為工作的關係,時常在寫英文;而最近因為英語演講會的社團活動,寫英文演講稿的頻率更高了。這一年多下來,想分享一下一個超好用的外掛程式:Grammarly。 雖然有ChatGPT,但是尚未能勝過的Grammarly。 在網路上搜了一番,發現有人寫過類似的分享,如果是完全不認識Grammarly的人
Thumbnail
2024/03/29
很快地,又來到了本週的說話時間。 接續上星期的話題,這個星期我和洪七在聊天中討論的是,如何運用GPT製作有畫面、有意義、有衝擊感又有記憶點的節目封面圖。內含:如何規避版權問題?若不透過臨摹,不輸入原始圖片,該如何讓AI自己畫出超擬真圖片? 聊到這件事的緣由是,我們自己的節目,起初是上傳到Firs
Thumbnail
2024/03/29
很快地,又來到了本週的說話時間。 接續上星期的話題,這個星期我和洪七在聊天中討論的是,如何運用GPT製作有畫面、有意義、有衝擊感又有記憶點的節目封面圖。內含:如何規避版權問題?若不透過臨摹,不輸入原始圖片,該如何讓AI自己畫出超擬真圖片? 聊到這件事的緣由是,我們自己的節目,起初是上傳到Firs
Thumbnail
2024/02/21
從去年的八月開始,我便作為guest去旁聽了不同的分會,初步參與到他們的活動中,並藉此了解不同分會的特性與氛圍,累計參與過六個在台北各個地方的分會活動,其中有兩個是雙語分會(中英文隔週),四個是全英文分會。
Thumbnail
2024/02/21
從去年的八月開始,我便作為guest去旁聽了不同的分會,初步參與到他們的活動中,並藉此了解不同分會的特性與氛圍,累計參與過六個在台北各個地方的分會活動,其中有兩個是雙語分會(中英文隔週),四個是全英文分會。
Thumbnail
看更多
你可能也想看
Thumbnail
每年4月、5月都是最多稅要繳的月份,當然大部份的人都是有機會繳到「綜合所得稅」,只是相當相當多人還不知道,原來繳給政府的稅!可以透過一些有活動的銀行信用卡或電子支付來繳,從繳費中賺一點點小確幸!就是賺個1%~2%大家也是很開心的,因為你們把沒回饋變成有回饋,就是用卡的最高境界 所得稅線上申報
Thumbnail
每年4月、5月都是最多稅要繳的月份,當然大部份的人都是有機會繳到「綜合所得稅」,只是相當相當多人還不知道,原來繳給政府的稅!可以透過一些有活動的銀行信用卡或電子支付來繳,從繳費中賺一點點小確幸!就是賺個1%~2%大家也是很開心的,因為你們把沒回饋變成有回饋,就是用卡的最高境界 所得稅線上申報
Thumbnail
全球科技產業的焦點,AKA 全村的希望 NVIDIA,於五月底正式發布了他們在今年 2025 第一季的財報 (輝達內部財務年度為 2026 Q1,實際日曆期間為今年二到四月),交出了打敗了市場預期的成績單。然而,在銷售持續高速成長的同時,川普政府加大對於中國的晶片管制......
Thumbnail
全球科技產業的焦點,AKA 全村的希望 NVIDIA,於五月底正式發布了他們在今年 2025 第一季的財報 (輝達內部財務年度為 2026 Q1,實際日曆期間為今年二到四月),交出了打敗了市場預期的成績單。然而,在銷售持續高速成長的同時,川普政府加大對於中國的晶片管制......
Thumbnail
重點摘要: 6 月繼續維持基準利率不變,強調維持高利率主因為關稅 點陣圖表現略為鷹派,收斂 2026、2027 年降息預期 SEP 連續 2 季下修 GDP、上修通膨預測值 --- 1.繼續維持利率不變,強調需要維持高利率是因為關稅: 聯準會 (Fed) 召開 6 月利率會議
Thumbnail
重點摘要: 6 月繼續維持基準利率不變,強調維持高利率主因為關稅 點陣圖表現略為鷹派,收斂 2026、2027 年降息預期 SEP 連續 2 季下修 GDP、上修通膨預測值 --- 1.繼續維持利率不變,強調需要維持高利率是因為關稅: 聯準會 (Fed) 召開 6 月利率會議
Thumbnail
Open AI影片生成模型Sora橫空出世 Sora是一個 AI 模型,可依據文字指令創建現實和富有想像的場景 這是Open AI首頁關於生成模型Sora的簡介 Open AI執行長將籌資數兆美元重塑全球半導體產業 全美娛樂產業接受訪談的300位主管,認為未來3年將有20萬個工作 受到AI
Thumbnail
Open AI影片生成模型Sora橫空出世 Sora是一個 AI 模型,可依據文字指令創建現實和富有想像的場景 這是Open AI首頁關於生成模型Sora的簡介 Open AI執行長將籌資數兆美元重塑全球半導體產業 全美娛樂產業接受訪談的300位主管,認為未來3年將有20萬個工作 受到AI
Thumbnail
OpenAI於2024年2月15日首次發佈「Sora」:以文字生成影片的AI模型 Sora,源於日文「空」(そら sora),即天空之意,它“喚起了無限創造潛力的想法”。
Thumbnail
OpenAI於2024年2月15日首次發佈「Sora」:以文字生成影片的AI模型 Sora,源於日文「空」(そら sora),即天空之意,它“喚起了無限創造潛力的想法”。
Thumbnail
2024 年 2 月,OpenAI 推出了 Sora 文字生成影片模型,該模型根據用戶輸入的文字描述生成逼真的影片,並且能夠控制影片的細節,例如人物、場景、動作、表情等。Sora 的出現無疑為影視創作領域帶來了革命性的變化。
Thumbnail
2024 年 2 月,OpenAI 推出了 Sora 文字生成影片模型,該模型根據用戶輸入的文字描述生成逼真的影片,並且能夠控制影片的細節,例如人物、場景、動作、表情等。Sora 的出現無疑為影視創作領域帶來了革命性的變化。
Thumbnail
如果AI能夠生成高質感的影片,對影視業不啻一場革命。 無需龐大設備和龐大後製團隊,只需要指令,幾分鐘即能輕鬆完成。 這對影視業來說無疑是一場革命。
Thumbnail
如果AI能夠生成高質感的影片,對影視業不啻一場革命。 無需龐大設備和龐大後製團隊,只需要指令,幾分鐘即能輕鬆完成。 這對影視業來說無疑是一場革命。
Thumbnail
今天要跟大家介紹一個非常厲害的人工智慧模型,它叫做 Sora,是由 OpenAI 最近發布的。Sora 可以生成長達一分鐘的超逼真影片,並且能夠根據指示加入特定的動作和場景。這種影片的品質遠超過以往,代表著人工智慧影片製作已經進入了新的階段。
Thumbnail
今天要跟大家介紹一個非常厲害的人工智慧模型,它叫做 Sora,是由 OpenAI 最近發布的。Sora 可以生成長達一分鐘的超逼真影片,並且能夠根據指示加入特定的動作和場景。這種影片的品質遠超過以往,代表著人工智慧影片製作已經進入了新的階段。
Thumbnail
OpenAI 發表的Sora,對於我這個浸淫AI繪圖還有AI產生(基礎的)動畫一段時間的人來說,可以說是非常的震撼。為什麼Sora 跟其他的文字產生影片的工具如Pika 或是 Runway 完全不同呢? 他對我們來說又有什麼意義呢? 這就是這篇文章我們想探討的。
Thumbnail
OpenAI 發表的Sora,對於我這個浸淫AI繪圖還有AI產生(基礎的)動畫一段時間的人來說,可以說是非常的震撼。為什麼Sora 跟其他的文字產生影片的工具如Pika 或是 Runway 完全不同呢? 他對我們來說又有什麼意義呢? 這就是這篇文章我們想探討的。
Thumbnail
AI生成技術領頭羊Open AI又出手了,旗下產品「Sora」有別於Chat GPT,只要給予指令,生產出來的不再只是文字,而是一幕幕需要耗費大量人工努力下產出的產品,所謂大量人工包含了:攝影、剪接、燈光、彩妝、演員、美術道具,甚至導演、製片等等。 而AI只要彈指之間,便能將無形化有形,從無到有
Thumbnail
AI生成技術領頭羊Open AI又出手了,旗下產品「Sora」有別於Chat GPT,只要給予指令,生產出來的不再只是文字,而是一幕幕需要耗費大量人工努力下產出的產品,所謂大量人工包含了:攝影、剪接、燈光、彩妝、演員、美術道具,甚至導演、製片等等。 而AI只要彈指之間,便能將無形化有形,從無到有
Thumbnail
幾天前OpenAI公司發表了全新的「AI生成影片」技術:透過一段簡短的「文字」敘述,讓AI生成一分鐘、1080P畫質的精美逼真影片。 礙於能力時間有限,我只能從使用ChatGPT、Bing這一年來獲得的大量經驗,閱讀研究大量AI相關資料整理的結論,分享AI生成圖片影片對「親密關係」可能帶來的衝擊。
Thumbnail
幾天前OpenAI公司發表了全新的「AI生成影片」技術:透過一段簡短的「文字」敘述,讓AI生成一分鐘、1080P畫質的精美逼真影片。 礙於能力時間有限,我只能從使用ChatGPT、Bing這一年來獲得的大量經驗,閱讀研究大量AI相關資料整理的結論,分享AI生成圖片影片對「親密關係」可能帶來的衝擊。
Thumbnail
2023年4月,紐約成立的Runway AI發佈了一段用AI生成的影音:畫面模糊、卡頓,物體扭曲,僅時長4秒;四個月後,Runway將文生成影音的效果推向4K超高清,實現鏡頭的連貫穩定,長度也從4秒提升至18秒——這是2023年文生成影音的「時長天花板」。
Thumbnail
2023年4月,紐約成立的Runway AI發佈了一段用AI生成的影音:畫面模糊、卡頓,物體扭曲,僅時長4秒;四個月後,Runway將文生成影音的效果推向4K超高清,實現鏡頭的連貫穩定,長度也從4秒提升至18秒——這是2023年文生成影音的「時長天花板」。
追蹤感興趣的內容從 Google News 追蹤更多 vocus 的最新精選內容追蹤 Google News