OpenAI Sora:文生成影音的新時代

更新於 發佈於 閱讀時間約 5 分鐘

2023年4月,紐約成立的Runway AI發佈了一段用AI生成的影音:畫面模糊、卡頓,物體扭曲,僅時長4秒;四個月後,Runway將文生成影音的效果推向4K超高清,實現鏡頭的連貫穩定,長度也從4秒提升至18秒——這是2023年文生成影音的「時長天花板」。

然而,就在2024年2月16日凌晨,「時長天花板」被OpenAI再次打破,他們發布了能生成60秒影音的AI模型Sora。Sora的出現,預示著AI影音生成將迎來巨變。它不僅能根據文字指令創造出逼真且富有想像力的場景,還能生成長達一分鐘的影音並一鏡到底。

OpenAI表示,他們正在教導AI理解和模擬運動中的物理世界,目標是訓練模型來幫助人們解決需要現實世界互動的問題。隨後OpenAI解釋了Sora的工作原理,Sora是一個擴散模型,它從類似於靜態噪聲的視頻開始,通過多個步驟逐漸去除噪聲,視頻也從最初的隨機像素轉化為清晰的圖像場景。

Sora使用了Transformer架構,有極強的擴充性。視訊和圖像是被稱為「補丁」的較小資料單位集合,每個「補丁」都類似於GPT中的一個標記(Token),透過統一的資料表達方式,可以在更廣泛的視覺資料上訓練和擴散變化,包括不同的時間、解析度和縱橫比。

——引述《界面新聞》


可以說,隨著Sora的出現,我們正式踏入了文字生成影片的全新時代,在短短24小時內,這款革命性的產品已引起了廣泛的關注和討論。

身為數位內容製作人,又曾於內容產業工作逾八年,很難不關注這條新聞。出於對新工具的好奇,下面簡單爬梳了相關的內容,結合與朋友的討論,初步彙整訊息如下:


OpenAI的背景?

OpenAI作為人工智慧領域的先驅之一,一直致力於推動人工智慧的發展和應用。他們開發了許多引領潮流的技術和產品,如GPT系列文本生成模型。Sora的出現,再次展示了OpenAI在該領域的領先地位和創新能力。

Sora標誌的里程碑?

Sora可以根據用戶的文字提示生成長達一分鐘的高清影片,這在之前是無法想像的。它所生成的影片不僅極度逼真,還能涵蓋多個角色與多個場景,並帶入運鏡效果,使得生成的影片更加生動。這種技術的突破,意味著我們可以用更低的成本和更短的時間創造出高品質的影片,相關行業亦將帶迎來巨大變革。

Sora的技術厲害在哪?

Sora的強大之處在於其革命性的技術應用,基於Transformer架構,並使用更具擴展性的狀態空間模型(SSM)來生成高分辨率、逼真度極高的影音內容。Sora被認為是一個「世界模擬器」,具有多種有趣的模擬能力,包括3D一致性、長期一致性和對象持久性等。這使得Sora能夠直接在不同設備上創建內容,並展示出多樣的功能。

評論者表示,Sora像是一個數據驅動的物理引擎,能夠模擬各種世界,並通過學習複雜的渲染、物理特性和推理來生成高品質的影音。OpenAI也將其視為潛在的通用模擬器,認為擴展影音生成模型是一個有前途的途徑。

Sora將可能顛覆哪些行業?

Sora的出現將對需要大量的人力和時間等成本來製作影片的行業帶來重大變革,包含影視製作、廣告業、短影音等從業者與相關的大學科系——傳統的影視行業分工精細,但AI可以大幅簡化製作流程並降低成本;傳統的廣告公司也將面臨顛覆,因為AI技術能夠以更低成本提供類似甚至更好的效果;隨著AI技術的普及,短影音相關的行業將迎來更加激烈的競爭局面。此外,傳統藝術設計等相關科系將面臨市場需求下降,同時,畢業生的就業發展亦可能受到影響。

什麼樣的人可能被浪捲走?

生成式AI需要清晰明瞭的文字描述來產生內容,如果無法準確描述出所需的內容,可能會影響到最終的影音品質。對於傳統的影音從業人員而言,如果他們的語言能力或文字敘事能力不足的話,在面對生成式AI時可能會遇到困難。因此,對於從業人員來說,提升語言敘事能力將會成為重要的競爭優勢。

以上,老熊維尼如是說。

如何運用Sora創造新機會

Sora的出現降低了影音作品製作的門檻,使得影音創作變得更加簡單。對於影視行業從業者而言,他們可以更加集中精力在故事與創意而非技術細節;對於一般使用者而言,他們無需專業技能即可生成各類影音內容,只需提供文字提示,這將幫助更多的創作者能以較低成本生產出優秀作品,進而帶來更靈活的發展空間。

顯然,具有較強文字能力的創意發想者更有機會成為這一波變革的獲利者。

普通人如何面對變革浪潮

下面很精簡地摘要自非公開的資料來源,得到AI學習圈的〈4大行业将因OpenAI超强Sora模型变天,给你3条应对变革浪潮的小建议〉:

  1. 積極擁抱變化,成為AI領域的專家:面對變革,我們應該試著成為自己的交友圈與工作圈中最了解AI的人。透過學習和探索技術,開發新的技能,例如:利用AI製作旅遊遊記影音,或者成為AI時代的旅遊影音部落客。
  2. 想像自己是一家一人公司的創始人:想像自己註冊了一家一人公司,專注於解決某個領域的痛點或提供個性化服務。例如,利用AI技術為個人用戶提供定制化的PPT製作服務,將AI應用於文案撰寫、設計和排版。
  3. 保持好奇心,放大興趣:在AI普及的時代,建議保持好奇心,將注意力集中在自己感興趣且擅長的領域,並且多加利用技術補足自己的短板,更靈活地運用AI技術,提升創意表達和個人品牌建設的能力。


初步彙整至此,似乎應該有個小結尾。

那麼結尾就附上其他的參考資料啦:


avatar-img
70會員
99內容數
我和我的日常觀察、讀書筆記,還有基於個人生活經驗的反思與體驗; 我和你和他的互動、以及跨越不同社會關係網絡而激起的煙花、水花與火花。
留言0
查看全部
avatar-img
發表第一個留言支持創作者!
Sylvie的移動城堡 的其他內容
人工智慧生成內容(AIGC)的崛起,AI在文字、圖像、產品文案等方面的應用正掀起波瀾。本文分享了使用ChatGPT進行文案撰寫以及對於咒語格式與最佳內容認知的觀察。不過,使用者的專業程度對合作成果至關重要。另外,文章觸及使用AI工具提供的功能性應用,以及在創作和發展方面的潛力。
領英的定位是,幹點正事兒,這就導致,外部環境競爭越激烈,它的活躍度就越高。畢竟,大家都想提升自己的競爭力。這也是為什麼2023年,短短一年裡,領英的個人發帖量,就增加了87%。換句話說,領英的優勢原點,其實是它的人設。它從一開始,就讓你覺得這是一個幹正事兒的地方。在這個人設的加持下,用戶遇到的所有職
在數位時代,社群平台成為交流的主要渠道。而在眾多社交平台中,LinkedIn是一個專注於職場、專業的社交網絡,它不僅是一個尋找工作的平台,更是一個展示自我、建立人脈、分享與學習專業知識的場所。 透過LinkedIn,我們可以展示自己的專業、經歷與成就,創造個人品牌,與全世界的專業人士建立連結。那麼
人工智慧生成內容(AIGC)的崛起,AI在文字、圖像、產品文案等方面的應用正掀起波瀾。本文分享了使用ChatGPT進行文案撰寫以及對於咒語格式與最佳內容認知的觀察。不過,使用者的專業程度對合作成果至關重要。另外,文章觸及使用AI工具提供的功能性應用,以及在創作和發展方面的潛力。
領英的定位是,幹點正事兒,這就導致,外部環境競爭越激烈,它的活躍度就越高。畢竟,大家都想提升自己的競爭力。這也是為什麼2023年,短短一年裡,領英的個人發帖量,就增加了87%。換句話說,領英的優勢原點,其實是它的人設。它從一開始,就讓你覺得這是一個幹正事兒的地方。在這個人設的加持下,用戶遇到的所有職
在數位時代,社群平台成為交流的主要渠道。而在眾多社交平台中,LinkedIn是一個專注於職場、專業的社交網絡,它不僅是一個尋找工作的平台,更是一個展示自我、建立人脈、分享與學習專業知識的場所。 透過LinkedIn,我們可以展示自己的專業、經歷與成就,創造個人品牌,與全世界的專業人士建立連結。那麼
你可能也想看
Google News 追蹤
Thumbnail
嘿,大家新年快樂~ 新年大家都在做什麼呢? 跨年夜的我趕工製作某個外包設計案,在工作告一段落時趕上倒數。 然後和兩個小孩過了一個忙亂的元旦。在深夜時刻,看到朋友傳來的解籤網站,興致勃勃熬夜體驗了一下,覺得非常好玩,或許有人玩過了,但還是想寫上來分享紀錄一下~
Thumbnail
OpenAI於2024年2月15日首次發佈「Sora」:以文字生成影片的AI模型 Sora,源於日文「空」(そら sora),即天空之意,它“喚起了無限創造潛力的想法”。
Thumbnail
2024 年 2 月,OpenAI 推出了 Sora 文字生成影片模型,該模型根據用戶輸入的文字描述生成逼真的影片,並且能夠控制影片的細節,例如人物、場景、動作、表情等。Sora 的出現無疑為影視創作領域帶來了革命性的變化。
Thumbnail
今天要跟大家介紹一個非常厲害的人工智慧模型,它叫做 Sora,是由 OpenAI 最近發布的。Sora 可以生成長達一分鐘的超逼真影片,並且能夠根據指示加入特定的動作和場景。這種影片的品質遠超過以往,代表著人工智慧影片製作已經進入了新的階段。
Thumbnail
OpenAI 影片生成模型 Sora / Google Bard 更名 Gemini / 紐約植物園 NYBG 新 LOGO 與訂製字體 / 2026 冬奧吉祥物出爐 / Midjourney 網頁 alpha 功能體驗標準降低
Thumbnail
AI生成技術領頭羊Open AI又出手了,旗下產品「Sora」有別於Chat GPT,只要給予指令,生產出來的不再只是文字,而是一幕幕需要耗費大量人工努力下產出的產品,所謂大量人工包含了:攝影、剪接、燈光、彩妝、演員、美術道具,甚至導演、製片等等。 而AI只要彈指之間,便能將無形化有形,從無到有
Thumbnail
OpenAI最新推出的「Sora」是一款文本生成影像的AI模型,只要輸入幾句簡單的文字描述,就能自動生成出影像,影片內容可以包含多名角色,搭配特定的動態場景,且影片長度最高可達60秒,同時還能展示複雜的攝影機運動。Sora還能夠根據靜態圖片來製作動畫,功能十分強大。目前Sora還沒有開放給大眾使
Thumbnail
幾天前OpenAI公司發表了全新的「AI生成影片」技術:透過一段簡短的「文字」敘述,讓AI生成一分鐘、1080P畫質的精美逼真影片。 礙於能力時間有限,我只能從使用ChatGPT、Bing這一年來獲得的大量經驗,閱讀研究大量AI相關資料整理的結論,分享AI生成圖片影片對「親密關係」可能帶來的衝擊。
Thumbnail
2024年2月16日,OpenAI開發的文字轉影片模型Sora正式揭曉。本文介紹了Sora與Apple Vision Pro AR/XR眼鏡的結合對教育、娛樂、設計、醫療、企業管理、數據視覺化、溝通和協作等領域帶來的革命性影響。
Thumbnail
嘿,大家新年快樂~ 新年大家都在做什麼呢? 跨年夜的我趕工製作某個外包設計案,在工作告一段落時趕上倒數。 然後和兩個小孩過了一個忙亂的元旦。在深夜時刻,看到朋友傳來的解籤網站,興致勃勃熬夜體驗了一下,覺得非常好玩,或許有人玩過了,但還是想寫上來分享紀錄一下~
Thumbnail
OpenAI於2024年2月15日首次發佈「Sora」:以文字生成影片的AI模型 Sora,源於日文「空」(そら sora),即天空之意,它“喚起了無限創造潛力的想法”。
Thumbnail
2024 年 2 月,OpenAI 推出了 Sora 文字生成影片模型,該模型根據用戶輸入的文字描述生成逼真的影片,並且能夠控制影片的細節,例如人物、場景、動作、表情等。Sora 的出現無疑為影視創作領域帶來了革命性的變化。
Thumbnail
今天要跟大家介紹一個非常厲害的人工智慧模型,它叫做 Sora,是由 OpenAI 最近發布的。Sora 可以生成長達一分鐘的超逼真影片,並且能夠根據指示加入特定的動作和場景。這種影片的品質遠超過以往,代表著人工智慧影片製作已經進入了新的階段。
Thumbnail
OpenAI 影片生成模型 Sora / Google Bard 更名 Gemini / 紐約植物園 NYBG 新 LOGO 與訂製字體 / 2026 冬奧吉祥物出爐 / Midjourney 網頁 alpha 功能體驗標準降低
Thumbnail
AI生成技術領頭羊Open AI又出手了,旗下產品「Sora」有別於Chat GPT,只要給予指令,生產出來的不再只是文字,而是一幕幕需要耗費大量人工努力下產出的產品,所謂大量人工包含了:攝影、剪接、燈光、彩妝、演員、美術道具,甚至導演、製片等等。 而AI只要彈指之間,便能將無形化有形,從無到有
Thumbnail
OpenAI最新推出的「Sora」是一款文本生成影像的AI模型,只要輸入幾句簡單的文字描述,就能自動生成出影像,影片內容可以包含多名角色,搭配特定的動態場景,且影片長度最高可達60秒,同時還能展示複雜的攝影機運動。Sora還能夠根據靜態圖片來製作動畫,功能十分強大。目前Sora還沒有開放給大眾使
Thumbnail
幾天前OpenAI公司發表了全新的「AI生成影片」技術:透過一段簡短的「文字」敘述,讓AI生成一分鐘、1080P畫質的精美逼真影片。 礙於能力時間有限,我只能從使用ChatGPT、Bing這一年來獲得的大量經驗,閱讀研究大量AI相關資料整理的結論,分享AI生成圖片影片對「親密關係」可能帶來的衝擊。
Thumbnail
2024年2月16日,OpenAI開發的文字轉影片模型Sora正式揭曉。本文介紹了Sora與Apple Vision Pro AR/XR眼鏡的結合對教育、娛樂、設計、醫療、企業管理、數據視覺化、溝通和協作等領域帶來的革命性影響。