OpenAI Sora:文生成影音的新時代

閱讀時間約 5 分鐘

2023年4月,紐約成立的Runway AI發佈了一段用AI生成的影音:畫面模糊、卡頓,物體扭曲,僅時長4秒;四個月後,Runway將文生成影音的效果推向4K超高清,實現鏡頭的連貫穩定,長度也從4秒提升至18秒——這是2023年文生成影音的「時長天花板」。

然而,就在2024年2月16日凌晨,「時長天花板」被OpenAI再次打破,他們發布了能生成60秒影音的AI模型Sora。Sora的出現,預示著AI影音生成將迎來巨變。它不僅能根據文字指令創造出逼真且富有想像力的場景,還能生成長達一分鐘的影音並一鏡到底。

OpenAI表示,他們正在教導AI理解和模擬運動中的物理世界,目標是訓練模型來幫助人們解決需要現實世界互動的問題。隨後OpenAI解釋了Sora的工作原理,Sora是一個擴散模型,它從類似於靜態噪聲的視頻開始,通過多個步驟逐漸去除噪聲,視頻也從最初的隨機像素轉化為清晰的圖像場景。

Sora使用了Transformer架構,有極強的擴充性。視訊和圖像是被稱為「補丁」的較小資料單位集合,每個「補丁」都類似於GPT中的一個標記(Token),透過統一的資料表達方式,可以在更廣泛的視覺資料上訓練和擴散變化,包括不同的時間、解析度和縱橫比。

——引述《界面新聞》


可以說,隨著Sora的出現,我們正式踏入了文字生成影片的全新時代,在短短24小時內,這款革命性的產品已引起了廣泛的關注和討論。

身為數位內容製作人,又曾於內容產業工作逾八年,很難不關注這條新聞。出於對新工具的好奇,下面簡單爬梳了相關的內容,結合與朋友的討論,初步彙整訊息如下:


OpenAI的背景?

OpenAI作為人工智慧領域的先驅之一,一直致力於推動人工智慧的發展和應用。他們開發了許多引領潮流的技術和產品,如GPT系列文本生成模型。Sora的出現,再次展示了OpenAI在該領域的領先地位和創新能力。

Sora標誌的里程碑?

Sora可以根據用戶的文字提示生成長達一分鐘的高清影片,這在之前是無法想像的。它所生成的影片不僅極度逼真,還能涵蓋多個角色與多個場景,並帶入運鏡效果,使得生成的影片更加生動。這種技術的突破,意味著我們可以用更低的成本和更短的時間創造出高品質的影片,相關行業亦將帶迎來巨大變革。

Sora的技術厲害在哪?

Sora的強大之處在於其革命性的技術應用,基於Transformer架構,並使用更具擴展性的狀態空間模型(SSM)來生成高分辨率、逼真度極高的影音內容。Sora被認為是一個「世界模擬器」,具有多種有趣的模擬能力,包括3D一致性、長期一致性和對象持久性等。這使得Sora能夠直接在不同設備上創建內容,並展示出多樣的功能。

評論者表示,Sora像是一個數據驅動的物理引擎,能夠模擬各種世界,並通過學習複雜的渲染、物理特性和推理來生成高品質的影音。OpenAI也將其視為潛在的通用模擬器,認為擴展影音生成模型是一個有前途的途徑。

Sora將可能顛覆哪些行業?

Sora的出現將對需要大量的人力和時間等成本來製作影片的行業帶來重大變革,包含影視製作、廣告業、短影音等從業者與相關的大學科系——傳統的影視行業分工精細,但AI可以大幅簡化製作流程並降低成本;傳統的廣告公司也將面臨顛覆,因為AI技術能夠以更低成本提供類似甚至更好的效果;隨著AI技術的普及,短影音相關的行業將迎來更加激烈的競爭局面。此外,傳統藝術設計等相關科系將面臨市場需求下降,同時,畢業生的就業發展亦可能受到影響。

什麼樣的人可能被浪捲走?

生成式AI需要清晰明瞭的文字描述來產生內容,如果無法準確描述出所需的內容,可能會影響到最終的影音品質。對於傳統的影音從業人員而言,如果他們的語言能力或文字敘事能力不足的話,在面對生成式AI時可能會遇到困難。因此,對於從業人員來說,提升語言敘事能力將會成為重要的競爭優勢。

以上,老熊維尼如是說。

如何運用Sora創造新機會

Sora的出現降低了影音作品製作的門檻,使得影音創作變得更加簡單。對於影視行業從業者而言,他們可以更加集中精力在故事與創意而非技術細節;對於一般使用者而言,他們無需專業技能即可生成各類影音內容,只需提供文字提示,這將幫助更多的創作者能以較低成本生產出優秀作品,進而帶來更靈活的發展空間。

顯然,具有較強文字能力的創意發想者更有機會成為這一波變革的獲利者。

普通人如何面對變革浪潮

下面很精簡地摘要自非公開的資料來源,得到AI學習圈的〈4大行业将因OpenAI超强Sora模型变天,给你3条应对变革浪潮的小建议〉:

  1. 積極擁抱變化,成為AI領域的專家:面對變革,我們應該試著成為自己的交友圈與工作圈中最了解AI的人。透過學習和探索技術,開發新的技能,例如:利用AI製作旅遊遊記影音,或者成為AI時代的旅遊影音部落客。
  2. 想像自己是一家一人公司的創始人:想像自己註冊了一家一人公司,專注於解決某個領域的痛點或提供個性化服務。例如,利用AI技術為個人用戶提供定制化的PPT製作服務,將AI應用於文案撰寫、設計和排版。
  3. 保持好奇心,放大興趣:在AI普及的時代,建議保持好奇心,將注意力集中在自己感興趣且擅長的領域,並且多加利用技術補足自己的短板,更靈活地運用AI技術,提升創意表達和個人品牌建設的能力。


初步彙整至此,似乎應該有個小結尾。

那麼結尾就附上其他的參考資料啦:


70會員
98Content count
我和我的日常觀察、讀書筆記,還有基於個人生活經驗的反思與體驗; 我和你和他的互動、以及跨越不同社會關係網絡而激起的煙花、水花與火花。
留言0
查看全部
發表第一個留言支持創作者!
未竟之途 的其他內容
人工智慧生成內容(AIGC)的崛起,AI在文字、圖像、產品文案等方面的應用正掀起波瀾。本文分享了使用ChatGPT進行文案撰寫以及對於咒語格式與最佳內容認知的觀察。不過,使用者的專業程度對合作成果至關重要。另外,文章觸及使用AI工具提供的功能性應用,以及在創作和發展方面的潛力。
領英的定位是,幹點正事兒,這就導致,外部環境競爭越激烈,它的活躍度就越高。畢竟,大家都想提升自己的競爭力。這也是為什麼2023年,短短一年裡,領英的個人發帖量,就增加了87%。換句話說,領英的優勢原點,其實是它的人設。它從一開始,就讓你覺得這是一個幹正事兒的地方。在這個人設的加持下,用戶遇到的所有職
在數位時代,社群平台成為交流的主要渠道。而在眾多社交平台中,LinkedIn是一個專注於職場、專業的社交網絡,它不僅是一個尋找工作的平台,更是一個展示自我、建立人脈、分享與學習專業知識的場所。 透過LinkedIn,我們可以展示自己的專業、經歷與成就,創造個人品牌,與全世界的專業人士建立連結。那麼
人工智慧生成內容(AIGC)的崛起,AI在文字、圖像、產品文案等方面的應用正掀起波瀾。本文分享了使用ChatGPT進行文案撰寫以及對於咒語格式與最佳內容認知的觀察。不過,使用者的專業程度對合作成果至關重要。另外,文章觸及使用AI工具提供的功能性應用,以及在創作和發展方面的潛力。
領英的定位是,幹點正事兒,這就導致,外部環境競爭越激烈,它的活躍度就越高。畢竟,大家都想提升自己的競爭力。這也是為什麼2023年,短短一年裡,領英的個人發帖量,就增加了87%。換句話說,領英的優勢原點,其實是它的人設。它從一開始,就讓你覺得這是一個幹正事兒的地方。在這個人設的加持下,用戶遇到的所有職
在數位時代,社群平台成為交流的主要渠道。而在眾多社交平台中,LinkedIn是一個專注於職場、專業的社交網絡,它不僅是一個尋找工作的平台,更是一個展示自我、建立人脈、分享與學習專業知識的場所。 透過LinkedIn,我們可以展示自己的專業、經歷與成就,創造個人品牌,與全世界的專業人士建立連結。那麼
你可能也想看
Thumbnail
1.加權指數與櫃買指數 週五的加權指數在非農就業數據開出來後,雖稍微低於預期,但指數仍向上噴出,在美股開盤後於21500形成一個爆量假突破後急轉直下,就一路收至最低。 台股方面走勢需觀察週一在斷頭潮出現後,週二或週三開始有無買單進場支撐,在沒有明確的反轉訊號形成前,小夥伴盡量不要貿然抄底,或是追空
Thumbnail
近期的「貼文發佈流程 & 版型大更新」功能大家使用了嗎? 新版式整體視覺上「更加凸顯圖片」,為了搭配這次的更新,我們推出首次貼文策展 ❤️ 使用貼文功能並完成這次的指定任務,還有機會獲得富士即可拍,讓你的美好回憶都可以用即可拍珍藏!
Thumbnail
2024年2月16日,OpenAI開發的文字轉影片模型Sora正式揭曉。本文介紹了Sora與Apple Vision Pro AR/XR眼鏡的結合對教育、娛樂、設計、醫療、企業管理、數據視覺化、溝通和協作等領域帶來的革命性影響。
Thumbnail
OpenAI 周一(11/6)發佈了 GPT-4 Turbo 重大更新版,不只”能寫“,更已經 “能看圖“ ”能聽話” “能說話” ,所有人都能用人類的自然語言指揮 AI 並且創造自己專屬領域的 GPT --- AI 的未來已來!要瞭解自己的 "AIQ (AI商:AI Quotient)“ 是高是低
Thumbnail
AI 技術的崛起帶來了巨大的潛力,但我們也不能忽視其潛在的風險。如果不小心濫用,這些技術可能會導致嚴重的問題。OpenAI 已經意識到這一點,並成立了一支專門的團隊,以確保 AI 技術的發展不會帶來災難性後果。 這支名為「Preparedness(備戰)」的團隊由麻省理工學院的可部署機器學習中心主
Thumbnail
包括用於行銷、播客、財務、搜尋引擎優化、新聞等的插件… 其中金融類插件7個,廣告類插件5個,教育類插件4個,本地生活類插件4個,新聞類插件4個,視訊類插件4個。其他類型9個
Thumbnail
OpenAI 正在與投資者洽談股份出售事宜,該交易將使其估值達 800 億至 900 億美元,大約是今年初的三倍。微軟擁有 49% Open AI的股權,微軟表示,Open AI年收入預計將達到 10 億美元,在 2024 年,將到數10億美元。
Thumbnail
這次的內容,我將分享在政大聽完 OpenAI 的執行長技術顧問(Technical Advisor to the CEO) Dr. Mohammad Bavarian 在台灣的第一場演講,透過 OpenAI 官方的視角,探討人工通用智慧(AGI)的關鍵技術和未來趨勢。
Thumbnail
人工智能(AI)是當今科技界最熱門的話題之一,它有著無限的潛力,也帶來了許多風險和問題。為了讓大家更深入地了解 AI 的現狀和未來,Keio 大學邀請了 OpenAI 的 CEO Sam Altman 來進行一場精彩的演講。
Thumbnail
區塊內幕 Cryptoinsiders消息- OpenAI 聯合創始人最近推出了一個名為「世界 ID」(World ID)的全球身份驗證項目,並隨之開放了軟體開發工具包(SDK)的等候名單。該項目旨在為用戶提供安全、可靠的身份驗證服務,滿足日益增長的數字化需求。 「世界 ID」項目簡介 「世界 ID
Thumbnail
在台灣,常常使用含糊不清且引人注目的方式以吸引眼球,這現象在 Wikipedia 的「台灣媒體亂象」一頁也有特別說明。 那麼,ChatGPT能否替代人類新聞標題寫手,並具有多強的能力呢?本文將深入探討。
Thumbnail
本文將介紹如何利用 Siri 與 iOS 捷徑,連接 OpenAI API,製作出一個可以語音對話的 ChatGPT。
Thumbnail
1.加權指數與櫃買指數 週五的加權指數在非農就業數據開出來後,雖稍微低於預期,但指數仍向上噴出,在美股開盤後於21500形成一個爆量假突破後急轉直下,就一路收至最低。 台股方面走勢需觀察週一在斷頭潮出現後,週二或週三開始有無買單進場支撐,在沒有明確的反轉訊號形成前,小夥伴盡量不要貿然抄底,或是追空
Thumbnail
近期的「貼文發佈流程 & 版型大更新」功能大家使用了嗎? 新版式整體視覺上「更加凸顯圖片」,為了搭配這次的更新,我們推出首次貼文策展 ❤️ 使用貼文功能並完成這次的指定任務,還有機會獲得富士即可拍,讓你的美好回憶都可以用即可拍珍藏!
Thumbnail
2024年2月16日,OpenAI開發的文字轉影片模型Sora正式揭曉。本文介紹了Sora與Apple Vision Pro AR/XR眼鏡的結合對教育、娛樂、設計、醫療、企業管理、數據視覺化、溝通和協作等領域帶來的革命性影響。
Thumbnail
OpenAI 周一(11/6)發佈了 GPT-4 Turbo 重大更新版,不只”能寫“,更已經 “能看圖“ ”能聽話” “能說話” ,所有人都能用人類的自然語言指揮 AI 並且創造自己專屬領域的 GPT --- AI 的未來已來!要瞭解自己的 "AIQ (AI商:AI Quotient)“ 是高是低
Thumbnail
AI 技術的崛起帶來了巨大的潛力,但我們也不能忽視其潛在的風險。如果不小心濫用,這些技術可能會導致嚴重的問題。OpenAI 已經意識到這一點,並成立了一支專門的團隊,以確保 AI 技術的發展不會帶來災難性後果。 這支名為「Preparedness(備戰)」的團隊由麻省理工學院的可部署機器學習中心主
Thumbnail
包括用於行銷、播客、財務、搜尋引擎優化、新聞等的插件… 其中金融類插件7個,廣告類插件5個,教育類插件4個,本地生活類插件4個,新聞類插件4個,視訊類插件4個。其他類型9個
Thumbnail
OpenAI 正在與投資者洽談股份出售事宜,該交易將使其估值達 800 億至 900 億美元,大約是今年初的三倍。微軟擁有 49% Open AI的股權,微軟表示,Open AI年收入預計將達到 10 億美元,在 2024 年,將到數10億美元。
Thumbnail
這次的內容,我將分享在政大聽完 OpenAI 的執行長技術顧問(Technical Advisor to the CEO) Dr. Mohammad Bavarian 在台灣的第一場演講,透過 OpenAI 官方的視角,探討人工通用智慧(AGI)的關鍵技術和未來趨勢。
Thumbnail
人工智能(AI)是當今科技界最熱門的話題之一,它有著無限的潛力,也帶來了許多風險和問題。為了讓大家更深入地了解 AI 的現狀和未來,Keio 大學邀請了 OpenAI 的 CEO Sam Altman 來進行一場精彩的演講。
Thumbnail
區塊內幕 Cryptoinsiders消息- OpenAI 聯合創始人最近推出了一個名為「世界 ID」(World ID)的全球身份驗證項目,並隨之開放了軟體開發工具包(SDK)的等候名單。該項目旨在為用戶提供安全、可靠的身份驗證服務,滿足日益增長的數字化需求。 「世界 ID」項目簡介 「世界 ID
Thumbnail
在台灣,常常使用含糊不清且引人注目的方式以吸引眼球,這現象在 Wikipedia 的「台灣媒體亂象」一頁也有特別說明。 那麼,ChatGPT能否替代人類新聞標題寫手,並具有多強的能力呢?本文將深入探討。
Thumbnail
本文將介紹如何利用 Siri 與 iOS 捷徑,連接 OpenAI API,製作出一個可以語音對話的 ChatGPT。