Sora 2 登場,被譽為「影片界的 GPT-3.5 時刻」:與 Veo 3、Kling、Runway 的對決

更新 發佈閱讀 8 分鐘

AI 影片生成領域的競爭,正以前所未有的速度升溫。過去,我們驚嘆於靜態圖片的生成,如今,高品質、具備物理真實感、甚至能同步生成聲音的動態影片,正走向我們的生活。2025 年 9 月 30 日,OpenAI 正式發表了其最新的影片生成模型 Sora 2,更被其內部譽為「影片界的 GPT-3.5 時刻」。另外 OpenAI Sora 2 的發布同時,也釋出一個類似 TikTok 的應用程式,直接挑戰了 Google 的 Veo 3、快手的 Kling,以及專業工具 Runway 的市場地位。

raw-image

Sora 2 is here

Sora 2 的核心目標

相較於 2024 年 2 月初代的 Sora 模型,這次的升級涵蓋了三個核心層面:物理準確性、原生音訊整合,以及全新的社群應用。

不只追求成功,更懂得模擬失敗:邁向真實物理模擬

過去的 AI 影片模型有個通病:為了滿足文字指令,它們會「作弊」。例如,你指令「籃球員投籃」,即使模型內部計算的路徑不會進,它也可能硬是讓球扭曲變形、瞬間移動到籃框裡。

Sora 2 最大的躍進之一,就是它更尊重物理法則。在同樣的投籃情境下,如果球沒進,Sora 2 會真實地模擬出球撞擊籃板後反彈的軌跡。OpenAI 指出,能夠準確模擬「失敗」,才是一個真正有用的世界模擬器的重要能力。同樣地,它能生成奧運體操選手的複雜動作,或是模擬物體在水中的浮力與剛性,這些都代表著其對真實世界動態的理解達到了新的高度。

畫面聲音神同步:原生音訊生成能力

影片的沉浸感,聲音是不可或缺的一環。過去的 AI 影片生成流程,通常是「先產出無聲影片,再手動配音配樂」。Sora 2 打破了這個限制,引入了原生的音訊生成能力。

這代表模型在生成畫面的同時,能夠一併創造出與視覺元素高度同步的聲音,包含人物對話、環境音效,以及配合物理互動的聲響(例如物體碰撞聲)。這項功能大幅簡化了創作流程,讓創作者可以一步到位,產出聲畫合一的完整作品。

人人都是電影主角:Sora App 與 Cameo 客串功能

本次發布的另一個最大亮點,或許不是模型本身,而是 OpenAI 同步推出的 iOS 社交應用程式「Sora」。這個 App 的介面與體驗類似 TikTok,使用者可以在上面創作、分享、甚至混搭彼此生成的影片。

其中最有趣的功能叫做「Cameo」(客串)。使用者只需要在 App 內錄製一段簡短的個人影音資料,Sora 2 就能將你的樣貌和聲音,高傳真地植入到任何 AI 生成的場景中。你可以讓自己出現在維京人的史詩戰役中,或是在外太空與朋友對話。這個功能不僅極具娛樂性,更透露出 OpenAI 的野心:他們不只想做一個工具,更想打造一個全新的社群平台,讓 AI 生成內容成為人們互動溝通的新媒介。

AI影片生成爭霸:誰是 AI 影片生成的王者?

Sora 2 的登場,讓原本就相當激烈的市場競爭進入白熱化階段。根據目前的功能比較與網路上的使用者回饋,可以描繪出這場競賽的即時戰況,以下介紹一些目前知名的AI影片生成模型:

OpenAI Sora 2:為「敘事」與「社群」而生

Sora 2 的最大優勢在於其強大的敘事能力與多鏡頭的連貫性。它能夠理解複雜的指令,維持場景與角色的狀態一致性,生成長達 60 秒的 4K 影片。搭配 Sora App 的「Cameo」功能,它的定位非常清晰:瞄準個人化、社群化、故事化的內容創作。然而,其初期僅限北美地區邀請制的策略,限制了它的普及速度,且目前尚未提供即時編輯功能。

Google Veo 3:當前用戶評價的資優生

儘管 Sora 2 來勢洶洶,但根據許多網路上的用戶回饋顯示,Google DeepMind 的 Veo 3 目前是綜合滿意度最高的模型。使用者普遍讚譽其極致的真實感、精準的指令遵循度、流暢的物理模擬以及同樣優秀的原生音訊整合。Veo 3 在生成高品質、可用於商業製作的短片上表現尤其出色,並且透過 Gemini API 與 YouTube Shorts 的整合,在生態系應用上佔有優勢。不過,其 API 價格相對較高,對初學者而言可能門檻稍高。

Kling 2.5 Turbo:長影片與病毒行銷的黑馬

由中國快手公司推出的 Kling,以其生成長達 2 分鐘以上的影片能力和極具吸引力的價格,在市場上也颳起一陣旋風。Kling 2.5 Turbo 版本在動態表現、運鏡轉場上非常流暢,特別適合製作節奏明快、容易在社群媒體上引發病毒式傳播的內容。儘管其物理真實感和細節處理(如手部動作)有些用戶反應偶有不一致,且音訊需要手動整合,但其高性價比和長影片的特性,使其成為許多內容創作者與行銷團隊的利器。

Runway Gen-4:專業創作者的後製首選

相較於前三者專注於「從零生成」,Runway ML 的 Gen-4 更像是專為專業影視工作者打造。它提供了強大的影片編輯工具,如物件移除、多視角控制、動態筆刷等,讓創作者能夠對現有或生成的影片進行精細的後製處理。雖然其單次生成的影片長度較短,但在角色一致性與後製可控性上表現最佳。

TM科技筆記的觀點

Sora 2、Veo 3 等模型最令人興奮的,並非僅是畫面的真實感,而是其對「物理世界」的模擬能力。當 Sora 2 能準確模擬出籃球沒投進後的反彈軌跡,或物體在水中的浮力時,它就不再只是一個動畫工具,而是在朝著「世界模擬器」的方向邁進。這項能力的最終應用,將直指下一個 AI 的重要領域:機器人。未來將可以在高度擬真的物理模擬器中進行數百萬次的訓練,學習如何在複雜環境中抓取物體、行走、或執行任務,而無需承擔在現實世界中測試的巨大成本與風險。

此外,OpenAI 這次最聰明的一步,或許並非單純提升模型能力,而是推出了 Sora App 這個社交平台。他們不希望 Sora 2 只是一個被動的工具,而是想主動建立一個圍繞著 AI 生成內容的社群,培養用戶習慣,掌握數據飛輪。Cameo 功能更是神來之筆,它抓住了人性中「渴望成為故事主角」的心理,未來開放給世界各地使用之後,想必極具社群擴散潛力。與此同時,這個功能也可能讓之前新聞常提及的「Deepfake」(深度偽造)議題降到了前所未有的低點。雖然 OpenAI 強調使用者可以完全控制自己的形象授權,並建立了審核機制,但在社群化的快速傳播下,如何防範惡意濫用、霸凌、或詐騙,將是極其嚴峻的挑戰。

另外關於運算硬體的部分, AI 影片的生成過程,顯然是吞噬 GPU 的「運算黑洞」,這些影片生成遠比文字或圖片生成更耗費資源。隨著後許 Sora App 和 Veo 3 整合進 YouTube 讓使用者數量呈指數級增長,相關資料中心將會承受巨大運算壓力。這場影片生成的競賽不僅加劇了 GPU 供應鏈的緊張,也將會逐漸推高雲端服務的成本,更對電力和水資源等基礎設施帶來嚴峻的考驗,相對地,GPU 供應商(如 NVIDIA)和資料中心相關產業的地位也將更加鞏固。


支持TN科技筆記,與科技共同前行

我是TN科技筆記,如果喜歡這篇文章,歡迎留言、點選愛心、轉發給我支持鼓勵~~~也歡迎每個月請我喝杯咖啡,鼓勵我撰寫更多科技文章,一起跟著科技浪潮前進!!>>>>> 請我喝一杯咖啡

在此也感謝每個月持續請我喝杯咖啡的讀者們,讓我更加有動力為各位帶來科技新知!

以下是我的 threads 也歡迎追蹤、回覆、轉發喔!

>>>>> TN科技筆記(TechNotes)

留言
avatar-img
留言分享你的想法!
avatar-img
TN科技筆記(TechNotes)的沙龍
51會員
171內容數
大家好,我是TN,喜歡分享科技領域相關資訊,希望各位不吝支持與交流!
2025/09/30
在人工智慧模型推陳出新的浪潮中,我們很容易對各種版本的更新感到麻木。然而,Anthropic 公司於 2025 年 9 月 30 日發布的 Claude 4.5 Sonnet,值得我們停下腳步探究。
Thumbnail
2025/09/30
在人工智慧模型推陳出新的浪潮中,我們很容易對各種版本的更新感到麻木。然而,Anthropic 公司於 2025 年 9 月 30 日發布的 Claude 4.5 Sonnet,值得我們停下腳步探究。
Thumbnail
2025/09/26
長期以來,我們對於能夠處理家務、協助工作的智慧機器人,總有著無限的想像。然而,一個機器人要能夠在我們混亂的廚房中準確地分類垃圾,或是在變動的倉儲環境裡重新整理貨物,它需要的遠不只是一雙「眼睛」和一雙「手」,更需要一顆能夠理解複雜指令、規劃多步驟任務、並適應環境變化的「大腦」。
Thumbnail
2025/09/26
長期以來,我們對於能夠處理家務、協助工作的智慧機器人,總有著無限的想像。然而,一個機器人要能夠在我們混亂的廚房中準確地分類垃圾,或是在變動的倉儲環境裡重新整理貨物,它需要的遠不只是一雙「眼睛」和一雙「手」,更需要一顆能夠理解複雜指令、規劃多步驟任務、並適應環境變化的「大腦」。
Thumbnail
2025/09/23
Elon Musk 的 xAI 在 2025 年 9 月 20 日推出的 Grok 4 Fast,一款經過高度優化、專注於速度與成本效益的模型,直接挑戰「高品質等於高成本」的規則。
Thumbnail
2025/09/23
Elon Musk 的 xAI 在 2025 年 9 月 20 日推出的 Grok 4 Fast,一款經過高度優化、專注於速度與成本效益的模型,直接挑戰「高品質等於高成本」的規則。
Thumbnail
看更多
你可能也想看
Thumbnail
雙11於許多人而言,不只是單純的折扣狂歡,更是行事曆裡預定的,對美好生活的憧憬。 錢錢沒有不見,它變成了快樂,跟讓臥房、辦公桌、每天早晨的咖啡香升級的樣子! 這次格編突擊辦公室,也邀請 vocus「野格團」創作者分享掀開蝦皮購物車的簾幕,「加入購物車」的瞬間,藏著哪些靈感,或是對美好生活的想像?
Thumbnail
雙11於許多人而言,不只是單純的折扣狂歡,更是行事曆裡預定的,對美好生活的憧憬。 錢錢沒有不見,它變成了快樂,跟讓臥房、辦公桌、每天早晨的咖啡香升級的樣子! 這次格編突擊辦公室,也邀請 vocus「野格團」創作者分享掀開蝦皮購物車的簾幕,「加入購物車」的瞬間,藏著哪些靈感,或是對美好生活的想像?
Thumbnail
Open AI影片生成模型Sora橫空出世 Sora是一個 AI 模型,可依據文字指令創建現實和富有想像的場景 這是Open AI首頁關於生成模型Sora的簡介 Open AI執行長將籌資數兆美元重塑全球半導體產業 全美娛樂產業接受訪談的300位主管,認為未來3年將有20萬個工作 受到AI
Thumbnail
Open AI影片生成模型Sora橫空出世 Sora是一個 AI 模型,可依據文字指令創建現實和富有想像的場景 這是Open AI首頁關於生成模型Sora的簡介 Open AI執行長將籌資數兆美元重塑全球半導體產業 全美娛樂產業接受訪談的300位主管,認為未來3年將有20萬個工作 受到AI
Thumbnail
Open AI Sora 及 網通 光通訊 概念股
Thumbnail
Open AI Sora 及 網通 光通訊 概念股
Thumbnail
2024 年 2 月,OpenAI 推出了 Sora 文字生成影片模型,該模型根據用戶輸入的文字描述生成逼真的影片,並且能夠控制影片的細節,例如人物、場景、動作、表情等。Sora 的出現無疑為影視創作領域帶來了革命性的變化。
Thumbnail
2024 年 2 月,OpenAI 推出了 Sora 文字生成影片模型,該模型根據用戶輸入的文字描述生成逼真的影片,並且能夠控制影片的細節,例如人物、場景、動作、表情等。Sora 的出現無疑為影視創作領域帶來了革命性的變化。
Thumbnail
如果AI能夠生成高質感的影片,對影視業不啻一場革命。 無需龐大設備和龐大後製團隊,只需要指令,幾分鐘即能輕鬆完成。 這對影視業來說無疑是一場革命。
Thumbnail
如果AI能夠生成高質感的影片,對影視業不啻一場革命。 無需龐大設備和龐大後製團隊,只需要指令,幾分鐘即能輕鬆完成。 這對影視業來說無疑是一場革命。
Thumbnail
股癌24.02.19 *OPEN AI鴨子划水,推出文字轉影片的AI模型Sora。 Sora對物體世界有認知,有望成為真正的世界模型,真正教會AI世界運作的道理,AI教會人類手指動作、玻璃碎掉、光影反射的物理狀況。 --之前的文字轉影片 背景會一直閃、因為模型還沒有算得很準。 *Sora相較
Thumbnail
股癌24.02.19 *OPEN AI鴨子划水,推出文字轉影片的AI模型Sora。 Sora對物體世界有認知,有望成為真正的世界模型,真正教會AI世界運作的道理,AI教會人類手指動作、玻璃碎掉、光影反射的物理狀況。 --之前的文字轉影片 背景會一直閃、因為模型還沒有算得很準。 *Sora相較
Thumbnail
幾天前OpenAI公司發表了全新的「AI生成影片」技術:透過一段簡短的「文字」敘述,讓AI生成一分鐘、1080P畫質的精美逼真影片。 礙於能力時間有限,我只能從使用ChatGPT、Bing這一年來獲得的大量經驗,閱讀研究大量AI相關資料整理的結論,分享AI生成圖片影片對「親密關係」可能帶來的衝擊。
Thumbnail
幾天前OpenAI公司發表了全新的「AI生成影片」技術:透過一段簡短的「文字」敘述,讓AI生成一分鐘、1080P畫質的精美逼真影片。 礙於能力時間有限,我只能從使用ChatGPT、Bing這一年來獲得的大量經驗,閱讀研究大量AI相關資料整理的結論,分享AI生成圖片影片對「親密關係」可能帶來的衝擊。
追蹤感興趣的內容從 Google News 追蹤更多 vocus 的最新精選內容追蹤 Google News