Sora 2 登場,被譽為「影片界的 GPT-3.5 時刻」:與 Veo 3、Kling、Runway 的對決

更新 發佈閱讀 8 分鐘

AI 影片生成領域的競爭,正以前所未有的速度升溫。過去,我們驚嘆於靜態圖片的生成,如今,高品質、具備物理真實感、甚至能同步生成聲音的動態影片,正走向我們的生活。2025 年 9 月 30 日,OpenAI 正式發表了其最新的影片生成模型 Sora 2,更被其內部譽為「影片界的 GPT-3.5 時刻」。另外 OpenAI Sora 2 的發布同時,也釋出一個類似 TikTok 的應用程式,直接挑戰了 Google 的 Veo 3、快手的 Kling,以及專業工具 Runway 的市場地位。

raw-image

Sora 2 is here

Sora 2 的核心目標

相較於 2024 年 2 月初代的 Sora 模型,這次的升級涵蓋了三個核心層面:物理準確性、原生音訊整合,以及全新的社群應用。

不只追求成功,更懂得模擬失敗:邁向真實物理模擬

過去的 AI 影片模型有個通病:為了滿足文字指令,它們會「作弊」。例如,你指令「籃球員投籃」,即使模型內部計算的路徑不會進,它也可能硬是讓球扭曲變形、瞬間移動到籃框裡。

Sora 2 最大的躍進之一,就是它更尊重物理法則。在同樣的投籃情境下,如果球沒進,Sora 2 會真實地模擬出球撞擊籃板後反彈的軌跡。OpenAI 指出,能夠準確模擬「失敗」,才是一個真正有用的世界模擬器的重要能力。同樣地,它能生成奧運體操選手的複雜動作,或是模擬物體在水中的浮力與剛性,這些都代表著其對真實世界動態的理解達到了新的高度。

畫面聲音神同步:原生音訊生成能力

影片的沉浸感,聲音是不可或缺的一環。過去的 AI 影片生成流程,通常是「先產出無聲影片,再手動配音配樂」。Sora 2 打破了這個限制,引入了原生的音訊生成能力。

這代表模型在生成畫面的同時,能夠一併創造出與視覺元素高度同步的聲音,包含人物對話、環境音效,以及配合物理互動的聲響(例如物體碰撞聲)。這項功能大幅簡化了創作流程,讓創作者可以一步到位,產出聲畫合一的完整作品。

人人都是電影主角:Sora App 與 Cameo 客串功能

本次發布的另一個最大亮點,或許不是模型本身,而是 OpenAI 同步推出的 iOS 社交應用程式「Sora」。這個 App 的介面與體驗類似 TikTok,使用者可以在上面創作、分享、甚至混搭彼此生成的影片。

其中最有趣的功能叫做「Cameo」(客串)。使用者只需要在 App 內錄製一段簡短的個人影音資料,Sora 2 就能將你的樣貌和聲音,高傳真地植入到任何 AI 生成的場景中。你可以讓自己出現在維京人的史詩戰役中,或是在外太空與朋友對話。這個功能不僅極具娛樂性,更透露出 OpenAI 的野心:他們不只想做一個工具,更想打造一個全新的社群平台,讓 AI 生成內容成為人們互動溝通的新媒介。

AI影片生成爭霸:誰是 AI 影片生成的王者?

Sora 2 的登場,讓原本就相當激烈的市場競爭進入白熱化階段。根據目前的功能比較與網路上的使用者回饋,可以描繪出這場競賽的即時戰況,以下介紹一些目前知名的AI影片生成模型:

OpenAI Sora 2:為「敘事」與「社群」而生

Sora 2 的最大優勢在於其強大的敘事能力與多鏡頭的連貫性。它能夠理解複雜的指令,維持場景與角色的狀態一致性,生成長達 60 秒的 4K 影片。搭配 Sora App 的「Cameo」功能,它的定位非常清晰:瞄準個人化、社群化、故事化的內容創作。然而,其初期僅限北美地區邀請制的策略,限制了它的普及速度,且目前尚未提供即時編輯功能。

Google Veo 3:當前用戶評價的資優生

儘管 Sora 2 來勢洶洶,但根據許多網路上的用戶回饋顯示,Google DeepMind 的 Veo 3 目前是綜合滿意度最高的模型。使用者普遍讚譽其極致的真實感、精準的指令遵循度、流暢的物理模擬以及同樣優秀的原生音訊整合。Veo 3 在生成高品質、可用於商業製作的短片上表現尤其出色,並且透過 Gemini API 與 YouTube Shorts 的整合,在生態系應用上佔有優勢。不過,其 API 價格相對較高,對初學者而言可能門檻稍高。

Kling 2.5 Turbo:長影片與病毒行銷的黑馬

由中國快手公司推出的 Kling,以其生成長達 2 分鐘以上的影片能力和極具吸引力的價格,在市場上也颳起一陣旋風。Kling 2.5 Turbo 版本在動態表現、運鏡轉場上非常流暢,特別適合製作節奏明快、容易在社群媒體上引發病毒式傳播的內容。儘管其物理真實感和細節處理(如手部動作)有些用戶反應偶有不一致,且音訊需要手動整合,但其高性價比和長影片的特性,使其成為許多內容創作者與行銷團隊的利器。

Runway Gen-4:專業創作者的後製首選

相較於前三者專注於「從零生成」,Runway ML 的 Gen-4 更像是專為專業影視工作者打造。它提供了強大的影片編輯工具,如物件移除、多視角控制、動態筆刷等,讓創作者能夠對現有或生成的影片進行精細的後製處理。雖然其單次生成的影片長度較短,但在角色一致性與後製可控性上表現最佳。

TM科技筆記的觀點

Sora 2、Veo 3 等模型最令人興奮的,並非僅是畫面的真實感,而是其對「物理世界」的模擬能力。當 Sora 2 能準確模擬出籃球沒投進後的反彈軌跡,或物體在水中的浮力時,它就不再只是一個動畫工具,而是在朝著「世界模擬器」的方向邁進。這項能力的最終應用,將直指下一個 AI 的重要領域:機器人。未來將可以在高度擬真的物理模擬器中進行數百萬次的訓練,學習如何在複雜環境中抓取物體、行走、或執行任務,而無需承擔在現實世界中測試的巨大成本與風險。

此外,OpenAI 這次最聰明的一步,或許並非單純提升模型能力,而是推出了 Sora App 這個社交平台。他們不希望 Sora 2 只是一個被動的工具,而是想主動建立一個圍繞著 AI 生成內容的社群,培養用戶習慣,掌握數據飛輪。Cameo 功能更是神來之筆,它抓住了人性中「渴望成為故事主角」的心理,未來開放給世界各地使用之後,想必極具社群擴散潛力。與此同時,這個功能也可能讓之前新聞常提及的「Deepfake」(深度偽造)議題降到了前所未有的低點。雖然 OpenAI 強調使用者可以完全控制自己的形象授權,並建立了審核機制,但在社群化的快速傳播下,如何防範惡意濫用、霸凌、或詐騙,將是極其嚴峻的挑戰。

另外關於運算硬體的部分, AI 影片的生成過程,顯然是吞噬 GPU 的「運算黑洞」,這些影片生成遠比文字或圖片生成更耗費資源。隨著後許 Sora App 和 Veo 3 整合進 YouTube 讓使用者數量呈指數級增長,相關資料中心將會承受巨大運算壓力。這場影片生成的競賽不僅加劇了 GPU 供應鏈的緊張,也將會逐漸推高雲端服務的成本,更對電力和水資源等基礎設施帶來嚴峻的考驗,相對地,GPU 供應商(如 NVIDIA)和資料中心相關產業的地位也將更加鞏固。


支持TN科技筆記,與科技共同前行

我是TN科技筆記,如果喜歡這篇文章,歡迎留言、點選愛心、轉發給我支持鼓勵~~~也歡迎每個月請我喝杯咖啡,鼓勵我撰寫更多科技文章,一起跟著科技浪潮前進!!>>>>> 請我喝一杯咖啡

在此也感謝每個月持續請我喝杯咖啡的讀者們,讓我更加有動力為各位帶來科技新知!

以下是我的 threads 也歡迎追蹤、回覆、轉發喔!

>>>>> TN科技筆記(TechNotes)

留言
avatar-img
留言分享你的想法!
avatar-img
TN科技筆記(TechNotes)的沙龍
58會員
191內容數
大家好,我是TN,喜歡分享科技領域相關資訊,希望各位不吝支持與交流!
2025/09/30
在人工智慧模型推陳出新的浪潮中,我們很容易對各種版本的更新感到麻木。然而,Anthropic 公司於 2025 年 9 月 30 日發布的 Claude 4.5 Sonnet,值得我們停下腳步探究。
Thumbnail
2025/09/30
在人工智慧模型推陳出新的浪潮中,我們很容易對各種版本的更新感到麻木。然而,Anthropic 公司於 2025 年 9 月 30 日發布的 Claude 4.5 Sonnet,值得我們停下腳步探究。
Thumbnail
2025/09/26
長期以來,我們對於能夠處理家務、協助工作的智慧機器人,總有著無限的想像。然而,一個機器人要能夠在我們混亂的廚房中準確地分類垃圾,或是在變動的倉儲環境裡重新整理貨物,它需要的遠不只是一雙「眼睛」和一雙「手」,更需要一顆能夠理解複雜指令、規劃多步驟任務、並適應環境變化的「大腦」。
Thumbnail
2025/09/26
長期以來,我們對於能夠處理家務、協助工作的智慧機器人,總有著無限的想像。然而,一個機器人要能夠在我們混亂的廚房中準確地分類垃圾,或是在變動的倉儲環境裡重新整理貨物,它需要的遠不只是一雙「眼睛」和一雙「手」,更需要一顆能夠理解複雜指令、規劃多步驟任務、並適應環境變化的「大腦」。
Thumbnail
2025/09/23
Elon Musk 的 xAI 在 2025 年 9 月 20 日推出的 Grok 4 Fast,一款經過高度優化、專注於速度與成本效益的模型,直接挑戰「高品質等於高成本」的規則。
Thumbnail
2025/09/23
Elon Musk 的 xAI 在 2025 年 9 月 20 日推出的 Grok 4 Fast,一款經過高度優化、專注於速度與成本效益的模型,直接挑戰「高品質等於高成本」的規則。
Thumbnail
看更多
你可能也想看
Thumbnail
Open AI影片生成模型Sora橫空出世 Sora是一個 AI 模型,可依據文字指令創建現實和富有想像的場景 這是Open AI首頁關於生成模型Sora的簡介 Open AI執行長將籌資數兆美元重塑全球半導體產業 全美娛樂產業接受訪談的300位主管,認為未來3年將有20萬個工作 受到AI
Thumbnail
Open AI影片生成模型Sora橫空出世 Sora是一個 AI 模型,可依據文字指令創建現實和富有想像的場景 這是Open AI首頁關於生成模型Sora的簡介 Open AI執行長將籌資數兆美元重塑全球半導體產業 全美娛樂產業接受訪談的300位主管,認為未來3年將有20萬個工作 受到AI
Thumbnail
Open AI Sora 及 網通 光通訊 概念股
Thumbnail
Open AI Sora 及 網通 光通訊 概念股
Thumbnail
2024 年 2 月,OpenAI 推出了 Sora 文字生成影片模型,該模型根據用戶輸入的文字描述生成逼真的影片,並且能夠控制影片的細節,例如人物、場景、動作、表情等。Sora 的出現無疑為影視創作領域帶來了革命性的變化。
Thumbnail
2024 年 2 月,OpenAI 推出了 Sora 文字生成影片模型,該模型根據用戶輸入的文字描述生成逼真的影片,並且能夠控制影片的細節,例如人物、場景、動作、表情等。Sora 的出現無疑為影視創作領域帶來了革命性的變化。
Thumbnail
如果AI能夠生成高質感的影片,對影視業不啻一場革命。 無需龐大設備和龐大後製團隊,只需要指令,幾分鐘即能輕鬆完成。 這對影視業來說無疑是一場革命。
Thumbnail
如果AI能夠生成高質感的影片,對影視業不啻一場革命。 無需龐大設備和龐大後製團隊,只需要指令,幾分鐘即能輕鬆完成。 這對影視業來說無疑是一場革命。
Thumbnail
股癌24.02.19 *OPEN AI鴨子划水,推出文字轉影片的AI模型Sora。 Sora對物體世界有認知,有望成為真正的世界模型,真正教會AI世界運作的道理,AI教會人類手指動作、玻璃碎掉、光影反射的物理狀況。 --之前的文字轉影片 背景會一直閃、因為模型還沒有算得很準。 *Sora相較
Thumbnail
股癌24.02.19 *OPEN AI鴨子划水,推出文字轉影片的AI模型Sora。 Sora對物體世界有認知,有望成為真正的世界模型,真正教會AI世界運作的道理,AI教會人類手指動作、玻璃碎掉、光影反射的物理狀況。 --之前的文字轉影片 背景會一直閃、因為模型還沒有算得很準。 *Sora相較
Thumbnail
幾天前OpenAI公司發表了全新的「AI生成影片」技術:透過一段簡短的「文字」敘述,讓AI生成一分鐘、1080P畫質的精美逼真影片。 礙於能力時間有限,我只能從使用ChatGPT、Bing這一年來獲得的大量經驗,閱讀研究大量AI相關資料整理的結論,分享AI生成圖片影片對「親密關係」可能帶來的衝擊。
Thumbnail
幾天前OpenAI公司發表了全新的「AI生成影片」技術:透過一段簡短的「文字」敘述,讓AI生成一分鐘、1080P畫質的精美逼真影片。 礙於能力時間有限,我只能從使用ChatGPT、Bing這一年來獲得的大量經驗,閱讀研究大量AI相關資料整理的結論,分享AI生成圖片影片對「親密關係」可能帶來的衝擊。
Thumbnail
2023年4月,紐約成立的Runway AI發佈了一段用AI生成的影音:畫面模糊、卡頓,物體扭曲,僅時長4秒;四個月後,Runway將文生成影音的效果推向4K超高清,實現鏡頭的連貫穩定,長度也從4秒提升至18秒——這是2023年文生成影音的「時長天花板」。
Thumbnail
2023年4月,紐約成立的Runway AI發佈了一段用AI生成的影音:畫面模糊、卡頓,物體扭曲,僅時長4秒;四個月後,Runway將文生成影音的效果推向4K超高清,實現鏡頭的連貫穩定,長度也從4秒提升至18秒——這是2023年文生成影音的「時長天花板」。
追蹤感興趣的內容從 Google News 追蹤更多 vocus 的最新精選內容追蹤 Google News