Meta SAM 3 與 SAM-3D 登場:AI 不只「看懂」世界,更能一鍵「重建」 3D 場景?

更新 發佈閱讀 10 分鐘

Meta AI 近期同時發布了兩大更新:Segment Anything Model 3 (SAM 3) 以及全新的 SAM-3D 系列模型。 SAM 3 讓電腦不只認得像素,更能聽懂「人話」,透過文字指令就能精準找出並追蹤影像中的特定概念;而 SAM-3D 則實現了從一張普通 2D 照片中,生成精細 3D 模型的能力。

Meta AI 新佈局:SAM 3 與 SAM-3D 的三大重點

在深入技術細節之前,讓我們先快速掌握這次 Meta AI 發布的三大核心重點:

  • Segment Anything Model 3 (SAM 3):這是原版 SAM 的全面進化。最大的亮點是加入了「文字」和「圖像範例」作為提示(Prompt),讓使用者可以用更自然的方式,命令 AI 分割出想要的物體,例如直接輸入「紅色的條紋雨傘」,模型就能找出圖片中所有符合描述的雨傘。它還整合了偵測、分割、追蹤三大功能於一身。
  • SAM-3D:這是一個全新的模型系列,旨在將 2D 圖像「升維」到 3D。它包含兩個子模型:SAM 3D Objects 能從單張照片重建場景與物體的 3D 模型;SAM 3D Body 則專精於從照片中精準估算人體的 3D 姿態與身形。
  • Segment Anything Playground:為了一次展示上述所有模型的強大能力,Meta 推出了這個線上實驗平台。任何人,無論是否具備程式背景,都可以上傳自己的照片或影片,親身體驗用 AI 編輯媒體、生成 3D 模型的樂趣。

深入核心:從「聽懂人話」到「一鍵 3D」的技術突破

SAM 3:當「萬物」不只可分割,更能用「語言」來指定

初代的 SAM 已經能做到對圖片中任何物體進行分割,但操作上仍需要使用者提供「視覺提示」,例如點擊、畫框或粗略的遮罩。雖然強大,但在許多應用場景下仍不夠直覺。

SAM 3 的核心突破,在於引入了「概念提示 (concept prompts)」的能力。 這意味著模型不再只認識像素,更能理解語言與視覺之間的連結。你可以用一個簡單的名詞片語(noun phrase),如「一本書」、「穿藍色夾克的人」,甚至是提供一張範例圖片,SAM 3 就能在目標影像或影片中,找出所有符合這個概念的實例,並將它們完美地分割、追蹤出來。

這項看似簡單的改進,背後是巨大的工程挑戰。傳統模型通常只能辨識一個固定的標籤清單,對於清單之外的長尾概念,如「盤子上吃到一半的披薩」,就無能為力。SAM 3 透過一個創新的「資料引擎」克服了這個問題。這個引擎結合了 Llama 系列大型語言模型和人類標註員,以半自動化的方式,為超過 400 萬個獨特概念生成訓練資料。 透過這個 AI 與人類協作的流程,資料標註的效率比純人工提升了數倍,也讓 SAM 3 學會了前所未有的開放詞彙(open-vocabulary)理解能力。

根據 Meta 發布的數據,在他們新建立的 SA-Co 基準測試中,SAM 3 的表現在圖片與影片上的綜合指標,是現有模型的兩倍以上,甚至在多項測試中超越了像 Gemini 2.5 Pro 的頂級多模態模型。

raw-image

Introducing Meta Segment Anything Model 3 and Segment Anything Playground

SAM-3D:按下一鍵,讓 2D 照片長成立體模型

如果說 SAM 3 是在 2D 平面上追求極致的理解,那 SAM-3D 的目標就是突破維度的限制,從 2D 走向 3D 重建。長久以來,從單張圖片生成高擬真度的 3D 模型是電腦視覺領域的聖杯之一,其主要瓶頸在於「缺乏大規模、高品質的 3D 訓練資料」。

相較於網路上的圖文資料,附有精確 3D 模型的真實世界照片少之又少,且創作 3D 模型本身極度耗時耗力。Meta 這次的巧思在於,他們再次利用「資料引擎」來破解難題。他們發現,雖然要標註員從零開始「創造」一個 3D 模型很困難,但讓他們去「評價」或「排序」由 AI 生成的多個模型選項,則相對簡單得多。

這催生了一個強大的正向回饋循環:

  1. AI 模型初步生成一批 3D 模型。
  2. 人類標註員對這些模型進行評分和篩選。
  3. 最困難的案例交由專業 3D 藝術家修正,填補 AI 的盲點。
  4. 用這些經過驗證和修正的高品質資料,回頭去訓練、優化 AI 模型。
  5. 更強的模型能生成更好的 3D 模型,讓人們能更有效地評價,如此循環。

透過這個流程,Meta 以前所未有的規模,標註了近 100 萬張真實世界圖片,產生了約 314 萬個模型。 正是這個龐大的資料庫,讓 SAM-3D Objects 模型能夠在各種日常照片中,即使面對物體被遮擋、光線不佳或角度刁鑽的情況,也能穩健地重建出帶有紋理的 3D 物件。在人體重建方面,SAM-3D Body 則能精準估算人物的 3D 骨架與體型,甚至對於不尋常的姿勢也能準確處理。

raw-image

Introducing SAM 3D: Powerful 3D Reconstruction for Physical World Images

Segment Anything Playground:人人都是 AI 視覺藝術家

再尖端的技術,如果無法被大眾輕易使用,其影響力終將有限。Meta 深知這一點,因此同步推出了 Segment Anything Playground。

這是一個網頁版的應用,集成了 SAM 3 和 SAM-3D 的核心能力。使用者可以上傳自己的圖片或影片,然後像使用修圖軟體一樣,直覺地進行各種操作。例如,你可以用文字框輸入「我的貓」,AI 就會自動框選出影片中所有貓咪出現的片段,接著你可以一鍵為牠加上動態光暈效果。或者,你上傳一張客廳的照片,點選其中的沙發,SAM-3D 就能立即為你生成一個可以旋轉、檢視的 3D 模型。

raw-image

Segment Anything

從實驗室走向真實世界:SAM 3 與 3D 技術的潛在應用與影響

這些看似遙遠的技術,其實已經開始落地。Meta 宣布,SAM 3 和 SAM-3D 正在為 Facebook Marketplace 的新功能「View in Room」提供支援。 使用者在購買傢俱前,可以透過手機相機,將商品的 3D 模型即時「放」在自己的房間裡,預覽大小和風格是否合適。這只是冰山一角,這項技術的潛力將滲透到眾多領域。

  • 電商、社群與內容創作:除了虛擬試穿、試擺設,「View in Room」的體驗將成為電商標配。在社群媒體上,Instagram 的影片編輯也將導入 SAM 3,讓創作者可以輕鬆對影片中的特定人物或物體添加特效,大幅降低後製門檻。
  • AR/VR 與元宇宙:3D 重建是打造沉浸式虛擬世界的基礎。有了 SAM-3D,未來要將真實世界的人、事、物快速掃描並數位化到元宇宙中,將變得輕而易舉,可說是物理世界與虛擬世界之間的關鍵橋樑。
  • 科學研究與工業應用:AI 的視覺理解能力正在成為科學探索的加速器。Meta 已經與保育組織合作,利用 SAM 3 建立了首個公開的野生動物監測影片資料集 SA-FARI,能自動辨識和追蹤超過 100 種物種,大大提升了生態研究的效率。 在工業領域,這項技術可以應用於機器人,讓機械手臂能更精準地識別與抓取物件;或是在自動駕駛中,更細緻地理解複雜的道路場景。

TN科技筆記的觀點

這次 SAM 3 與 SAM-3D 最讓人印象深刻的,其實不是模型架構本身,而是其背後那套「AI-人類」協作的資料引擎。無論是 SAM 3 的概念標註,還是 SAM-3D 的模型評價,Meta 都找到了一種可規模化的方式來解決最根本的「資料瓶頸」。這再次印證了在基礎模型時代,擁有創造高品質、大規模獨佔資料的能力,才是最深的護城河。這是一個「更好的模型 -> 產出更好的資料 -> 訓練出更好的模型」的飛輪,一旦轉動起來,領先優勢會越來越大。

從「感知」到「重建」的野心,為實體 AI 鋪路:AI 的終極目標之一是能與物理世界互動,這就需要它不僅僅能「看見」(分類、偵測),更要能「理解」(分割、關係),甚至能「預測」與「重建」(3D 幾何、物理屬性)。SAM-3D 的出現,代表 Meta 正式將其 AI 能力從 2D 的感知層,延伸到 3D 的理解與重建層。這一步棋,不僅僅是為了元宇宙,更是為未來任何需要與現實世界互動的 AI 應用(如家用機器人、AR 智慧眼鏡)打下最關鍵的基礎。

從展示來看,SAM-3D 的重建結果令人驚豔,但官方也承認在細節解析度、多物件物理互動(如接觸、穿透)等方面仍有極限。 從「看起來不錯」到「物理上完全精確」,中間還有很長的路要走。這種不完美的重建,是否會影響使用者體驗,尤其是在對精度要求極高的人體或工業零件重建上,仍有待觀察。


支持TN科技筆記,與科技共同前行

我是TN科技筆記,如果喜歡這篇文章,歡迎留言、點選愛心、轉發給我支持鼓勵~~~也歡迎每個月請我喝杯咖啡,鼓勵我撰寫更多科技文章,一起跟著科技浪潮前進!!>>>>> 請我喝一杯咖啡

在此也感謝每個月持續請我喝杯咖啡的讀者以及新加入的讀者們,讓我更加有動力為各位帶來科技新知!

以下是我的 threads 也歡迎追蹤、回覆、轉發喔!

>>>>> TN科技筆記(TechNotes)


留言
avatar-img
留言分享你的想法!
avatar-img
TN科技筆記(TechNotes)的沙龍
57會員
184內容數
大家好,我是TN,喜歡分享科技領域相關資訊,希望各位不吝支持與交流!
2025/11/19
Google 最新發布 Gemini 3 模型。本文將帶你了解其頂尖性能、核心的「AI 代理人」能力,以及為開發者打造的全新平台 Google Antigravity 將如何改變未來。
Thumbnail
2025/11/19
Google 最新發布 Gemini 3 模型。本文將帶你了解其頂尖性能、核心的「AI 代理人」能力,以及為開發者打造的全新平台 Google Antigravity 將如何改變未來。
Thumbnail
2025/11/17
微軟 CEO Satya Nadella 最新專訪,揭示 Fairwater 2 AI 資料中心的驚人規模,以及微軟在 AGI 時代的雲端策略、AI 商業模式轉型,與平衡資本支出和創新的完整藍圖。
2025/11/17
微軟 CEO Satya Nadella 最新專訪,揭示 Fairwater 2 AI 資料中心的驚人規模,以及微軟在 AGI 時代的雲端策略、AI 商業模式轉型,與平衡資本支出和創新的完整藍圖。
2025/11/15
OpenAI 近期連發兩大更新:語氣更人性化的 GPT-5.1 與 ChatGPT 群組聊天功能。這是否代表他們準備進軍社交領域?本文深度解析這些功能背後的真實戰略,並探討 AI 的下一步發展。
Thumbnail
2025/11/15
OpenAI 近期連發兩大更新:語氣更人性化的 GPT-5.1 與 ChatGPT 群組聊天功能。這是否代表他們準備進軍社交領域?本文深度解析這些功能背後的真實戰略,並探討 AI 的下一步發展。
Thumbnail
看更多
你可能也想看
Thumbnail
臺灣獨立調香師品牌 Sunkronizo,Friday : Sexy Vibe 淡香精,揉合威士忌、菸草、皮革、蜂蜜與花香的多層次魅力,讓知性自信與內斂的從容態度,從視覺、嗅覺都充分表現。
Thumbnail
臺灣獨立調香師品牌 Sunkronizo,Friday : Sexy Vibe 淡香精,揉合威士忌、菸草、皮革、蜂蜜與花香的多層次魅力,讓知性自信與內斂的從容態度,從視覺、嗅覺都充分表現。
Thumbnail
使台劇得以突破過往印象中偶像劇、鄉土劇等範疇,產製更多類型,甚至紅到國外、帶動台灣觀光的最重要原因,便是「隨選串流平台」服務在近十年的蓬勃發展,台灣人愛看串流的程度或許比你我想像中都高,高到連美國電影協會(MPA),都委託Frontier Economics進行研究
Thumbnail
使台劇得以突破過往印象中偶像劇、鄉土劇等範疇,產製更多類型,甚至紅到國外、帶動台灣觀光的最重要原因,便是「隨選串流平台」服務在近十年的蓬勃發展,台灣人愛看串流的程度或許比你我想像中都高,高到連美國電影協會(MPA),都委託Frontier Economics進行研究
Thumbnail
本文探討串流平臺(VOD)如何徹底改變好萊塢和臺灣影視產業的生態。從美國電影協會(MPA)的數據報告,揭示串流服務在臺灣的驚人普及率與在地內容的消費趨勢。文章分析國際作品如何透過在地化元素開拓新市場。同時,作者也擔憂政府過度監管可能扼殺臺灣影視創新自由,以越南為鑑,呼籲以開放態度擁抱串流時代的新機遇
Thumbnail
本文探討串流平臺(VOD)如何徹底改變好萊塢和臺灣影視產業的生態。從美國電影協會(MPA)的數據報告,揭示串流服務在臺灣的驚人普及率與在地內容的消費趨勢。文章分析國際作品如何透過在地化元素開拓新市場。同時,作者也擔憂政府過度監管可能扼殺臺灣影視創新自由,以越南為鑑,呼籲以開放態度擁抱串流時代的新機遇
Thumbnail
大家好,我是小編六爺,週一早上叫醒你的,是夢想還是帳單呢? 但你可知道:現在選在AI賽道上創業的,很可能某天忽然把你「砸」醒的,是天外飛來好幾億美金的支票? 我們來看看這則新聞 「Meta 擬斥數十億美元投資一家主導 AI 數據市場的新創公司」
Thumbnail
大家好,我是小編六爺,週一早上叫醒你的,是夢想還是帳單呢? 但你可知道:現在選在AI賽道上創業的,很可能某天忽然把你「砸」醒的,是天外飛來好幾億美金的支票? 我們來看看這則新聞 「Meta 擬斥數十億美元投資一家主導 AI 數據市場的新創公司」
Thumbnail
1. 業務項目 Innodata Inc.(納斯達克:INOD)是一家總部位於美國新澤西州Ridgefield Park的全球數據工程公司,成立於1988年,擁有超過5,000名員工,業務遍及美國、英國、荷蘭、加拿大、印度、菲律賓等地。公司專注於提供數據處理、技術和諮詢服務,幫助客戶創建、管理和分
Thumbnail
1. 業務項目 Innodata Inc.(納斯達克:INOD)是一家總部位於美國新澤西州Ridgefield Park的全球數據工程公司,成立於1988年,擁有超過5,000名員工,業務遍及美國、英國、荷蘭、加拿大、印度、菲律賓等地。公司專注於提供數據處理、技術和諮詢服務,幫助客戶創建、管理和分
Thumbnail
本文探討美國政府與企業在資訊產業,尤其開源軟體領域的法律責任。分析「免費」背後的商業策略,及其對全球市場和消費者權益的影響,並以藥品、汽車等產業案例對比,強調資訊產業須承擔法律責任,建立健康、公平的數位生態系統。
Thumbnail
本文探討美國政府與企業在資訊產業,尤其開源軟體領域的法律責任。分析「免費」背後的商業策略,及其對全球市場和消費者權益的影響,並以藥品、汽車等產業案例對比,強調資訊產業須承擔法律責任,建立健康、公平的數位生態系統。
Thumbnail
本篇文章探討百度在AI領域的核心戰略,包括閉源大模型的採用、AI as a Service的市場潛力以及智能體的廣泛應用。對於AI商業化,百度創辦人李彥宏強調應用的深度與效用才是關鍵。此外,百度如何在面對全球AI價格戰中,選擇不同的發展路徑和商業模式,將對未來的市場發展具有重要影響。
Thumbnail
本篇文章探討百度在AI領域的核心戰略,包括閉源大模型的採用、AI as a Service的市場潛力以及智能體的廣泛應用。對於AI商業化,百度創辦人李彥宏強調應用的深度與效用才是關鍵。此外,百度如何在面對全球AI價格戰中,選擇不同的發展路徑和商業模式,將對未來的市場發展具有重要影響。
追蹤感興趣的內容從 Google News 追蹤更多 vocus 的最新精選內容追蹤 Google News