Meta AI 近期同時發布了兩大更新:Segment Anything Model 3 (SAM 3) 以及全新的 SAM-3D 系列模型。 SAM 3 讓電腦不只認得像素,更能聽懂「人話」,透過文字指令就能精準找出並追蹤影像中的特定概念;而 SAM-3D 則實現了從一張普通 2D 照片中,生成精細 3D 模型的能力。
Meta AI 新佈局:SAM 3 與 SAM-3D 的三大重點
在深入技術細節之前,讓我們先快速掌握這次 Meta AI 發布的三大核心重點:
- Segment Anything Model 3 (SAM 3):這是原版 SAM 的全面進化。最大的亮點是加入了「文字」和「圖像範例」作為提示(Prompt),讓使用者可以用更自然的方式,命令 AI 分割出想要的物體,例如直接輸入「紅色的條紋雨傘」,模型就能找出圖片中所有符合描述的雨傘。它還整合了偵測、分割、追蹤三大功能於一身。
- SAM-3D:這是一個全新的模型系列,旨在將 2D 圖像「升維」到 3D。它包含兩個子模型:SAM 3D Objects 能從單張照片重建場景與物體的 3D 模型;SAM 3D Body 則專精於從照片中精準估算人體的 3D 姿態與身形。
- Segment Anything Playground:為了一次展示上述所有模型的強大能力,Meta 推出了這個線上實驗平台。任何人,無論是否具備程式背景,都可以上傳自己的照片或影片,親身體驗用 AI 編輯媒體、生成 3D 模型的樂趣。
深入核心:從「聽懂人話」到「一鍵 3D」的技術突破
SAM 3:當「萬物」不只可分割,更能用「語言」來指定
初代的 SAM 已經能做到對圖片中任何物體進行分割,但操作上仍需要使用者提供「視覺提示」,例如點擊、畫框或粗略的遮罩。雖然強大,但在許多應用場景下仍不夠直覺。SAM 3 的核心突破,在於引入了「概念提示 (concept prompts)」的能力。 這意味著模型不再只認識像素,更能理解語言與視覺之間的連結。你可以用一個簡單的名詞片語(noun phrase),如「一本書」、「穿藍色夾克的人」,甚至是提供一張範例圖片,SAM 3 就能在目標影像或影片中,找出所有符合這個概念的實例,並將它們完美地分割、追蹤出來。
這項看似簡單的改進,背後是巨大的工程挑戰。傳統模型通常只能辨識一個固定的標籤清單,對於清單之外的長尾概念,如「盤子上吃到一半的披薩」,就無能為力。SAM 3 透過一個創新的「資料引擎」克服了這個問題。這個引擎結合了 Llama 系列大型語言模型和人類標註員,以半自動化的方式,為超過 400 萬個獨特概念生成訓練資料。 透過這個 AI 與人類協作的流程,資料標註的效率比純人工提升了數倍,也讓 SAM 3 學會了前所未有的開放詞彙(open-vocabulary)理解能力。
根據 Meta 發布的數據,在他們新建立的 SA-Co 基準測試中,SAM 3 的表現在圖片與影片上的綜合指標,是現有模型的兩倍以上,甚至在多項測試中超越了像 Gemini 2.5 Pro 的頂級多模態模型。

Introducing Meta Segment Anything Model 3 and Segment Anything Playground
SAM-3D:按下一鍵,讓 2D 照片長成立體模型
如果說 SAM 3 是在 2D 平面上追求極致的理解,那 SAM-3D 的目標就是突破維度的限制,從 2D 走向 3D 重建。長久以來,從單張圖片生成高擬真度的 3D 模型是電腦視覺領域的聖杯之一,其主要瓶頸在於「缺乏大規模、高品質的 3D 訓練資料」。
相較於網路上的圖文資料,附有精確 3D 模型的真實世界照片少之又少,且創作 3D 模型本身極度耗時耗力。Meta 這次的巧思在於,他們再次利用「資料引擎」來破解難題。他們發現,雖然要標註員從零開始「創造」一個 3D 模型很困難,但讓他們去「評價」或「排序」由 AI 生成的多個模型選項,則相對簡單得多。
這催生了一個強大的正向回饋循環:
- AI 模型初步生成一批 3D 模型。
- 人類標註員對這些模型進行評分和篩選。
- 最困難的案例交由專業 3D 藝術家修正,填補 AI 的盲點。
- 用這些經過驗證和修正的高品質資料,回頭去訓練、優化 AI 模型。
- 更強的模型能生成更好的 3D 模型,讓人們能更有效地評價,如此循環。
透過這個流程,Meta 以前所未有的規模,標註了近 100 萬張真實世界圖片,產生了約 314 萬個模型。 正是這個龐大的資料庫,讓 SAM-3D Objects 模型能夠在各種日常照片中,即使面對物體被遮擋、光線不佳或角度刁鑽的情況,也能穩健地重建出帶有紋理的 3D 物件。在人體重建方面,SAM-3D Body 則能精準估算人物的 3D 骨架與體型,甚至對於不尋常的姿勢也能準確處理。

Introducing SAM 3D: Powerful 3D Reconstruction for Physical World Images
Segment Anything Playground:人人都是 AI 視覺藝術家
再尖端的技術,如果無法被大眾輕易使用,其影響力終將有限。Meta 深知這一點,因此同步推出了 Segment Anything Playground。
這是一個網頁版的應用,集成了 SAM 3 和 SAM-3D 的核心能力。使用者可以上傳自己的圖片或影片,然後像使用修圖軟體一樣,直覺地進行各種操作。例如,你可以用文字框輸入「我的貓」,AI 就會自動框選出影片中所有貓咪出現的片段,接著你可以一鍵為牠加上動態光暈效果。或者,你上傳一張客廳的照片,點選其中的沙發,SAM-3D 就能立即為你生成一個可以旋轉、檢視的 3D 模型。

從實驗室走向真實世界:SAM 3 與 3D 技術的潛在應用與影響
這些看似遙遠的技術,其實已經開始落地。Meta 宣布,SAM 3 和 SAM-3D 正在為 Facebook Marketplace 的新功能「View in Room」提供支援。 使用者在購買傢俱前,可以透過手機相機,將商品的 3D 模型即時「放」在自己的房間裡,預覽大小和風格是否合適。這只是冰山一角,這項技術的潛力將滲透到眾多領域。
- 電商、社群與內容創作:除了虛擬試穿、試擺設,「View in Room」的體驗將成為電商標配。在社群媒體上,Instagram 的影片編輯也將導入 SAM 3,讓創作者可以輕鬆對影片中的特定人物或物體添加特效,大幅降低後製門檻。
- AR/VR 與元宇宙:3D 重建是打造沉浸式虛擬世界的基礎。有了 SAM-3D,未來要將真實世界的人、事、物快速掃描並數位化到元宇宙中,將變得輕而易舉,可說是物理世界與虛擬世界之間的關鍵橋樑。
- 科學研究與工業應用:AI 的視覺理解能力正在成為科學探索的加速器。Meta 已經與保育組織合作,利用 SAM 3 建立了首個公開的野生動物監測影片資料集 SA-FARI,能自動辨識和追蹤超過 100 種物種,大大提升了生態研究的效率。 在工業領域,這項技術可以應用於機器人,讓機械手臂能更精準地識別與抓取物件;或是在自動駕駛中,更細緻地理解複雜的道路場景。
TN科技筆記的觀點
這次 SAM 3 與 SAM-3D 最讓人印象深刻的,其實不是模型架構本身,而是其背後那套「AI-人類」協作的資料引擎。無論是 SAM 3 的概念標註,還是 SAM-3D 的模型評價,Meta 都找到了一種可規模化的方式來解決最根本的「資料瓶頸」。這再次印證了在基礎模型時代,擁有創造高品質、大規模獨佔資料的能力,才是最深的護城河。這是一個「更好的模型 -> 產出更好的資料 -> 訓練出更好的模型」的飛輪,一旦轉動起來,領先優勢會越來越大。
從「感知」到「重建」的野心,為實體 AI 鋪路:AI 的終極目標之一是能與物理世界互動,這就需要它不僅僅能「看見」(分類、偵測),更要能「理解」(分割、關係),甚至能「預測」與「重建」(3D 幾何、物理屬性)。SAM-3D 的出現,代表 Meta 正式將其 AI 能力從 2D 的感知層,延伸到 3D 的理解與重建層。這一步棋,不僅僅是為了元宇宙,更是為未來任何需要與現實世界互動的 AI 應用(如家用機器人、AR 智慧眼鏡)打下最關鍵的基礎。
從展示來看,SAM-3D 的重建結果令人驚豔,但官方也承認在細節解析度、多物件物理互動(如接觸、穿透)等方面仍有極限。 從「看起來不錯」到「物理上完全精確」,中間還有很長的路要走。這種不完美的重建,是否會影響使用者體驗,尤其是在對精度要求極高的人體或工業零件重建上,仍有待觀察。
支持TN科技筆記,與科技共同前行
我是TN科技筆記,如果喜歡這篇文章,歡迎留言、點選愛心、轉發給我支持鼓勵~~~也歡迎每個月請我喝杯咖啡,鼓勵我撰寫更多科技文章,一起跟著科技浪潮前進!!>>>>> 請我喝一杯咖啡
在此也感謝每個月持續請我喝杯咖啡的讀者以及新加入的讀者們,讓我更加有動力為各位帶來科技新知!
以下是我的 threads 也歡迎追蹤、回覆、轉發喔!
>>>>> TN科技筆記(TechNotes)



















