Meta SAM 3 與 SAM-3D 登場：AI 不只「看懂」世界，更能一鍵「重建」 3D 場景？

2025/11/24 更新2025/11/24 發佈閱讀 10 分鐘

Meta AI 近期同時發布了兩大更新：Segment Anything Model 3 (SAM 3) 以及全新的 SAM-3D 系列模型。 SAM 3 讓電腦不只認得像素，更能聽懂「人話」，透過文字指令就能精準找出並追蹤影像中的特定概念；而 SAM-3D 則實現了從一張普通 2D 照片中，生成精細 3D 模型的能力。

Meta AI 新佈局：SAM 3 與 SAM-3D 的三大重點

在深入技術細節之前，讓我們先快速掌握這次 Meta AI 發布的三大核心重點：

Segment Anything Model 3 (SAM 3)：這是原版 SAM 的全面進化。最大的亮點是加入了「文字」和「圖像範例」作為提示（Prompt），讓使用者可以用更自然的方式，命令 AI 分割出想要的物體，例如直接輸入「紅色的條紋雨傘」，模型就能找出圖片中所有符合描述的雨傘。它還整合了偵測、分割、追蹤三大功能於一身。
SAM-3D：這是一個全新的模型系列，旨在將 2D 圖像「升維」到 3D。它包含兩個子模型：SAM 3D Objects 能從單張照片重建場景與物體的 3D 模型；SAM 3D Body 則專精於從照片中精準估算人體的 3D 姿態與身形。
Segment Anything Playground：為了一次展示上述所有模型的強大能力，Meta 推出了這個線上實驗平台。任何人，無論是否具備程式背景，都可以上傳自己的照片或影片，親身體驗用 AI 編輯媒體、生成 3D 模型的樂趣。

深入核心：從「聽懂人話」到「一鍵 3D」的技術突破

SAM 3：當「萬物」不只可分割，更能用「語言」來指定

初代的 SAM 已經能做到對圖片中任何物體進行分割，但操作上仍需要使用者提供「視覺提示」，例如點擊、畫框或粗略的遮罩。雖然強大，但在許多應用場景下仍不夠直覺。

SAM 3 的核心突破，在於引入了「概念提示 (concept prompts)」的能力。這意味著模型不再只認識像素，更能理解語言與視覺之間的連結。你可以用一個簡單的名詞片語（noun phrase），如「一本書」、「穿藍色夾克的人」，甚至是提供一張範例圖片，SAM 3 就能在目標影像或影片中，找出所有符合這個概念的實例，並將它們完美地分割、追蹤出來。

這項看似簡單的改進，背後是巨大的工程挑戰。傳統模型通常只能辨識一個固定的標籤清單，對於清單之外的長尾概念，如「盤子上吃到一半的披薩」，就無能為力。SAM 3 透過一個創新的「資料引擎」克服了這個問題。這個引擎結合了 Llama 系列大型語言模型和人類標註員，以半自動化的方式，為超過 400 萬個獨特概念生成訓練資料。透過這個 AI 與人類協作的流程，資料標註的效率比純人工提升了數倍，也讓 SAM 3 學會了前所未有的開放詞彙（open-vocabulary）理解能力。

根據 Meta 發布的數據，在他們新建立的 SA-Co 基準測試中，SAM 3 的表現在圖片與影片上的綜合指標，是現有模型的兩倍以上，甚至在多項測試中超越了像 Gemini 2.5 Pro 的頂級多模態模型。

Introducing Meta Segment Anything Model 3 and Segment Anything Playground

SAM-3D：按下一鍵，讓 2D 照片長成立體模型

如果說 SAM 3 是在 2D 平面上追求極致的理解，那 SAM-3D 的目標就是突破維度的限制，從 2D 走向 3D 重建。長久以來，從單張圖片生成高擬真度的 3D 模型是電腦視覺領域的聖杯之一，其主要瓶頸在於「缺乏大規模、高品質的 3D 訓練資料」。

相較於網路上的圖文資料，附有精確 3D 模型的真實世界照片少之又少，且創作 3D 模型本身極度耗時耗力。Meta 這次的巧思在於，他們再次利用「資料引擎」來破解難題。他們發現，雖然要標註員從零開始「創造」一個 3D 模型很困難，但讓他們去「評價」或「排序」由 AI 生成的多個模型選項，則相對簡單得多。

這催生了一個強大的正向回饋循環：

AI 模型初步生成一批 3D 模型。
人類標註員對這些模型進行評分和篩選。
最困難的案例交由專業 3D 藝術家修正，填補 AI 的盲點。
用這些經過驗證和修正的高品質資料，回頭去訓練、優化 AI 模型。
更強的模型能生成更好的 3D 模型，讓人們能更有效地評價，如此循環。

透過這個流程，Meta 以前所未有的規模，標註了近 100 萬張真實世界圖片，產生了約 314 萬個模型。正是這個龐大的資料庫，讓 SAM-3D Objects 模型能夠在各種日常照片中，即使面對物體被遮擋、光線不佳或角度刁鑽的情況，也能穩健地重建出帶有紋理的 3D 物件。在人體重建方面，SAM-3D Body 則能精準估算人物的 3D 骨架與體型，甚至對於不尋常的姿勢也能準確處理。

Introducing SAM 3D: Powerful 3D Reconstruction for Physical World Images

Segment Anything Playground：人人都是 AI 視覺藝術家

再尖端的技術，如果無法被大眾輕易使用，其影響力終將有限。Meta 深知這一點，因此同步推出了 Segment Anything Playground。

這是一個網頁版的應用，集成了 SAM 3 和 SAM-3D 的核心能力。使用者可以上傳自己的圖片或影片，然後像使用修圖軟體一樣，直覺地進行各種操作。例如，你可以用文字框輸入「我的貓」，AI 就會自動框選出影片中所有貓咪出現的片段，接著你可以一鍵為牠加上動態光暈效果。或者，你上傳一張客廳的照片，點選其中的沙發，SAM-3D 就能立即為你生成一個可以旋轉、檢視的 3D 模型。

Segment Anything

從實驗室走向真實世界：SAM 3 與 3D 技術的潛在應用與影響

這些看似遙遠的技術，其實已經開始落地。Meta 宣布，SAM 3 和 SAM-3D 正在為 Facebook Marketplace 的新功能「View in Room」提供支援。使用者在購買傢俱前，可以透過手機相機，將商品的 3D 模型即時「放」在自己的房間裡，預覽大小和風格是否合適。這只是冰山一角，這項技術的潛力將滲透到眾多領域。

電商、社群與內容創作：除了虛擬試穿、試擺設，「View in Room」的體驗將成為電商標配。在社群媒體上，Instagram 的影片編輯也將導入 SAM 3，讓創作者可以輕鬆對影片中的特定人物或物體添加特效，大幅降低後製門檻。
AR/VR 與元宇宙：3D 重建是打造沉浸式虛擬世界的基礎。有了 SAM-3D，未來要將真實世界的人、事、物快速掃描並數位化到元宇宙中，將變得輕而易舉，可說是物理世界與虛擬世界之間的關鍵橋樑。
科學研究與工業應用：AI 的視覺理解能力正在成為科學探索的加速器。Meta 已經與保育組織合作，利用 SAM 3 建立了首個公開的野生動物監測影片資料集 SA-FARI，能自動辨識和追蹤超過 100 種物種，大大提升了生態研究的效率。在工業領域，這項技術可以應用於機器人，讓機械手臂能更精準地識別與抓取物件；或是在自動駕駛中，更細緻地理解複雜的道路場景。

TN科技筆記的觀點

這次 SAM 3 與 SAM-3D 最讓人印象深刻的，其實不是模型架構本身，而是其背後那套「AI-人類」協作的資料引擎。無論是 SAM 3 的概念標註，還是 SAM-3D 的模型評價，Meta 都找到了一種可規模化的方式來解決最根本的「資料瓶頸」。這再次印證了在基礎模型時代，擁有創造高品質、大規模獨佔資料的能力，才是最深的護城河。這是一個「更好的模型 -> 產出更好的資料 -> 訓練出更好的模型」的飛輪，一旦轉動起來，領先優勢會越來越大。

從「感知」到「重建」的野心，為實體 AI 鋪路：AI 的終極目標之一是能與物理世界互動，這就需要它不僅僅能「看見」（分類、偵測），更要能「理解」（分割、關係），甚至能「預測」與「重建」（3D 幾何、物理屬性）。SAM-3D 的出現，代表 Meta 正式將其 AI 能力從 2D 的感知層，延伸到 3D 的理解與重建層。這一步棋，不僅僅是為了元宇宙，更是為未來任何需要與現實世界互動的 AI 應用（如家用機器人、AR 智慧眼鏡）打下最關鍵的基礎。

從展示來看，SAM-3D 的重建結果令人驚豔，但官方也承認在細節解析度、多物件物理互動（如接觸、穿透）等方面仍有極限。從「看起來不錯」到「物理上完全精確」，中間還有很長的路要走。這種不完美的重建，是否會影響使用者體驗，尤其是在對精度要求極高的人體或工業零件重建上，仍有待觀察。

支持TN科技筆記，與科技共同前行

我是TN科技筆記，如果喜歡這篇文章，歡迎留言、點選愛心、轉發給我支持鼓勵～～～也歡迎每個月請我喝杯咖啡，鼓勵我撰寫更多科技文章，一起跟著科技浪潮前進！！>>>>> 請我喝一杯咖啡

在此也感謝每個月持續請我喝杯咖啡的讀者以及新加入的讀者們，讓我更加有動力為各位帶來科技新知！

以下是我的 threads 也歡迎追蹤、回覆、轉發喔！

>>>>> TN科技筆記(TechNotes)

TN科技筆記(TechNotes)的沙龍科技領域筆記

留言

留言分享你的想法！

TN科技筆記(TechNotes)的沙龍

57會員

184內容數

大家好，我是TN，喜歡分享科技領域相關資訊，希望各位不吝支持與交流！

TN科技筆記(TechNotes)的沙龍的其他內容

2025/11/19

Gemini 3 發布：不只是更強，Google 的 AI 野心是「讓任何想法成真」

Google 最新發布 Gemini 3 模型。本文將帶你了解其頂尖性能、核心的「AI 代理人」能力，以及為開發者打造的全新平台 Google Antigravity 將如何改變未來。

2025/11/19

Gemini 3 發布：不只是更強，Google 的 AI 野心是「讓任何想法成真」

Google 最新發布 Gemini 3 模型。本文將帶你了解其頂尖性能、核心的「AI 代理人」能力，以及為開發者打造的全新平台 Google Antigravity 將如何改變未來。

2025/11/17

Satya Nadella 專訪：微軟 AI 巨獸資料中心揭密，AGI 時代的藍圖與生存法則

微軟 CEO Satya Nadella 最新專訪，揭示 Fairwater 2 AI 資料中心的驚人規模，以及微軟在 AGI 時代的雲端策略、AI 商業模式轉型，與平衡資本支出和創新的完整藍圖。

2025/11/17

Satya Nadella 專訪：微軟 AI 巨獸資料中心揭密，AGI 時代的藍圖與生存法則

2025/11/15

GPT-5.1 更懂「聊天」、ChatGPT 新增「群聊」：OpenAI 對社交板塊的野心浮現了嗎？

OpenAI 近期連發兩大更新：語氣更人性化的 GPT-5.1 與 ChatGPT 群組聊天功能。這是否代表他們準備進軍社交領域？本文深度解析這些功能背後的真實戰略，並探討 AI 的下一步發展。

2025/11/15

GPT-5.1 更懂「聊天」、ChatGPT 新增「群聊」：OpenAI 對社交板塊的野心浮現了嗎？

#AI 的其他內容

NotebookLM 視覺敘事再升級：資訊圖表與簡報製作登場

普普文創

【踏青漫步】剪刀石山 258公尺

林位青的沙龍

Google Stitch：生成 UI 介面設計，加速產品原型開發與協作

你可能也想看

Life捧烹_王小姐的日常療癒所

氣味同步生活： Sunkronizo淡香精的知性魅力

臺灣獨立調香師品牌 Sunkronizo，Friday : Sexy Vibe 淡香精，揉合威士忌、菸草、皮革、蜂蜜與花香的多層次魅力，讓知性自信與內斂的從容態度，從視覺、嗅覺都充分表現。

#香氛#香水#香水評論

2025/11/25

Life捧烹_王小姐的日常療癒所

氣味同步生活： Sunkronizo淡香精的知性魅力

#香氛#香水#香水評論

2025/11/25

花神沒有咖啡館的沙龍

在VOD黃金時代打造「台流」——隨選串流服務與政策制度、消費行為和演算法的關係

使台劇得以突破過往印象中偶像劇、鄉土劇等範疇，產製更多類型，甚至紅到國外、帶動台灣觀光的最重要原因，便是「隨選串流平台」服務在近十年的蓬勃發展，台灣人愛看串流的程度或許比你我想像中都高，高到連美國電影協會（MPA），都委託Frontier Economics進行研究

#電影產業#全球在地化#串流平台

2025/11/24

花神沒有咖啡館的沙龍

在VOD黃金時代打造「台流」——隨選串流服務與政策制度、消費行為和演算法的關係

#電影產業#全球在地化#串流平台

2025/11/24

月刊龍貓大王通信

進入串流大戰第二階段！台灣影視作品如何透過全球VOD平台對外發聲？這是來自美國電影協會的觀察

本文探討串流平臺（VOD）如何徹底改變好萊塢和臺灣影視產業的生態。從美國電影協會（MPA）的數據報告，揭示串流服務在臺灣的驚人普及率與在地內容的消費趨勢。文章分析國際作品如何透過在地化元素開拓新市場。同時，作者也擔憂政府過度監管可能扼殺臺灣影視創新自由，以越南為鑑，呼籲以開放態度擁抱串流時代的新機遇

#電影產業#全球在地化#串流平台

2025/11/24