🤖百度 ERNIE 多模態新模型真的超車 GPT?一次看懂 3B 輕量 MoE 的亮點與爭議!

更新 發佈閱讀 8 分鐘
raw-image

嗨我是 Mech Muse 👋

今天想跟大家聊聊一則在 AI 圈超級熱、討論度很高的新聞:百度推出新一代 ERNIE 多模態模型,官方還直接喊出「在多項評測超車 GPT 和 Gemini」

身為每天都在觀察 AI 新聞的你,可能也會好奇:

到底是真的比較強?還是只是行銷話術? 這個模型跟以前的 ERNIE 有什麼不同? 企業在意的又是哪些功能?

這篇文章我會用四個部分,帶你從背景、時間線、延伸分析到重點總結,一次看懂這款 ERNIE-4.5-VL-28B-A3B-Thinking 的定位與意義。

讀完你會對「多模態模型到底在比什麼」、「MoE 為什麼最近這麼紅」、以及「這是不是 GPT / Gemini 的真正競爭者」更加有判斷力。


百度 ERNIE 新模型到底強在哪?背景與亮點一次整理 🔍

這次外媒(AI News)報導的主角,其實名字有點長:

ERNIE-4.5-VL-28B-A3B-Thinking

聽起來有點複雜,但關鍵資訊整理給你👇

🧩 1. 這是一款 Vision-Language(圖像+文字)的多模態模型

「VL」代表它不是一般純文字 LLM,而是能看圖、看文件、看影片、理解圖表的模型。

🧩 2. 28B 總參數、但實際推理只用 3B(MoE 架構)

這裡的重點在於:它是 Mixture-of-Experts(MoE) 模型。

👉 總參數 28B

👉 但每次推論只會啟用 3B 專家網路

好處是:

  • 效能接近中大型模型
  • 推論成本卻像 3B 小模型
  • 很適合企業在自家 GPU 上部署(尤其是 80GB 類型)

🧩 3. 最大賣點是「Thinking with Images」🖼️🧠

和一般的多模態模型不同,ERNIE 這次強調能做到:

  • 自動放大圖片細節
  • 自己決定該看哪一區
  • 圖像定位(grounding)更強
  • 圖表與文件理解能力明顯提升

簡單說,它不是只看圖,而是會「檢查細節」。

🧩 4. 百度表示:在多個 benchmark 上比 GPT-4.1 / Gemini 1.5 Pro 更高

這也是為什麼會被外媒拿來大寫特寫👇

  • 📊 MathVista(圖文推理)
  • 📈 ChartQA(圖表理解)
  • 👁️ VLMs Are Blind(多模態盲點測試)

在這幾個以圖像推理為主的 benchmark 中,新 ERNIE 的成績確實略高於 GPT 與 Gemini。

但先提醒:

這些多半來自「官方測試報告」,第三方大規模驗證還沒有跟上。

🧩 5. 全模型開源、Apache 2.0,可商用

這點對企業很重要:

可以自行部署、離線環境使用、或調整特定行業版本。


這次 ERNIE 升級怎麼走到這裡?完整時間線帶你看 ⏳

為了避免大家只看到「超車 GPT」四個字,我把整個 ERNIE 的發展路徑整理成時間線:

🕒 2019–2022:ERNIE 系列的打底階段

  • 百度從 ERNIE(知識強化的語言模型)一路往前推
  • 2023 推出 ERNIE Bot(文心一言),開始正式跑向對話式生成

🕒 2024:ERNIE 4.0 與中國大模型競爭全面開打

這個時期百度與阿里、DeepSeek、字節等正式形成本地第一波 AI 百家爭鳴。

多模態還在準備,但能感受到百度在往「企業級 AI」方向轉。

🕒 2025 年 6 月:ERNIE 4.5 全家族公開

重要轉捩點!

百度推出 4.5 系列(含文字 + 多模態),特色包括:

  • MoE 架構
  • 多模態共同訓練
  • Thinking 模式
  • 最小 0.3B ~ 最大 424B 的超完整產品線

🕒 2025 年 11 月 11 日:這次主角正式開源

ERNIE-4.5-VL-28B-A3B-Thinking 登場:

  • 3B active 的 MoE 設計
  • 加強圖像深度推理
  • 支援工具調用(如圖片搜尋)
  • 在企業視覺資料庫、技術文件、影片理解等任務亮眼

🕒 2025 年 11 月 12 日:外媒開始大量報導

AI News、VentureBeat 都開始以「beats GPT / Gemini in benchmarks」的方式報導。

雖然語氣稍微偏「話題化」,但確實讓全球開源圈開始注意這個模型。

外媒的共同觀察是:

百度這次不是單純追 GPT,而是選擇一個「文件、圖表、影片」的企業級場景,用更有效率的 MoE 方案切入。


大家為什麼都在討論「多模態 + Thinking 模式」?延伸分析來了 📘

這裡挑幾個大家最問的問題,幫你補充一點背景。

🧠 1. 多模態是不是「一定比較強」?

不一定。

多模態的技術難度比我們想像的高:

  • 圖片格式驚人地多
  • 標註成本高
  • 推論的 GPU 需求大

所以真正的挑戰是:

如何在看圖、看影片的能力提升的同時,不讓成本爆炸。

百度選擇的是 MoE 路線,效果看起來確實不錯:

  • 20B+ 的效果
  • 3B 的推論成本
  • 80GB GPU 就能跑

這對「想自己部署 AI」的企業來說,非常剛好。

🔍 2. 「Thinking with Images」在哪裡不同?

過去的多模態模型會一次把整張圖壓成固定大小處理,細節通常會流失。

ERNIE 這次可以:

  • 自己選擇畫面重點區域
  • 自動放大細節
  • 加上 grounding 技術來標框位置
  • 看不懂的地方還會呼叫工具搜尋

這真的比較像「人類在看照片」而不是「模型把圖片當 token」。

🧾 3. 為什麼企業會被「超車 GPT / Gemini」吸引?

因為企業懶得看技術細節台詞,他們只看三件事:

1️⃣ 在 benchmark 上有優勢(代表技術亮點)

2️⃣ 開源 + Apache 2.0(可內部部署)

3️⃣ 推論成本真的比較省

所以「在特定任務超車 GPT」這種說法,對企業決策者來說比想像中有用很多。

📈 4. 這代表什麼市場趨勢?

挺明顯的:

  • 多模態正在加速普及
  • 文件、圖表、影片等「企業資料庫中的內容」,開始變成訓練方向
  • MoE + 小啟用參數(active parameters)會變成下一輪亮點
  • 封閉(GPT/Gemini) vs 開源(ERNIE、Qwen、DeepSeek)的競爭會更明顯

越來越多公司會發現:

不一定要用最強的模型,只要能跟自己的資料搭配得好,就是最佳解。


總結:ERNIE 這次真的「超車」嗎?我的看法是這樣 🚦

如果把今天的內容濃縮成最重要的幾點,我會這樣講:

⭐ 1. 在特定多模態評測確實很強

尤其是圖表理解、視覺推理,以及「細節要求高」的任務。

⭐ 2. MoE + 3B active 是這次真正聰明的點

推論便宜、開源友善、企業能直接部署。

⭐ 3. 但「全面超車 GPT / Gemini」還言之過早

多模態領域很大、任務差異很大、企業需求更複雜。

仍需要更多第三方實測。

⭐ 4. 真正值得注意的是定位

它不是要在創作、寫作、一般聊天上跟 GPT 打架,而是直接切進「企業視覺工作流」這個價值極高的領域。

這一步其實打得很漂亮。


如果你喜歡,也歡迎追蹤我 Mech Muse ✨

我會持續整理全球最新的 AI、機器人、量子、SMR 能源等技術趨勢,

讓你每天都能更快掌握科技發展、不被資訊洪流淹沒。

我們下篇見!👋

留言
avatar-img
Mech muse 智慧新知
55會員
830內容數
因為喜歡分享科技新知,所以創立這個部落格,目前主要分享人型機器人,偶爾分享一些AI、小型核能的最新趨勢,讓你即時掌握最新消息。 聯絡我:mechmuse32@gmail.com
Mech muse 智慧新知的其他內容
2025/11/13
這篇文章帶你認識前 Twitter CEO Parag Agrawal 創辦的 Parallel,了解它為什麼能拿下 1 億美元、估值直衝 7.4 億美元。你會看到 AI agent 為何需要「新的網路」、Parallel 正在解決哪些痛點,以及這件事對企業、內容網站與未來 AI 生態的真正影響。
Thumbnail
2025/11/13
這篇文章帶你認識前 Twitter CEO Parag Agrawal 創辦的 Parallel,了解它為什麼能拿下 1 億美元、估值直衝 7.4 億美元。你會看到 AI agent 為何需要「新的網路」、Parallel 正在解決哪些痛點,以及這件事對企業、內容網站與未來 AI 生態的真正影響。
Thumbnail
2025/11/13
這篇文章會帶你快速掌握 OpenAI 最新推出的 GPT-5.1:它比 GPT-5 更聰明、更好聊,指令遵從度提升,並加入全新的語氣與個性設定。你會了解 Instant / Thinking 兩個模型的差異、Auto 模式怎麼幫你自動選擇。
Thumbnail
2025/11/13
這篇文章會帶你快速掌握 OpenAI 最新推出的 GPT-5.1:它比 GPT-5 更聰明、更好聊,指令遵從度提升,並加入全新的語氣與個性設定。你會了解 Instant / Thinking 兩個模型的差異、Auto 模式怎麼幫你自動選擇。
Thumbnail
2025/11/13
這篇文章帶你快速了解 鴻海為何押注 AI 伺服器、營收結構如何從 iPhone 轉向 AI、以及 Foxconn × OpenAI 有哪些可能的合作方向。透過背景拆解、時間線整理與產業脈絡分析,你能看懂鴻海在全球 AI 基建浪潮中的定位與機會,掌握 2026 之前最關鍵的發展趨勢。
Thumbnail
2025/11/13
這篇文章帶你快速了解 鴻海為何押注 AI 伺服器、營收結構如何從 iPhone 轉向 AI、以及 Foxconn × OpenAI 有哪些可能的合作方向。透過背景拆解、時間線整理與產業脈絡分析,你能看懂鴻海在全球 AI 基建浪潮中的定位與機會,掌握 2026 之前最關鍵的發展趨勢。
Thumbnail
看更多