
嗨我是 Mech Muse 👋
今天想跟大家聊聊一則在 AI 圈超級熱、討論度很高的新聞:百度推出新一代 ERNIE 多模態模型,官方還直接喊出「在多項評測超車 GPT 和 Gemini」。
身為每天都在觀察 AI 新聞的你,可能也會好奇:到底是真的比較強?還是只是行銷話術? 這個模型跟以前的 ERNIE 有什麼不同? 企業在意的又是哪些功能?
這篇文章我會用四個部分,帶你從背景、時間線、延伸分析到重點總結,一次看懂這款 ERNIE-4.5-VL-28B-A3B-Thinking 的定位與意義。
讀完你會對「多模態模型到底在比什麼」、「MoE 為什麼最近這麼紅」、以及「這是不是 GPT / Gemini 的真正競爭者」更加有判斷力。
百度 ERNIE 新模型到底強在哪?背景與亮點一次整理 🔍
這次外媒(AI News)報導的主角,其實名字有點長:
ERNIE-4.5-VL-28B-A3B-Thinking
聽起來有點複雜,但關鍵資訊整理給你👇
🧩 1. 這是一款 Vision-Language(圖像+文字)的多模態模型
「VL」代表它不是一般純文字 LLM,而是能看圖、看文件、看影片、理解圖表的模型。
🧩 2. 28B 總參數、但實際推理只用 3B(MoE 架構)
這裡的重點在於:它是 Mixture-of-Experts(MoE) 模型。
👉 總參數 28B
👉 但每次推論只會啟用 3B 專家網路
好處是:
- 效能接近中大型模型
- 推論成本卻像 3B 小模型
- 很適合企業在自家 GPU 上部署(尤其是 80GB 類型)
🧩 3. 最大賣點是「Thinking with Images」🖼️🧠
和一般的多模態模型不同,ERNIE 這次強調能做到:
- 自動放大圖片細節
- 自己決定該看哪一區
- 圖像定位(grounding)更強
- 圖表與文件理解能力明顯提升
簡單說,它不是只看圖,而是會「檢查細節」。
🧩 4. 百度表示:在多個 benchmark 上比 GPT-4.1 / Gemini 1.5 Pro 更高
這也是為什麼會被外媒拿來大寫特寫👇
- 📊 MathVista(圖文推理)
- 📈 ChartQA(圖表理解)
- 👁️ VLMs Are Blind(多模態盲點測試)
在這幾個以圖像推理為主的 benchmark 中,新 ERNIE 的成績確實略高於 GPT 與 Gemini。
但先提醒:
這些多半來自「官方測試報告」,第三方大規模驗證還沒有跟上。
🧩 5. 全模型開源、Apache 2.0,可商用
這點對企業很重要:
可以自行部署、離線環境使用、或調整特定行業版本。
這次 ERNIE 升級怎麼走到這裡?完整時間線帶你看 ⏳
為了避免大家只看到「超車 GPT」四個字,我把整個 ERNIE 的發展路徑整理成時間線:
🕒 2019–2022:ERNIE 系列的打底階段
- 百度從 ERNIE(知識強化的語言模型)一路往前推
- 2023 推出 ERNIE Bot(文心一言),開始正式跑向對話式生成
🕒 2024:ERNIE 4.0 與中國大模型競爭全面開打
這個時期百度與阿里、DeepSeek、字節等正式形成本地第一波 AI 百家爭鳴。
多模態還在準備,但能感受到百度在往「企業級 AI」方向轉。
🕒 2025 年 6 月:ERNIE 4.5 全家族公開
重要轉捩點!
百度推出 4.5 系列(含文字 + 多模態),特色包括:
- MoE 架構
- 多模態共同訓練
- Thinking 模式
- 最小 0.3B ~ 最大 424B 的超完整產品線
🕒 2025 年 11 月 11 日:這次主角正式開源
ERNIE-4.5-VL-28B-A3B-Thinking 登場:
- 3B active 的 MoE 設計
- 加強圖像深度推理
- 支援工具調用(如圖片搜尋)
- 在企業視覺資料庫、技術文件、影片理解等任務亮眼
🕒 2025 年 11 月 12 日:外媒開始大量報導
AI News、VentureBeat 都開始以「beats GPT / Gemini in benchmarks」的方式報導。
雖然語氣稍微偏「話題化」,但確實讓全球開源圈開始注意這個模型。
外媒的共同觀察是:
百度這次不是單純追 GPT,而是選擇一個「文件、圖表、影片」的企業級場景,用更有效率的 MoE 方案切入。
大家為什麼都在討論「多模態 + Thinking 模式」?延伸分析來了 📘
這裡挑幾個大家最問的問題,幫你補充一點背景。
🧠 1. 多模態是不是「一定比較強」?
不一定。
多模態的技術難度比我們想像的高:
- 圖片格式驚人地多
- 標註成本高
- 推論的 GPU 需求大
所以真正的挑戰是:
如何在看圖、看影片的能力提升的同時,不讓成本爆炸。
百度選擇的是 MoE 路線,效果看起來確實不錯:
- 20B+ 的效果
- 3B 的推論成本
- 80GB GPU 就能跑
這對「想自己部署 AI」的企業來說,非常剛好。
🔍 2. 「Thinking with Images」在哪裡不同?
過去的多模態模型會一次把整張圖壓成固定大小處理,細節通常會流失。
ERNIE 這次可以:
- 自己選擇畫面重點區域
- 自動放大細節
- 加上 grounding 技術來標框位置
- 看不懂的地方還會呼叫工具搜尋
這真的比較像「人類在看照片」而不是「模型把圖片當 token」。
🧾 3. 為什麼企業會被「超車 GPT / Gemini」吸引?
因為企業懶得看技術細節台詞,他們只看三件事:
1️⃣ 在 benchmark 上有優勢(代表技術亮點)
2️⃣ 開源 + Apache 2.0(可內部部署)
3️⃣ 推論成本真的比較省
所以「在特定任務超車 GPT」這種說法,對企業決策者來說比想像中有用很多。
📈 4. 這代表什麼市場趨勢?
挺明顯的:
- 多模態正在加速普及
- 文件、圖表、影片等「企業資料庫中的內容」,開始變成訓練方向
- MoE + 小啟用參數(active parameters)會變成下一輪亮點
- 封閉(GPT/Gemini) vs 開源(ERNIE、Qwen、DeepSeek)的競爭會更明顯
越來越多公司會發現:
不一定要用最強的模型,只要能跟自己的資料搭配得好,就是最佳解。
總結:ERNIE 這次真的「超車」嗎?我的看法是這樣 🚦
如果把今天的內容濃縮成最重要的幾點,我會這樣講:
⭐ 1. 在特定多模態評測確實很強
尤其是圖表理解、視覺推理,以及「細節要求高」的任務。
⭐ 2. MoE + 3B active 是這次真正聰明的點
推論便宜、開源友善、企業能直接部署。
⭐ 3. 但「全面超車 GPT / Gemini」還言之過早
多模態領域很大、任務差異很大、企業需求更複雜。
仍需要更多第三方實測。
⭐ 4. 真正值得注意的是定位
它不是要在創作、寫作、一般聊天上跟 GPT 打架,而是直接切進「企業視覺工作流」這個價值極高的領域。
這一步其實打得很漂亮。
如果你喜歡,也歡迎追蹤我 Mech Muse ✨
我會持續整理全球最新的 AI、機器人、量子、SMR 能源等技術趨勢,
讓你每天都能更快掌握科技發展、不被資訊洪流淹沒。
我們下篇見!👋






