
長期以來,AI 算力與 NVIDIA 的 CUDA 核心劃上等號。但是有越來越多的開發者開始擁抱 Mac 用不同以往的電腦來使用 AI 部署,例如最近的 Clawdbot(結合在地工作流的 AI),這是怎麼回事?
Apple Silicon 的出現,確實為 RISC(Reduced Instruction Set Computer)開闢了一條「非 CUDA」的第二條路,Apple 不僅堅持了優雅的外觀,更是為 ARM 陣營創造了一套完全不同的「AI 哲學」。
這篇沒有要介紹 Clawdbot,就是單純的讓各位知道除了 NVIDIA,你還有其他選擇。單一算力 vs 異構計算
在 PC 上跑 AI 時,CPU 基本上只是個「搬運工」或「領班」,它負責把指令發給顯卡,真正的粗活(矩陣運算)全都壓在 GPU 的 CUDA Cores 身上,這等於把所有的 AI 加速邏輯都封裝在顯卡裡。如果電腦的顯卡不夠強大,或者顯存(VRAM)爆了,整台電腦的 AI 性能就會斷崖式下跌,CPU 幫不上什麼忙。而且運算的資料需要在系統記憶體(RAM)與顯存(VRAM)之間頻繁搬運,可能還會造成「匯流排瓶頸」。
而且頻繁的在 RAM 與 VRAM 之間搬資料結果就是產生更多的能耗,電腦和顯卡就要配置更大的散熱裝置、更多的風扇噪音。
你可以想像 CUDA 的核心就是單一算力(專精的做運算),它更適合拿來做提供算力的伺服器,而不是個人電腦。

而 Apple Silicon 的架構更像是一個「特種部隊小組」,它不依賴單一英雄,而是讓不同性質的核心協同工作:
- GPU(Metal):處理需要高度並行的大型運算(如模型訓練或大規模推理)。
- ANE(Neural Engine):這是一個專門為了「跑神經網路」而設計的硬體,它處理任務的效率極高且功耗極低。
- CPU(AMX):Apple 在 CPU 核心旁內建了矩陣運算單元(AMX, Apple Matrix Coprocessor),讓 CPU 也能直接處理一些 AI 數學題,不需要什麼都丟給 GPU。
當你使用 Mac 跑 AI 時(例如透過 MLX 框架),系統會根據任務的特性,動態地在這些核心之間分配負擔,不但電腦不太容易發熱,通常 MacBook Air 沒風扇也能跑。
新型態的統一記憶體架構
Apple Silicon 的統一記憶體架構(Unified Memory Architecture, UMA)是現代版 Mac 最核心的競爭力,也是它能跟 NVIDIA 硬碰硬的關鍵。
UMA 打破了傳統電腦中「記憶體(RAM)」與「顯示記憶體(VRAM)」之間的那道牆……

在傳統電腦中,如果你要跑一個 AI 模型,CPU 必須先從硬碟把模型讀到 RAM,再透過 PCIe 匯流排「複製」一份到顯卡的 VRAM 裡。Apple Silicon 的統一記憶體架構則是把CPU、GPU 和 Neural Engine 放在同一個桌子上,大家共享同一碗飯(同一塊記憶體)。資料讀進來後,大家都看得到,完全不需要複製。(大幅降低延遲,減少功耗,並節省了寶貴的傳輸時間)
統一記憶體架構的優勢
目前的消費級顯卡(如 RTX 4090)顯示記憶體頂多 24GB。如果你想跑一個需要 40GB 空間的大型語言模型(LLM),24GB 的顯卡會直接「爆顯存」,導致運行極慢或乾脆報錯。
但如果你買了一台 128GB 記憶體的 Mac Studio,你可以把其中約 90GB~100GB 全部撥給 GPU 使用。這意味著你可以在筆電或小型桌機上跑動原本需要數張 NVIDIA 顯卡才能運行的超大模型。

UMA 和傳統獨立顯卡,我自己覺得用大型戰機和小型無人機群來比擬也很適合。
UMA 是動態的。當你沒在跑 AI 模型時,這些記憶體可以全給 CPU 用來開 500 個 Chrome 分頁;當你要跑 AI 時,它又能瞬間變身為強大的顯存。這種彈性是傳統 PC 固定的顯存配置無法比擬的。
統一記憶體架構的缺點
統一記憶體讓 Mac 成了 AI 領域的『越級挑戰者』,用較小的體積跑出了工作站級的模型;但這份便利的代價,是你必須在踏入 Apple 店門口時,就先對未來幾年的需求做出昂貴的決斷。
雖然 UMA 很強,但天下沒有白吃的午餐,這也是最被最多人詬病的一點。因為記憶體是封裝在 SoC 晶片上的,Apple 掌握了絕對的定價權。在 PC 上加 32GB RAM 可能只要幾千元台幣;但在 Apple 官網,從 16GB 升級到 32GB 的價格往往足以讓你再買一台普通的筆電。

如果你買 Mac Studio 且攻頂記憶體,要再多加 14 萬台幣。(用買車的價格在買電腦 😂)
一旦你買了 16GB 的版本,這輩子它就是 16GB。你不能像 PC 一樣,過兩年覺得記憶體不夠了,再買兩條插上去。這強迫用戶在購買初期就必須為了「未來需求」支付高額溢價。
而且雖然大家都共享記憶體很方便,但如果 CPU、GPU 和 Neural Engine 同時都要大量存取資料,它們會互相競爭頻寬。雖然 Apple 的頻寬非常高(如 M3 Max 可達 400GB/s),但在極端高負載下,共享頻寬的效率仍可能低於 NVIDIA 頂級顯卡專屬的高速顯存頻寬(如 RTX 4090 可達 1TB/s 以上)。
如果你的 AI 模型佔用了 90% 的記憶體,剩下的 10% 可能會讓你的 macOS 系統變得很卡,因為連系統運作所需的基礎空間都被壓縮了。而在 PC 上,即使顯示記憶體塞爆了,系統 RAM 通常還是獨立運作的。
話又說回來,4090 的頻寬雖然快,但它是「獨立顯示記憶體」與「系統記憶體」分開的;Mac 的 400GB/s 是全域共享,兩者完全不同的思維。(看你的用途)
軟體生態逐漸完整
過去 AI 模型都是為 CUDA 寫的,但現在局勢已經不再是 CUDA 一面倒的趨勢。Apple 專為 Apple Silicon 推出的開源機器學習框架(MLX),它在 Mac 上的表現往往優於通用的 PyTorch,且完全支援統一記憶體。
PyTorch 現在已經原生支持 MPS(Metal Performance Shaders),讓開發者可以直接用 Mac 的 GPU 來加速,不再需要 CUDA。MPS 支援了:影像處理(Image Processing)、矩陣運算(Matrices)、射線追蹤(Ray Tracing)、神經網路(CNN、RNN)。
在 PC 的世界,開發者通常使用 NVIDIA 的 cuDNN(CUDA Deep Neural Network library)來加速 AI。而在 Mac 上,MPS 就是對標 cuDNN 的存在。

該選哪台 Mac 玩 AI
其實 Mac 在入門電腦上確實比一般的 PC 貴上不少,但是鋁合金的機身讓電腦的散熱能力大增是不爭的事實,UMA 也讓電腦不再因為搬資料而產生高溫,所以比較起桌面級的電腦我更傾向買筆電來跑(除非你要買 Mac Studio 把記憶體插滿)。
筆電的話我會非常推薦(最少 16GB RAM 以上):
- 入門玩家(7B 模型):M2/M3 MacBook Air(16GB RAM 以上)
- 進階開發(14B - 30B 模型):M3 Pro / M4(36GB RAM 以上)。
- AI 狂熱者(70B 模型以上):M3/M4 Max(至少 64GB - 128GB RAM)或攻頂直接買 Mac Studio。
假如你想測看看自己手邊的電腦夠不夠力,我可以推薦你去下載 Upscayl 這個 Mac App,然後隨便找一個模型挑一張圖(1920*1080),把它放大到 4-8 倍,看看你的電腦會需要多久……基本上如果超過 3 分鐘,我覺得你電腦就可以換了。

對了!這邊講的都是 Apple Silicon(M 系列的 CPU),Intel 機種就不要想了,會讓你慢到懷疑人生的……




















