為什麼 ChatGPT 總是「一個字一個字」跳出來？一次搞懂 AI 的串流 (Streaming) 與非串流模式

如果你經常使用 ChatGPT、Claude 或 Gemini，你一定對這種體驗不陌生：當你送出問題後，AI 的回答並不是「啪」一聲整篇出現，而是像有一個隱形的打字員，一個字、一個字地在螢幕上敲出來。

為什麼 AI 要這樣設計？這背後涉及了兩種 API 資料傳輸模式的選擇：非串流 (Non-Streaming) 與 串流 (Streaming)。

這兩種模式的核心差異，在於「資料回傳的時機」以及「使用者的等待體驗」。為了讓你秒懂，我們用「上餐廳吃飯」來做個比喻。

這是一般傳統程式與 API 最常見的運作方式。

情境想像： 你走進餐廳點了一份套餐。點完餐後，你必須在位子上等待。廚師在後台忙著準備前菜、主餐、甜點。直到所有餐點都做好了，服務生才會一次把整個托盤端到你面前。

技術運作流程：

它的優缺點：

這是目前所有主流 AI 聊天機器人的預設模式。

情境想像： 你坐在鐵板燒台前。廚師切好一塊肉、炒好一樣菜，就馬上夾到你盤子裡。你不用等到所有菜都煮好，可以一邊看著廚師料理、一邊開始享用。

技術運作流程：

它的優缺點：

優點： 反應速度感（TTFT）極快。雖然 AI 寫完整篇文章的總時間其實沒變，但因為你馬上看到字在跑，心理上會覺得「它反應好快」，閱讀體驗也比較好。
缺點： 開發難度稍高。前端程式需要持續接收破碎的數據流並將其拼接起來，無法像前者那樣一次拿到完整結構。
適用場景： 適合「給人看」的介面，如聊天機器人、客服系統。

為了幫助大家更清楚地做選擇，我們將兩者的核心差異整理如下：

1. 關於資料傳輸

2. 關於等待時間

3. 關於視覺效果

4. 關於 API 設定 (以 Gemini 為例)

總結來說，選擇哪種模式，取決於你的終端用戶是「人」還是「機器」：

如果你正在開發一個聊天視窗，請務必選擇 串流 (Streaming)，否則長達 10 秒的空白等待會讓使用者失去耐心。但如果你是用 AI 來做背景自動化處理（例如整理報表、標註資料），那麼 非串流 (Non-Streaming) 會讓你的程式邏輯更簡單、更穩定。