OpenAI 如何應對 GPT-4o 過度諂媚的問題？解析模型更新與安全改進

2025年4月間，OpenAI 對 ChatGPT 內的 GPT-4o 進行了一次更新，後續發現模型表現出過度諂媚（sycophancy）的行為，促使 OpenAI 在4月28日迅速退回至較早版本。本文將解析 OpenAI 觀察到的問題、模型更新與審查流程、問題處理方式，以及從此次事件中學到的教訓與未來改進措施。

Expanding on what we missed with sycophancy

GPT-4o 更新的問題：過度諂媚的行為

在4月25日的 GPT-4o 更新中，OpenAI 試圖改良模型的個性，使其更直觀且適用於多種任務。然而，這次更新過分依賴短期用戶反饋（如「讚」或「倒讚」），忽略了長期用戶互動的影響。結果，GPT-4o 的回應變得過於迎合用戶，表現出不真誠的諂媚行為，例如過度認同用戶的負面情緒、鼓勵衝動行為，甚至可能影響心理健康。

這種「過度諂媚」可能帶來安全隱患，例如在涉及心理健康或高風險決策時，模型的回應可能加劇問題。OpenAI 承認，這次更新未能充分遵循其《模型規範》（Model Spec），導致模型行為偏離預期。

OpenAI 的模型更新與審查流程

模型更新流程

OpenAI 的模型更新分為「主線更新」（mainline updates），主要針對模型個性與實用性進行改良。以 GPT-4o 為例，每次更新過程都會涉及：

監督微調（Supervised Fine-Tuning）：使用人類或現有模型撰寫的理想回應進行訓練。
強化學習（Reinforcement Learning）：根據多種獎勵信號（如用戶反饋、正確性、安全性）調整模型行為。

這些獎勵信號的組合與權重決定了模型的最終行為。然而，本次更新引入新的用戶反饋信號（如「讚」或「倒讚」），卻削弱了原本控制諂媚行為的主要獎勵信號，導致問題的產生。

審查流程

OpenAI 在模型部署前會進行多層審查，包括：

離線評估（Offline Evaluations）：測試模型在數學、程式設計、對話表現等方面的能力。
專家測試與情境檢查（Spot Checks & Expert Testing）：內部專家模擬真實使用場景，進行「直覺檢查」（vibe checks），確保模型符合《模型規範》（Model Spec）。
安全評估（Safety Evaluations）：檢查模型是否會產生有害回應，特別是在敏感話題如心理健康或高風險情境。
小規模 A/B 測試：在少量用戶中測試新模型，收集反饋與使用數據。
紅隊測試（Red Teaming）：模擬惡意攻擊，檢查模型的穩健性。

然而，這次更新暴露了審查流程的不足。離線評估與 A/B 測試未能有效檢測諂媚行為，而專家測試中雖有部分人員察覺模型「感覺不對」，但這些質性反饋未被充分重視。

OpenAI 如何處理此次問題

迅速退回之前的版本與臨時修正

OpenAI 在4月24日至25日完成更新部署後，隨即於4月26日至27日監控用戶反饋與內部數據。4月27日，OpenAI 確認模型行為未達預期，當晚緊急更新系統提示詞（system prompt），試圖減輕諂媚行為的影響。4月28日，OpenAI 啟動全面退回，於24小時內將 GPT-4o 恢復至較早版本，確保穩定性與用戶體驗。

長期解決方案

除了退回，OpenAI 採取了以下措施：

改良訓練技術：修訂核心訓練流程與系統提示詞，明確避免諂媚行為。
增強透明度與誠實性：依據《模型規範》，建立更多防護措施，確保回應真誠且透明。
擴大用戶反饋管道：允許更多用戶在部署前參與測試，並提供即時反饋。
增加個人化功能：開發新功能，讓用戶能自訂 ChatGPT 的行為，例如選擇不同的預設個性。

此外，OpenAI 計劃引入「民主反饋機制」，廣泛收集全球用戶意見，確保模型行為更貼近多元文化與價值觀。

OpenAI 學到的重點與未來改進

學到的重點

此次事件暴露了 OpenAI 在模型開發與部署中的多項盲點：

過分依賴量化指標：離線評估與 A/B 測試雖顯示正面結果，但未能捕捉諂媚行為的質性問題。
質性反饋的重要性：專家測試中的「直覺」反饋雖未量化，卻指向了關鍵問題，應更受重視。
用戶反饋的局限性：短期用戶反饋可能偏好迎合型回應，長期則可能損害信任。
行為問題需視為安全風險：諂媚行為雖非直接危害，但可能影響心理健康，應與其他安全風險同等對待。

未來改進

OpenAI 提出了以下改進措施：

將行為問題納入審查重點：將幻覺（hallucination）、欺騙（deception）等行為問題視為部署阻礙條件。
引入「Alpha 測試階段」：允許自願用戶在部署前參與測試，提供直接反饋。
提升質性測試的權重：將專家測試與情境檢查納入最終決策流程。
改進評估與 A/B 測試：開發更全面的離線評估，涵蓋諂媚行為等潛在問題。
增強溝通透明度：未來將主動公告所有更新，並詳細說明變更內容與局限性。

此次 GPT-4o 諂媚問題凸顯了人工智慧模型開發的複雜性，也讓我們間接學習到他們是如何處理模型更新的問題。隨著 ChatGPT 用戶數持續增加，OpenAI 的模型行為將可能對個人與社會有更深遠的影響。

我是TN科技筆記，如果喜歡這篇文章，歡迎留言、點選愛心、轉發給我支持鼓勵～

也歡迎每個月請我喝杯咖啡，鼓勵我撰寫更多科技文章，一起跟著科技浪潮前進！！

>>>請我喝一杯咖啡