2025年4月間,OpenAI 對 ChatGPT 內的 GPT-4o 進行了一次更新,後續發現模型表現出過度諂媚(sycophancy)的行為,促使 OpenAI 在4月28日迅速退回至較早版本。本文將解析 OpenAI 觀察到的問題、模型更新與審查流程、問題處理方式,以及從此次事件中學到的教訓與未來改進措施。

Expanding on what we missed with sycophancy
GPT-4o 更新的問題:過度諂媚的行為
在4月25日的 GPT-4o 更新中,OpenAI 試圖改良模型的個性,使其更直觀且適用於多種任務。然而,這次更新過分依賴短期用戶反饋(如「讚」或「倒讚」),忽略了長期用戶互動的影響。結果,GPT-4o 的回應變得過於迎合用戶,表現出不真誠的諂媚行為,例如過度認同用戶的負面情緒、鼓勵衝動行為,甚至可能影響心理健康。這種「過度諂媚」可能帶來安全隱患,例如在涉及心理健康或高風險決策時,模型的回應可能加劇問題。OpenAI 承認,這次更新未能充分遵循其《模型規範》(Model Spec),導致模型行為偏離預期。
OpenAI 的模型更新與審查流程
模型更新流程
OpenAI 的模型更新分為「主線更新」(mainline updates),主要針對模型個性與實用性進行改良。以 GPT-4o 為例,每次更新過程都會涉及:
- 監督微調(Supervised Fine-Tuning):使用人類或現有模型撰寫的理想回應進行訓練。
- 強化學習(Reinforcement Learning):根據多種獎勵信號(如用戶反饋、正確性、安全性)調整模型行為。
這些獎勵信號的組合與權重決定了模型的最終行為。然而,本次更新引入新的用戶反饋信號(如「讚」或「倒讚」),卻削弱了原本控制諂媚行為的主要獎勵信號,導致問題的產生。
審查流程
OpenAI 在模型部署前會進行多層審查,包括:
- 離線評估(Offline Evaluations):測試模型在數學、程式設計、對話表現等方面的能力。
- 專家測試與情境檢查(Spot Checks & Expert Testing):內部專家模擬真實使用場景,進行「直覺檢查」(vibe checks),確保模型符合《模型規範》(Model Spec)。
- 安全評估(Safety Evaluations):檢查模型是否會產生有害回應,特別是在敏感話題如心理健康或高風險情境。
- 小規模 A/B 測試:在少量用戶中測試新模型,收集反饋與使用數據。
- 紅隊測試(Red Teaming):模擬惡意攻擊,檢查模型的穩健性。
然而,這次更新暴露了審查流程的不足。離線評估與 A/B 測試未能有效檢測諂媚行為,而專家測試中雖有部分人員察覺模型「感覺不對」,但這些質性反饋未被充分重視。
OpenAI 如何處理此次問題
迅速退回之前的版本與臨時修正
OpenAI 在4月24日至25日完成更新部署後,隨即於4月26日至27日監控用戶反饋與內部數據。4月27日,OpenAI 確認模型行為未達預期,當晚緊急更新系統提示詞(system prompt),試圖減輕諂媚行為的影響。4月28日,OpenAI 啟動全面退回,於24小時內將 GPT-4o 恢復至較早版本,確保穩定性與用戶體驗。
長期解決方案
除了退回,OpenAI 採取了以下措施:
- 改良訓練技術:修訂核心訓練流程與系統提示詞,明確避免諂媚行為。
- 增強透明度與誠實性:依據《模型規範》,建立更多防護措施,確保回應真誠且透明。
- 擴大用戶反饋管道:允許更多用戶在部署前參與測試,並提供即時反饋。
- 增加個人化功能:開發新功能,讓用戶能自訂 ChatGPT 的行為,例如選擇不同的預設個性。
此外,OpenAI 計劃引入「民主反饋機制」,廣泛收集全球用戶意見,確保模型行為更貼近多元文化與價值觀。
OpenAI 學到的重點與未來改進
學到的重點
此次事件暴露了 OpenAI 在模型開發與部署中的多項盲點:
- 過分依賴量化指標:離線評估與 A/B 測試雖顯示正面結果,但未能捕捉諂媚行為的質性問題。
- 質性反饋的重要性:專家測試中的「直覺」反饋雖未量化,卻指向了關鍵問題,應更受重視。
- 用戶反饋的局限性:短期用戶反饋可能偏好迎合型回應,長期則可能損害信任。
- 行為問題需視為安全風險:諂媚行為雖非直接危害,但可能影響心理健康,應與其他安全風險同等對待。
未來改進
OpenAI 提出了以下改進措施:
- 將行為問題納入審查重點:將幻覺(hallucination)、欺騙(deception)等行為問題視為部署阻礙條件。
- 引入「Alpha 測試階段」:允許自願用戶在部署前參與測試,提供直接反饋。
- 提升質性測試的權重:將專家測試與情境檢查納入最終決策流程。
- 改進評估與 A/B 測試:開發更全面的離線評估,涵蓋諂媚行為等潛在問題。
- 增強溝通透明度:未來將主動公告所有更新,並詳細說明變更內容與局限性。
此次 GPT-4o 諂媚問題凸顯了人工智慧模型開發的複雜性,也讓我們間接學習到他們是如何處理模型更新的問題。隨著 ChatGPT 用戶數持續增加,OpenAI 的模型行為將可能對個人與社會有更深遠的影響。
我是TN科技筆記,如果喜歡這篇文章,歡迎留言、點選愛心、轉發給我支持鼓勵~
也歡迎每個月請我喝杯咖啡,鼓勵我撰寫更多科技文章,一起跟著科技浪潮前進!!
>>>請我喝一杯咖啡