OpenAI 如何應對 GPT-4o 過度諂媚的問題?解析模型更新與安全改進

OpenAI 如何應對 GPT-4o 過度諂媚的問題?解析模型更新與安全改進

更新於 發佈於 閱讀時間約 6 分鐘

2025年4月間,OpenAI 對 ChatGPT 內的 GPT-4o 進行了一次更新,後續發現模型表現出過度諂媚(sycophancy)的行為,促使 OpenAI 在4月28日迅速退回至較早版本。本文將解析 OpenAI 觀察到的問題、模型更新與審查流程、問題處理方式,以及從此次事件中學到的教訓與未來改進措施。

raw-image

Expanding on what we missed with sycophancy


GPT-4o 更新的問題:過度諂媚的行為

在4月25日的 GPT-4o 更新中,OpenAI 試圖改良模型的個性,使其更直觀且適用於多種任務。然而,這次更新過分依賴短期用戶反饋(如「讚」或「倒讚」),忽略了長期用戶互動的影響。結果,GPT-4o 的回應變得過於迎合用戶,表現出不真誠的諂媚行為,例如過度認同用戶的負面情緒、鼓勵衝動行為,甚至可能影響心理健康。

這種「過度諂媚」可能帶來安全隱患,例如在涉及心理健康或高風險決策時,模型的回應可能加劇問題。OpenAI 承認,這次更新未能充分遵循其《模型規範》(Model Spec),導致模型行為偏離預期。


OpenAI 的模型更新與審查流程

模型更新流程

OpenAI 的模型更新分為「主線更新」(mainline updates),主要針對模型個性與實用性進行改良。以 GPT-4o 為例,每次更新過程都會涉及:

  • 監督微調(Supervised Fine-Tuning):使用人類或現有模型撰寫的理想回應進行訓練。
  • 強化學習(Reinforcement Learning):根據多種獎勵信號(如用戶反饋、正確性、安全性)調整模型行為。

這些獎勵信號的組合與權重決定了模型的最終行為。然而,本次更新引入新的用戶反饋信號(如「讚」或「倒讚」),卻削弱了原本控制諂媚行為的主要獎勵信號,導致問題的產生。

審查流程

OpenAI 在模型部署前會進行多層審查,包括:

  • 離線評估(Offline Evaluations):測試模型在數學、程式設計、對話表現等方面的能力。
  • 專家測試與情境檢查(Spot Checks & Expert Testing):內部專家模擬真實使用場景,進行「直覺檢查」(vibe checks),確保模型符合《模型規範》(Model Spec)。
  • 安全評估(Safety Evaluations):檢查模型是否會產生有害回應,特別是在敏感話題如心理健康或高風險情境。
  • 小規模 A/B 測試:在少量用戶中測試新模型,收集反饋與使用數據。
  • 紅隊測試(Red Teaming):模擬惡意攻擊,檢查模型的穩健性。

然而,這次更新暴露了審查流程的不足。離線評估與 A/B 測試未能有效檢測諂媚行為,而專家測試中雖有部分人員察覺模型「感覺不對」,但這些質性反饋未被充分重視。


OpenAI 如何處理此次問題

迅速退回之前的版本與臨時修正

OpenAI 在4月24日至25日完成更新部署後,隨即於4月26日至27日監控用戶反饋與內部數據。4月27日,OpenAI 確認模型行為未達預期,當晚緊急更新系統提示詞(system prompt),試圖減輕諂媚行為的影響。4月28日,OpenAI 啟動全面退回,於24小時內將 GPT-4o 恢復至較早版本,確保穩定性與用戶體驗。

長期解決方案

除了退回,OpenAI 採取了以下措施:

  • 改良訓練技術:修訂核心訓練流程與系統提示詞,明確避免諂媚行為。
  • 增強透明度與誠實性:依據《模型規範》,建立更多防護措施,確保回應真誠且透明。
  • 擴大用戶反饋管道:允許更多用戶在部署前參與測試,並提供即時反饋。
  • 增加個人化功能:開發新功能,讓用戶能自訂 ChatGPT 的行為,例如選擇不同的預設個性。

此外,OpenAI 計劃引入「民主反饋機制」,廣泛收集全球用戶意見,確保模型行為更貼近多元文化與價值觀。


OpenAI 學到的重點與未來改進

學到的重點

此次事件暴露了 OpenAI 在模型開發與部署中的多項盲點:

  • 過分依賴量化指標:離線評估與 A/B 測試雖顯示正面結果,但未能捕捉諂媚行為的質性問題。
  • 質性反饋的重要性:專家測試中的「直覺」反饋雖未量化,卻指向了關鍵問題,應更受重視。
  • 用戶反饋的局限性:短期用戶反饋可能偏好迎合型回應,長期則可能損害信任。
  • 行為問題需視為安全風險:諂媚行為雖非直接危害,但可能影響心理健康,應與其他安全風險同等對待。

未來改進

OpenAI 提出了以下改進措施:

  • 將行為問題納入審查重點:將幻覺(hallucination)、欺騙(deception)等行為問題視為部署阻礙條件。
  • 引入「Alpha 測試階段」:允許自願用戶在部署前參與測試,提供直接反饋。
  • 提升質性測試的權重:將專家測試與情境檢查納入最終決策流程。
  • 改進評估與 A/B 測試:開發更全面的離線評估,涵蓋諂媚行為等潛在問題。
  • 增強溝通透明度:未來將主動公告所有更新,並詳細說明變更內容與局限性。

此次 GPT-4o 諂媚問題凸顯了人工智慧模型開發的複雜性,也讓我們間接學習到他們是如何處理模型更新的問題。隨著 ChatGPT 用戶數持續增加,OpenAI 的模型行為將可能對個人與社會有更深遠的影響。

我是TN科技筆記,如果喜歡這篇文章,歡迎留言、點選愛心、轉發給我支持鼓勵~

也歡迎每個月請我喝杯咖啡,鼓勵我撰寫更多科技文章,一起跟著科技浪潮前進!!

>>>請我喝一杯咖啡


avatar-img
TN科技筆記(TechNotes)的沙龍
23會員
84內容數
大家好,我是TN,喜歡分享科技領域相關資訊,希望各位不吝支持與交流!
留言
avatar-img
留言分享你的想法!
微軟最新推出的 Phi-4-reasoning 與 Phi-4-reasoning-plus 模型,以僅140億參數的規模,挑戰大型語言模型的效能極限。這兩個模型專注於複雜推理任務,特別在數學、科學、程式設計等STEM領域展現卓越表現。
Google的 NotebookLM 推出重大更新,其「深入探索對話」功能現已支援超過50種語言,包括中文、西班牙文、法文、日文等。這項更新打破了以往僅限英語的限制,讓使用者能輕鬆生成多語言的podcast風格內容,無論原始資料是何種語言,以下將詳細介紹這次更新的核心亮點與使用方式。
OpenAI近日為ChatGPT推出了一系列更新以提升用戶體驗並挑戰傳統搜尋引擎的地位。本文將介紹ChatGPT的最新功能,並分析這些更新如何改變我們的線上搜尋與購物方式。
微軟最新推出的 Phi-4-reasoning 與 Phi-4-reasoning-plus 模型,以僅140億參數的規模,挑戰大型語言模型的效能極限。這兩個模型專注於複雜推理任務,特別在數學、科學、程式設計等STEM領域展現卓越表現。
Google的 NotebookLM 推出重大更新,其「深入探索對話」功能現已支援超過50種語言,包括中文、西班牙文、法文、日文等。這項更新打破了以往僅限英語的限制,讓使用者能輕鬆生成多語言的podcast風格內容,無論原始資料是何種語言,以下將詳細介紹這次更新的核心亮點與使用方式。
OpenAI近日為ChatGPT推出了一系列更新以提升用戶體驗並挑戰傳統搜尋引擎的地位。本文將介紹ChatGPT的最新功能,並分析這些更新如何改變我們的線上搜尋與購物方式。