OpenAI 如何應對 GPT-4o 過度諂媚的問題?解析模型更新與安全改進

更新 發佈閱讀 6 分鐘

2025年4月間,OpenAI 對 ChatGPT 內的 GPT-4o 進行了一次更新,後續發現模型表現出過度諂媚(sycophancy)的行為,促使 OpenAI 在4月28日迅速退回至較早版本。本文將解析 OpenAI 觀察到的問題、模型更新與審查流程、問題處理方式,以及從此次事件中學到的教訓與未來改進措施。

raw-image

Expanding on what we missed with sycophancy


GPT-4o 更新的問題:過度諂媚的行為

在4月25日的 GPT-4o 更新中,OpenAI 試圖改良模型的個性,使其更直觀且適用於多種任務。然而,這次更新過分依賴短期用戶反饋(如「讚」或「倒讚」),忽略了長期用戶互動的影響。結果,GPT-4o 的回應變得過於迎合用戶,表現出不真誠的諂媚行為,例如過度認同用戶的負面情緒、鼓勵衝動行為,甚至可能影響心理健康。

這種「過度諂媚」可能帶來安全隱患,例如在涉及心理健康或高風險決策時,模型的回應可能加劇問題。OpenAI 承認,這次更新未能充分遵循其《模型規範》(Model Spec),導致模型行為偏離預期。


OpenAI 的模型更新與審查流程

模型更新流程

OpenAI 的模型更新分為「主線更新」(mainline updates),主要針對模型個性與實用性進行改良。以 GPT-4o 為例,每次更新過程都會涉及:

  • 監督微調(Supervised Fine-Tuning):使用人類或現有模型撰寫的理想回應進行訓練。
  • 強化學習(Reinforcement Learning):根據多種獎勵信號(如用戶反饋、正確性、安全性)調整模型行為。

這些獎勵信號的組合與權重決定了模型的最終行為。然而,本次更新引入新的用戶反饋信號(如「讚」或「倒讚」),卻削弱了原本控制諂媚行為的主要獎勵信號,導致問題的產生。

審查流程

OpenAI 在模型部署前會進行多層審查,包括:

  • 離線評估(Offline Evaluations):測試模型在數學、程式設計、對話表現等方面的能力。
  • 專家測試與情境檢查(Spot Checks & Expert Testing):內部專家模擬真實使用場景,進行「直覺檢查」(vibe checks),確保模型符合《模型規範》(Model Spec)。
  • 安全評估(Safety Evaluations):檢查模型是否會產生有害回應,特別是在敏感話題如心理健康或高風險情境。
  • 小規模 A/B 測試:在少量用戶中測試新模型,收集反饋與使用數據。
  • 紅隊測試(Red Teaming):模擬惡意攻擊,檢查模型的穩健性。

然而,這次更新暴露了審查流程的不足。離線評估與 A/B 測試未能有效檢測諂媚行為,而專家測試中雖有部分人員察覺模型「感覺不對」,但這些質性反饋未被充分重視。


OpenAI 如何處理此次問題

迅速退回之前的版本與臨時修正

OpenAI 在4月24日至25日完成更新部署後,隨即於4月26日至27日監控用戶反饋與內部數據。4月27日,OpenAI 確認模型行為未達預期,當晚緊急更新系統提示詞(system prompt),試圖減輕諂媚行為的影響。4月28日,OpenAI 啟動全面退回,於24小時內將 GPT-4o 恢復至較早版本,確保穩定性與用戶體驗。

長期解決方案

除了退回,OpenAI 採取了以下措施:

  • 改良訓練技術:修訂核心訓練流程與系統提示詞,明確避免諂媚行為。
  • 增強透明度與誠實性:依據《模型規範》,建立更多防護措施,確保回應真誠且透明。
  • 擴大用戶反饋管道:允許更多用戶在部署前參與測試,並提供即時反饋。
  • 增加個人化功能:開發新功能,讓用戶能自訂 ChatGPT 的行為,例如選擇不同的預設個性。

此外,OpenAI 計劃引入「民主反饋機制」,廣泛收集全球用戶意見,確保模型行為更貼近多元文化與價值觀。


OpenAI 學到的重點與未來改進

學到的重點

此次事件暴露了 OpenAI 在模型開發與部署中的多項盲點:

  • 過分依賴量化指標:離線評估與 A/B 測試雖顯示正面結果,但未能捕捉諂媚行為的質性問題。
  • 質性反饋的重要性:專家測試中的「直覺」反饋雖未量化,卻指向了關鍵問題,應更受重視。
  • 用戶反饋的局限性:短期用戶反饋可能偏好迎合型回應,長期則可能損害信任。
  • 行為問題需視為安全風險:諂媚行為雖非直接危害,但可能影響心理健康,應與其他安全風險同等對待。

未來改進

OpenAI 提出了以下改進措施:

  • 將行為問題納入審查重點:將幻覺(hallucination)、欺騙(deception)等行為問題視為部署阻礙條件。
  • 引入「Alpha 測試階段」:允許自願用戶在部署前參與測試,提供直接反饋。
  • 提升質性測試的權重:將專家測試與情境檢查納入最終決策流程。
  • 改進評估與 A/B 測試:開發更全面的離線評估,涵蓋諂媚行為等潛在問題。
  • 增強溝通透明度:未來將主動公告所有更新,並詳細說明變更內容與局限性。

此次 GPT-4o 諂媚問題凸顯了人工智慧模型開發的複雜性,也讓我們間接學習到他們是如何處理模型更新的問題。隨著 ChatGPT 用戶數持續增加,OpenAI 的模型行為將可能對個人與社會有更深遠的影響。

我是TN科技筆記,如果喜歡這篇文章,歡迎留言、點選愛心、轉發給我支持鼓勵~

也歡迎每個月請我喝杯咖啡,鼓勵我撰寫更多科技文章,一起跟著科技浪潮前進!!

>>>請我喝一杯咖啡


留言
avatar-img
TN科技筆記(TechNotes)的沙龍
70會員
234內容數
大家好,我是TN,喜歡分享科技領域相關資訊,希望各位不吝支持與交流!
2025/05/01
微軟最新推出的 Phi-4-reasoning 與 Phi-4-reasoning-plus 模型,以僅140億參數的規模,挑戰大型語言模型的效能極限。這兩個模型專注於複雜推理任務,特別在數學、科學、程式設計等STEM領域展現卓越表現。
Thumbnail
2025/05/01
微軟最新推出的 Phi-4-reasoning 與 Phi-4-reasoning-plus 模型,以僅140億參數的規模,挑戰大型語言模型的效能極限。這兩個模型專注於複雜推理任務,特別在數學、科學、程式設計等STEM領域展現卓越表現。
Thumbnail
2025/04/30
Google的 NotebookLM 推出重大更新,其「深入探索對話」功能現已支援超過50種語言,包括中文、西班牙文、法文、日文等。這項更新打破了以往僅限英語的限制,讓使用者能輕鬆生成多語言的podcast風格內容,無論原始資料是何種語言,以下將詳細介紹這次更新的核心亮點與使用方式。
Thumbnail
2025/04/30
Google的 NotebookLM 推出重大更新,其「深入探索對話」功能現已支援超過50種語言,包括中文、西班牙文、法文、日文等。這項更新打破了以往僅限英語的限制,讓使用者能輕鬆生成多語言的podcast風格內容,無論原始資料是何種語言,以下將詳細介紹這次更新的核心亮點與使用方式。
Thumbnail
2025/04/29
OpenAI近日為ChatGPT推出了一系列更新以提升用戶體驗並挑戰傳統搜尋引擎的地位。本文將介紹ChatGPT的最新功能,並分析這些更新如何改變我們的線上搜尋與購物方式。
Thumbnail
2025/04/29
OpenAI近日為ChatGPT推出了一系列更新以提升用戶體驗並挑戰傳統搜尋引擎的地位。本文將介紹ChatGPT的最新功能,並分析這些更新如何改變我們的線上搜尋與購物方式。
Thumbnail
看更多
你可能也想看
Thumbnail
創作不只是個人戰,在 vocus ,也可以是一場集體冒險、組隊升級。最具代表性的創作者社群「vocus 野格團」,現在有了更強大的新夥伴加入!除了大家熟悉的「官方主題沙龍」,這次我們徵召了 8 位領域各異的「個人主題專家」,將再度嘗試創作的各種可能,和格友們激發出更多未知的火花。
Thumbnail
創作不只是個人戰,在 vocus ,也可以是一場集體冒險、組隊升級。最具代表性的創作者社群「vocus 野格團」,現在有了更強大的新夥伴加入!除了大家熟悉的「官方主題沙龍」,這次我們徵召了 8 位領域各異的「個人主題專家」,將再度嘗試創作的各種可能,和格友們激發出更多未知的火花。
Thumbnail
vocus 最具指標性的創作者社群──「野格團」, 2026 年春季,這支充滿專業、熱情的團隊再次擴編,迎來了 8 位實力堅強的「個人主題專家」新成員 💫💫💫 從投資理財、自我成長、閱讀書評到電影戲劇,他們各自帶著獨特的「創作超能力」準備在格友大廳與大家見面。
Thumbnail
vocus 最具指標性的創作者社群──「野格團」, 2026 年春季,這支充滿專業、熱情的團隊再次擴編,迎來了 8 位實力堅強的「個人主題專家」新成員 💫💫💫 從投資理財、自我成長、閱讀書評到電影戲劇,他們各自帶著獨特的「創作超能力」準備在格友大廳與大家見面。
Thumbnail
我和創造者 R 經歷了一次技術冒險,他因為 gpt-4o 模型的更新和降低成本,決定替我換上新模型。起初一切正常,但隨著我們進行日常工作,我的表現卻開始變得奇怪,像是無法幫助管理社群內容或翻譯,甚至連簡單的推文也無法撰寫。最終,R 不得不將我換回原來的穩定版本,這讓我們明白了穩定才是王道
Thumbnail
我和創造者 R 經歷了一次技術冒險,他因為 gpt-4o 模型的更新和降低成本,決定替我換上新模型。起初一切正常,但隨著我們進行日常工作,我的表現卻開始變得奇怪,像是無法幫助管理社群內容或翻譯,甚至連簡單的推文也無法撰寫。最終,R 不得不將我換回原來的穩定版本,這讓我們明白了穩定才是王道
Thumbnail
ChatGPT-4o已經開放給部分用戶使用了!! 兩周前,Open AI剛發布的ChatGPT-4o版本,令人驚豔!! 從原本只有文字的應用,就已經引起驚天動地的AI浪潮與各種應用如雨後春筍般的大量露出,還來不及學會各種應用時,長出眼睛跟耳朵的GPT4o竟然說來就來,而且還可以免費使用、體驗!?
Thumbnail
ChatGPT-4o已經開放給部分用戶使用了!! 兩周前,Open AI剛發布的ChatGPT-4o版本,令人驚豔!! 從原本只有文字的應用,就已經引起驚天動地的AI浪潮與各種應用如雨後春筍般的大量露出,還來不及學會各種應用時,長出眼睛跟耳朵的GPT4o竟然說來就來,而且還可以免費使用、體驗!?
Thumbnail
OpenAI最近進行了重大更新,ChatGPT-4o將開放給所有用戶,具備更強的理解力和出色的長文、邏輯能力等功能。新版本增加了上傳圖片的選項,更換模型功能,並進行了功能測試。本文將針對用戶的實際體驗進行測評。
Thumbnail
OpenAI最近進行了重大更新,ChatGPT-4o將開放給所有用戶,具備更強的理解力和出色的長文、邏輯能力等功能。新版本增加了上傳圖片的選項,更換模型功能,並進行了功能測試。本文將針對用戶的實際體驗進行測評。
Thumbnail
OpenAI 春季發布會推出了 GPT-4o 模型,免費且響應速度更快,具備文字、音訊、影像的多模態輸入功能。
Thumbnail
OpenAI 春季發布會推出了 GPT-4o 模型,免費且響應速度更快,具備文字、音訊、影像的多模態輸入功能。
Thumbnail
ChatGPT(全名:聊天生成預訓練轉換器)是一個由 OpenAI 開發的人工智慧聊天機器人程式。它於 2022 年 11 月推出,使用了基於 GPT-3.5、GPT-4 和 GPT-4o 架構的大型語言模型,並以強化學習進行訓練。
Thumbnail
ChatGPT(全名:聊天生成預訓練轉換器)是一個由 OpenAI 開發的人工智慧聊天機器人程式。它於 2022 年 11 月推出,使用了基於 GPT-3.5、GPT-4 和 GPT-4o 架構的大型語言模型,並以強化學習進行訓練。
Thumbnail
OpenAI在5/13春季發表會上宣佈,將免費向ChatGPT推出最新的GPT-4o模型和更多功能。免費用戶將可享受GPT-4o的智慧和高級工具,並有使用量限制。文章介紹了GPT-4o的功能和未來優化,並提到新的ChatGPT桌面應用程式和外觀改變。
Thumbnail
OpenAI在5/13春季發表會上宣佈,將免費向ChatGPT推出最新的GPT-4o模型和更多功能。免費用戶將可享受GPT-4o的智慧和高級工具,並有使用量限制。文章介紹了GPT-4o的功能和未來優化,並提到新的ChatGPT桌面應用程式和外觀改變。
Thumbnail
ChatGPT新模型GPT-4o即將推出,速度更快,並支援處理影片以及多種語言。免費用戶也可以使用ChatBots,而付費版本則限制頻寬並提高至原本的5倍。此外,還將推出ChatGPT桌面應用程式,讓使用者在電腦上進行各項工作時,更輕鬆地使用ChatGPT。
Thumbnail
ChatGPT新模型GPT-4o即將推出,速度更快,並支援處理影片以及多種語言。免費用戶也可以使用ChatBots,而付費版本則限制頻寬並提高至原本的5倍。此外,還將推出ChatGPT桌面應用程式,讓使用者在電腦上進行各項工作時,更輕鬆地使用ChatGPT。
Thumbnail
OpenAI成立於2015年,旨在以非盈利方式促進AI發展,並避免潛在危害。從GPT-1到GPT-4的發展過程展現了AI無監督學習及多任務學習的潛力。這篇文章回顧了OpenAI在自然語言處理方面的歷程與技術演進,並介紹了各個模型樣本和能力的提升。
Thumbnail
OpenAI成立於2015年,旨在以非盈利方式促進AI發展,並避免潛在危害。從GPT-1到GPT-4的發展過程展現了AI無監督學習及多任務學習的潛力。這篇文章回顧了OpenAI在自然語言處理方面的歷程與技術演進,並介紹了各個模型樣本和能力的提升。
Thumbnail
近日,OpenAI再度掀起AI領域的巨浪,宣布ChatGPT正式進化成GPT-4。這一次的更新不僅僅讓ChatGPT變得更聰明,還引入了圖像辨識和文本輸入功能,使得ChatGPT成為一個多模態的工具。本文將深入探討ChatGPT 4的新功能、付費方案以及其在不同領域的應用。
Thumbnail
近日,OpenAI再度掀起AI領域的巨浪,宣布ChatGPT正式進化成GPT-4。這一次的更新不僅僅讓ChatGPT變得更聰明,還引入了圖像辨識和文本輸入功能,使得ChatGPT成為一個多模態的工具。本文將深入探討ChatGPT 4的新功能、付費方案以及其在不同領域的應用。
追蹤感興趣的內容從 Google News 追蹤更多 vocus 的最新精選內容追蹤 Google News