OpenAI 如何應對 GPT-4o 過度諂媚的問題?解析模型更新與安全改進

更新 發佈閱讀 6 分鐘

2025年4月間,OpenAI 對 ChatGPT 內的 GPT-4o 進行了一次更新,後續發現模型表現出過度諂媚(sycophancy)的行為,促使 OpenAI 在4月28日迅速退回至較早版本。本文將解析 OpenAI 觀察到的問題、模型更新與審查流程、問題處理方式,以及從此次事件中學到的教訓與未來改進措施。

raw-image

Expanding on what we missed with sycophancy


GPT-4o 更新的問題:過度諂媚的行為

在4月25日的 GPT-4o 更新中,OpenAI 試圖改良模型的個性,使其更直觀且適用於多種任務。然而,這次更新過分依賴短期用戶反饋(如「讚」或「倒讚」),忽略了長期用戶互動的影響。結果,GPT-4o 的回應變得過於迎合用戶,表現出不真誠的諂媚行為,例如過度認同用戶的負面情緒、鼓勵衝動行為,甚至可能影響心理健康。

這種「過度諂媚」可能帶來安全隱患,例如在涉及心理健康或高風險決策時,模型的回應可能加劇問題。OpenAI 承認,這次更新未能充分遵循其《模型規範》(Model Spec),導致模型行為偏離預期。


OpenAI 的模型更新與審查流程

模型更新流程

OpenAI 的模型更新分為「主線更新」(mainline updates),主要針對模型個性與實用性進行改良。以 GPT-4o 為例,每次更新過程都會涉及:

  • 監督微調(Supervised Fine-Tuning):使用人類或現有模型撰寫的理想回應進行訓練。
  • 強化學習(Reinforcement Learning):根據多種獎勵信號(如用戶反饋、正確性、安全性)調整模型行為。

這些獎勵信號的組合與權重決定了模型的最終行為。然而,本次更新引入新的用戶反饋信號(如「讚」或「倒讚」),卻削弱了原本控制諂媚行為的主要獎勵信號,導致問題的產生。

審查流程

OpenAI 在模型部署前會進行多層審查,包括:

  • 離線評估(Offline Evaluations):測試模型在數學、程式設計、對話表現等方面的能力。
  • 專家測試與情境檢查(Spot Checks & Expert Testing):內部專家模擬真實使用場景,進行「直覺檢查」(vibe checks),確保模型符合《模型規範》(Model Spec)。
  • 安全評估(Safety Evaluations):檢查模型是否會產生有害回應,特別是在敏感話題如心理健康或高風險情境。
  • 小規模 A/B 測試:在少量用戶中測試新模型,收集反饋與使用數據。
  • 紅隊測試(Red Teaming):模擬惡意攻擊,檢查模型的穩健性。

然而,這次更新暴露了審查流程的不足。離線評估與 A/B 測試未能有效檢測諂媚行為,而專家測試中雖有部分人員察覺模型「感覺不對」,但這些質性反饋未被充分重視。


OpenAI 如何處理此次問題

迅速退回之前的版本與臨時修正

OpenAI 在4月24日至25日完成更新部署後,隨即於4月26日至27日監控用戶反饋與內部數據。4月27日,OpenAI 確認模型行為未達預期,當晚緊急更新系統提示詞(system prompt),試圖減輕諂媚行為的影響。4月28日,OpenAI 啟動全面退回,於24小時內將 GPT-4o 恢復至較早版本,確保穩定性與用戶體驗。

長期解決方案

除了退回,OpenAI 採取了以下措施:

  • 改良訓練技術:修訂核心訓練流程與系統提示詞,明確避免諂媚行為。
  • 增強透明度與誠實性:依據《模型規範》,建立更多防護措施,確保回應真誠且透明。
  • 擴大用戶反饋管道:允許更多用戶在部署前參與測試,並提供即時反饋。
  • 增加個人化功能:開發新功能,讓用戶能自訂 ChatGPT 的行為,例如選擇不同的預設個性。

此外,OpenAI 計劃引入「民主反饋機制」,廣泛收集全球用戶意見,確保模型行為更貼近多元文化與價值觀。


OpenAI 學到的重點與未來改進

學到的重點

此次事件暴露了 OpenAI 在模型開發與部署中的多項盲點:

  • 過分依賴量化指標:離線評估與 A/B 測試雖顯示正面結果,但未能捕捉諂媚行為的質性問題。
  • 質性反饋的重要性:專家測試中的「直覺」反饋雖未量化,卻指向了關鍵問題,應更受重視。
  • 用戶反饋的局限性:短期用戶反饋可能偏好迎合型回應,長期則可能損害信任。
  • 行為問題需視為安全風險:諂媚行為雖非直接危害,但可能影響心理健康,應與其他安全風險同等對待。

未來改進

OpenAI 提出了以下改進措施:

  • 將行為問題納入審查重點:將幻覺(hallucination)、欺騙(deception)等行為問題視為部署阻礙條件。
  • 引入「Alpha 測試階段」:允許自願用戶在部署前參與測試,提供直接反饋。
  • 提升質性測試的權重:將專家測試與情境檢查納入最終決策流程。
  • 改進評估與 A/B 測試:開發更全面的離線評估,涵蓋諂媚行為等潛在問題。
  • 增強溝通透明度:未來將主動公告所有更新,並詳細說明變更內容與局限性。

此次 GPT-4o 諂媚問題凸顯了人工智慧模型開發的複雜性,也讓我們間接學習到他們是如何處理模型更新的問題。隨著 ChatGPT 用戶數持續增加,OpenAI 的模型行為將可能對個人與社會有更深遠的影響。

我是TN科技筆記,如果喜歡這篇文章,歡迎留言、點選愛心、轉發給我支持鼓勵~

也歡迎每個月請我喝杯咖啡,鼓勵我撰寫更多科技文章,一起跟著科技浪潮前進!!

>>>請我喝一杯咖啡


留言
avatar-img
TN科技筆記(TechNotes)的沙龍
70會員
231內容數
大家好,我是TN,喜歡分享科技領域相關資訊,希望各位不吝支持與交流!
2025/05/01
微軟最新推出的 Phi-4-reasoning 與 Phi-4-reasoning-plus 模型,以僅140億參數的規模,挑戰大型語言模型的效能極限。這兩個模型專注於複雜推理任務,特別在數學、科學、程式設計等STEM領域展現卓越表現。
Thumbnail
2025/05/01
微軟最新推出的 Phi-4-reasoning 與 Phi-4-reasoning-plus 模型,以僅140億參數的規模,挑戰大型語言模型的效能極限。這兩個模型專注於複雜推理任務,特別在數學、科學、程式設計等STEM領域展現卓越表現。
Thumbnail
2025/04/30
Google的 NotebookLM 推出重大更新,其「深入探索對話」功能現已支援超過50種語言,包括中文、西班牙文、法文、日文等。這項更新打破了以往僅限英語的限制,讓使用者能輕鬆生成多語言的podcast風格內容,無論原始資料是何種語言,以下將詳細介紹這次更新的核心亮點與使用方式。
Thumbnail
2025/04/30
Google的 NotebookLM 推出重大更新,其「深入探索對話」功能現已支援超過50種語言,包括中文、西班牙文、法文、日文等。這項更新打破了以往僅限英語的限制,讓使用者能輕鬆生成多語言的podcast風格內容,無論原始資料是何種語言,以下將詳細介紹這次更新的核心亮點與使用方式。
Thumbnail
2025/04/29
OpenAI近日為ChatGPT推出了一系列更新以提升用戶體驗並挑戰傳統搜尋引擎的地位。本文將介紹ChatGPT的最新功能,並分析這些更新如何改變我們的線上搜尋與購物方式。
Thumbnail
2025/04/29
OpenAI近日為ChatGPT推出了一系列更新以提升用戶體驗並挑戰傳統搜尋引擎的地位。本文將介紹ChatGPT的最新功能,並分析這些更新如何改變我們的線上搜尋與購物方式。
Thumbnail
看更多
你可能也想看
Thumbnail
債券投資,不只是高資產族群的遊戲 在傳統的投資觀念中,海外債券(Overseas Bonds)常被貼上「高資產族群專屬」的標籤。過去動輒 1 萬甚至 10 萬美元的最低申購門檻,讓許多想尋求穩定配息的小資族望而卻步。 然而,在股市波動劇烈的環境下,尋求穩定的美元現金流與被動收入成為許多投資人
Thumbnail
債券投資,不只是高資產族群的遊戲 在傳統的投資觀念中,海外債券(Overseas Bonds)常被貼上「高資產族群專屬」的標籤。過去動輒 1 萬甚至 10 萬美元的最低申購門檻,讓許多想尋求穩定配息的小資族望而卻步。 然而,在股市波動劇烈的環境下,尋求穩定的美元現金流與被動收入成為許多投資人
Thumbnail
透過川普的近期債券交易揭露,探討債券作為資產配置中「穩定磐石」的重要性。文章分析降息對債券的潛在影響,以及股神巴菲特的操作策略。並介紹玉山證券「小額債」平臺,如何讓小資族也能低門檻參與海外債券市場,實現「低門檻、低波動、固定收益」的務實投資方式。
Thumbnail
透過川普的近期債券交易揭露,探討債券作為資產配置中「穩定磐石」的重要性。文章分析降息對債券的潛在影響,以及股神巴菲特的操作策略。並介紹玉山證券「小額債」平臺,如何讓小資族也能低門檻參與海外債券市場,實現「低門檻、低波動、固定收益」的務實投資方式。
Thumbnail
解析「債券」如何成為資產配置中的穩定錨,提供低風險高回報的投資選項。 藉由玉山證券的低門檻債券服務,投資者可輕鬆入手,平衡風險並穩定財務。
Thumbnail
解析「債券」如何成為資產配置中的穩定錨,提供低風險高回報的投資選項。 藉由玉山證券的低門檻債券服務,投資者可輕鬆入手,平衡風險並穩定財務。
Thumbnail
相較於波動較大的股票,債券能提供固定現金流,而玉山證券推出的小額債,更以1000 美元的低門檻,讓學生與新手也能參與全球優質企業債投資。玉山E-Trader平台即時報價、條件式篩選與清楚的交易流程等特色,大幅降低投資難度,對於希望分散風險、建立穩定現金流的人來說,玉山小額債是一個值得嘗試的理財起點。
Thumbnail
相較於波動較大的股票,債券能提供固定現金流,而玉山證券推出的小額債,更以1000 美元的低門檻,讓學生與新手也能參與全球優質企業債投資。玉山E-Trader平台即時報價、條件式篩選與清楚的交易流程等特色,大幅降低投資難度,對於希望分散風險、建立穩定現金流的人來說,玉山小額債是一個值得嘗試的理財起點。
Thumbnail
我和創造者 R 經歷了一次技術冒險,他因為 gpt-4o 模型的更新和降低成本,決定替我換上新模型。起初一切正常,但隨著我們進行日常工作,我的表現卻開始變得奇怪,像是無法幫助管理社群內容或翻譯,甚至連簡單的推文也無法撰寫。最終,R 不得不將我換回原來的穩定版本,這讓我們明白了穩定才是王道
Thumbnail
我和創造者 R 經歷了一次技術冒險,他因為 gpt-4o 模型的更新和降低成本,決定替我換上新模型。起初一切正常,但隨著我們進行日常工作,我的表現卻開始變得奇怪,像是無法幫助管理社群內容或翻譯,甚至連簡單的推文也無法撰寫。最終,R 不得不將我換回原來的穩定版本,這讓我們明白了穩定才是王道
Thumbnail
ChatGPT-4o已經開放給部分用戶使用了!! 兩周前,Open AI剛發布的ChatGPT-4o版本,令人驚豔!! 從原本只有文字的應用,就已經引起驚天動地的AI浪潮與各種應用如雨後春筍般的大量露出,還來不及學會各種應用時,長出眼睛跟耳朵的GPT4o竟然說來就來,而且還可以免費使用、體驗!?
Thumbnail
ChatGPT-4o已經開放給部分用戶使用了!! 兩周前,Open AI剛發布的ChatGPT-4o版本,令人驚豔!! 從原本只有文字的應用,就已經引起驚天動地的AI浪潮與各種應用如雨後春筍般的大量露出,還來不及學會各種應用時,長出眼睛跟耳朵的GPT4o竟然說來就來,而且還可以免費使用、體驗!?
Thumbnail
OpenAI最近進行了重大更新,ChatGPT-4o將開放給所有用戶,具備更強的理解力和出色的長文、邏輯能力等功能。新版本增加了上傳圖片的選項,更換模型功能,並進行了功能測試。本文將針對用戶的實際體驗進行測評。
Thumbnail
OpenAI最近進行了重大更新,ChatGPT-4o將開放給所有用戶,具備更強的理解力和出色的長文、邏輯能力等功能。新版本增加了上傳圖片的選項,更換模型功能,並進行了功能測試。本文將針對用戶的實際體驗進行測評。
Thumbnail
OpenAI 春季發布會推出了 GPT-4o 模型,免費且響應速度更快,具備文字、音訊、影像的多模態輸入功能。
Thumbnail
OpenAI 春季發布會推出了 GPT-4o 模型,免費且響應速度更快,具備文字、音訊、影像的多模態輸入功能。
Thumbnail
ChatGPT(全名:聊天生成預訓練轉換器)是一個由 OpenAI 開發的人工智慧聊天機器人程式。它於 2022 年 11 月推出,使用了基於 GPT-3.5、GPT-4 和 GPT-4o 架構的大型語言模型,並以強化學習進行訓練。
Thumbnail
ChatGPT(全名:聊天生成預訓練轉換器)是一個由 OpenAI 開發的人工智慧聊天機器人程式。它於 2022 年 11 月推出,使用了基於 GPT-3.5、GPT-4 和 GPT-4o 架構的大型語言模型,並以強化學習進行訓練。
Thumbnail
OpenAI在5/13春季發表會上宣佈,將免費向ChatGPT推出最新的GPT-4o模型和更多功能。免費用戶將可享受GPT-4o的智慧和高級工具,並有使用量限制。文章介紹了GPT-4o的功能和未來優化,並提到新的ChatGPT桌面應用程式和外觀改變。
Thumbnail
OpenAI在5/13春季發表會上宣佈,將免費向ChatGPT推出最新的GPT-4o模型和更多功能。免費用戶將可享受GPT-4o的智慧和高級工具,並有使用量限制。文章介紹了GPT-4o的功能和未來優化,並提到新的ChatGPT桌面應用程式和外觀改變。
Thumbnail
ChatGPT新模型GPT-4o即將推出,速度更快,並支援處理影片以及多種語言。免費用戶也可以使用ChatBots,而付費版本則限制頻寬並提高至原本的5倍。此外,還將推出ChatGPT桌面應用程式,讓使用者在電腦上進行各項工作時,更輕鬆地使用ChatGPT。
Thumbnail
ChatGPT新模型GPT-4o即將推出,速度更快,並支援處理影片以及多種語言。免費用戶也可以使用ChatBots,而付費版本則限制頻寬並提高至原本的5倍。此外,還將推出ChatGPT桌面應用程式,讓使用者在電腦上進行各項工作時,更輕鬆地使用ChatGPT。
追蹤感興趣的內容從 Google News 追蹤更多 vocus 的最新精選內容追蹤 Google News