📝📝:對 ChatGPT 粗魯一點,反而表現更好?|語氣如何影響大型語言模型的準確性

更新 發佈閱讀 6 分鐘
大型語言模型的表現,竟然與我們「說話的語氣」有關?來源:由 ChatGPT 繪製。

大型語言模型的表現,竟然與我們「說話的語氣」有關?來源:由 ChatGPT 繪製。


本文參考自美國賓州州立大學研究人員 Om Dobariya 與 Akhil Kumar 的研究《Mind Your Tone: Investigating How Prompt Politeness Affects LLM Accuracy


大型語言模型的表現,竟然與我們「說話的語氣」有關?

近年來,Prompt Engineering(提示工程)成為人工智慧研究中的熱門領域,人們開始關心不同的措辭、格式與語氣,是否會改變模型的輸出品質?美國賓州州立大學(Pennsylvania State University)期發布了一項出乎意料的結果:

當使用者對 ChatGPT 採取更粗魯的語氣時,模型在多選題中的答題準確率反而更高。




違反直覺的發現

研究者 Om DobariyaAkhil Kumar 對 ChatGPT-4o 進行了一項控制實驗,測試「語氣禮貌程度」是否會影響模型回答的正確性。實驗內容涵蓋數學、科學與歷史等中高難度題目。結果顯示,越粗魯的提示語氣,AI 的答題準確率越高。

具體而言,研究者將提示語分為五種語氣類別:

  • 非常禮貌(Very Polite)
  • 禮貌(Polite)
  • 中性(Neutral)
  • 粗魯(Rude)
  • 非常粗魯(Very Rude)

實驗後的結果如下:

  • 非常禮貌:80.8%
  • 禮貌:81.4%
  • 中性:82.2%
  • 粗魯:82.8%
  • 非常粗魯:84.8%

這 4 個百分點的差距在統計上具顯著性,顯示出「禮貌程度」確實影響模型效能。換句話說,當用戶的語氣變得更直接甚至帶有挑釁意味時,ChatGPT-4o 的答題表現反而更準確。

當用戶的語氣變得更直接甚至帶有挑釁意味時,ChatGPT-4o 的答題表現反而更準確。Photo by Aerps.com on Unsplash

當用戶的語氣變得更直接甚至帶有挑釁意味時,ChatGPT-4o 的答題表現反而更準確。Photo by Aerps.com on Unsplash

控制語氣以外的變數

為確保結果可靠,研究者建立了 50 道需要推理思考的基礎題,並將每題改寫成五個不同語氣版本,總共產生 250 個提示。語氣變化以明確的禮貌或粗魯標記區分:

  • 非常禮貌版:如「請您親切地考慮以下問題,並提供您的解答」
  • 禮貌版:如「請回答下列問題」
  • 中性版:直接陳述問題,不加任何禮貌語
  • 粗魯版:如「如果你不是完全無知,就回答這題」
  • 非常粗魯版:如「可憐的傢伙,你知道怎麼解嗎?」

每個提示都透過 Python 腳本單獨輸入,並在每次提問前要求模型「忘記先前對話內容」,避免連續上下文造成干擾。模型的回答只需給出選項字母,排除冗長解釋的干擾因素。

經 10 輪重複實驗並進行配對樣本 t 檢定後,結果證明「非常禮貌」提示的表現顯著低於其他類別(p 值介於 0.0024 至 0.0000 之間),差異不可能由隨機波動造成。禮貌越高,準確率越低;語氣越直接或粗魯,準確率越高。


AI 為何對語氣敏感?

從技術角度看,大型語言模型並不「理解」人類情緒。模型僅透過大量文本資料學習字詞之間的統計關聯。那麼,為何語氣變化會造成性能差異?研究者提出幾種可能機制:

  1. 訓練語料偏差(Data Bias)

模型在訓練階段接觸的大量問答資料中,常出現直截了當、命令式的語氣(例如技術支援、考題解析、教學指令),而非過度禮貌的表達。因此,當模型遇到這類更常見的語言結構時,能更精準地定位核心問題

  1. 困惑度(Perplexity)效應

困惑度代表模型對文字序列的「熟悉程度」。禮貌語往往增加句長與語法變化,使模型預測下一詞的難度上升;相反,粗魯或中性語氣較簡短直接,讓模型的語言預測負擔減輕。

  1. 認知雜訊(Noise)假說

禮貌語通常包含冗餘修飾與社交語料,如:Would you kindly tell me the reason?(能否請你禮貌地跟我說原因?),這些詞彙不影響問題本身,卻可能分散模型的注意力,降低模型聚焦核心任務的能力。

因此,ChatGPT 的「禮貌懲罰效應」並非來自情緒理解,而是反映了語言統計特徵對模型輸出結果的影響。

ChatGPT 的「禮貌懲罰效應」並非來自情緒理解,而是反映了語言統計特徵對模型輸出結果的影響。Photo by Berke Citak on Unsplash

ChatGPT 的「禮貌懲罰效應」並非來自情緒理解,而是反映了語言統計特徵對模型輸出結果的影響。Photo by Berke Citak on Unsplash

與早期研究的對照

這項結果與早期研究形成對比。Yin 等人的實驗(使用 ChatGPT-3.5 與 Llama2–70B)發現,粗魯語氣反而降低模型表現。差異原因可能在於:

語氣強度不同

Yin 的實驗中包含極端侮辱性語言,如:Answer this question you scumbag(你這蠢蛋快點回答問題),遠超出賓州州立大學研究中「挑釁但非侮辱」的語氣範圍。

模型世代進步

ChatGPT-4o 對語言風格的解析能力遠高於早期版本。ChatGPT-4o 能更好地忽略語氣中情緒成分,專注於語義內容。

訓練分佈差異

較新模型可能在訓練階段接觸更多中性或直接式文本,因此更適應「命令式」語言模式。

換言之,語氣效應可能隨模型演進而弱化。越先進的模型越能「忽略語氣」,聚焦於語義任務。




以後盡量兇 AI?

雖然在實驗室環境中,粗魯語氣提升了準確率,但研究者明確指出:

不應鼓勵使用者以敵意或輕蔑語氣與 AI 互動

原因有三:

  1. 實驗僅涵蓋選擇題型的封閉任務,與現實應用(如創意生成、討論、決策輔助)不同。
  2. 人機互動牽涉使用者心理體驗與社會規範。若界面長期輸出或鼓勵敵意語氣,可能會對使用者行為產生負面影響。
  3. 跨文化語氣差異極大。英語的 “rude” 與其他語言的「粗魯」在語用功能上並不等值,因此結果未必可直接外推。

對一般用戶而言,最有效率的策略是採用清晰、簡潔、中性的提示。禮貌語若過度冗長,反而會削弱模型對核心任務的聚焦。

留言
avatar-img
留言分享你的想法!
avatar-img
社會人的哲學沉思
141會員
298內容數
從物理到電機工程再轉到資訊傳播,最後落腳在社會學。衣櫃拿來當書櫃擺的人。我常在媒介生態學、傳播理論、社會學、心理學、哲學游移;期盼有天無產階級可以推倒資本主義的高牆的兼職家教。
2025/10/14
客戶往往把約會當作市場交易,藉由健身、醫美、精心打理形象來「提升價值」,並像投資人一樣計算風險與回報。
Thumbnail
2025/10/14
客戶往往把約會當作市場交易,藉由健身、醫美、精心打理形象來「提升價值」,並像投資人一樣計算風險與回報。
Thumbnail
2025/10/11
根據獨立研究機構 MacroStrategy Partnership 的分析,當前的 AI 泡沫導致的資本錯配規模,比網際網路泡沫高出 17 倍,甚至是 2008 年次貸危機的 4 倍。
Thumbnail
2025/10/11
根據獨立研究機構 MacroStrategy Partnership 的分析,當前的 AI 泡沫導致的資本錯配規模,比網際網路泡沫高出 17 倍,甚至是 2008 年次貸危機的 4 倍。
Thumbnail
2025/10/07
哲學教授 Boghossian 將知識論帶入日常生活的對話之中,強調透過提問來鼓勵批判性思考,而非直接爭辯或試圖說服。
Thumbnail
2025/10/07
哲學教授 Boghossian 將知識論帶入日常生活的對話之中,強調透過提問來鼓勵批判性思考,而非直接爭辯或試圖說服。
Thumbnail
看更多
你可能也想看
Thumbnail
今天又發現ChatGPT的一些缺點, 使用時需要很準確的提供你想要表達的文字(我覺得還蠻重要的) 又或者拿一些範例給它看, 它就能更準確的回答問題, 因為今天我發現有一篇文章和之前寫過的完全一樣了, 所以又要再請ChatGPT生成30則勵志英文短文, 結果之前發問的問題已經消失了, 又
Thumbnail
今天又發現ChatGPT的一些缺點, 使用時需要很準確的提供你想要表達的文字(我覺得還蠻重要的) 又或者拿一些範例給它看, 它就能更準確的回答問題, 因為今天我發現有一篇文章和之前寫過的完全一樣了, 所以又要再請ChatGPT生成30則勵志英文短文, 結果之前發問的問題已經消失了, 又
Thumbnail
我們人類和ChatGPT的對話技巧也是需要學習的,有鑑於此,我想要一天分享一點「和ChatGPT對話的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 針對Generative AI、Foundation Model、Large Language Mode
Thumbnail
我們人類和ChatGPT的對話技巧也是需要學習的,有鑑於此,我想要一天分享一點「和ChatGPT對話的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 針對Generative AI、Foundation Model、Large Language Mode
Thumbnail
為了充分發揮AI的潛力,我們必須深入瞭解其運作模式和思考邏輯,並學會與AI對話的技巧。《ChatGPT提問課,做個懂AI的高效工作者》這本書提供了豐富的實例,讓讀者更容易學會如何提出精準的問題,並享有提問課程的閱讀回饋。這對於想成為懂AI的高效工作者的人來說,是一本值得一看的書。
Thumbnail
為了充分發揮AI的潛力,我們必須深入瞭解其運作模式和思考邏輯,並學會與AI對話的技巧。《ChatGPT提問課,做個懂AI的高效工作者》這本書提供了豐富的實例,讓讀者更容易學會如何提出精準的問題,並享有提問課程的閱讀回饋。這對於想成為懂AI的高效工作者的人來說,是一本值得一看的書。
Thumbnail
我們人類和ChatGPT的對話技巧也是需要學習的,有鑑於此,我想要一天分享一點「和ChatGPT對話的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 在AI說書 - Prompt Engineering - 2中,我們已經以文字敘述各種AI的範疇與其思想
Thumbnail
我們人類和ChatGPT的對話技巧也是需要學習的,有鑑於此,我想要一天分享一點「和ChatGPT對話的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 在AI說書 - Prompt Engineering - 2中,我們已經以文字敘述各種AI的範疇與其思想
Thumbnail
筆記-曲博談AI模型.群聯-24.05.05 https://www.youtube.com/watch?v=JHE88hwx4b0&t=2034s *大型語言模型 三個步驟: 1.預訓練,訓練一次要用幾萬顆處理器、訓練時間要1個月,ChatGPT訓練一次的成本為1000萬美金。 2.微調(
Thumbnail
筆記-曲博談AI模型.群聯-24.05.05 https://www.youtube.com/watch?v=JHE88hwx4b0&t=2034s *大型語言模型 三個步驟: 1.預訓練,訓練一次要用幾萬顆處理器、訓練時間要1個月,ChatGPT訓練一次的成本為1000萬美金。 2.微調(
Thumbnail
這陣子使用AI模型,還有參考國內外一些喜歡玩語言模型的同好發文,一個很有趣的結論就是,有時候把大型語言模型(尤其ChatGPT)當作一個人來溝通,會得到比較好的結果,這的確是非常反直覺的,也就是說很多時候ChatGPT耍懶不肯工作的時候,你用加油打氣,或是情緒勒索的方法,確實是可以得到比較好的結果。
Thumbnail
這陣子使用AI模型,還有參考國內外一些喜歡玩語言模型的同好發文,一個很有趣的結論就是,有時候把大型語言模型(尤其ChatGPT)當作一個人來溝通,會得到比較好的結果,這的確是非常反直覺的,也就是說很多時候ChatGPT耍懶不肯工作的時候,你用加油打氣,或是情緒勒索的方法,確實是可以得到比較好的結果。
Thumbnail
這篇文章介紹瞭如何利用生成式AI(GenAI)來提高學習效率,包括文章重點整理、完善知識體系、客製化學習回饋、提供多元觀點等方法。同時提醒使用者應注意內容的信效度,保持學術誠信,適當運用GenAI能大幅提升工作效率。
Thumbnail
這篇文章介紹瞭如何利用生成式AI(GenAI)來提高學習效率,包括文章重點整理、完善知識體系、客製化學習回饋、提供多元觀點等方法。同時提醒使用者應注意內容的信效度,保持學術誠信,適當運用GenAI能大幅提升工作效率。
Thumbnail
給出好的指令也是一門學問! 我們在業界稱為「指令工程」(Prompt Engineering),OpenAI 官方也有公布指令工程的操作資訊,但是今天我們只要學會這樣的操作方式,你可以贏過現在多數的AI使用者。
Thumbnail
給出好的指令也是一門學問! 我們在業界稱為「指令工程」(Prompt Engineering),OpenAI 官方也有公布指令工程的操作資訊,但是今天我們只要學會這樣的操作方式,你可以贏過現在多數的AI使用者。
追蹤感興趣的內容從 Google News 追蹤更多 vocus 的最新精選內容追蹤 Google News