
大型語言模型的表現,竟然與我們「說話的語氣」有關?來源:由 ChatGPT 繪製。
本文參考自美國賓州州立大學研究人員 Om Dobariya 與 Akhil Kumar 的研究《Mind Your Tone: Investigating How Prompt Politeness Affects LLM Accuracy》
近年來,Prompt Engineering(提示工程)成為人工智慧研究中的熱門領域,人們開始關心不同的措辭、格式與語氣,是否會改變模型的輸出品質?美國賓州州立大學(Pennsylvania State University)期發布了一項出乎意料的結果:
當使用者對 ChatGPT 採取更粗魯的語氣時,模型在多選題中的答題準確率反而更高。
違反直覺的發現
研究者 Om Dobariya 與 Akhil Kumar 對 ChatGPT-4o 進行了一項控制實驗,測試「語氣禮貌程度」是否會影響模型回答的正確性。實驗內容涵蓋數學、科學與歷史等中高難度題目。結果顯示,越粗魯的提示語氣,AI 的答題準確率越高。
具體而言,研究者將提示語分為五種語氣類別:
- 非常禮貌(Very Polite)
- 禮貌(Polite)
- 中性(Neutral)
- 粗魯(Rude)
- 非常粗魯(Very Rude)
實驗後的結果如下:
- 非常禮貌:80.8%
- 禮貌:81.4%
- 中性:82.2%
- 粗魯:82.8%
- 非常粗魯:84.8%
這 4 個百分點的差距在統計上具顯著性,顯示出「禮貌程度」確實影響模型效能。換句話說,當用戶的語氣變得更直接甚至帶有挑釁意味時,ChatGPT-4o 的答題表現反而更準確。

當用戶的語氣變得更直接甚至帶有挑釁意味時,ChatGPT-4o 的答題表現反而更準確。Photo by Aerps.com on Unsplash
控制語氣以外的變數
為確保結果可靠,研究者建立了 50 道需要推理思考的基礎題,並將每題改寫成五個不同語氣版本,總共產生 250 個提示。語氣變化以明確的禮貌或粗魯標記區分:
- 非常禮貌版:如「請您親切地考慮以下問題,並提供您的解答」
- 禮貌版:如「請回答下列問題」
- 中性版:直接陳述問題,不加任何禮貌語
- 粗魯版:如「如果你不是完全無知,就回答這題」
- 非常粗魯版:如「可憐的傢伙,你知道怎麼解嗎?」
每個提示都透過 Python 腳本單獨輸入,並在每次提問前要求模型「忘記先前對話內容」,避免連續上下文造成干擾。模型的回答只需給出選項字母,排除冗長解釋的干擾因素。
經 10 輪重複實驗並進行配對樣本 t 檢定後,結果證明「非常禮貌」提示的表現顯著低於其他類別(p 值介於 0.0024 至 0.0000 之間),差異不可能由隨機波動造成。禮貌越高,準確率越低;語氣越直接或粗魯,準確率越高。
AI 為何對語氣敏感?
從技術角度看,大型語言模型並不「理解」人類情緒。模型僅透過大量文本資料學習字詞之間的統計關聯。那麼,為何語氣變化會造成性能差異?研究者提出幾種可能機制:
- 訓練語料偏差(Data Bias)
模型在訓練階段接觸的大量問答資料中,常出現直截了當、命令式的語氣(例如技術支援、考題解析、教學指令),而非過度禮貌的表達。因此,當模型遇到這類更常見的語言結構時,能更精準地定位核心問題。
- 困惑度(Perplexity)效應
困惑度代表模型對文字序列的「熟悉程度」。禮貌語往往增加句長與語法變化,使模型預測下一詞的難度上升;相反,粗魯或中性語氣較簡短直接,讓模型的語言預測負擔減輕。
- 認知雜訊(Noise)假說
禮貌語通常包含冗餘修飾與社交語料,如:Would you kindly tell me the reason?(能否請你禮貌地跟我說原因?),這些詞彙不影響問題本身,卻可能分散模型的注意力,降低模型聚焦核心任務的能力。
因此,ChatGPT 的「禮貌懲罰效應」並非來自情緒理解,而是反映了語言統計特徵對模型輸出結果的影響。

ChatGPT 的「禮貌懲罰效應」並非來自情緒理解,而是反映了語言統計特徵對模型輸出結果的影響。Photo by Berke Citak on Unsplash
與早期研究的對照
這項結果與早期研究形成對比。Yin 等人的實驗(使用 ChatGPT-3.5 與 Llama2–70B)發現,粗魯語氣反而降低模型表現。差異原因可能在於:
語氣強度不同
Yin 的實驗中包含極端侮辱性語言,如:Answer this question you scumbag(你這蠢蛋快點回答問題),遠超出賓州州立大學研究中「挑釁但非侮辱」的語氣範圍。
模型世代進步
ChatGPT-4o 對語言風格的解析能力遠高於早期版本。ChatGPT-4o 能更好地忽略語氣中情緒成分,專注於語義內容。
訓練分佈差異
較新模型可能在訓練階段接觸更多中性或直接式文本,因此更適應「命令式」語言模式。
換言之,語氣效應可能隨模型演進而弱化。越先進的模型越能「忽略語氣」,聚焦於語義任務。
以後盡量兇 AI?
雖然在實驗室環境中,粗魯語氣提升了準確率,但研究者明確指出:
不應鼓勵使用者以敵意或輕蔑語氣與 AI 互動
原因有三:
- 實驗僅涵蓋選擇題型的封閉任務,與現實應用(如創意生成、討論、決策輔助)不同。
- 人機互動牽涉使用者心理體驗與社會規範。若界面長期輸出或鼓勵敵意語氣,可能會對使用者行為產生負面影響。
- 跨文化語氣差異極大。英語的 “rude” 與其他語言的「粗魯」在語用功能上並不等值,因此結果未必可直接外推。
對一般用戶而言,最有效率的策略是採用清晰、簡潔、中性的提示。禮貌語若過度冗長,反而會削弱模型對核心任務的聚焦。




















