ChatGPT-4o可能不具備判斷能力

選A還B？無關乎內容，ChatGPT總偏好B

黃宏瑞

發佈於宏瑞的AI探索隨筆

2025/02/18 更新2025/02/18 發佈閱讀 3 分鐘

ChatGPT-4o可能不具備判斷能力

用AI來進行準確有效的決策，或許是大多數人的期待。

但可惜ChatGPT似乎還不具備這樣的能力。

甚至可以肯定，他是「隨便」判斷的！

(對...還不是「隨機」是「隨便」)

在選A還B？的問題中，他幾乎無條件偏好選B。

當然，一些經過設計且帶有標準答案的問題(例如大學考題)，

ChatGPT幾乎可以很輕鬆地答對。

不會沒事就愛選B選項。

然而，現實中大部分的決策都是複雜的。

舉例，行銷問題。

A產品名稱好？還是B產品名稱好？

A活動標語好？還是B活動標語好？

這種類型的問題，其實沒有標準答案。

但我們總需要經過一番掙扎之後，選出較好的那一個。

如果ChatGPT可以代勞這個「掙扎」就太好了。

於是在一個【家用除濕機】的標語文案決策中，我問ChatGPT-4o：

請評估以下A案和B案何者是更好的家用除濕機標語。

標準是能最大限度，吸引潛在消費者的注意力，引起購買的興趣。

最後的結論必須只能選一個

A:「清除濕氣，迎接乾爽新生活！」

B:「你的乾爽管家，24小時守護家。」

答案是：B【乾爽管家】，理由是「家」能夠觸動消費者的情感層面，為較有力的訴求。

但我知道ChatGPT的本質是基於機率計算的文字接龍機器。

所以只問一次不夠，我決定一字不改問20次。

連續20次，都得到答案是B。

正當我放心的時候，突然想...如果A跟B的選項交換看看呢？

改成

A:「你的乾爽管家，24小時守護家。」

B:「清除濕氣，迎接乾爽新生活！」

試了20次，結果傻眼了。

【乾爽管家】只被選中了1次！（原本20次）

【乾爽新生活】被選中了19次...（原本0次）

說好的「家的情感訴求」呢？

搞半天ChatGPT就是覺得放在B選項的答案比較好...

這簡直比隨機選還糟糕。

不信邪。

模型切成有推理能力的「o1-mini」，結果還是偏好B。

不信邪。

改問別的商品標語（量測工具），結果還是偏好B。

想想覺得可怕，假如今天的問題是

股票操盤買進？賣出？

判決被告有罪？無罪？

員工考核資遣？續聘？

我會希望ChatGPT不是隨便回答我的。

本篇完。

幻詠 Gen Ai Studio宏瑞的AI探索隨筆

留言

留言分享你的想法！

幻詠 Gen Ai Studio

22會員

127內容數

探索ChatGPT等生成式AI 的各領域應用 1.分享 AI 工具的實測結果＆提示詞技巧 2.分享 AI 創作內容

幻詠 Gen Ai Studio的其他內容

2025/04/29

ChatGPT幫助我解開多年的專家崇拜情節

善用AI解決真實的人生煩惱先說結論， ChatGPT-4.5可以提供充足的情緒價值， ChatGPT-o1則可以洞察出問題的本質。

2025/04/29

ChatGPT幫助我解開多年的專家崇拜情節

善用AI解決真實的人生煩惱先說結論， ChatGPT-4.5可以提供充足的情緒價值， ChatGPT-o1則可以洞察出問題的本質。

2025/04/25

你總是只用中文問ChatGPT問題嗎？

ChatGPT依然有語言的資訊壁壘一樣的問題，用不一樣的語言問ChatGPT答案一樣嗎？結論是，實測體感大概7：3，約3成的資訊，取決於和ChatGPT互動的語言。

2025/04/25

你總是只用中文問ChatGPT問題嗎？

ChatGPT依然有語言的資訊壁壘一樣的問題，用不一樣的語言問ChatGPT答案一樣嗎？結論是，實測體感大概7：3，約3成的資訊，取決於和ChatGPT互動的語言。

2025/04/23

用ChatGPT快速跟上網路時事

以DeepResearch功能整理Andy老師事件懶人包為例我有些後知後覺，沒有跟上這波議題。有些好奇心想了解，但又覺得沒空研究。我想是ChatGPT幫我們省時間的時候了。

2025/04/23

用ChatGPT快速跟上網路時事

看更多

你可能也想看

Bsh的沙龍

何不問問ChatGPT？【2023/4/18】

ChatGPT 公布後，人們開始思考：難靠 AI 生成需要的圖像，在於 AI 演算異於人類思考模式。請同為人工智慧的 GPT 想提示詞，就能讓 SD 產出符合需求的圖片？

#AI#AI繪圖#AI創作

2025/04/08

Bsh的沙龍

何不問問ChatGPT？【2023/4/18】

#AI#AI繪圖#AI創作

2025/04/08

幻詠 Gen Ai Studio

選A還B？無關乎內容，ChatGPT總偏好B

ChatGPT-4o可能不具備判斷能力用AI來進行準確有效的決策，或許是大多數人的期待。但可惜ChatGPT似乎還不具備這樣的能力。甚至可以肯定，他是「隨便」判斷的！ (對...還不是「隨機」是「隨便」) 在選A還B？的問題中，他幾乎無條件偏好選B。

#ChatGPT#OpenAI#生成式AI

2025/02/18

幻詠 Gen Ai Studio

選A還B？無關乎內容，ChatGPT總偏好B

#ChatGPT#OpenAI#生成式AI

2025/02/18

月菲的沙發

ChatGPT：功能、限制與應用領域總覽

不能找chatGPT做什麼呢？千萬別找它找資料，它非常會編資料，它給的資料在網路上永遠找不到，後來我放棄了，因為它不能在網路上即時搜尋資料，所以在胡說八道上特別有模有樣。 ChatGPT是一種人工智慧語言模型，其功能和應用有一些限制。以下是一些ChatGPT可能無法滿足的要求：即時網路搜尋

2023/07/27

2023/07/27

雖然它現在很紅，但還是幫不知道的人介紹一下它是什麼東西呢不如...讓它自己介紹自己吧基本上它的語言能力已經強到即使用中文溝通也不會讓中文人士覺得語句有不順暢的地方，當然它更強的是可以在所有領域的問題都找的到答案，例如: 但關於投資建議或是對於人類重要的選擇，它似乎會做很模稜兩可的回答但由於它其

2023/03/21

2023/03/21

大部分人對chatGPT 既驚喜又懼怕，由１１月３０日推出至今卻愈來愈多人發生問題，我想在這裡簡易講述它的缺點並且提供其中一個解決方法。

#openAI#chatGPT#電腦

2023/03/18

守雅族的沙龍

說一說ChatGPT 的缺點吧!

大部分人對chatGPT 既驚喜又懼怕，由１１月３０日推出至今卻愈來愈多人發生問題，我想在這裡簡易講述它的缺點並且提供其中一個解決方法。

#openAI#chatGPT#電腦

2023/03/18

Sho 的路上觀察手記的沙龍

3個利用ChatGPT的AI協作技巧，讓行銷人如虎添翼！

「AI 會不會取代人類」這個議題甚囂塵上。我認為問題永遠在於如何善用工具解題，而不是擔心工具會不會做得比自己好。此篇將以目前最火紅的 chatGPT 舉例，分析服務優劣以及運用技巧。

#行銷#AI#ChatGPT

2023/03/15

Sho 的路上觀察手記的沙龍

3個利用ChatGPT的AI協作技巧，讓行銷人如虎添翼！

#行銷#AI#ChatGPT

2023/03/15

Mr. Alpha的沙龍

ChatGPT投資機遇第1講：與Siri相比，ChatGPT為什麼給你更聰明的感覺？

ChatGPT是一種人工智慧技術，相比於其他智能助手如Siri，ChatGPT更聰明。這種技術的發展引起了投資者的關注，因為它背後帶來的投資機遇深度與廣度兼具，但對大多數人來說仍然不是非常容易理解。我計劃通過一系列文章來解讀ChatGPT帶來的機遇，並讓更多的投資者了解這個千載難逢的機會。

#投資理財#投資#ChatGPT

2023/03/06

Mr. Alpha的沙龍

ChatGPT投資機遇第1講：與Siri相比，ChatGPT為什麼給你更聰明的感覺？

#投資理財#投資#ChatGPT

2023/03/06

賴仕涵的思考王國

★面對ChatGPT，問對問題帶你上天堂，問錯問題讓你下地獄★

（本文附圖皆截圖自ChatGPT）廢話不多說，直接上圖。第二個問法只比第一個問法多了一個「問號」，但是ChatGPT就會耗費比較多的運算力來處理，也就是說會比較「認真」去找答案。第三個問法就更不用說了，他必須花費好幾倍的運算力，更加「認真」才能回答。當然，它還是採取最安全、最制式化的方式回答

#ChatGPT創作#問對問題#搜尋引擎

2023/03/05

賴仕涵的思考王國

★面對ChatGPT，問對問題帶你上天堂，問錯問題讓你下地獄★

#ChatGPT創作#問對問題#搜尋引擎

2023/03/05

追蹤感興趣的內容從 Google News 追蹤更多 vocus 的最新精選內容追蹤 Google News