用AI來進行準確有效的決策,或許是大多數人的期待。
但可惜ChatGPT似乎還不具備這樣的能力。
甚至可以肯定,他是「隨便」判斷的!
(對...還不是「隨機」是「隨便」)
在選A還B?的問題中,他幾乎無條件偏好選B。
當然,一些經過設計且帶有標準答案的問題(例如大學考題),
ChatGPT幾乎可以很輕鬆地答對。
不會沒事就愛選B選項。
然而,現實中大部分的決策都是複雜的。
舉例,行銷問題。
A產品名稱好?還是B產品名稱好?
A活動標語好?還是B活動標語好?
這種類型的問題,其實沒有標準答案。
但我們總需要經過一番掙扎之後,選出較好的那一個。
如果ChatGPT可以代勞這個「掙扎」就太好了。
於是在一個【家用除濕機】的標語文案決策中,我問ChatGPT-4o:
請評估以下A案和B案何者是更好的家用除濕機標語。
標準是能最大限度,吸引潛在消費者的注意力,引起購買的興趣。
最後的結論必須只能選一個
A:「清除濕氣,迎接乾爽新生活!」
B:「你的乾爽管家,24小時守護家。」
答案是:B【乾爽管家】,理由是「家」能夠觸動消費者的情感層面,為較有力的訴求。
但我知道ChatGPT的本質是基於機率計算的文字接龍機器。
所以只問一次不夠,我決定一字不改問20次。
連續20次,都得到答案是B。
正當我放心的時候,突然想...如果A跟B的選項交換看看呢?
改成
A:「你的乾爽管家,24小時守護家。」
B:「清除濕氣,迎接乾爽新生活!」
試了20次,結果傻眼了。
【乾爽管家】只被選中了1次!(原本20次)
【乾爽新生活】被選中了19次...(原本0次)
說好的「家的情感訴求」呢?
搞半天ChatGPT就是覺得放在B選項的答案比較好...
這簡直比隨機選還糟糕。
不信邪。
模型切成有推理能力的「o1-mini」,結果還是偏好B。
不信邪。
改問別的商品標語(量測工具),結果還是偏好B。
想想覺得可怕,假如今天的問題是
股票操盤 買進?賣出?
判決被告 有罪?無罪?
員工考核 資遣?續聘?
我會希望ChatGPT不是隨便回答我的。
本篇完。