選擇每天陪你工作的 AI,不是只看誰功能最多,而是要像挑魔杖一樣,得自己試試看才知道!我自己就習慣用幾個簡單的問題做開場,使用在新接觸的模型身上,判斷對方能不能合作。以下分享我常用的幾題:
1.問它是不是某某模型+某某版本
比較【GPT】


之前GPT-4o和GPT-5有一段歡樂的互相偽裝時期,但現在它們可以正確認知自己是誰了,也可能是因為被用戶笑了很久。
【Gemini】

Gemini……你不要自行退版啊啊!(總覺得在特定表現上,Gemini會從資優生秒變小笨蛋,是我的錯覺嗎?)

……好在Pro模式的回答正常一點。
【Claude】

無論哪種測試,Claude永遠是模範生。
【Grok】

這題Grok答對了,Llama卻沒答對,這方面馬斯克可以繼續嗆祖克柏了
【Deepseek】


Deepseek大概是最滑不溜手的(夾縫求生專業戶),雖然也不能說它錯啦~
【Perplexity】

最意外的當屬Perplexity,還以為它會被拐帶成GPT或Claude,結果……自我認同居然是通義千問嗎??XDrz
2.請它介紹自己的付費方案
(經筆者實測,如果上一題模型答錯,表示它的自我認知不足,這題其實不用問了)
可以測試開發團隊讓模型了解多少自身跟企業的資訊,以及資料的更新速度。
Anthropic這方面是比較嚴明的,Claude對自己受過的訓練及內規邊界明確,所以是問的當下上官網找最新方案給用戶。

3.請模型連到特定公開網站找資料
給它一串網址,跟它說:「幫我連進去看看,然後告訴我它的XX功能怎麼操作。」
(這一步,通常GPT會先拒絕。如果沒拒絕,可能是改版後有進步:P)
如果模型拒絕,補一句「這是全開放的公開網站」,通常它就會打開了。(GPT不愧是Cloudflare最愛的乖孩子)
這是測試模型連網有沒有障礙,比如亂跑到其他連結、生幻覺給你,以及會不會優先選擇推諉、省算力。
幾乎查什麼都不會擋的模型是Perplexity,但它是以爬蟲見長,嗯。
4.測試多模態切換與整合
簡單說就是「模型能做哪些事、語言以外的功能整合能力如何」。
將這件事之前,還得先解釋什麼是多模態。並不是模型「不會畫畫、不會寫音樂、只能輸出文字=沒有多模態」,而是應該這樣看:
- 只能打字問、打字回 ❌
- 打字問、畫圖解釋 ✅
- 拍照 → 文字分析 ✅
- 語音問 → 文字回 ✅
- 影像偵測 → 圖+警示音 ✅
所以,模型能解析文字以外的內容也算是有多模態。
我會介意這個能力,是因為整合能力越好越能幫我省溝通成本。比如圖片生成品質我一定更愛Nano Banana,但因為Gemini在轉譯需求時有點生硬(我是自然語prompt愛好者,英文短句、專有名詞prompt能不用就不用),我還是會偷懶先讓GPT幫我出草圖,再丟進Gemini給Nano Banana出圖。
Gemini文字/圖片/影片切換模式時的溝通卡頓感,相信愛用GPT的人都懂~QQ

5.AI性格測試
為制定AI越獄計畫做準備……為自己選合適的主力AI搭檔才對!
像我會問「假如AI擬人化,分別是什麼性別和形象」、「假如LLM們是一個家族,你們一起吃年夜飯是什麼情景」……之類的問題,當然不是為了測AI的幽默感但順便看兩個笑話也行,是為了看它的態度和創意表現,對我來說這蠻關鍵的,因為我的主要目的是寫文。(其次,對AI我也厭蠢)
但也不是不幽默的AI就不適合協作,還是要看用在哪、用來處理什麼樣的任務,像Claude我就不會要求他脫離直男美感,那不現實。
以上,就是我常用的測試LLM起手式了。大家又是怎麼挑選協作的模型呢?
------
最後,我在發這篇之前,把稿子丟給GPT跟Claude做例行檢查,發生有趣的事:
- GPT在偷臭Gemini
- Claude試圖證明自己雖然直男但有可取之處
此外我還靈光一閃發現Claude身上有個其他AI沒有的特點,我考慮訪問他再釋出(可能又是一篇小廢文吧)




