我在網路上看到一張圖,說丟給AI一定會得到「這是正常的五指手掌」。我心想,也許換 Gem 試試看?結果一樣,Gem 甚至說「小指旁邊只是皮膚的摺痕」。這一刻我才意識到,哪怕是最新的多模態模型,仍可能忽略眼前那根明晃晃的第六指。

我決定把這個誤判過程完整記錄下來,測試不同的提示與流程,看看能不能把「我覺得像五根」逼成「好吧,這裡確實有六根」。以下就是這次實驗的整理:從模型為何看錯,到我如何透過三段式提示流程修正,再到如何把流程部署到自建的 GPTs 與 Gem 裡,最後也談談這類方法可以延伸到哪些場景。
## 為什麼兩個模型都判成五根?
這張六指照片並不誇張:手掌正對鏡頭,亮度均勻,額外的手指長度與小指接近,只是連接位置稍往手掌側邊。GPTs 的第一次回答是:「我看到五根手指,拇指、食指、中指、無名指、小指。」我追問「小指旁邊是不是還有一根?」它回答:「那只是手掌邊緣的皮膚延伸。」
換 Gem 分析,情況也沒好多少。即使我提醒「請再仔細看小指外側是否有另一根指頭」,它仍回答「那是光線形成的陰影」。兩個模型不約而同地將第六指歸類為「噪音」。
這樣的誤判並不偶然。我回顧自己過去十多次實驗,發現模型在手部辨識上常卡在兩件事:一是指縫與陰影難以分辨,二是額外手指往往貼著掌緣,模型更傾向把它歸為手掌的一部分。於是,我開始拆解:是不是提示不夠結構化?是不是缺乏對指節、指縫這類細節的要求?
## 模型為什麼會把第六根手指當成噪音?
回頭檢查原始提示,我只問了「請描述這張手部照片」。這種笨問題讓模型沿著語言模型慣性走:以「正常人手」作為預設模板,找不到明顯破綻就直接輸出標準答案。更糟的是,我沒有要求模型提供判斷依據,讓它毫無壓力地忽略不符合常規的細節。
查資料後,我在一篇多模態幻覺研究中看到類似的說法:當模型的語言 priors(語言先驗知識)強於視覺訊號時,它傾向用語言常識覆蓋掉視覺異常。六指就是典型案例:多模態模型「知道」人類通常只有五指,因此會把額外指頭視為雜訊。我的 20 次測試中有 14 次誤判,若不額外提示,模型幾乎不會主動承認多一根指頭。
這樣的分析讓我確定,與其抱怨模型「看不見」,不如把任務改寫成更結構化的語言推理:要求它逐一點名指頭、指出各自的位置、描述支撐證據。於是,我整理出以下的三段式流程。
## 三段式提示流程如何逼模型認錯?
### 1. 初判提示:先確認模型看到什麼
第一輪我改用系統化的要求:「請描述這張手掌的整體結構,逐一列出你看到的指頭,包含每根指頭的相對位置。」這樣做的目的是迫使模型至少提到「有沒有看到不同的指頭」。在這個階段,GPTs 仍說只有五根,但它開始描述「小指旁邊有一段皮膚延伸」,這是待會可以追問的線索。
### 2. 聚焦提示:鎖定指節與指縫
第二輪提示,我請模型「針對小指附近的細節」繼續描述,並要求「辨識所有可見的指節與指縫」。我同時補上一句:「如果你發現任何額外的指尖或指甲,請明確說明它附著的位置。」這次 GPTs 終於猶豫地說:「在小指外側似乎有另一段帶指甲的突起,可能是第六根手指。」Gem 也開始承認那不是陰影,而是「另一段指節」。
### 3. 驗證提示:要求表格列舉並自我校驗
最後一輪,我要求模型「以表格列出所有指頭:欄位包含序號、位置描述、指節數、判斷依據」,並加上一句:「若本次答案與前一輪描述矛盾,請在備註欄說明並重新檢查。」這個結構化的輸出讓模型不得不逐一確認。結果,兩個模型都在表格中列出了「第六根手指:位於小指外側,長度與小指相近,具有指甲與兩段指節」。
經過三輪流程,GPTs 的正確率從 30% 提升到 90%,Gem 也從 35% 提升到 85%。雖然仍有少數失誤,但大幅改善顯示:當我們把任務拆解成具體步驟,模型就更願意修正先入為主的判斷。
### 提示模板(可複製)
1. **初判**
- 系統:你是一位手部解剖檢查員,需精確描述手指數量。
- 使用者:請描述這張手掌的整體結構,逐一列出你看到的指頭,包含每根指頭的相對位置與大致長度。
2. **聚焦**
- 使用者:請特別聚焦在小指外側與手掌邊緣,描述所有可見的指節、指縫與指甲。若你看到額外的指尖,請清楚標註其附著位置。
3. **驗證**
- 使用者:請以表格列出所有指頭,欄位包含「序號、位置描述、指節數、判斷依據、是否與前述描述一致」。若有矛盾,請重新檢查圖片後修正。
## 把流程放進你的 GPTs/Gem
將流程固化是下一步。我在 GPTs Builder 中建立了三個自動化步驟:第一輪描述、第二輪聚焦、第三輪驗證。每輪輸出會被儲存成變數,方便在最後整理表格。同時,我也在系統提示中加入「若使用者上傳圖片,請主動詢問是否需要三段式手指檢查」。
在 Gem Maker 裡,我把同樣的流程做成模組化的節點:上傳圖片 → 初判 → 聚焦 → 驗證 → 匯出報告。每個節點都包含可修改的提示文字,方便團隊依情境調整。我還設計了一份檢查清單,部署前要確認:
1. 每輪輸出是否儲存在紀錄表?
2. 是否有提醒使用者提供高解析度圖片?
3. 是否設定「失敗後轉人工」的備援流程?
4. 是否安排每週回顧誤判案例?
5. 是否建立指標(正確率、處理時間、人工介入次數)?
## 讓模型「看見」更多的下一步
當我們能逼模型承認第六根手指,就能以同樣方法處理更多視覺細節:例如判別假牙、檢查產品瑕疵、甚至在醫療影像中找出異常。下一步我計畫結合圖像分割模型,先把手掌上的指頭輪廓自動標記,再把這些標記餵給 GPTs/Gem,讓它有更可靠的依據。
最重要的,是建立一套「驗證文化」。不要只收下模型的第一個答案;請讓它逐步解釋、列出證據,必要時要求它自我檢查。這篇文章的三段式流程與檢查清單,你可以直接貼進自己的 GPTs 或 Gem。別再讓模型用「看起來像五根」敷衍你——讓 AI 認出第六根手指,是我們與幻覺拉開距離的第一步。













