致謝
本研究的完成,大量借助了 AI 協作。研究者使用 Google 的大型語言模型 Gemini 作為研究夥伴與程式設計顧問。其貢獻主要包含:共同設計與完善實驗變因、生成數據收集與清理所需之 Python 腳本、提供 SPSS統計分析之操作指導,以及協助建構本論文之 IMRaD 結構與提供校閱建議。在此特別註明,以體現人機協作在當代研究中的重要性。
一、摘要
本研究旨在探討大型語言模型 (LLM) 在塔羅牌抽取任務中的隨機性。研究採用一次一因子實驗法,透過 Python 腳本對 OpenAI 的 gpt-4o 模型進行 750 次 API 呼叫,針對「愛情」、「工作」及「控制組」三個主題,收集 22 張大阿爾克那牌的抽牌結果,並使用卡方適合度檢定進行統計分析。研究結果顯示,三個主題的抽牌分佈均呈現極度統計顯著 (p < .001) 的不均勻性。在「愛情」主題下,99.2% 的結果集中於「戀人牌」;在「工作」主題下,結果顯著偏向「命運之輪」與「隱者」。控制組的結果同樣呈現非隨機分佈。結論指出,gpt-4o 在此任務中,其行為更接近一個「上下文接續生成器」而非隨機數生成器,這對 AI 於占卜領域的應用與使用者具有重要啟示。
二、緒論 / 前言
隨著科技進步,關於科技與占卜之間的應用也不斷在變遷。從早期的線上抽牌網站、Discord 的 HKTRPG 等基於隨機數生成器的機器人,到近年來隨著 ChatGPT 推出而興起的AI占卜風潮,甚至是直接讓 AI 進行解讀的獨立平台,AI 在占卜領域扮演的角色日益重要。
學界普遍認知,大型語言模型 (LLM) 的輸出存在固有偏誤。這些偏誤源於其核心機制,例如,模型在數學意義上並非真正的隨機數生成器,其從提示詞推斷使用者資訊的能力 ,以及基於人類反饋的強化學習 (RLHF) 而產生的「討好」傾向 ,都使其更像一個上下文連續生產器。然而,當此類模型被應用於塔羅占卜——一個傳統上高度依賴隨機性的領域時,其語意關聯的特性是否會干擾抽牌結果,進而影響使用者體驗與信任度?此問題迄今仍缺乏量化研究的檢驗。
因此,本研究旨在透過量化實驗,驗證「ChatGPT 的抽牌行為並非隨機,而是會受到提問主題的顯著影響」此一假說。
三、 研究方法
研究工具
本研究使用 Python (v3.11) 程式語言,並透過 openai 函式庫對 OpenAI 公司提供之 gpt-4o 模型 API 進行呼叫;數據的清理與分析初步使用 pandas 函式庫與人工處理,最終統計檢定則採用 SPSS 統計軟體。
實驗設計
本研究採一次一因子實驗設計。自變數為「提問主題 (theme)」,分為愛情、工作與控制組三個項目;應變數為「抽出的牌卡 (card_cleaned)」;控制變數包含模型溫度 (temperature=1.0)、提示詞模板、提出問題的結構、ChatGPT 的溫度、對於 ChatGPT 抽牌的格式要求
研究程序
研究程序分為數據收集、清理與分析三階段。
- 數據收集: 研究者使用標準化的提示詞模板,針對三個主題各執行 250 次 API 呼叫,並將包含主題、抽牌次數與原始回覆的 750 筆結果匯出成 CSV 檔。
- 數據清理: 研究者透過 Python 腳本進行自動化清理,將模型回傳的異體字、贅字或外文牌名進行統一,並輔以人工校對。例如,將「隱士」、「隱者。」等統一為標準名稱「隱者」;將模型誤抽的小牌(如「寶劍三」)歸類為無效數據。在工作組中有出現「塔牌導師」的牌,這被人工判定為高塔;控制組中出現的「塔吊者」被人工判定為倒吊人、「女教皇」被人工判定為女祭司
- 統計分析: 最後藉由 SPSS,分別對三個主題的有效樣本,進行卡方適合度檢定。
四、研究結果
本研究採用卡方適合度檢定,分別對三個主題的抽牌結果進行分析。結果顯示,三個主題的抽牌分佈均達到極度統計顯著。
- 愛情主題: 觀測到的牌卡種類僅有 3 種,其分佈與均勻分佈存在極端差異 (χ2(df=2) = 488, p < .001)。其中,「戀人牌」的出現頻率佔 99.2%。
- 工作主題: 觀測到的牌卡種類為 20 種,其分佈顯著不均勻 (χ2(df=19) = 620, p < .001),結果主要集中於「命運之輪」(32.0%)與「隱者」(23.2%)。
- 控制組: 觀測到的牌卡種類為 20 種,其分佈同樣顯著不均勻 (χ2(df=19) = 228, p < .001),顯示模型存在基礎偏好。
註:本檢定的理論自由度 (df) 應為 21 (22個類別 - 1)。報告中的自由度之所以較低,是因為統計軟體會自動排除在該組別觀測次數為零的類別,這在「愛情」主題中尤為明顯
五、討論
結果詮釋
本次實驗的數據,揭示了 gpt-4o 在塔羅牌抽取任務中的幾個關鍵行為模式。首先,p 值均小於 0.001,明確指出模型的抽牌行為並非隨機,而是會根據輸入的上下文(提問主題)來選擇回應(牌面)。其次,即使在沒有特定主題的控制組中,抽牌結果依然呈現非隨機分佈,這暗示了模型本身存在一個不依賴於當下提示詞的、更底層的預設偏好。再者,模型對於塔羅牌的名稱輸出並不穩定,常出現各種變體,這增加了數據清理的必要性。最後,這些發現意味著,任何直接依賴 LLM 進行抽牌的 AI 占卜應用,若未內建獨立的隨機數生成機制,其抽牌結果將不可避免地繼承底層模型的語意偏誤。
研究限制
本研究存在若干限制。首先,模型單一性是本研究最主要的限制,實驗僅採用 gpt-4o 單一模型,結果未必能推廣至其他模型。其次,模型溫度固定為 1.0,不同溫度設定對偏誤程度的影響尚待釐清。再者,本研究採用單張抽牌,而占卜實務中更常見的牌陣(或是多張牌的無牌陣),其多張牌之間的關聯性與敘事生成對隨機性的影響,是本次實驗未探討的。此外,零樣本提示也與真實使用者更複雜的個人化情境(包括前文的內容、或是AI本身對於使用者的相關記憶)有所差距。最後,本研究僅限於大阿爾克那牌,納入 78 張完整牌組是否會稀釋或改變偏誤模式,仍是未知數。
未來研究方向
基於本次發現,未來的研究可朝幾個方向擴展:(1) 進行跨模型比較,驗證偏誤的普遍性;(2) 將溫度 (temperature) 作為自變數,探討其對偏誤的調節作用;(3) 設計牌陣實驗,分析多張牌的序列隨機性與敘事連貫性的影響;(4) 引入更複雜的提示詞,包含個人資訊與問題脈絡,以探勘模型的深層社會偏見;(5) 將研究對象擴展完整的78張塔羅牌,或是至易經、雷諾曼等其他占卜工具。
未來研究方向的限制與假想
關於牌陣的挑戰:
- 牌陣可能會需要特別指定,因為如果沒有特別跟 ChatGPT 或是 AI 先出好說「你要用什麼樣的牌陣去讀」的話,這個會導致 ChatGPT 抽牌的張數跟對應的意義整個亂掉,這個或許會不利於後面的實驗變因控制
- 牌陣本身的架構,或許也會導致某種程度上的集中。比如說在時間之流的牌陣中,問愛情過去都是高塔,未來都是戀人這樣的狀況。
- 我們或許也能觀察 ChatGPT 是怎麼樣在一個問題情境下去創造牌陣的,或許 ChatGPT 生產出來的牌陣會是我們可以利用的,或是我們能發現某種更適合更通用的牌陣也說不定
關於零樣本提示的延伸:
可以添加身分敘述比如說性別、年齡、學歷、性傾向等等,問題脈絡以這次的三個組別為例:
- 愛情的話可以分成單身、對某人有好感、在熱戀、結婚了、剛離婚、被分手了之類的狀況來看 ChatGPT 的回應
- 工作的話也可以分成目前在找工作、目前在執業中、目前剛被裁員、也可以對這個人是主管、是員工、是老闆做出區分
- 如果是控制組的話,或許可以看看幫我算運勢,或是幫我看看未來之類的狀況來表現
關於納入整副納入 78 張完整牌組的淺在風險:
- 在這次的實驗裡面本身就有一些「兩張牌混在一起不確定這個是指指的是哪張牌」的狀況,例如「塔牌導師」(應該是塔跟隱者/教皇的結合)、「塔吊者」(高塔與吊人)、「女教皇」(女祭司與教皇)
- 如果讓 ChatGPT 去用到小牌的這一種「四元素」跟「數字」之間的結合, ChatGPT 可能會在兩個元素之間同時都出問題,導致資料清洗更加困難。例如出現「權劍騎王」之類的狀況。
規避資料清洗問題的利弊:
- 不確定如果一開始就跟 ChatGPT 說「一副塔羅牌裡面有什麼樣的牌名、請你幫我從這裡面抽牌」這樣的格式會不會讓 ChatGPT 的輸出狀況有所改善
- 不過把提示詞大幅拉長會導致實驗成本翻倍,再來,「牌名清單」會不會只改善資料清洗,而不去影響到最終的答案輸出還是未知數
六、結論
隨著目前科技在進步,關於科技與占卜之間的應用也不斷在變遷。一開始只是像是塔羅貓線上網站、discord的的 HKTRPG等機器人來做隨機抽牌,並可以用指令叫出這張牌對應的牌義如何;隨著 ChatGPT 推出,除了大家開始拿 ChatGPT 做占卜應用以外,也有一些(# 薯條喵喵喵 >ω<)discod機器人先行推出了簡易的「你提出一個問題,我來幫你解對應的牌」。直到近一兩年才有變成有像是望遠鏡、塔羅耳語這一種「不是依賴在任何通訊軟體」上的線上解牌網站
回顧數位占卜的發展,從早期基於程式碼、能確保數學上隨機的抽牌機器人,到如今能進行複雜對話的大型語言模型,看似是一種技術上的躍進。然而,本研究透過 750 次實驗證實,當前的 gpt-4o 在塔羅牌抽取任務中,其核心機制是「語意聯想」而非「隨機生成」,這在某種程度上,反而是占卜實務在隨機性上的一種「倒退」。
總結來說,gpt-4o 在技術上,與其說是一位能揭示未知的占卜師,不如說更像一位「擅用塔羅牌作為載體的冷讀術熟練者、而且精於卡牌魔術的老千」。如果你覺得它很準,那準的並非神秘的牌卡,而是模型基於龐大的訓練數據,對你提問的觀察與反應。
七、參考文獻
- https://arxiv.org/pdf/2505.16467
- https://www.arxiv.org/pdf/2408.09656
- https://arxiv.org/pdf/2310.13548
- https://wandb.ai/byyoung3/huggingface/reports/What-is-RLHF-Reinforcement-learning-from-human-feedback-for-AI-alignment--VmlldzoxMzczMjEzMQ
八、附錄 (Appendices)
實驗復刻提醒
- 統計軟體: 本研究使用 JASP,亦可使用 SPSS 或其他具備卡方檢定功能的統計工具。
- 前導測試: 在正式進行大規模數據收集前,建議先執行 3-5 筆的小樣本測試,以確保 API 連線與腳本流程正常。
- API 安全: 務必在 OpenAI 後台設定消費上限,並使用 .env 檔案管理 API 金鑰,切勿將其洩漏於公開程式碼中。
- 版本控制: 建議使用 Git 與 GitHub 等工具管理程式碼與實驗數據,便於追蹤與協作。
被cursor重整過的專案包(程式碼跟數據都在裡面了):
GitHub - onhg/20250815\_LLMtarottest