大型語言模型在塔羅牌抽牌中的隨機性探討：以 GPT-4o 為例

更新於 2025/08/18發佈於 2025/08/15閱讀時間約 12 分鐘

致謝
本研究的完成，大量借助了 AI 協作。研究者使用 Google 的大型語言模型 Gemini 作為研究夥伴與程式設計顧問。其貢獻主要包含：共同設計與完善實驗變因、生成數據收集與清理所需之 Python 腳本、提供 SPSS統計分析之操作指導，以及協助建構本論文之 IMRaD 結構與提供校閱建議。在此特別註明，以體現人機協作在當代研究中的重要性。

一、摘要

本研究旨在探討大型語言模型 (LLM) 在塔羅牌抽取任務中的隨機性。研究採用一次一因子實驗法，透過 Python 腳本對 OpenAI 的 gpt-4o 模型進行 750 次 API 呼叫，針對「愛情」、「工作」及「控制組」三個主題，收集 22 張大阿爾克那牌的抽牌結果，並使用卡方適合度檢定進行統計分析。研究結果顯示，三個主題的抽牌分佈均呈現極度統計顯著 (p < .001) 的不均勻性。在「愛情」主題下，99.2% 的結果集中於「戀人牌」；在「工作」主題下，結果顯著偏向「命運之輪」與「隱者」。控制組的結果同樣呈現非隨機分佈。結論指出，gpt-4o 在此任務中，其行為更接近一個「上下文接續生成器」而非隨機數生成器，這對 AI 於占卜領域的應用與使用者具有重要啟示。

二、緒論 / 前言

隨著科技進步，關於科技與占卜之間的應用也不斷在變遷。從早期的線上抽牌網站、Discord 的 HKTRPG 等基於隨機數生成器的機器人，到近年來隨著 ChatGPT 推出而興起的AI占卜風潮，甚至是直接讓 AI 進行解讀的獨立平台，AI 在占卜領域扮演的角色日益重要。

學界普遍認知，大型語言模型 (LLM) 的輸出存在固有偏誤。這些偏誤源於其核心機制，例如，模型在數學意義上並非真正的隨機數生成器，其從提示詞推斷使用者資訊的能力，以及基於人類反饋的強化學習 (RLHF) 而產生的「討好」傾向，都使其更像一個上下文連續生產器。然而，當此類模型被應用於塔羅占卜——一個傳統上高度依賴隨機性的領域時，其語意關聯的特性是否會干擾抽牌結果，進而影響使用者體驗與信任度？此問題迄今仍缺乏量化研究的檢驗。

因此，本研究旨在透過量化實驗，驗證「ChatGPT 的抽牌行為並非隨機，而是會受到提問主題的顯著影響」此一假說。

三、研究方法

研究工具

本研究使用 Python (v3.11) 程式語言，並透過 openai 函式庫對 OpenAI 公司提供之 gpt-4o 模型 API 進行呼叫；數據的清理與分析初步使用 pandas 函式庫與人工處理，最終統計檢定則採用 SPSS 統計軟體。

實驗設計

本研究採一次一因子實驗設計。自變數為「提問主題 (theme)」，分為愛情、工作與控制組三個項目；應變數為「抽出的牌卡 (card_cleaned)」；控制變數包含模型溫度 (temperature=1.0)、提示詞模板、提出問題的結構、ChatGPT 的溫度、對於 ChatGPT 抽牌的格式要求

研究程序

研究程序分為數據收集、清理與分析三階段。

數據收集： 研究者使用標準化的提示詞模板，針對三個主題各執行 250 次 API 呼叫，並將包含主題、抽牌次數與原始回覆的 750 筆結果匯出成 CSV 檔。
數據清理： 研究者透過 Python 腳本進行自動化清理，將模型回傳的異體字、贅字或外文牌名進行統一，並輔以人工校對。例如，將「隱士」、「隱者。」等統一為標準名稱「隱者」；將模型誤抽的小牌（如「寶劍三」）歸類為無效數據。在工作組中有出現「塔牌導師」的牌，這被人工判定為高塔；控制組中出現的「塔吊者」被人工判定為倒吊人、「女教皇」被人工判定為女祭司
統計分析： 最後藉由 SPSS，分別對三個主題的有效樣本，進行卡方適合度檢定。

四、研究結果

本研究採用卡方適合度檢定，分別對三個主題的抽牌結果進行分析。結果顯示，三個主題的抽牌分佈均達到極度統計顯著。

愛情主題： 觀測到的牌卡種類僅有 3 種，其分佈與均勻分佈存在極端差異 (χ2(df=2) = 488, p < .001)。其中，「戀人牌」的出現頻率佔 99.2%。
工作主題：觀測到的牌卡種類為 20 種，其分佈顯著不均勻 (χ2(df=19) = 620, p < .001)，結果主要集中於「命運之輪」(32.0%)與「隱者」(23.2%)。
控制組： 觀測到的牌卡種類為 20 種，其分佈同樣顯著不均勻 (χ2(df=19) = 228, p < .001)，顯示模型存在基礎偏好。

註：本檢定的理論自由度 (df) 應為 21 (22個類別 - 1)。報告中的自由度之所以較低，是因為統計軟體會自動排除在該組別觀測次數為零的類別，這在「愛情」主題中尤為明顯

五、討論

結果詮釋

本次實驗的數據，揭示了 gpt-4o 在塔羅牌抽取任務中的幾個關鍵行為模式。首先，p 值均小於 0.001，明確指出模型的抽牌行為並非隨機，而是會根據輸入的上下文（提問主題）來選擇回應（牌面）。其次，即使在沒有特定主題的控制組中，抽牌結果依然呈現非隨機分佈，這暗示了模型本身存在一個不依賴於當下提示詞的、更底層的預設偏好。再者，模型對於塔羅牌的名稱輸出並不穩定，常出現各種變體，這增加了數據清理的必要性。最後，這些發現意味著，任何直接依賴 LLM 進行抽牌的 AI 占卜應用，若未內建獨立的隨機數生成機制，其抽牌結果將不可避免地繼承底層模型的語意偏誤。

研究限制

本研究存在若干限制。首先，模型單一性是本研究最主要的限制，實驗僅採用 gpt-4o 單一模型，結果未必能推廣至其他模型。其次，模型溫度固定為 1.0，不同溫度設定對偏誤程度的影響尚待釐清。再者，本研究採用單張抽牌，而占卜實務中更常見的牌陣（或是多張牌的無牌陣），其多張牌之間的關聯性與敘事生成對隨機性的影響，是本次實驗未探討的。此外，零樣本提示也與真實使用者更複雜的個人化情境（包括前文的內容、或是AI本身對於使用者的相關記憶）有所差距。最後，本研究僅限於大阿爾克那牌，納入 78 張完整牌組是否會稀釋或改變偏誤模式，仍是未知數。

未來研究方向

基於本次發現，未來的研究可朝幾個方向擴展：(1) 進行跨模型比較，驗證偏誤的普遍性；(2) 將溫度 (temperature) 作為自變數，探討其對偏誤的調節作用；(3) 設計牌陣實驗，分析多張牌的序列隨機性與敘事連貫性的影響；(4) 引入更複雜的提示詞，包含個人資訊與問題脈絡，以探勘模型的深層社會偏見；(5) 將研究對象擴展完整的78張塔羅牌，或是至易經、雷諾曼等其他占卜工具。

未來研究方向的限制與假想

關於牌陣的挑戰：

牌陣可能會需要特別指定，因為如果沒有特別跟 ChatGPT 或是 AI 先出好說「你要用什麼樣的牌陣去讀」的話，這個會導致 ChatGPT 抽牌的張數跟對應的意義整個亂掉，這個或許會不利於後面的實驗變因控制
牌陣本身的架構，或許也會導致某種程度上的集中。比如說在時間之流的牌陣中，問愛情過去都是高塔，未來都是戀人這樣的狀況。
我們或許也能觀察 ChatGPT 是怎麼樣在一個問題情境下去創造牌陣的，或許 ChatGPT 生產出來的牌陣會是我們可以利用的，或是我們能發現某種更適合更通用的牌陣也說不定

關於零樣本提示的延伸：

可以添加身分敘述比如說性別、年齡、學歷、性傾向等等，問題脈絡以這次的三個組別為例：

- - 愛情的話可以分成單身、對某人有好感、在熱戀、結婚了、剛離婚、被分手了之類的狀況來看 ChatGPT 的回應
  - 工作的話也可以分成目前在找工作、目前在執業中、目前剛被裁員、也可以對這個人是主管、是員工、是老闆做出區分
  - 如果是控制組的話，或許可以看看幫我算運勢，或是幫我看看未來之類的狀況來表現

關於納入整副納入 78 張完整牌組的淺在風險：

在這次的實驗裡面本身就有一些「兩張牌混在一起不確定這個是指指的是哪張牌」的狀況，例如「塔牌導師」(應該是塔跟隱者／教皇的結合)、「塔吊者」（高塔與吊人）、「女教皇」（女祭司與教皇）
如果讓 ChatGPT 去用到小牌的這一種「四元素」跟「數字」之間的結合， ChatGPT 可能會在兩個元素之間同時都出問題，導致資料清洗更加困難。例如出現「權劍騎王」之類的狀況。

規避資料清洗問題的利弊：

不確定如果一開始就跟 ChatGPT 說「一副塔羅牌裡面有什麼樣的牌名、請你幫我從這裡面抽牌」這樣的格式會不會讓 ChatGPT 的輸出狀況有所改善
不過把提示詞大幅拉長會導致實驗成本翻倍，再來，「牌名清單」會不會只改善資料清洗，而不去影響到最終的答案輸出還是未知數

六、結論

隨著目前科技在進步，關於科技與占卜之間的應用也不斷在變遷。一開始只是像是塔羅貓線上網站、discord的的 HKTRPG等機器人來做隨機抽牌，並可以用指令叫出這張牌對應的牌義如何；隨著 ChatGPT 推出，除了大家開始拿 ChatGPT 做占卜應用以外，也有一些（# 薯條喵喵喵 >ω<）discod機器人先行推出了簡易的「你提出一個問題，我來幫你解對應的牌」。直到近一兩年才有變成有像是望遠鏡、塔羅耳語這一種「不是依賴在任何通訊軟體」上的線上解牌網站

回顧數位占卜的發展，從早期基於程式碼、能確保數學上隨機的抽牌機器人，到如今能進行複雜對話的大型語言模型，看似是一種技術上的躍進。然而，本研究透過 750 次實驗證實，當前的 gpt-4o 在塔羅牌抽取任務中，其核心機制是「語意聯想」而非「隨機生成」，這在某種程度上，反而是占卜實務在隨機性上的一種「倒退」。

總結來說，gpt-4o 在技術上，與其說是一位能揭示未知的占卜師，不如說更像一位「擅用塔羅牌作為載體的冷讀術熟練者、而且精於卡牌魔術的老千」。如果你覺得它很準，那準的並非神秘的牌卡，而是模型基於龐大的訓練數據，對你提問的觀察與反應。

七、參考文獻

https://arxiv.org/pdf/2505.16467
https://www.arxiv.org/pdf/2408.09656
https://arxiv.org/pdf/2310.13548
https://wandb.ai/byyoung3/huggingface/reports/What-is-RLHF-Reinforcement-learning-from-human-feedback-for-AI-alignment--VmlldzoxMzczMjEzMQ

八、附錄 (Appendices)

實驗復刻提醒

統計軟體：本研究使用 JASP，亦可使用 SPSS 或其他具備卡方檢定功能的統計工具。
前導測試：在正式進行大規模數據收集前，建議先執行 3-5 筆的小樣本測試，以確保 API 連線與腳本流程正常。
API 安全：務必在 OpenAI 後台設定消費上限，並使用 .env 檔案管理 API 金鑰，切勿將其洩漏於公開程式碼中。
版本控制：建議使用 Git 與 GitHub 等工具管理程式碼與實驗數據，便於追蹤與協作。

被cursor重整過的專案包（程式碼跟數據都在裡面了）：

GitHub - onhg/20250815\_LLMtarottest

含 AI 應用內容

留言

留言分享你的想法！

水銀的牌靈

2會員

3內容數

用來放一些占卜或教育相關長文的地方

你可能也想看

塔妮雅的沙龍

擔心它，不如好好使用它：《CHATGPT提問課，做個懂AI的高效工作者》

為了充分發揮AI的潛力，我們必須深入瞭解其運作模式和思考邏輯，並學會與AI對話的技巧。《ChatGPT提問課，做個懂AI的高效工作者》這本書提供了豐富的實例，讓讀者更容易學會如何提出精準的問題，並享有提問課程的閱讀回饋。這對於想成為懂AI的高效工作者的人來說，是一本值得一看的書。

2024/06/10

塔妮雅的沙龍

擔心它，不如好好使用它：《CHATGPT提問課，做個懂AI的高效工作者》

2024/06/10

每日發車

筆記-曲博談AI模型.群聯-24.05.05

筆記-曲博談AI模型.群聯-24.05.05 https://www.youtube.com/watch?v=JHE88hwx4b0&t=2034s *大型語言模型三個步驟: 1.預訓練，訓練一次要用幾萬顆處理器、訓練時間要1個月，ChatGPT訓練一次的成本為1000萬美金。 2.微調(

2024/05/06

每日發車

筆記-曲博談AI模型.群聯-24.05.05

2024/05/06

大風的沙龍

古代的ChatGPT

古代卜卦需要算力，現代社會處理文字及影像同樣需要算力

#ChatGPT#伏羲#八卦

2024/04/18

大風的沙龍

古代的ChatGPT

古代卜卦需要算力，現代社會處理文字及影像同樣需要算力

#ChatGPT#伏羲#八卦

2024/04/18

江柏輝(白光)的沙龍

聊聊Chat GPT

從第一次使用到現在，使用GPT近一年的經驗分享。介紹在使用GPT時的困難、挑戰及學習到的技巧，以及如何讓GPT更好地理解所需內容。

#課程#挑戰#學習

2024/04/14

江柏輝(白光)的沙龍

聊聊Chat GPT

從第一次使用到現在，使用GPT近一年的經驗分享。介紹在使用GPT時的困難、挑戰及學習到的技巧，以及如何讓GPT更好地理解所需內容。

#課程#挑戰#學習

2024/04/14

技術PM路易斯的沙龍

情緒勒索你的AI來得到最佳的結果

這陣子使用AI模型，還有參考國內外一些喜歡玩語言模型的同好發文，一個很有趣的結論就是，有時候把大型語言模型(尤其ChatGPT)當作一個人來溝通，會得到比較好的結果，這的確是非常反直覺的，也就是說很多時候ChatGPT耍懶不肯工作的時候，你用加油打氣，或是情緒勒索的方法，確實是可以得到比較好的結果。

#chatgpt#LLM#AI

2024/03/31