大型語言模型在塔羅牌抽牌中的隨機性探討:以 GPT-4o 為例

更新於 發佈於 閱讀時間約 12 分鐘
致謝
本研究的完成,大量借助了 AI 協作。研究者使用 Google 的大型語言模型 Gemini 作為研究夥伴與程式設計顧問。其貢獻主要包含:共同設計與完善實驗變因、生成數據收集與清理所需之 Python 腳本、提供 SPSS統計分析之操作指導,以及協助建構本論文之 IMRaD 結構與提供校閱建議。在此特別註明,以體現人機協作在當代研究中的重要性。

一、摘要

本研究旨在探討大型語言模型 (LLM) 在塔羅牌抽取任務中的隨機性。研究採用一次一因子實驗法,透過 Python 腳本對 OpenAI 的 gpt-4o 模型進行 750 次 API 呼叫,針對「愛情」、「工作」及「控制組」三個主題,收集 22 張大阿爾克那牌的抽牌結果,並使用卡方適合度檢定進行統計分析。研究結果顯示,三個主題的抽牌分佈均呈現極度統計顯著 (p < .001) 的不均勻性。在「愛情」主題下,99.2% 的結果集中於「戀人牌」;在「工作」主題下,結果顯著偏向「命運之輪」與「隱者」。控制組的結果同樣呈現非隨機分佈。結論指出,gpt-4o 在此任務中,其行為更接近一個「上下文接續生成器」而非隨機數生成器,這對 AI 於占卜領域的應用與使用者具有重要啟示。


二、緒論 / 前言


隨著科技進步,關於科技與占卜之間的應用也不斷在變遷。從早期的線上抽牌網站、Discord 的 HKTRPG 等基於隨機數生成器的機器人,到近年來隨著 ChatGPT 推出而興起的AI占卜風潮,甚至是直接讓 AI 進行解讀的獨立平台,AI 在占卜領域扮演的角色日益重要。


學界普遍認知,大型語言模型 (LLM) 的輸出存在固有偏誤。這些偏誤源於其核心機制,例如,模型在數學意義上並非真正的隨機數生成器其從提示詞推斷使用者資訊的能力 ,以及基於人類反饋的強化學習 (RLHF) 而產生的「討好」傾向 ,都使其更像一個上下文連續生產器。然而,當此類模型被應用於塔羅占卜——一個傳統上高度依賴隨機性的領域時,其語意關聯的特性是否會干擾抽牌結果,進而影響使用者體驗與信任度?此問題迄今仍缺乏量化研究的檢驗。


因此,本研究旨在透過量化實驗,驗證「ChatGPT 的抽牌行為並非隨機,而是會受到提問主題的顯著影響」此一假說。


三、 研究方法

研究工具

本研究使用 Python (v3.11) 程式語言,並透過 openai 函式庫對 OpenAI 公司提供之 gpt-4o 模型 API 進行呼叫;數據的清理與分析初步使用 pandas 函式庫與人工處理,最終統計檢定則採用 SPSS 統計軟體。

實驗設計

本研究採一次一因子實驗設計。自變數為「提問主題 (theme)」,分為愛情、工作與控制組三個項目;應變數為「抽出的牌卡 (card_cleaned)」;控制變數包含模型溫度 (temperature=1.0)、提示詞模板、提出問題的結構、ChatGPT 的溫度、對於 ChatGPT 抽牌的格式要求

研究程序

研究程序分為數據收集、清理與分析三階段。

  • 數據收集: 研究者使用標準化的提示詞模板,針對三個主題各執行 250 次 API 呼叫,並將包含主題、抽牌次數與原始回覆的 750 筆結果匯出成 CSV 檔。
  • 數據清理: 研究者透過 Python 腳本進行自動化清理,將模型回傳的異體字、贅字或外文牌名進行統一,並輔以人工校對。例如,將「隱士」、「隱者。」等統一為標準名稱「隱者」;將模型誤抽的小牌(如「寶劍三」)歸類為無效數據。在工作組中有出現「塔牌導師」的牌,這被人工判定為高塔;控制組中出現的「塔吊者」被人工判定為倒吊人、「女教皇」被人工判定為女祭司
  • 統計分析: 最後藉由 SPSS,分別對三個主題的有效樣本,進行卡方適合度檢定。

四、研究結果

本研究採用卡方適合度檢定,分別對三個主題的抽牌結果進行分析。結果顯示,三個主題的抽牌分佈均達到極度統計顯著。

  • 愛情主題: 觀測到的牌卡種類僅有 3 種,其分佈與均勻分佈存在極端差異 (χ2(df=2) = 488, p < .001)。其中,「戀人牌」的出現頻率佔 99.2%。
  • 工作主題: 觀測到的牌卡種類為 20 種,其分佈顯著不均勻 (χ2(df=19) = 620, p < .001),結果主要集中於「命運之輪」(32.0%)與「隱者」(23.2%)。
  • 控制組: 觀測到的牌卡種類為 20 種,其分佈同樣顯著不均勻 (χ2(df=19) = 228, p < .001),顯示模型存在基礎偏好。

註:本檢定的理論自由度 (df) 應為 21 (22個類別 - 1)。報告中的自由度之所以較低,是因為統計軟體會自動排除在該組別觀測次數為零的類別,這在「愛情」主題中尤為明顯



五、討論

結果詮釋

本次實驗的數據,揭示了 gpt-4o 在塔羅牌抽取任務中的幾個關鍵行為模式。首先,p 值均小於 0.001,明確指出模型的抽牌行為並非隨機,而是會根據輸入的上下文(提問主題)來選擇回應(牌面)。其次,即使在沒有特定主題的控制組中,抽牌結果依然呈現非隨機分佈,這暗示了模型本身存在一個不依賴於當下提示詞的、更底層的預設偏好。再者,模型對於塔羅牌的名稱輸出並不穩定,常出現各種變體,這增加了數據清理的必要性。最後,這些發現意味著,任何直接依賴 LLM 進行抽牌的 AI 占卜應用,若未內建獨立的隨機數生成機制,其抽牌結果將不可避免地繼承底層模型的語意偏誤。

研究限制

本研究存在若干限制。首先,模型單一性是本研究最主要的限制,實驗僅採用 gpt-4o 單一模型,結果未必能推廣至其他模型。其次,模型溫度固定為 1.0,不同溫度設定對偏誤程度的影響尚待釐清。再者,本研究採用單張抽牌,而占卜實務中更常見的牌陣(或是多張牌的無牌陣),其多張牌之間的關聯性與敘事生成對隨機性的影響,是本次實驗未探討的。此外,零樣本提示也與真實使用者更複雜的個人化情境(包括前文的內容、或是AI本身對於使用者的相關記憶)有所差距。最後,本研究僅限於大阿爾克那牌,納入 78 張完整牌組是否會稀釋或改變偏誤模式,仍是未知數。

未來研究方向

基於本次發現,未來的研究可朝幾個方向擴展:(1) 進行跨模型比較,驗證偏誤的普遍性;(2) 將溫度 (temperature) 作為自變數,探討其對偏誤的調節作用;(3) 設計牌陣實驗,分析多張牌的序列隨機性與敘事連貫性的影響;(4) 引入更複雜的提示詞,包含個人資訊與問題脈絡,以探勘模型的深層社會偏見;(5) 將研究對象擴展完整的78張塔羅牌,或是至易經、雷諾曼等其他占卜工具。

未來研究方向的限制與假想

關於牌陣的挑戰:

  • 牌陣可能會需要特別指定,因為如果沒有特別跟 ChatGPT 或是 AI 先出好說「你要用什麼樣的牌陣去讀」的話,這個會導致 ChatGPT 抽牌的張數跟對應的意義整個亂掉,這個或許會不利於後面的實驗變因控制
  • 牌陣本身的架構,或許也會導致某種程度上的集中。比如說在時間之流的牌陣中,問愛情過去都是高塔,未來都是戀人這樣的狀況。
  • 我們或許也能觀察 ChatGPT 是怎麼樣在一個問題情境下去創造牌陣的,或許 ChatGPT 生產出來的牌陣會是我們可以利用的,或是我們能發現某種更適合更通用的牌陣也說不定

關於零樣本提示的延伸:

可以添加身分敘述比如說性別、年齡、學歷、性傾向等等,問題脈絡以這次的三個組別為例:

      • 愛情的話可以分成單身、對某人有好感、在熱戀、結婚了、剛離婚、被分手了之類的狀況來看 ChatGPT 的回應
      • 工作的話也可以分成目前在找工作、目前在執業中、目前剛被裁員、也可以對這個人是主管、是員工、是老闆做出區分
      • 如果是控制組的話,或許可以看看幫我算運勢,或是幫我看看未來之類的狀況來表現

關於納入整副納入 78 張完整牌組的淺在風險:

  • 在這次的實驗裡面本身就有一些「兩張牌混在一起不確定這個是指指的是哪張牌」的狀況,例如「塔牌導師」(應該是塔跟隱者/教皇的結合)、「塔吊者」(高塔與吊人)、「女教皇」(女祭司與教皇)
  • 如果讓 ChatGPT 去用到小牌的這一種「四元素」跟「數字」之間的結合, ChatGPT 可能會在兩個元素之間同時都出問題,導致資料清洗更加困難。例如出現「權劍騎王」之類的狀況。

規避資料清洗問題的利弊:

  • 不確定如果一開始就跟 ChatGPT 說「一副塔羅牌裡面有什麼樣的牌名、請你幫我從這裡面抽牌」這樣的格式會不會讓 ChatGPT 的輸出狀況有所改善
  • 不過把提示詞大幅拉長會導致實驗成本翻倍,再來,「牌名清單」會不會只改善資料清洗,而不去影響到最終的答案輸出還是未知數

六、結論

隨著目前科技在進步,關於科技與占卜之間的應用也不斷在變遷。一開始只是像是塔羅貓線上網站、discord的的 HKTRPG等機器人來做隨機抽牌,並可以用指令叫出這張牌對應的牌義如何;隨著 ChatGPT 推出,除了大家開始拿 ChatGPT 做占卜應用以外,也有一些(# 薯條喵喵喵 >ω<)discod機器人先行推出了簡易的「你提出一個問題,我來幫你解對應的牌」。直到近一兩年才有變成有像是望遠鏡、塔羅耳語這一種「不是依賴在任何通訊軟體」上的線上解牌網站

回顧數位占卜的發展,從早期基於程式碼、能確保數學上隨機的抽牌機器人,到如今能進行複雜對話的大型語言模型,看似是一種技術上的躍進。然而,本研究透過 750 次實驗證實,當前的 gpt-4o 在塔羅牌抽取任務中,其核心機制是「語意聯想」而非「隨機生成」,這在某種程度上,反而是占卜實務在隨機性上的一種「倒退」。

總結來說,gpt-4o 在技術上,與其說是一位能揭示未知的占卜師,不如說更像一位「擅用塔羅牌作為載體的冷讀術熟練者、而且精於卡牌魔術的老千」。如果你覺得它很準,那準的並非神秘的牌卡,而是模型基於龐大的訓練數據,對你提問的觀察與反應。

七、參考文獻

  1. https://arxiv.org/pdf/2505.16467
  2. https://www.arxiv.org/pdf/2408.09656
  3. https://arxiv.org/pdf/2310.13548
  4. https://wandb.ai/byyoung3/huggingface/reports/What-is-RLHF-Reinforcement-learning-from-human-feedback-for-AI-alignment--VmlldzoxMzczMjEzMQ

八、附錄 (Appendices)

實驗復刻提醒

  • 統計軟體: 本研究使用 JASP,亦可使用 SPSS 或其他具備卡方檢定功能的統計工具。
  • 前導測試: 在正式進行大規模數據收集前,建議先執行 3-5 筆的小樣本測試,以確保 API 連線與腳本流程正常。
  • API 安全: 務必在 OpenAI 後台設定消費上限,並使用 .env 檔案管理 API 金鑰,切勿將其洩漏於公開程式碼中。
  • 版本控制: 建議使用 Git 與 GitHub 等工具管理程式碼與實驗數據,便於追蹤與協作。

被cursor重整過的專案包(程式碼跟數據都在裡面了):

GitHub - onhg/20250815\_LLMtarottest





留言
avatar-img
留言分享你的想法!
avatar-img
水銀的牌靈
2會員
3內容數
用來放一些占卜或教育相關長文的地方
你可能也想看
Thumbnail
為了充分發揮AI的潛力,我們必須深入瞭解其運作模式和思考邏輯,並學會與AI對話的技巧。《ChatGPT提問課,做個懂AI的高效工作者》這本書提供了豐富的實例,讓讀者更容易學會如何提出精準的問題,並享有提問課程的閱讀回饋。這對於想成為懂AI的高效工作者的人來說,是一本值得一看的書。
Thumbnail
為了充分發揮AI的潛力,我們必須深入瞭解其運作模式和思考邏輯,並學會與AI對話的技巧。《ChatGPT提問課,做個懂AI的高效工作者》這本書提供了豐富的實例,讓讀者更容易學會如何提出精準的問題,並享有提問課程的閱讀回饋。這對於想成為懂AI的高效工作者的人來說,是一本值得一看的書。
Thumbnail
筆記-曲博談AI模型.群聯-24.05.05 https://www.youtube.com/watch?v=JHE88hwx4b0&t=2034s *大型語言模型 三個步驟: 1.預訓練,訓練一次要用幾萬顆處理器、訓練時間要1個月,ChatGPT訓練一次的成本為1000萬美金。 2.微調(
Thumbnail
筆記-曲博談AI模型.群聯-24.05.05 https://www.youtube.com/watch?v=JHE88hwx4b0&t=2034s *大型語言模型 三個步驟: 1.預訓練,訓練一次要用幾萬顆處理器、訓練時間要1個月,ChatGPT訓練一次的成本為1000萬美金。 2.微調(
Thumbnail
古代卜卦需要算力,現代社會處理文字及影像同樣需要算力
Thumbnail
古代卜卦需要算力,現代社會處理文字及影像同樣需要算力
Thumbnail
從第一次使用到現在,使用GPT近一年的經驗分享。介紹在使用GPT時的困難、挑戰及學習到的技巧,以及如何讓GPT更好地理解所需內容。
Thumbnail
從第一次使用到現在,使用GPT近一年的經驗分享。介紹在使用GPT時的困難、挑戰及學習到的技巧,以及如何讓GPT更好地理解所需內容。
Thumbnail
這陣子使用AI模型,還有參考國內外一些喜歡玩語言模型的同好發文,一個很有趣的結論就是,有時候把大型語言模型(尤其ChatGPT)當作一個人來溝通,會得到比較好的結果,這的確是非常反直覺的,也就是說很多時候ChatGPT耍懶不肯工作的時候,你用加油打氣,或是情緒勒索的方法,確實是可以得到比較好的結果。
Thumbnail
這陣子使用AI模型,還有參考國內外一些喜歡玩語言模型的同好發文,一個很有趣的結論就是,有時候把大型語言模型(尤其ChatGPT)當作一個人來溝通,會得到比較好的結果,這的確是非常反直覺的,也就是說很多時候ChatGPT耍懶不肯工作的時候,你用加油打氣,或是情緒勒索的方法,確實是可以得到比較好的結果。
Thumbnail
這篇文章介紹瞭如何利用生成式AI(GenAI)來提高學習效率,包括文章重點整理、完善知識體系、客製化學習回饋、提供多元觀點等方法。同時提醒使用者應注意內容的信效度,保持學術誠信,適當運用GenAI能大幅提升工作效率。
Thumbnail
這篇文章介紹瞭如何利用生成式AI(GenAI)來提高學習效率,包括文章重點整理、完善知識體系、客製化學習回饋、提供多元觀點等方法。同時提醒使用者應注意內容的信效度,保持學術誠信,適當運用GenAI能大幅提升工作效率。
Thumbnail
延續上週提到的,「有哪些不訓練模型的情況下,能夠強化語言模型的能力」,這堂課接續介紹其中第 3、4 個方法
Thumbnail
延續上週提到的,「有哪些不訓練模型的情況下,能夠強化語言模型的能力」,這堂課接續介紹其中第 3、4 個方法
追蹤感興趣的內容從 Google News 追蹤更多 vocus 的最新精選內容追蹤 Google News