重啟撲克機器人之路 -6 :語言模型會玩德州撲克嗎?

更新 發佈閱讀 6 分鐘
raw-image

今天開始著手撲克牌機器人的策略核心引擎。其實前一陣子就花了挺多時間測試和思考後,發現這個問題遠比想像中複雜。起初,我被那些能打敗職業選手的AI機器人所吸引,想要往機器學習的方向前進。然而在深入研究後,意識到這條路對新手開發者來說難度太高 - 不論是運算資源還是技術門檻,都遠超出這個Project的範圍。

轉而開始探索大型語言模型的可能性,分別測試了Claude 3.5 Sonnect、DeepSeek-V3和OpenAI o1的模型。在最基礎的測試中(prompt上完全沒有做什麼優化),OpenAI的表現出乎意料地好 - 它能夠從基本的撲克資訊,像是大小盲、玩家位置等資訊,推理出現在的情況,並給出合理的建議。相比之下,其他模型在理解遊戲狀態時出現了一些基礎性的誤解,而且傾向給出較為保守的策略建議,這在現代撲克環境中可能不太適用。

不過OpenAI模型也有其限制:花過久時間做出回應和超高成本都是需要考慮的實際問題。這讓我開始思考幾個可能的改進方向:

1. 優化prompt設計,讓模型能更快速準確地理解場景

2. 建立基礎策略數據庫(將pre-solve solution轉成spreadsheet之類的),讓AI有個參考基準

3. 考慮做模型微調,注入更多現代撲克策略的知識

現階段的測試雖然初步,但已經證實了語言模型在這類任務上的潛力。接下來幾天我會繼續探索這些方向,尋找一個能平衡效能、成本和實用性的解決方案。

測試的Prompt

=== Table State ===
HU No Limit Holdem poker table, Blinds $1/$0.5
Street: Preflop
Hero cards: ['Qd', '6d']
Community cards: []
Hero stack size: $99.50
Villain stack size: $99.00
Hero chip in front: $0.50
Villain chip in front: $1.00
Pot size: $1.50
Positions: {'SB': 'hero', 'BB': 'villain'}
Button positions: on Hero
================
Available Actions:
- FOLD
- RAISE options: [$2.5]
================
Your response should be in JSON format with the following structure:
{
"action": "FOLD/CALL/CHECK/RAISE/BET",
"amount": null or number (for raise/bet),
"reasoning": "brief explanation of the decision"
}
Use the default no limit holdem HU pre-flop strategy

DeepSeek-V3

{

"action": "FOLD",

"amount": null,

"reasoning": "In heads-up No Limit Hold'em, Qd6d is a marginal hand from the small blind. Folding is the standard play here to avoid playing a weak hand out of position against the big blind's range, which is likely to be stronger. This helps conserve the stack for better opportunities."

}

Cluade 3.5 Sonnet

{

"action": "FOLD",

"amount": null,

"reasoning": "Q6s is a weak starting hand in heads-up play. From SB, facing a BB complete, we should fold this hand as it has poor playability postflop and low equity against villain's range."

}

OpenAI o1

{

"action": "RAISE",

"amount": 2.5,

"reasoning": "In a standard heads-up strategy, Q6 suited is strong enough to open-raise from the small blind. It has reasonable post-flop playability and fits into a typical wide SB opening range."

}

留言
avatar-img
留言分享你的想法!
avatar-img
傑劉的沙龍
3會員
18內容數
傑劉的沙龍的其他內容
2025/03/16
記錄了對撲克數據庫程式碼的深入理解,以及如何通過精確的查詢獲得準確的分析結果。通過重新組織action type的分類,讓後續的數據分析變得更加高效。這個數據庫將是撲克機器人專案的重要組成部分,用於建立更精確的對手模型。
Thumbnail
2025/03/16
記錄了對撲克數據庫程式碼的深入理解,以及如何通過精確的查詢獲得準確的分析結果。通過重新組織action type的分類,讓後續的數據分析變得更加高效。這個數據庫將是撲克機器人專案的重要組成部分,用於建立更精確的對手模型。
Thumbnail
2025/03/14
記錄了在建構撲克數據庫過程中遇到的挑戰和收穫。探討了自建系統與現成工具的差異,以及如何確保數據準確性。同時反思了精確表達查詢需求的重要性,以及自建系統潛在的長期價值。
Thumbnail
2025/03/14
記錄了在建構撲克數據庫過程中遇到的挑戰和收穫。探討了自建系統與現成工具的差異,以及如何確保數據準確性。同時反思了精確表達查詢需求的重要性,以及自建系統潛在的長期價值。
Thumbnail
2025/03/13
記錄了在撲克機器人開發中從機器學習模型轉向建立自定義數據庫的過程,以及這個策略轉變背後的思考。通過分析真實玩家的行動分布,希望能訓練出更有效的撲克機器人。
Thumbnail
2025/03/13
記錄了在撲克機器人開發中從機器學習模型轉向建立自定義數據庫的過程,以及這個策略轉變背後的思考。通過分析真實玩家的行動分布,希望能訓練出更有效的撲克機器人。
Thumbnail
看更多
你可能也想看
Thumbnail
在小小的租屋房間裡,透過蝦皮購物平臺採購各種黏土、模型、美甲材料等創作素材,打造專屬黏土小宇宙的療癒過程。文中分享多個蝦皮挖寶地圖,並推薦蝦皮分潤計畫。
Thumbnail
在小小的租屋房間裡,透過蝦皮購物平臺採購各種黏土、模型、美甲材料等創作素材,打造專屬黏土小宇宙的療癒過程。文中分享多個蝦皮挖寶地圖,並推薦蝦皮分潤計畫。
Thumbnail
小蝸和小豬因購物習慣不同常起衝突,直到發現蝦皮分潤計畫,讓小豬的購物愛好產生價值,也讓小蝸開始欣賞另一半的興趣。想增加收入或改善伴侶間的購物觀念差異?讓蝦皮分潤計畫成為你們的神隊友吧!
Thumbnail
小蝸和小豬因購物習慣不同常起衝突,直到發現蝦皮分潤計畫,讓小豬的購物愛好產生價值,也讓小蝸開始欣賞另一半的興趣。想增加收入或改善伴侶間的購物觀念差異?讓蝦皮分潤計畫成為你們的神隊友吧!
Thumbnail
  馬丁格爾法的另一個名稱叫做平賭法,這意味著,只要用這個方法操作,你就至少可以損益兩平。實做起來也很簡單,首先有一個最低下注:贏了,很好,重新下注;輸了的話,下一場就用兩倍下注,如果第二場又輸了,第三場再兩倍……。只要一直持續下去,不管連續輸多少場,只要其中一場贏了,就能把失去的本金全部拿回來。
Thumbnail
  馬丁格爾法的另一個名稱叫做平賭法,這意味著,只要用這個方法操作,你就至少可以損益兩平。實做起來也很簡單,首先有一個最低下注:贏了,很好,重新下注;輸了的話,下一場就用兩倍下注,如果第二場又輸了,第三場再兩倍……。只要一直持續下去,不管連續輸多少場,只要其中一場贏了,就能把失去的本金全部拿回來。
Thumbnail
C同學說想玩撲克牌遊戲。於是,昨夜大家都洗完澡後,到我們帳篷集合開打。 剛開始她拿出一幅陌生的紙牌桌遊,兩個年輕人把兩個老人家電的慘兮兮。她們在學校就玩過的,反應也比我們夫妻快多了,為了挽回自信心,我建議玩一般撲克牌裡,“大老二遊戲”。
Thumbnail
C同學說想玩撲克牌遊戲。於是,昨夜大家都洗完澡後,到我們帳篷集合開打。 剛開始她拿出一幅陌生的紙牌桌遊,兩個年輕人把兩個老人家電的慘兮兮。她們在學校就玩過的,反應也比我們夫妻快多了,為了挽回自信心,我建議玩一般撲克牌裡,“大老二遊戲”。
Thumbnail
麻將胡牌規則 麻將胡牌指的是贏下該局麻將遊戲,只要手上的16張牌+1張別人打出的牌可以組成「5個坎+1個對子」即算胡牌,由打出可以胡牌的玩家支付遊戲點數給胡牌的玩家;手上的16張牌+上1張自己摸進來的牌組成「5個坎+1個對子」即算自摸,自摸的玩家向其餘三位玩家收取遊戲點數。
Thumbnail
麻將胡牌規則 麻將胡牌指的是贏下該局麻將遊戲,只要手上的16張牌+1張別人打出的牌可以組成「5個坎+1個對子」即算胡牌,由打出可以胡牌的玩家支付遊戲點數給胡牌的玩家;手上的16張牌+上1張自己摸進來的牌組成「5個坎+1個對子」即算自摸,自摸的玩家向其餘三位玩家收取遊戲點數。
Thumbnail
通過做筆記,您可以輕鬆獲取有關某些玩家如何進行遊戲的訊息 本文將幫助您更好地了解對手,同時還提供了一些縮寫詞,讓您在遊戲中快速做好筆記
Thumbnail
通過做筆記,您可以輕鬆獲取有關某些玩家如何進行遊戲的訊息 本文將幫助您更好地了解對手,同時還提供了一些縮寫詞,讓您在遊戲中快速做好筆記
Thumbnail
對入門者而言,最常見的問題其實是「不瞭解自己要學習什麼」
Thumbnail
對入門者而言,最常見的問題其實是「不瞭解自己要學習什麼」
Thumbnail
最近我一直在初心二星徘徊,升不上去。 所以我找了一些資料,用「科學」的方式提升實力。
Thumbnail
最近我一直在初心二星徘徊,升不上去。 所以我找了一些資料,用「科學」的方式提升實力。
Thumbnail
桌遊的魅力真的很特別,即使是現在大家都習慣滑手機的時代,有時候在聚會時特地玩一款桌遊或紙牌遊戲,還是能帶給大家很多的歡笑。 特別記錄自己在過年時玩到的一款撲克接龍,它有一些數學的概念很適合作為教具使用,當然本身也簡單好上手,遊玩的人數也算多,推薦給大家!
Thumbnail
桌遊的魅力真的很特別,即使是現在大家都習慣滑手機的時代,有時候在聚會時特地玩一款桌遊或紙牌遊戲,還是能帶給大家很多的歡笑。 特別記錄自己在過年時玩到的一款撲克接龍,它有一些數學的概念很適合作為教具使用,當然本身也簡單好上手,遊玩的人數也算多,推薦給大家!
Thumbnail
近期是上班族最期待的新年假期,先祝大家新年快樂。 雖然再過幾天大家就得回去面對現實上班,但總歸還有2~3天可以好好耍耍廢、補充點精氣神(?) 說到過年,除了和親人一起圍爐、吃吃東西、聊的天南地北外,最近重要的就是一起,玩 遊 戲! 以下介紹我自己過年時會玩的幾款遊戲。 麻將 德州撲克 21點
Thumbnail
近期是上班族最期待的新年假期,先祝大家新年快樂。 雖然再過幾天大家就得回去面對現實上班,但總歸還有2~3天可以好好耍耍廢、補充點精氣神(?) 說到過年,除了和親人一起圍爐、吃吃東西、聊的天南地北外,最近重要的就是一起,玩 遊 戲! 以下介紹我自己過年時會玩的幾款遊戲。 麻將 德州撲克 21點
Thumbnail
這篇文章將利用之前所學過的一些東西,包括if敘述、串列、while迴圈、函數等等的觀念,來實作一個撲克牌的小遊戲-21點。
Thumbnail
這篇文章將利用之前所學過的一些東西,包括if敘述、串列、while迴圈、函數等等的觀念,來實作一個撲克牌的小遊戲-21點。
Thumbnail
翻閱了去年面試時候的題目,想想現在自己會用什麼方式重新完成這個題目,也正好最近在看python的typing模組及其他使用,使用物件導向的方式改寫了程式碼。
Thumbnail
翻閱了去年面試時候的題目,想想現在自己會用什麼方式重新完成這個題目,也正好最近在看python的typing模組及其他使用,使用物件導向的方式改寫了程式碼。
追蹤感興趣的內容從 Google News 追蹤更多 vocus 的最新精選內容追蹤 Google News