重啟撲克機器人之路 -6 :語言模型會玩德州撲克嗎?

更新於 發佈於 閱讀時間約 6 分鐘
raw-image

今天開始著手撲克牌機器人的策略核心引擎。其實前一陣子就花了挺多時間測試和思考後,發現這個問題遠比想像中複雜。起初,我被那些能打敗職業選手的AI機器人所吸引,想要往機器學習的方向前進。然而在深入研究後,意識到這條路對新手開發者來說難度太高 - 不論是運算資源還是技術門檻,都遠超出這個Project的範圍。

轉而開始探索大型語言模型的可能性,分別測試了Claude 3.5 Sonnect、DeepSeek-V3和OpenAI o1的模型。在最基礎的測試中(prompt上完全沒有做什麼優化),OpenAI的表現出乎意料地好 - 它能夠從基本的撲克資訊,像是大小盲、玩家位置等資訊,推理出現在的情況,並給出合理的建議。相比之下,其他模型在理解遊戲狀態時出現了一些基礎性的誤解,而且傾向給出較為保守的策略建議,這在現代撲克環境中可能不太適用。

不過OpenAI模型也有其限制:花過久時間做出回應和超高成本都是需要考慮的實際問題。這讓我開始思考幾個可能的改進方向:

1. 優化prompt設計,讓模型能更快速準確地理解場景

2. 建立基礎策略數據庫(將pre-solve solution轉成spreadsheet之類的),讓AI有個參考基準

3. 考慮做模型微調,注入更多現代撲克策略的知識

現階段的測試雖然初步,但已經證實了語言模型在這類任務上的潛力。接下來幾天我會繼續探索這些方向,尋找一個能平衡效能、成本和實用性的解決方案。

測試的Prompt

=== Table State ===
HU No Limit Holdem poker table, Blinds $1/$0.5
Street: Preflop
Hero cards: ['Qd', '6d']
Community cards: []
Hero stack size: $99.50
Villain stack size: $99.00
Hero chip in front: $0.50
Villain chip in front: $1.00
Pot size: $1.50
Positions: {'SB': 'hero', 'BB': 'villain'}
Button positions: on Hero
================
Available Actions:
- FOLD
- RAISE options: [$2.5]
================
Your response should be in JSON format with the following structure:
{
"action": "FOLD/CALL/CHECK/RAISE/BET",
"amount": null or number (for raise/bet),
"reasoning": "brief explanation of the decision"
}
Use the default no limit holdem HU pre-flop strategy

DeepSeek-V3

{

"action": "FOLD",

"amount": null,

"reasoning": "In heads-up No Limit Hold'em, Qd6d is a marginal hand from the small blind. Folding is the standard play here to avoid playing a weak hand out of position against the big blind's range, which is likely to be stronger. This helps conserve the stack for better opportunities."

}

Cluade 3.5 Sonnet

{

"action": "FOLD",

"amount": null,

"reasoning": "Q6s is a weak starting hand in heads-up play. From SB, facing a BB complete, we should fold this hand as it has poor playability postflop and low equity against villain's range."

}

OpenAI o1

{

"action": "RAISE",

"amount": 2.5,

"reasoning": "In a standard heads-up strategy, Q6 suited is strong enough to open-raise from the small blind. It has reasonable post-flop playability and fits into a typical wide SB opening range."

}

avatar-img
3會員
18內容數
留言
avatar-img
留言分享你的想法!
傑劉的沙龍 的其他內容
記錄了在開發撲克牌辨識系統時遇到的按鈕辨識挑戰,以及從中學到的debug思維和版本控制重要性。文章分享了技術解決方案的演進過程,也反思了個人開發習慣需要改進的地方。
探討了在開發過程中過度依賴AI解決方案的問題,以及如何在專案開發和技術學習之間取得平衡。通過一個簡單的OCR問題,體會到有時最基本的方法反而是最有效的解決方案。
分享在撲克桌況辨識project中,從OCR文字辨識到程式碼重構的過程,以及如何在技術實作中尋找平衡點的心得。
記錄了在開發撲克機器人時,在選擇使用傳統的template matching方法還是新的機器學習技術間的掙扎,最終決定採用雙軌並行的開發策略。
這篇文章簡要分享我在 Coursera 完成 Google Prompt Essentials 的學習心得,並解釋如何運用「Task、Context、Reference、Evaluate、Iterate」五大步驟來優化與 AI 的互動。
一位程式小白開發撲克機器人的過程,從選擇Python語言、使用ADB和OpenCV處理手機截圖和畫面識別,到探討更穩健的撲克牌辨識方法(例如,使用fast.ai學習過的圖像辨識),以及策略核心開發的挑戰。文章也提到開發流程的規劃,以及選擇Python語言以降低入門門檻的考量。
記錄了在開發撲克牌辨識系統時遇到的按鈕辨識挑戰,以及從中學到的debug思維和版本控制重要性。文章分享了技術解決方案的演進過程,也反思了個人開發習慣需要改進的地方。
探討了在開發過程中過度依賴AI解決方案的問題,以及如何在專案開發和技術學習之間取得平衡。通過一個簡單的OCR問題,體會到有時最基本的方法反而是最有效的解決方案。
分享在撲克桌況辨識project中,從OCR文字辨識到程式碼重構的過程,以及如何在技術實作中尋找平衡點的心得。
記錄了在開發撲克機器人時,在選擇使用傳統的template matching方法還是新的機器學習技術間的掙扎,最終決定採用雙軌並行的開發策略。
這篇文章簡要分享我在 Coursera 完成 Google Prompt Essentials 的學習心得,並解釋如何運用「Task、Context、Reference、Evaluate、Iterate」五大步驟來優化與 AI 的互動。
一位程式小白開發撲克機器人的過程,從選擇Python語言、使用ADB和OpenCV處理手機截圖和畫面識別,到探討更穩健的撲克牌辨識方法(例如,使用fast.ai學習過的圖像辨識),以及策略核心開發的挑戰。文章也提到開發流程的規劃,以及選擇Python語言以降低入門門檻的考量。
你可能也想看
Google News 追蹤
Thumbnail
該來的終究還是來了 度過焦躁不安的一整周,學徒老人家我的不安感等比級數的襲來,自3/19寫了第一篇關於<巴克萊銀行:倉促撤退>的報告,看到市場上的機構法人有如大洪水、地震來臨前夕開始竄逃撤退。 海湖莊園協議 接著,在3/31與4/2兩天接著寫了川普與他的財經團隊在海湖莊園豪
Thumbnail
空單爆天量、技術指標超賣、情緒恐慌到極致:美股嘎空行情有機會啟動嗎? 重點摘要: 技術面極度超賣,反彈條件醞釀中,但尚未明確止穩 SPY 與 QQQ 的重要指標,如MACD、KDJ、RSI等指標進入極端超賣區,但尚未出現底部鈍化或明確反轉訊號,技術面仍屬空方主導。 連續出現跳空缺口,空方動
Thumbnail
全新 vocus 挑戰活動「方格人氣王」來啦~四大挑戰任你選,留言 / 愛心 / 瀏覽數大 PK,還有新手專屬挑戰!無論你是 vocus 上活躍創作者或剛加入的新手,都有機會被更多人看見,獲得站上版位曝光&豐富獎勵!🏆
Thumbnail
想用古老技藝去思考未來科技? 想用人工智能去探求智慧結晶? 有何物品可以探索過去跟尋找未來!!! 你沒猜錯!答案正是「圍棋」! 圍棋是人類史上最困難的腦力遊戲! 但在2016年Alphago問世後! 圍棋開始變成研究AI跟了解AI的技藝!
我一直都很喜歡需要動腦的遊戲,因此最近深陷於德州撲克的魅力中無法自拔 今天,為了消磨陪伴男友唸書的時間,我從圖書館拿了一本標題為《人生賽局》的書 作者為一位哈佛畢業的心理學家,為了了解人們在自我控制及機率、運氣相關事件發生時的心態,因此給自己一年的時間,向頂尖撲克大師學習撲克
讓你的大腦像火箭一樣起飛!在我們的課程中,你將發現圍棋的魔法,從掌握基本知識到制定複雜策略。   我們的老師將用有趣的教學方法來啟發你的創造力和決策能力。 快來加入我們的團隊,一起在圍棋的世界中尋找冒險和樂趣吧!
Thumbnail
願意捨棄一些棋子去換取更好的局面,是棋力進步的一個階段,也是長大後現實生活中能用上的觀念呢!
Thumbnail
我想 這就是圍棋最純粹的樣子吧
現今進入了高手人手一機的 「AI時代」一 每步棋都有最佳解+勝率參考 卻仍然要強調基本功 為什麼呢?
前言 上文提及訓練記憶術時常使用撲克牌做為訓練內容,在訓練時首先必須先將每一張的撲克牌轉換成一個圖像,然後以一次翻開兩張撲克牌的方式翻開,並迅速將這兩張圖像聯結在一起,接著將之放置在一個事先規畫好的固定的位置上,如此一一將兩張圖像聯結在一起,並將之放置在不同的位置上,在回憶時,順著位置走一圈就
成績刷新的通知立即出現在了所有正在操作象棋軟件的玩家的屏幕上,以滾條的方式播放着。 雖然這款軟件是專門供玩家與人機對抗的,但卻並非真正意義上的單機遊戲。 因爲有排行榜的原因,所以但凡某榜單的第一名被替換,都會進行全服公告。 這全服公告一出,所有在玩玩家都不淡定了。 “什麼!5分10秒,這傢伙
1.下棋、下棋只認四種棋、國際大盤象棋、國際圍棋、國際日本將棋、國際西洋棋 (學下象棋、下將棋、下西洋棋、這三種棋是為了學商業佈局、而學圍棋是為了學政治佈局) 2.玩數獨、只認國際標準九宮格數獨(筆者只精通第一代數獨、數獨是為了訓練邏輯推理能力) 3.學習心理學、任何一種心理學即可 (心理學是為
Thumbnail
該來的終究還是來了 度過焦躁不安的一整周,學徒老人家我的不安感等比級數的襲來,自3/19寫了第一篇關於<巴克萊銀行:倉促撤退>的報告,看到市場上的機構法人有如大洪水、地震來臨前夕開始竄逃撤退。 海湖莊園協議 接著,在3/31與4/2兩天接著寫了川普與他的財經團隊在海湖莊園豪
Thumbnail
空單爆天量、技術指標超賣、情緒恐慌到極致:美股嘎空行情有機會啟動嗎? 重點摘要: 技術面極度超賣,反彈條件醞釀中,但尚未明確止穩 SPY 與 QQQ 的重要指標,如MACD、KDJ、RSI等指標進入極端超賣區,但尚未出現底部鈍化或明確反轉訊號,技術面仍屬空方主導。 連續出現跳空缺口,空方動
Thumbnail
全新 vocus 挑戰活動「方格人氣王」來啦~四大挑戰任你選,留言 / 愛心 / 瀏覽數大 PK,還有新手專屬挑戰!無論你是 vocus 上活躍創作者或剛加入的新手,都有機會被更多人看見,獲得站上版位曝光&豐富獎勵!🏆
Thumbnail
想用古老技藝去思考未來科技? 想用人工智能去探求智慧結晶? 有何物品可以探索過去跟尋找未來!!! 你沒猜錯!答案正是「圍棋」! 圍棋是人類史上最困難的腦力遊戲! 但在2016年Alphago問世後! 圍棋開始變成研究AI跟了解AI的技藝!
我一直都很喜歡需要動腦的遊戲,因此最近深陷於德州撲克的魅力中無法自拔 今天,為了消磨陪伴男友唸書的時間,我從圖書館拿了一本標題為《人生賽局》的書 作者為一位哈佛畢業的心理學家,為了了解人們在自我控制及機率、運氣相關事件發生時的心態,因此給自己一年的時間,向頂尖撲克大師學習撲克
讓你的大腦像火箭一樣起飛!在我們的課程中,你將發現圍棋的魔法,從掌握基本知識到制定複雜策略。   我們的老師將用有趣的教學方法來啟發你的創造力和決策能力。 快來加入我們的團隊,一起在圍棋的世界中尋找冒險和樂趣吧!
Thumbnail
願意捨棄一些棋子去換取更好的局面,是棋力進步的一個階段,也是長大後現實生活中能用上的觀念呢!
Thumbnail
我想 這就是圍棋最純粹的樣子吧
現今進入了高手人手一機的 「AI時代」一 每步棋都有最佳解+勝率參考 卻仍然要強調基本功 為什麼呢?
前言 上文提及訓練記憶術時常使用撲克牌做為訓練內容,在訓練時首先必須先將每一張的撲克牌轉換成一個圖像,然後以一次翻開兩張撲克牌的方式翻開,並迅速將這兩張圖像聯結在一起,接著將之放置在一個事先規畫好的固定的位置上,如此一一將兩張圖像聯結在一起,並將之放置在不同的位置上,在回憶時,順著位置走一圈就
成績刷新的通知立即出現在了所有正在操作象棋軟件的玩家的屏幕上,以滾條的方式播放着。 雖然這款軟件是專門供玩家與人機對抗的,但卻並非真正意義上的單機遊戲。 因爲有排行榜的原因,所以但凡某榜單的第一名被替換,都會進行全服公告。 這全服公告一出,所有在玩玩家都不淡定了。 “什麼!5分10秒,這傢伙
1.下棋、下棋只認四種棋、國際大盤象棋、國際圍棋、國際日本將棋、國際西洋棋 (學下象棋、下將棋、下西洋棋、這三種棋是為了學商業佈局、而學圍棋是為了學政治佈局) 2.玩數獨、只認國際標準九宮格數獨(筆者只精通第一代數獨、數獨是為了訓練邏輯推理能力) 3.學習心理學、任何一種心理學即可 (心理學是為