重啟撲克機器人之路:放棄大型語言模型

更新於 發佈於 閱讀時間約 2 分鐘
raw-image

過一番分析後,我決定放棄使用大型語言模型(如Claude、GPT)作為核心決策引擎。這個決定主要基於: 1. 這些模型所訓練的撲克概念可能已經過時(這是我瞎猜的),大約還停留在幾年前的思維方式,對現代撲克理論(如均衡策略、無差異策略等)的理解似乎不夠深入。2. 即使是表現較好的高階模型,在實際應用中面臨著時間和資源的巨大限制。

轉而開始思考一個混合式的解決方案:使用較小的語言模型,通過fine-tuning注入poker知識和pre-solved solutions。這個方向讓我感到興奮,因為它可能既能保持決策的靈活性,又能控制運算成本。我計劃將這些年投資在poker學習上的內容作為訓練資料,雖然fine-tuning對我來說還是個較為模糊的概念,但這個挑戰讓我充滿期待。

在實現細節上,我打算採用分層策略:preflop階段使用80%的預設策略,剩下20%的特殊情況才調用模型;到了postflop,在flop階段保持60-70%的基本策略,然後在turn和river這些更複雜的streets增加模型的參與度。如果能將平均決策時間控制在5-6秒內,應該就能滿足實戰需求。

回想起數年前開發PIO solver bot時的經歷,當時因為運算時間的限制而不得不大幅簡化決策樹,既使後期使用了pre-solved的策略,最終在實戰中表現不佳,直到今天我依舊搞不清楚究竟是什麼原因,bankroll在搞清楚前就燒光了。後來轉向開發硬編碼的撲克機器人,單純使用player pool數據剝削,在微注額級別取得了一定成效,但也一段時間後就被玩家識破,畢竟策略過於固定。這次的新嘗試,我希望能通過混合語言模型的方式,架起理論最優解與實戰環境之間的橋樑。雖然前方還有許多技術細節需要研究,特別是關於如何進行模型fine-tuning,但我對這個新方向充滿期待。

avatar-img
1會員
8內容數
留言0
查看全部
avatar-img
發表第一個留言支持創作者!
傑劉的沙龍 的其他內容
記錄了在開發撲克牌AI時,從機器學習到大型語言模型的技術選擇過程,以及對各種可能解決方案的思考與權衡。
記錄了在開發撲克牌辨識系統時遇到的按鈕辨識挑戰,以及從中學到的debug思維和版本控制重要性。文章分享了技術解決方案的演進過程,也反思了個人開發習慣需要改進的地方。
探討了在開發過程中過度依賴AI解決方案的問題,以及如何在專案開發和技術學習之間取得平衡。通過一個簡單的OCR問題,體會到有時最基本的方法反而是最有效的解決方案。
分享在撲克桌況辨識project中,從OCR文字辨識到程式碼重構的過程,以及如何在技術實作中尋找平衡點的心得。
記錄了在開發撲克機器人時,在選擇使用傳統的template matching方法還是新的機器學習技術間的掙扎,最終決定採用雙軌並行的開發策略。
這篇文章簡要分享我在 Coursera 完成 Google Prompt Essentials 的學習心得,並解釋如何運用「Task、Context、Reference、Evaluate、Iterate」五大步驟來優化與 AI 的互動。
記錄了在開發撲克牌AI時,從機器學習到大型語言模型的技術選擇過程,以及對各種可能解決方案的思考與權衡。
記錄了在開發撲克牌辨識系統時遇到的按鈕辨識挑戰,以及從中學到的debug思維和版本控制重要性。文章分享了技術解決方案的演進過程,也反思了個人開發習慣需要改進的地方。
探討了在開發過程中過度依賴AI解決方案的問題,以及如何在專案開發和技術學習之間取得平衡。通過一個簡單的OCR問題,體會到有時最基本的方法反而是最有效的解決方案。
分享在撲克桌況辨識project中,從OCR文字辨識到程式碼重構的過程,以及如何在技術實作中尋找平衡點的心得。
記錄了在開發撲克機器人時,在選擇使用傳統的template matching方法還是新的機器學習技術間的掙扎,最終決定採用雙軌並行的開發策略。
這篇文章簡要分享我在 Coursera 完成 Google Prompt Essentials 的學習心得,並解釋如何運用「Task、Context、Reference、Evaluate、Iterate」五大步驟來優化與 AI 的互動。
你可能也想看
Google News 追蹤
Thumbnail
現代社會跟以前不同了,人人都有一支手機,只要打開就可以獲得各種資訊。過去想要辦卡或是開戶就要跑一趟銀行,然而如今科技快速發展之下,金融App無聲無息地進到你生活中。但同樣的,每一家銀行都有自己的App時,我們又該如何選擇呢?(本文係由國泰世華銀行邀約) 今天我會用不同角度帶大家看這款國泰世華CUB
Thumbnail
嘿,大家新年快樂~ 新年大家都在做什麼呢? 跨年夜的我趕工製作某個外包設計案,在工作告一段落時趕上倒數。 然後和兩個小孩過了一個忙亂的元旦。在深夜時刻,看到朋友傳來的解籤網站,興致勃勃熬夜體驗了一下,覺得非常好玩,或許有人玩過了,但還是想寫上來分享紀錄一下~
Thumbnail
為什麼我們總是,要在錯誤中堅持下去? 🟧隨筆,停損的勝算:世界撲克冠軍教你精準判斷何時放棄,反而贏更多 今天要談的不是成功,而是失敗在本次閱讀的「停損的勝算」深入的討論了,適時地放棄匯市我們蛻變的關鍵。人們在面臨需要放棄的決策時,往往受到多種心理偏誤的影響,如損失規避或沉沒成本。這些偏誤讓
Thumbnail
想用古老技藝去思考未來科技? 想用人工智能去探求智慧結晶? 有何物品可以探索過去跟尋找未來!!! 你沒猜錯!答案正是「圍棋」! 圍棋是人類史上最困難的腦力遊戲! 但在2016年Alphago問世後! 圍棋開始變成研究AI跟了解AI的技藝!
在棋盤的每一角落,棄子不僅是一種策略,更是一門藝術。
讓你的大腦像火箭一樣起飛!在我們的課程中,你將發現圍棋的魔法,從掌握基本知識到制定複雜策略。   我們的老師將用有趣的教學方法來啟發你的創造力和決策能力。 快來加入我們的團隊,一起在圍棋的世界中尋找冒險和樂趣吧!
Thumbnail
願意捨棄一些棋子去換取更好的局面,是棋力進步的一個階段,也是長大後現實生活中能用上的觀念呢!
Thumbnail
我想 這就是圍棋最純粹的樣子吧
現今進入了高手人手一機的 「AI時代」一 每步棋都有最佳解+勝率參考 卻仍然要強調基本功 為什麼呢?
前言 上文提及訓練記憶術時常使用撲克牌做為訓練內容,在訓練時首先必須先將每一張的撲克牌轉換成一個圖像,然後以一次翻開兩張撲克牌的方式翻開,並迅速將這兩張圖像聯結在一起,接著將之放置在一個事先規畫好的固定的位置上,如此一一將兩張圖像聯結在一起,並將之放置在不同的位置上,在回憶時,順著位置走一圈就
成績刷新的通知立即出現在了所有正在操作象棋軟件的玩家的屏幕上,以滾條的方式播放着。 雖然這款軟件是專門供玩家與人機對抗的,但卻並非真正意義上的單機遊戲。 因爲有排行榜的原因,所以但凡某榜單的第一名被替換,都會進行全服公告。 這全服公告一出,所有在玩玩家都不淡定了。 “什麼!5分10秒,這傢伙
Thumbnail
現代社會跟以前不同了,人人都有一支手機,只要打開就可以獲得各種資訊。過去想要辦卡或是開戶就要跑一趟銀行,然而如今科技快速發展之下,金融App無聲無息地進到你生活中。但同樣的,每一家銀行都有自己的App時,我們又該如何選擇呢?(本文係由國泰世華銀行邀約) 今天我會用不同角度帶大家看這款國泰世華CUB
Thumbnail
嘿,大家新年快樂~ 新年大家都在做什麼呢? 跨年夜的我趕工製作某個外包設計案,在工作告一段落時趕上倒數。 然後和兩個小孩過了一個忙亂的元旦。在深夜時刻,看到朋友傳來的解籤網站,興致勃勃熬夜體驗了一下,覺得非常好玩,或許有人玩過了,但還是想寫上來分享紀錄一下~
Thumbnail
為什麼我們總是,要在錯誤中堅持下去? 🟧隨筆,停損的勝算:世界撲克冠軍教你精準判斷何時放棄,反而贏更多 今天要談的不是成功,而是失敗在本次閱讀的「停損的勝算」深入的討論了,適時地放棄匯市我們蛻變的關鍵。人們在面臨需要放棄的決策時,往往受到多種心理偏誤的影響,如損失規避或沉沒成本。這些偏誤讓
Thumbnail
想用古老技藝去思考未來科技? 想用人工智能去探求智慧結晶? 有何物品可以探索過去跟尋找未來!!! 你沒猜錯!答案正是「圍棋」! 圍棋是人類史上最困難的腦力遊戲! 但在2016年Alphago問世後! 圍棋開始變成研究AI跟了解AI的技藝!
在棋盤的每一角落,棄子不僅是一種策略,更是一門藝術。
讓你的大腦像火箭一樣起飛!在我們的課程中,你將發現圍棋的魔法,從掌握基本知識到制定複雜策略。   我們的老師將用有趣的教學方法來啟發你的創造力和決策能力。 快來加入我們的團隊,一起在圍棋的世界中尋找冒險和樂趣吧!
Thumbnail
願意捨棄一些棋子去換取更好的局面,是棋力進步的一個階段,也是長大後現實生活中能用上的觀念呢!
Thumbnail
我想 這就是圍棋最純粹的樣子吧
現今進入了高手人手一機的 「AI時代」一 每步棋都有最佳解+勝率參考 卻仍然要強調基本功 為什麼呢?
前言 上文提及訓練記憶術時常使用撲克牌做為訓練內容,在訓練時首先必須先將每一張的撲克牌轉換成一個圖像,然後以一次翻開兩張撲克牌的方式翻開,並迅速將這兩張圖像聯結在一起,接著將之放置在一個事先規畫好的固定的位置上,如此一一將兩張圖像聯結在一起,並將之放置在不同的位置上,在回憶時,順著位置走一圈就
成績刷新的通知立即出現在了所有正在操作象棋軟件的玩家的屏幕上,以滾條的方式播放着。 雖然這款軟件是專門供玩家與人機對抗的,但卻並非真正意義上的單機遊戲。 因爲有排行榜的原因,所以但凡某榜單的第一名被替換,都會進行全服公告。 這全服公告一出,所有在玩玩家都不淡定了。 “什麼!5分10秒,這傢伙