重啟撲克機器人之路 -7 ：放棄大型語言模型

2025/02/03 更新2025/01/27 發佈閱讀 2 分鐘

過一番分析後，我決定放棄使用大型語言模型（如Claude、GPT）作為核心決策引擎。這個決定主要基於: 1. 這些模型所訓練的撲克概念可能已經過時(這是我瞎猜的)，大約還停留在幾年前的思維方式，對現代撲克理論（如均衡策略、無差異策略等）的理解似乎不夠深入。2. 即使是表現較好的高階模型，在實際應用中面臨著時間和資源的巨大限制。

轉而開始思考一個混合式的解決方案：使用較小的語言模型，通過fine-tuning注入poker知識和pre-solved solutions。這個方向讓我感到興奮，因為它可能既能保持決策的靈活性，又能控制運算成本。我計劃將這些年投資在poker學習上的內容作為訓練資料，雖然fine-tuning對我來說還是個較為模糊的概念，但這個挑戰讓我充滿期待。

在實現細節上，我打算採用分層策略：preflop階段使用80%的預設策略，剩下20%的特殊情況才調用模型；到了postflop，在flop階段保持60-70%的基本策略，然後在turn和river這些更複雜的streets增加模型的參與度。如果能將平均決策時間控制在5-6秒內，應該就能滿足實戰需求。

回想起數年前開發PIO solver bot時的經歷，當時因為運算時間的限制而不得不大幅簡化決策樹，既使後期使用了pre-solved的策略，最終在實戰中表現不佳，直到今天我依舊搞不清楚究竟是什麼原因，bankroll在搞清楚前就燒光了。後來轉向開發硬編碼的撲克機器人，單純使用player pool數據剝削，在微注額級別取得了一定成效，但也一段時間後就被玩家識破，畢竟策略過於固定。這次的新嘗試，我希望能通過混合語言模型的方式，架起理論最優解與實戰環境之間的橋樑。雖然前方還有許多技術細節需要研究，特別是關於如何進行模型fine-tuning，但我對這個新方向充滿期待。

留言

留言分享你的想法！

傑劉的沙龍

3會員

18內容數