重啟撲克機器人之路 -7 :放棄大型語言模型

更新 發佈閱讀 2 分鐘
raw-image

過一番分析後,我決定放棄使用大型語言模型(如Claude、GPT)作為核心決策引擎。這個決定主要基於: 1. 這些模型所訓練的撲克概念可能已經過時(這是我瞎猜的),大約還停留在幾年前的思維方式,對現代撲克理論(如均衡策略、無差異策略等)的理解似乎不夠深入。2. 即使是表現較好的高階模型,在實際應用中面臨著時間和資源的巨大限制。

轉而開始思考一個混合式的解決方案:使用較小的語言模型,通過fine-tuning注入poker知識和pre-solved solutions。這個方向讓我感到興奮,因為它可能既能保持決策的靈活性,又能控制運算成本。我計劃將這些年投資在poker學習上的內容作為訓練資料,雖然fine-tuning對我來說還是個較為模糊的概念,但這個挑戰讓我充滿期待。

在實現細節上,我打算採用分層策略:preflop階段使用80%的預設策略,剩下20%的特殊情況才調用模型;到了postflop,在flop階段保持60-70%的基本策略,然後在turn和river這些更複雜的streets增加模型的參與度。如果能將平均決策時間控制在5-6秒內,應該就能滿足實戰需求。

回想起數年前開發PIO solver bot時的經歷,當時因為運算時間的限制而不得不大幅簡化決策樹,既使後期使用了pre-solved的策略,最終在實戰中表現不佳,直到今天我依舊搞不清楚究竟是什麼原因,bankroll在搞清楚前就燒光了。後來轉向開發硬編碼的撲克機器人,單純使用player pool數據剝削,在微注額級別取得了一定成效,但也一段時間後就被玩家識破,畢竟策略過於固定。這次的新嘗試,我希望能通過混合語言模型的方式,架起理論最優解與實戰環境之間的橋樑。雖然前方還有許多技術細節需要研究,特別是關於如何進行模型fine-tuning,但我對這個新方向充滿期待。

留言
avatar-img
傑劉的沙龍
3會員
18內容數
傑劉的沙龍的其他內容
2025/03/16
記錄了對撲克數據庫程式碼的深入理解,以及如何通過精確的查詢獲得準確的分析結果。通過重新組織action type的分類,讓後續的數據分析變得更加高效。這個數據庫將是撲克機器人專案的重要組成部分,用於建立更精確的對手模型。
Thumbnail
2025/03/16
記錄了對撲克數據庫程式碼的深入理解,以及如何通過精確的查詢獲得準確的分析結果。通過重新組織action type的分類,讓後續的數據分析變得更加高效。這個數據庫將是撲克機器人專案的重要組成部分,用於建立更精確的對手模型。
Thumbnail
2025/03/14
記錄了在建構撲克數據庫過程中遇到的挑戰和收穫。探討了自建系統與現成工具的差異,以及如何確保數據準確性。同時反思了精確表達查詢需求的重要性,以及自建系統潛在的長期價值。
Thumbnail
2025/03/14
記錄了在建構撲克數據庫過程中遇到的挑戰和收穫。探討了自建系統與現成工具的差異,以及如何確保數據準確性。同時反思了精確表達查詢需求的重要性,以及自建系統潛在的長期價值。
Thumbnail
2025/03/13
記錄了在撲克機器人開發中從機器學習模型轉向建立自定義數據庫的過程,以及這個策略轉變背後的思考。通過分析真實玩家的行動分布,希望能訓練出更有效的撲克機器人。
Thumbnail
2025/03/13
記錄了在撲克機器人開發中從機器學習模型轉向建立自定義數據庫的過程,以及這個策略轉變背後的思考。通過分析真實玩家的行動分布,希望能訓練出更有效的撲克機器人。
Thumbnail
看更多
你可能也想看
Thumbnail
賽勒布倫尼科夫以流亡處境回望蘇聯電影導演帕拉贊諾夫的舞台作品,以十段寓言式殘篇,重新拼貼記憶、暴力與美學,並將審查、政治犯、戰爭陰影與「形式即政治」的劇場傳統推到台前。本文聚焦於《傳奇:帕拉贊諾夫的十段殘篇》的舞台美術、音樂與多重扮演策略,嘗試解析極權底下不可言說之事,將如何成為可被觀看的公共發聲。
Thumbnail
賽勒布倫尼科夫以流亡處境回望蘇聯電影導演帕拉贊諾夫的舞台作品,以十段寓言式殘篇,重新拼貼記憶、暴力與美學,並將審查、政治犯、戰爭陰影與「形式即政治」的劇場傳統推到台前。本文聚焦於《傳奇:帕拉贊諾夫的十段殘篇》的舞台美術、音樂與多重扮演策略,嘗試解析極權底下不可言說之事,將如何成為可被觀看的公共發聲。
Thumbnail
柏林劇團在 2026 北藝嚴選,再次帶來由布萊希特改編的經典劇目《三便士歌劇》(The Threepenny Opera),導演巴里・柯斯基以舞台結構與舞台調度,重新向「疏離」進行提問。本文將從觀眾慾望作為戲劇內核,藉由沉浸與疏離的辯證,解析此作如何再次照見觀眾自身的位置。
Thumbnail
柏林劇團在 2026 北藝嚴選,再次帶來由布萊希特改編的經典劇目《三便士歌劇》(The Threepenny Opera),導演巴里・柯斯基以舞台結構與舞台調度,重新向「疏離」進行提問。本文將從觀眾慾望作為戲劇內核,藉由沉浸與疏離的辯證,解析此作如何再次照見觀眾自身的位置。
Thumbnail
本文深入解析臺灣劇團「晃晃跨幅町」對易卜生經典劇作《海妲.蓋柏樂》的詮釋,從劇本歷史、聲響與舞臺設計,到演員的主體創作方法,探討此版本如何讓經典劇作在當代劇場語境下煥發新生,滿足現代觀眾的觀看慾望。
Thumbnail
本文深入解析臺灣劇團「晃晃跨幅町」對易卜生經典劇作《海妲.蓋柏樂》的詮釋,從劇本歷史、聲響與舞臺設計,到演員的主體創作方法,探討此版本如何讓經典劇作在當代劇場語境下煥發新生,滿足現代觀眾的觀看慾望。
Thumbnail
《轉轉生》為奈及利亞編舞家庫德斯.奧尼奎庫與 Q 舞團創作的當代舞蹈作品,融合舞蹈、音樂、時尚和視覺藝術,透過身體、服裝與群舞結構,回應殖民歷史、城市經驗與祖靈記憶的交錯。本文將從服裝設計、身體語彙與「輪迴」的「誕生—死亡—重生」結構出發,分析《轉轉生》如何以當代目光,形塑去殖民視角的奈及利亞歷史。
Thumbnail
《轉轉生》為奈及利亞編舞家庫德斯.奧尼奎庫與 Q 舞團創作的當代舞蹈作品,融合舞蹈、音樂、時尚和視覺藝術,透過身體、服裝與群舞結構,回應殖民歷史、城市經驗與祖靈記憶的交錯。本文將從服裝設計、身體語彙與「輪迴」的「誕生—死亡—重生」結構出發,分析《轉轉生》如何以當代目光,形塑去殖民視角的奈及利亞歷史。
Thumbnail
為什麼我們總是,要在錯誤中堅持下去? 🟧隨筆,停損的勝算:世界撲克冠軍教你精準判斷何時放棄,反而贏更多 今天要談的不是成功,而是失敗在本次閱讀的「停損的勝算」深入的討論了,適時地放棄匯市我們蛻變的關鍵。人們在面臨需要放棄的決策時,往往受到多種心理偏誤的影響,如損失規避或沉沒成本。這些偏誤讓
Thumbnail
為什麼我們總是,要在錯誤中堅持下去? 🟧隨筆,停損的勝算:世界撲克冠軍教你精準判斷何時放棄,反而贏更多 今天要談的不是成功,而是失敗在本次閱讀的「停損的勝算」深入的討論了,適時地放棄匯市我們蛻變的關鍵。人們在面臨需要放棄的決策時,往往受到多種心理偏誤的影響,如損失規避或沉沒成本。這些偏誤讓
Thumbnail
想用古老技藝去思考未來科技? 想用人工智能去探求智慧結晶? 有何物品可以探索過去跟尋找未來!!! 你沒猜錯!答案正是「圍棋」! 圍棋是人類史上最困難的腦力遊戲! 但在2016年Alphago問世後! 圍棋開始變成研究AI跟了解AI的技藝!
Thumbnail
想用古老技藝去思考未來科技? 想用人工智能去探求智慧結晶? 有何物品可以探索過去跟尋找未來!!! 你沒猜錯!答案正是「圍棋」! 圍棋是人類史上最困難的腦力遊戲! 但在2016年Alphago問世後! 圍棋開始變成研究AI跟了解AI的技藝!
Thumbnail
願意捨棄一些棋子去換取更好的局面,是棋力進步的一個階段,也是長大後現實生活中能用上的觀念呢!
Thumbnail
願意捨棄一些棋子去換取更好的局面,是棋力進步的一個階段,也是長大後現實生活中能用上的觀念呢!
Thumbnail
我想 這就是圍棋最純粹的樣子吧
Thumbnail
我想 這就是圍棋最純粹的樣子吧
追蹤感興趣的內容從 Google News 追蹤更多 vocus 的最新精選內容追蹤 Google News