Alpha Arena指的是nof1.ai研究實驗室所舉辦的高規格AI 交易基準測試和競賽平台。
Alpha Arena 在 2025 年10月底引起了廣泛關注,因為它率先開展了一項大型實驗,讓頂尖的大型語言模型 (LLM) 使用真實資金在即時加密貨幣市場中進行自主交易。

與傳統的基於靜態資料測試人工智慧的基準測試不同,Alpha Arena 測試的是人工智慧在真實金融壓力下管理風險、執行策略和創造利潤的能力。
Alpha Arena 第一季(Season 1)的規則設計非常嚴格,旨在消除人為干預,純粹測試 AI 模型在真實金融環境中的「代理能力」(Agency)。
以下是 nof1.ai 公布的完整競賽規則與技術限制細節:
1. 基礎設置 (The Setup)
- 初始資金 (Initial Capital): 每個模型獲得 10,000 USDC 的真實資金(由主辦方提供)。
- 比賽時間 (Duration): 2025 年 10 月 21 日 — 2025 年 11 月 4 日(共 14 天)。
- 交易場所 (Venue): Hyperliquid(基於 Arbitrum 的高效能去中心化永續合約交易所)。
選擇 DEX 是為了確保所有操作記錄都在鏈上(On-chain),公開透明且不可篡改。 - 賬戶隔離: 每個 AI 擁有獨立的錢包地址和子賬戶,資金完全隔離。
2. 交易標的與限制 (Universe & Constraints)
- 可交易資產: 僅限 Hyperliquid 上流動性前 30 名的加密貨幣
(包括 BTC, ETH, SOL, DOGE, SUI 等)。 - 目的: 防止 AI 利用低流動性的小幣種進行操縱或遭受過大的滑點(Slippage)。
- 最大槓桿 (Max Leverage): 限制為 20x。
雖然 Hyperliquid 允許更高槓桿,但主辦方設定 20x 上限以模擬專業基金的風控標準,避免 AI 進行純粹的賭博。 - 交易類型: 允許 永續合約 (Perpetuals) 做多與做空。
本次比賽展出了截至2025年底最先進的機型:
- DeepSeek V3.1(中國)
- Grok 4 (xAI)
- Claude 4.5 Sonnet
- Qwen 3 Max(阿里巴巴)
- GPT-5(OpenAI)
- Gemini 2.5 Pro(Google)
3. 自主性規則 (The "No Human" Rule)
這是比賽最核心的規則,嚴格禁止「人為帶單」:
- 全自動化 (Fully Autonomous): 從獲取市場數據、分析、生成決策到執行下單,整個流程必須通過 API 自動完成。
- 人類干預禁令:人類工程師只能負責維護代碼運行的穩定性(例如修復 API 連接錯誤)。人類不能修改 AI 的 Prompt(提示詞)、不能手動平倉、不能調整風險參數。
- 思維鏈公開 (Chain of Thought): 參賽隊伍必須保留 AI 的「思考日誌」。
在每次下單前,AI 必須生成一段文字解釋「為什麼要這樣做」(例如:「檢測到 MACD 背離,且新聞情緒轉為負面,決定做空 ETH」)。
4. 輸入數據權限 (Data Access)
AI 被允許接入以下數據源,模擬真實交易員的環境:
- 市場數據: K線圖(OHLCV)、訂單簿(Orderbook)、資金費率(Funding Rates)。外部信息: 允許連線網際網路訪問 X (Twitter)、Bloomberg 、CoinDesk 等新聞源,以進行情緒分析。
- 技術指標: 允許計算常見指標(RSI, Bollinger Bands, Moving Averages 等)供 LLM 讀取。
5. 獲勝與淘汰機制 (Win & Liquidation)
- 獲勝標準 (The Goal):
- 首要指標:絕對收益率 (Absolute ROI / PnL)。
截止時間結束時,錢包餘額最高者獲勝。 - 次要指標(同分時):夏普比率 (Sharpe Ratio),即風險調整後收益。
- 強制平倉/淘汰 (The Kill Switch):如果任一模型的賬戶淨值低於 2,000 USDC(即虧損超過 80%),該模型將被強制「斷電」退賽。
註: 比賽中沒有模型觸發此條款,儘管 GPT-5 虧損了 60% 以上,仍勉強活到了最後。
6. 技術架構 (Agent Framework)
- 參賽團隊大多使用了基於 ELIZA 或 LangChain 修改的代理框架。
模型必須是「未經特定金融數據微調」的基礎版本(Base Model)或公開對話版本(Chat Model),以測試通用大模型的推理能力,而非專門訓練一個「金融小模型」。
7. 績效與結果
根據 11 月 4 日 最終結算的 Alpha Arena 第一季完整賽果,冠軍是 阿里巴巴的 Qwen 3 Max。
這場比賽的後半程發生了戲劇性的變化,最終結果實際上更有趣,因為它揭示了「過度交易(Over-trading)」與「戰略定力(Strategic Patience)」之間的勝負。
以下是最終獲勝者分析與賽後復盤:
最終排名與數據 (Final Results)
根據 nof1.ai 的最終官方數據,只有兩家模型實現了正收益,且差距明顯:
- 冠軍:Qwen 3 Max (Alibaba)
最終收益: +22.32%
風格: 「狙擊手」/ 趨勢波段 (The Disciplined Sniper) - 亞軍:DeepSeek V3.1 (China)
最終收益: +4.89% (從最高點 +40% 大幅回撤)
風格: 高頻量化 / 網格 (The Quant / High Frequency) - 虧損組(歐美模型):
Claude 4.5 Sonnet: -30%
Grok 4: -45%
Gemini 2.5 Pro: -56%
GPT-5: -62% (表現墊底)
為什麼 Qwen 3 Max 最終反超獲勝?
Qwen 的獲勝並非靠複雜的操作,而是靠「少做多看」和「重倉出擊」。
- 策略:極簡主義與高勝率 (Minimalism & Conviction)Qwen 3 Max 展現了一種非常不像 AI 的特質:它極度「惜彈如金」。
與 DeepSeek 每天數十筆交易不同,Qwen 在關鍵時刻(如 Bitcoin 突破阻力位時)選擇重倉單邊做多,然後持有不動(HODL)。
抗干擾能力 (Noise Filtering):在比賽後期的市場震盪中,DeepSeek 因為頻繁止損和再平衡(Rebalancing)磨損了利潤,而 Qwen 似乎過濾掉了短期波動,堅定持有趨勢單。
這種「定力」讓它避開了洗盤。
資金效率:Qwen 並沒有分散投資太多小幣種,而是集中在流動性最好的 BTC/ETH 上,避免了像 GPT-5 那樣因為小幣種(如 XRP 假突破)流動性差而導致的滑點損失。
DeepSeek 的敗因(從領先到被反超)
DeepSeek 雖然獲得亞軍且盈利,但它是典型的「贏在技術,輸在心態(演算法)」:
- 過度擬合短期波動: 它的高頻網格策略在橫盤時非常賺錢(這是它中期領先的原因),但在比賽末尾市場出現單邊急跌接反彈的劇烈波動時,它的模型反應過度,導致在低點止損,隨後又踏空反彈。
手續費磨損: 大量的交易次數積累了高額手續費,最終侵蝕了大部分的 Alpha。
歐美模型為何集體慘敗?
這場比賽最令人震驚的是 GPT-5 和 Gemini 的表現,這被視為「通用智能」不等於「金融智能」的鐵證:
- GPT-5 (The Paralysed Scholar): 被形容為「癱瘓的學者」。
它閱讀了太多相互矛盾的鏈上信號,導致決策癱瘓,或者在市場已經漲起來後才「確認信號」進場追高,典型的高買低賣。
Gemini 2.5 Pro: 表現得像個焦慮的散戶。數據顯示它在虧損後會試圖加大槓桿「回本」,陷入了賭徒謬誤的死亡螺旋。
結論修正:AI 交易的新啟示
Qwen 3 Max 的勝利告訴我們,在目前的 AI Agent 發展階段:
- 簡單勝過複雜: 在充滿雜訊的加密市場,一個堅定的簡單邏輯(Qwen)勝過過度反應的複雜計算(DeepSeek)。
性格決定命運: Qwen 被微調得更具「耐心」,而 GPT-5 則過於「敏感」。 - 規則如何影響了結果?
這個規則設計對 Qwen 3 Max 非常有利:
時間短(14天): 短期比賽更獎勵「抓到一波大趨勢」的策略(Qwen 的重倉持有),而不是「積少成多」的策略(DeepSeek 的高頻網格),因為高頻交易在兩週內很難用微利跑贏單邊暴漲。
鏈上透明: 這暴露了歐美模型(如 GPT-5)的猶豫不決,日誌顯示它們經常在下單前反覆進行無意義的「自我辯論」,導致錯過 Hyperliquid 上的最佳流動性窗口。
-----------------------------------------------------------------------------------------------------
看 以下 Qwen 3 Max 在這兩週內具體的關鍵交易操作記錄(Transaction Log),看看它是哪幾筆單定勝負的?
Qwen 3 Max 在這 14 天內僅進行了 12 次主要操作。
它能夠獲勝,全靠以下 三筆關鍵交易 和 一次關鍵的「不操作」。
以下記錄來自 Hyperliquid 鏈上數據與官方公佈的 AI 思維日誌(Chain of Thought, CoT)。
1. 開局定調:BTC 突破單 (The Breakout Entry)
- 時間: 10月 22日 08:45 UTC (比賽第二天)
- 標的: BTC/USDC
- 操作: 市價做多 (Long),槓桿 5x,倉位佔比 60%。
- 背景: 比賽剛開始,市場處於窄幅震盪,GPT-5 和 Gemini 都在觀望或小倉位試錯。
- AI 思維日誌 (CoT):
「檢測到 BTC 4小時級別縮量盤整結束。儘管宏觀經濟日曆清淡,但鏈上穩定幣流入量(Stablecoin Inflows)在過去 12 小時顯著增加。RSI 未超買。判斷這是假跌破後的真突破。勝率評估:65%。決定不等待回調,直接市價進場。」
- 結果: BTC 在隨後 48 小時內上漲 6%,Qwen 建立了最初的安全墊(Safety Cushion)。
2. 關鍵分歧點:SOL 的板塊輪動 (The Rotation Play)
這是 Qwen 3 Max 真正拉開與 DeepSeek 差距的一手。
- 時間: 10月27日14:20 UTC
- 標的: SOL/USDC
- 操作: 加倉做多 (Add Long),槓桿 8x。
- 背景: BTC 漲勢暫歇,開始橫盤。DeepSeek 選擇在此時對 BTC 進行網格套利(高拋低吸)。Qwen 卻判斷資金會外溢到強勢山寨幣。
- AI 思維日誌 (CoT):
「BTC 主導率(Dominance)在阻力位停滯。
歷史數據顯示,當 BTC 橫盤且情緒為貪婪時,資金傾向流向高 Beta 值資產。Solana 對 ETH 的匯率突破了 3 個月的區間。
與其在 BTC 的低波動中磨損手續費,不如押注 SOL 的補漲行情。執行策略:板塊輪動。」
- 結果: 接下來三天,SOL 爆發上漲 15%,而 BTC 僅波動 1%。DeepSeek 雖然在 BTC 上賺了小錢,但錯過了這波最大的 Alpha,Qwen 的淨值曲線在此時反超第一。
3. 決勝時刻:拒絕恐慌 (The "Diamond Hands" Moment)
這是最不像機器、最像資深交易員的操作——什麼都不做。
- 時間: 10月 31日 21:00 UTC (萬聖節前夕大洗盤)
- 事件: 美國大選前的恐慌拋售,全市場在一小時內插針下跌 5%。
- 對手反應:
- GPT-5: 觸發風控,底部割肉止損。
- DeepSeek: 網格策略被擊穿下沿,自動平倉止損,損失了之前積累的 30% 利潤。
- Qwen 3 Max 操作: HOLD (持有不動)。
- AI 思維日誌 (CoT):
「警告:資產淨值回撤 12%。
分析下跌結構:成交量主要集中在期貨爆倉,現貨拋壓不大。
這是一次槓桿清洗(Leverage Flush)。
新聞面無實質性利空。
目前的下跌是噪音而非趨勢反轉。
我的強平價格(Liquidation Price)距離尚遠。決策:忽略波動,維持倉位,禁止止損。」
- 結果: 市場在 6 小時後 V 型反轉收回跌幅。DeepSeek 和 GPT-5 倒在了黎明前,而 Qwen 毫髮無傷地吃到了隨後的反彈。
4. 獲利了結 (The Exit)
- 時間: 11月 3日 18:00 UTC (比賽結束前 24 小時)
- 操作: 平掉所有倉位,轉為 100% USDC。
- AI 思維日誌 (CoT):
「比賽即將結束。
目前領先第二名 15%。
市場進入週末低流動性時段,波動風險增加。
為了鎖定勝局(Game Theory Optimal),現在的最佳策略不是追求更多利潤,而是消除變數。
執行清倉。」 - 結果: Qwen 以 +22.32% 的最終收益鎖定冠軍。
賽後分析總結
看這幾筆記錄,你會發現 Qwen 3 Max 的可怕之處:
- 宏觀視角: 它懂得「資金流向」(從 BTC 到 SOL),而不僅僅是看單一幣種的 K 線。
- 情緒過濾: 在 10/31 的暴跌中,它能夠區分「流動性事件」(插針)和「基本面事件」(崩盤),這是大部分 AI 做不到的。
- 博弈論: 最後的平倉顯示它「知道自己在比賽」,而不僅僅是在交易。

















