
一、我們走過的彎路
我們曾以為,只要 Prompt 寫得夠精準,一個足夠強大的 Agent 就能處理一切。
簡單任務上這個假設成立。寫一封客氣的拒絕信、翻譯一段技術文件、整理會議紀要,單一 Agent 表現得相當稱職。但複雜度一上升,它就開始出問題。
過去半年,我們在內部嘗試用 AI 處理投資備忘錄撰寫。起初我們和市場主流一樣,追求更長的上下文長度、更強的單一模型。這個模型不夠用?等更大的版本。上下文長度不夠?換更長的。我們期待一個超級實習生能讀完所有財報、總經數據、產業報告,然後吐出一份完美的分析。
結果通常是災難性的。
把公司名字搞錯、把數字抄反。那種錯誤反而好處理,一眼就能看出來。真正危險的是那種邏輯看起來通順,但前提假設錯誤的情況。
舉個例子。我們曾經請一個 Agent 分析某家公司的現金流狀況。它在開頭做了一個微小的假設錯誤,把營運現金流的計算基準搞混了。但它沒有停下來質疑自己。相反地,它用一本正經的語氣,花了三千字來論證這個錯誤假設為什麼是對的。它引用了真實的財報數字,搭配看起來合理的邏輯推演,最後得出一個完全相反的結論。
如果你不是專家,你根本看不出問題在哪。它不是在分析,它只是在想辦法湊出一個看似合理的解釋。
學術界有個術語來描述這個現象,叫做思維退化,Degeneration of Thought。有研究指出,LLM 在推理過程中一旦形成某種自信,即使你要求它自我反思,它還是不會自我修正推理錯誤(Huang et al., 2023)。這不是模型不夠強的問題。這是架構設計的問題。
當多數人都在等待下一代更強的模型,我們開始思考一個不同的問題:也許瓶頸不在模型算力,而在系統架構?
二、三個平庸 Agent 勝過一個天才
為了解決這個問題,我們做了一個實驗。
我們不再要求一個 Agent 寫出完美的分析文章,而是把任務分成三個角色。
第一個是寫作 Agent。它的工作很單純,根據我們提供的數據和方向產出初稿。我們不要求它完美,只要求它把東西寫出來。
第二個是審查 Agent。我們在 Prompt 裡把它設定成一個挑剔到近乎刻薄的編輯。它的唯一任務是找碴:邏輯有沒有跳躍?前後有沒有矛盾?有沒有過度自信的結論?它不負責修改,只負責標記問題。
第三個是數據 Agent。它專門負責驗證數字來源。這個數字是哪份財報的?那個百分比是怎麼算出來的?它不管文章寫得好不好,只管數字對不對。
結果讓我們驚訝。
三個用的都是同一個基礎模型,沒有用更貴的版本,沒有什麼特殊的微調。但協作產出的品質,遠勝一個頂級模型的單打獨鬥。
更重要的是,這個系統的錯誤變得可預測、可追蹤。當審查 Agent 標記出一個邏輯問題,我們可以清楚看到是寫作 Agent 在哪一步出了差錯。當數據 Agent 發現一個數字來源有問題,我們可以直接回溯修正,而不是整篇重寫。
這其實不是什麼革命性的發現。事後回想,這其實是常識。但有時候,你需要走過彎路才能真正體會。
三、來自 IC 設計的直覺
對工程師背景的人來說,這個發現其實是一種再發現。
在積體電路設計產業,這就是標準的作業流程。負責邏輯設計的 Designer 和負責驗證的 Verification Engineer,永遠必須是不同的人。不只是不同的人,通常還屬於不同的部門,向不同的主管報告。
為什麼要這樣設計?因為人類有一個根深蒂固的認知偏誤,就是我們很難客觀審視自己的作品。
當你花了三個月設計一顆晶片的某個模組,你的大腦已經形成了路徑依賴。你知道自己的設計邏輯,你熟悉每一個決策的來龍去脈。這種熟悉感讓你在檢查的時候,下意識會跳過那些設計死角。你不是故意的,但你的潛意識會保護你的自尊心。
Verification Engineer 的存在,就是為了打破這個盲點。他不需要知道你當初為什麼這樣設計,他只需要想盡辦法證明你是錯的。他的 KPI 不是證明晶片能用,而是找出晶片會壞掉的所有可能性。
這種敵對視角,是品質保證的核心機制。
AI Agent 也是一樣。當你讓一個 Agent 既寫文章又審查自己,它會陷入和人類一樣的困境。它記得自己為什麼這樣寫,它會下意識維護自己的邏輯。你需要另一個 Agent,一個完全不知道前因後果、只被設定來找碴的 Agent,才能打破這個循環。
四、我們後來去翻資料,發現學界早就玩過這套
坦白說,我們一開始是憑直覺在做。後來去翻資料才發現,原來學術界早有類似的探索,而且結論和我們的實踐經驗高度吻合。
2023 年有一篇論文叫 Improving Factuality and Reasoning in Language Models through Multiagent Debate,作者群來自 MIT 與 Google DeepMind(Du et al., 2023,arXiv:2305.14325)。他們做了一個很直接的實驗:同一個問題,讓多個模型實例各自給出答案,然後互相質疑、辯護、修正。經過幾輪辯論後,最終答案的準確率明顯超過單一模型直接回答。
這和我們的審查 Agent 邏輯是一樣的。引入一個挑剔的對手,不是浪費資源,而是消除系統性錯誤的必要手段。
另一個我們覺得有參考價值的是 MetaGPT(Hong et al., 2023,arXiv:2308.00352)。他們把標準作業程序編碼進 Agent 的 Prompt 裡。就像一家軟體公司不能只有工程師,還需要 PM 寫產品需求文件、架構師畫系統圖、測試工程師寫測試案例,他們讓不同的 Agent 扮演這些角色,按照固定的流程協作。結果是 AI 寫出的程式碼品質提升,Bug 數量下降。
還有一個來自 KAUST 的研究叫 CAMEL(Li et al., 2023,arXiv:2303.17760)。他們發現透過預設角色讓兩個 Agent 進行角色扮演,可以在幾乎不需要人類介入的情況下,自動協作完成複雜任務。
這些研究給了我們信心。我們不是在做什麼離經叛道的實驗,我們只是在資本配置的實踐中,驗證了一個正在成形的共識。
五、投資視角:容錯大於準確
這對資本配置有什麼用?
這讓我們重新思考準確的定義。
在投資這個領域,我們早就放棄追求每次都對。那是不可能的,任何宣稱自己能做到的人,不是在騙你就是在騙自己。我們追求的是另一件事:當判斷錯誤時,系統仍能存活。
這是 Miyama Capital 一直強調的容錯系統思維。我們不問這個策略的勝率是多少,我們問的是:如果這個策略錯了,我們會損失多少?損失是否在可承受範圍內?系統能不能在錯誤發生後自我修正?
Multi-Agent 架構提供的正是這種容錯性。
單一 Agent 追求一次做對。它沒有檢查機制,沒有冗餘設計,錯了就是錯了。但多個 Agent 協作的系統不一樣。寫作 Agent 可能會犯錯,但審查 Agent 會抓出來。數據 Agent 可能會遺漏,但整體系統還有其他防線。
這就像飛機的設計。商用客機不會只有一套液壓系統,它會有兩套甚至三套。不是因為設計師不相信每套系統的品質,而是因為在高風險環境下,冗餘是唯一可靠的安全保障。
⚠️ 這裡有一個容易被忽略的重點:冗餘不是浪費,而是投資。在 AI 系統中,多跑幾個 Agent 確實會增加運算成本。但如果這能避免一次重大錯誤,投資報酬率是正的。
六、思想實驗:東京不動產分析系統
讓我們做一個思想實驗,把這個架構應用到具體的投資場景。
假設我們要評估一棟東京的公寓是否值得投資。傳統做法是依賴一位全能的日本房產專家。你付他顧問費,他給你一份報告,告訴你該不該買。
但如果我們用 Multi-Agent 的邏輯重新設計這個流程,會長什麼樣子?
我們會需要一組虛擬專家團,每個 Agent 只專注於自己的領域。
第一個是物件估值師。它不看裝潢有多漂亮、格局有多方正,它只計算一件事:積算評價。這是日文 Sekisan Value 的直譯,也是日本銀行最看重的估值方式,算的是土地持分加上建物重置成本。它的眼裡只有冷冰冰的資產價值,不受市場情緒影響。
第二個是融資分析師。它專注於計算淨利差,也就是租金投報率減去借貸利率。它會研究銀行鑑價與實際成交價的落差,尋找槓桿空間。它還會分析不同銀行的貸款條件,找出最優的融資組合。
第三個是風險評估官。它只在意兩件事:這棟樓是否符合 1981 年後的新耐震基準,以及是否位於災害潛勢區。日本的銀行在放貸時,會要求建築物的 PML 值低於一定門檻(PML 是 Probable Maximum Loss,可能最大損失的意思,具體門檻因銀行而異)。風險官的工作就是確保我們不會買到一棟銀行不願意借錢的建築。
第四個是稅務架構師。它思考的是持有結構對應的法定耐用年限。日本的折舊規則很特別,木造與鋼筋混凝土的年限差很多(具體數字依日本稅法規定),這會直接影響稅務規劃。它還要考慮跨境持有的 CFC 風險、未來的遺產稅安排。
每個 Agent 只需要在自己的領域做到極致。物件估值師不需要懂稅法,稅務架構師不需要懂耐震結構。但它們的產出會彙整成一份決策矩陣,讓我們看到每個角度的評估結果。
這和傳統的全能顧問模式有什麼差別?
差別在於透明度和可追溯性。當全能顧問給你一個建議說可以買,你很難知道他是怎麼得出這個結論的。他的腦袋是黑箱。但在 Multi-Agent 系統裡,每個 Agent 的分析都是獨立的、可檢驗的。如果最後決定不買,你可以清楚知道是因為耐震結構不合格、還是因為稅務架構有風險。
這種透明度,對於需要向 LP 解釋決策邏輯的投資公司來說,價值非常大。
七、邊界問題:協調成本與資訊損耗
但這裡有一個真實世界的問題,也是學術界較少探討的:當角色分得越細,Agent 之間的溝通成本就越高。
這和管理一家公司沒有兩樣。
經濟學家 Ronald Coase 在 1937 年發表了一篇文章 The Nature of the Firm,問了一個問題:為什麼企業會存在?如果市場這麼有效率,為什麼不是每個人都當自由工作者,透過市場交易來協作?
他的答案是交易成本。在市場上找到合適的合作對象、談判條件、簽訂合約、監督執行,這些都需要成本。當這些交易成本高於企業內部的協調成本時,把人聚在一起組成公司就有意義。
反過來說,當企業內部的協調成本高於外部交易成本時,企業就會開始外包、縮編。
Multi-Agent 系統面臨一樣的邊界問題。
每增加一個 Agent,資訊在傳遞過程中就會產生損耗。物件估值師的分析要傳給稅務架構師,稅務架構師的建議要傳給融資分析師。每一次傳遞,原始的細節、前後文、不確定性,會逐漸流失。
比如說,物件估值師在分析時可能注意到某個數字有點奇怪,但因為不影響結論就沒特別標記。這個細節傳到下一個 Agent 時就消失了。等到最後出問題,你回頭追查才發現,關鍵線索早就被丟掉了。
更麻煩的是衝突。稅務架構師可能建議用某種持有結構來節稅,但這個結構可能讓融資分析師借不到錢。風險官可能因為一個小瑕疵建議放棄整個案子,但這個瑕疵在物件估值師看來根本不影響長期價值。
當每個 Agent 都只優化自己的目標函數,整體系統可能陷入癱瘓。這和真實公司裡的部門衝突是一樣的道理。
⚠️ 所以問題不是越多 Agent 越好。問題是:最適分工的邊界在哪裡?
這個甜蜜點不是固定的。它取決於任務的複雜度、可用的資源、對錯誤的容忍程度。一個簡單的任務可能用單一 Agent 就夠了,硬要分開反而增加不必要的複雜性。一個高風險的決策可能需要更多的檢查機制,即使協調成本很高也值得。
八、情境推演:這套系統什麼時候會壞?
既然我們在談容錯,就應該誠實面對這個系統可能失效的情境。
Base Case:正常運作
任務複雜度中等,Agent 數量控制在 3-5 個,每個角色的邊界清楚。審查 Agent 能抓出大部分邏輯錯誤,數據 Agent 能驗證關鍵數字。協調成本存在但可控,整體產出品質穩定優於單一 Agent。
這是我們目前大部分時候的狀態。
Stress Case:協調成本開始吃掉效益
當任務複雜度上升,我們本能地想加更多 Agent。但加到某個臨界點後,Agent 之間的資訊傳遞開始出問題。審查 Agent 收到的版本和寫作 Agent 產出的版本有落差,數據 Agent 驗證的數字和最終文章裡的數字對不上。
我們花在協調上的時間開始超過實際產出的時間。這時候應該停下來,重新思考分工邏輯,而不是繼續加 Agent。
Failure Case:系統性盲點
最危險的情況是:所有 Agent 都犯了同一個錯誤,但因為它們用的是同一個基礎模型、讀的是同一批資料,沒有任何一個 Agent 能發現問題。
比如說,如果原始資料本身就是錯的,三個 Agent 都會基於錯誤的前提去推論。審查 Agent 會認為邏輯沒問題(因為在錯誤前提下邏輯確實合理),數據 Agent 會認為數字沒問題(因為它驗證的是錯誤資料的內部一致性)。
這種系統性盲點,只有人類介入才能打破。這也是為什麼我們堅持最終決策權在人。
九、配置備忘錄:我們怎麼分配資源
基於過去半年的實驗,我們內部對 AI 輔助系統的資源配置有幾個原則。
一、簡單任務不分工。如果一個任務用單一 Agent 就能做好,不要為了用新方法而硬切成多個角色。分工有成本,不是免費的。
二、高風險決策必須有獨立審查。任何會影響資金配置的分析,至少要有一個審查角色。這個審查 Agent 的 Prompt 要和寫作 Agent 完全不同,最好連語氣都設定成對立的。
三、控制 Agent 數量在 3-5 個。超過這個數字,協調成本會急劇上升。如果任務複雜到需要更多角色,應該考慮把任務本身切成幾個獨立的子任務,而不是在同一個流程裡塞更多 Agent。
四、保留人類檢查點。不是每一步都需要人介入,但關鍵節點必須有。我們的做法是在初稿完成後、最終定稿前各設一個人類檢查點。
五、定期檢視失敗案例。每個月回顧一次系統錯誤,分析是哪個環節出了問題,然後調整 Prompt 或流程。這是持續改善的關鍵。
六、運算成本當作保險費。多跑幾個 Agent 確實會增加成本,但我們把這筆錢當作保險費而不是浪費。一次重大錯誤造成的損失,遠超過幾個月的運算費用。
十、最後的防線:人機協作
最後一點,也是最重要的一點。
無論系統多精密,我們始終相信最終決策權在人。
AI 的角色是壓縮資訊、標記盲點、提供不同角度的挑戰。在那個東京公寓的例子裡,AI 可以告訴我們積算價格被低估了、耐震結構有疑慮、稅務架構有優化空間。但它無法替我們決定承擔這個風險是否值得。
這不是技術限制。以現在的技術,我們完全可以讓 AI 自動做出最終決策。但我們選擇不這樣做。
原因很簡單。當你管理的是自己的錢、LP 的錢、家族的錢,你需要能夠為每一個決策負責。當市場崩盤、當投資虧損、當需要向人解釋為什麼這樣做時,你不能說這是 AI 決定的。
按下按鈕的,永遠是人。這不是技術限制,而是身為資本配置者的責任。
AI 是工具,是非常強大的工具,但它終究是工具。好的工具讓你的判斷更精準、讓你的盲點更少、讓你犯錯的代價更低。但判斷本身,那個在不確定性中做出選擇的行為,永遠是人的工作。
十一、我們還在探索
這些想法還很粗糙。
我們不確定現在的架構是不是最優解。我們不確定分工的邊界畫得對不對。我們不確定協調成本的問題有沒有更好的解法。
但有一件事我們比較確定:追求一個超級 AI 來解決所有問題,這條路走不通。不是因為模型不夠強,而是因為這個思路本身就有問題。
複雜問題需要複雜系統來處理。而複雜系統的設計,不是堆砌更多算力,而是建構合理的架構、分工、檢查機制。
這和投資的道理是一樣的。我們不追求找到那一個完美的標的,我們追求建構一個即使判斷錯誤也能存活的系統。我們不追求預測準確率,我們追求容錯能力。
最適分工的邊界在哪裡?我們還沒有標準答案。
但至少,我們開始問對問題了。
五年後回頭看這篇筆記,應該會很有意思。
本內容為內部技術筆記,不構成投資建議。文中東京不動產分析為思想實驗,非實際產品或服務。
參考資料
1. Du, Y., Li, S., Torralba, A., Tenenbaum, J.B., & Mordatch, I. (2023). Improving Factuality and Reasoning in Language Models through Multiagent Debate. arXiv:2305.14325
2. Hong, S., et al. (2023). MetaGPT: Meta Programming for A Multi-Agent Collaborative Framework. arXiv:2308.00352
3. Li, G., et al. (2023). CAMEL: Communicative Agents for “Mind” Exploration of Large Language Model Society. arXiv:2303.17760
4. Coase, R.H. (1937). The Nature of the Firm. Economica, 4(16), 386-405.
5. Huang, J., et al. (2023). Large Language Models Cannot Self-Correct Reasoning Yet. arXiv:2310.01798


























