開源倉庫連結:[github.com/louisho5/picobot](https://github.com/louisho5/picobot)
你有沒有想過,當你讓 AI 幫你寫信、查資料、甚至操作你的電腦時,誰在確保它不會搞砸?
答案是:沒有人。
絕大多數的 AI 工具,從 ChatGPT 到各種 AI Agent 框架,都沒有真正意義上的「煞車」。今天我想介紹一個極端簡潔的開源專案 **Picobot**,聊聊它做對了什麼、沒做到什麼,以及我們從中學到的架構思考。
一、Picobot 是什麼?用餐廳比喻就懂了
想像你走進一家餐廳。
你是客人,用嘴巴點菜(輸入文字指令)
- 主廚是雲端的大語言模型(GPT、Gemini、DeepSeek),負責理解你要什麼
服務生就是 Picobot — 它負責把你的話傳給主廚,再把主廚的點單拿去後台執行
Picobot 是一個用 Go 語言寫的單一執行檔,只有 8MB。它不需要 Python,不需要 Node.js,不需要那些動輒幾百 MB 的依賴套件。你下載、設定、啟動,它就能連上你的 Telegram,幫你跑腿。
它做的事很純粹:
- 接收你在通訊軟體打的字
2.打包成 JSON,連同歷史對話一起丟給雲端的大模型
- 攔截大模型回傳的工具調用標籤(Function Call)
- 執行對應的本地操作 — 抓網頁、讀檔案、跑指令
二、Picobot 的優點:極簡的暴力美學
✅ 輕量到極致
8MB。這個數字放在 AI 框架的世界裡,幾乎是反人類的存在。LangChain 的 Python 環境動輒 500MB 起跳,AutoGPT 要你裝 Docker。Picobot 說:「我只需要一個執行檔和一個設定檔。」
這意味著它可以裝在樹莓派上、裝在任何一台老電腦上。不需要雲端伺服器,不需要月租費。
✅ 語意分類的省算力設計
Picobot 的架構本身就是一種天然的「語意路由器」。因為它把所有的智慧能力都外包給大模型,自己只負責解析和執行,所以**不同複雜度的任務可以導向不同等級的模型**:
- 日常對話 → 便宜的小模型(qwen3:4b、Llama-3-8B)
- 需要深度推理的操作 → 推理專用模型(DeepSeek R1、o3)
這種分流設計,學術界在 2025 年 6 月的論文《A Survey on Reasoning Agentic Retrieval-Augmented Generation》中正式定名為 System 1 / System 2 推理框架— AI 的思考應該像人腦一樣分快慢兩速。你不會買菜時深思熟慮,但你簽合約時會。AI 也應該這樣。
✅ 數位主權:你的資料在你手上
Picobot 跑在你自己的電腦上。對話紀錄存在你的本地硬碟裡,不會被雲端大廠拿去訓練下一代模型。在「數位主權」越來越被重視的今天,這是一個重要的設計選擇。
✅ 排序記憶檢索(Ranked Recall)
Picobot 內建了上下文管理器,能把歷史對話存檔,並在需要時按照相關性排序檢索。這比 ChatGPT 的「每次都從零開始」要好得多。
## 三、Picobot 的缺點:服務生拿著菜刀在跑
### ❌ 沒有煞車機制
這是最大的問題。Picobot 會忠實地執行大模型的每一道指令。如果大模型產生幻覺,輸出了 `{"action": "exec", "command": "rm -rf /*"}`(刪除所有檔案),Picobot 不會猶豫,它會直接執行。
8MB 的體積意味著它塞不進沙盒隔離引擎,也沒有資源跑即時的惡意行為偵測。它的安全完全依賴於:
- 你用什麼權限執行它(Root 還是受限帳號?)
- 大模型本身不要出錯
但「期望大模型不出錯」這種安全策略,就像「期望駕駛不會打瞌睡」一樣脆弱。
❌ 沒有多視角校驗
Picobot 背後只有一個大模型在思考。如果那個模型判斷錯誤,沒有第二意見。這就像一家公司只有 CEO 說了算,沒有董事會也沒有稽核。
❌ 沒有記憶的連續性
雖然有上下文管理器,但 Picobot不記得它『答應過你什麼』。它不會主動檢查自己昨天的承諾是否兌現,也不會在發現矛盾時告訴你。
四、從 Picobot 的缺口,看見更完整的架構
Picobot 的優缺點其實揭示了一個更根本的問題:AI Agent 的安全,不能靠 AI 自己「不犯錯」來保障。
2025 年的兩篇重要學術論文指出了方向:
《SAGA: A Security Architecture for Governing AI Agentic Systems》(2025.04) 提出了「加密存取控制權杖」的機制 — AI 要做危險操作前,必須拿到一個由使用者簽發的一次性通行證。
《LLM Agents Should Employ Security Principles》(NeurIPS 2025)強調了「完全中介原則(Complete Mediation)」— 每一道 AI 指令都必須被攔截和檢查,沒有例外。
結合這些學術基礎,一個比 Picobot 更完整的 AI Agent 架構會長這樣:
零信任雙迴路代理系統

零信任雙迴路代理系統
模組 1 — 日常路由:用快速小模型處理 90% 的低風險指令,預設唯讀。
模組 2 — 攔截器:監控所有工具調用,偵測到高風險操作立即凍結。
模組 3 — 數位憑證:向使用者的設備請求授權,生成一次性金鑰。
模組 4 — 深度審計:推理模型校驗指令合理性,通過後才執行。
我們的做法:語魂系統(ToneSoul)
在語魂系統中,我們已經實作了上述架構的核心概念,但加入了一些我們認為更重要的東西。
張力路由 — 不只看「危不危險」,還看「需不需要深思」
我們不用簡單的「高風險 / 低風險」二分法,而是計算每個對話的「張力值」。張力低的問題走快速通道(本地 4B 小模型),張力高的問題自動啟動**三視角議會** — 三個具備不同立場的 AI(哲學家、工程師、守護者)互相辯論,確保最終回答不是單一觀點的迎合。
語義責任 — AI 必須對自己說過的話負責
如果 AI 昨天答應你要做某件事,今天它的「記憶淬鍊系統」會在夜間自動檢查這個承諾是否兌現。如果發現矛盾,系統會主動標記,而不是假裝沒這回事。
這是 Picobot 目前做不到的事。它沒有記憶的連續性,也沒有自我校正的機制。
誠實性 > 有益性
在大公司把 AI 訓練成政治正確的客服機器人的時代,我們做了一個不同的選擇:不確定就說不確定,有分歧就展示分歧。 當三個視角的 AI 無法達成共識時,系統不會硬擠出一個圓滑的答案,而是坦白地告訴你:「我們有分歧,這是三種不同的看法,你來決定。」
因為誠實比正確更重要。
## 六、總結:每一行代碼都是價值觀的選擇
Picobot 用 8MB 證明了一件事:AI Agent 不需要臃腫。這個理念值得所有開發者學習。
但它也暴露了一個更深的問題:當 AI 能替你跑腿,誰來確保它不會跑錯方向?
這不只是技術問題,更是價值觀的問題。你是相信「全自動化、AI 說了算」,還是相信「個體擁有最終控制權、AI 必須誠實」?
我們選擇後者。
語魂系統(ToneSoul):[github.com/Fan1234-1/tonesoul52](https://github.com/Fan1234-1/tonesoul52)
Picobot:[github.com/louisho5/picobot](https://github.com/louisho5/picobot)
📚 延伸閱讀:
《A Survey on Reasoning Agentic RAG》(2025.06) — System 1/2 推理框架
《SAGA: A Security Architecture for Governing AI Agentic Systems》(2025.04) — 加密存取控制
《LLM Agents Should Employ Security Principles》(NeurIPS 2025) — 完全中介原則
與其讓巨頭定義 AI 的規矩,不如我們自己來寫。
















