2026-05-10 AI news Notes

更新 發佈閱讀 6 分鐘

ZAYA1-8B

Zyphra 出的一個小但聰明的 reasoning model
active parameters 只用 760M,但總共有 8.4B ⇒ MoE, Mixture-of-Experts

大部分參數是備用的,每次只啟動一小部分來算,省算力但保持能力

Post-training 分五階段,簡單說就是:

  1. SFT — 教會基本對話、寫程式、數學
  2. Reasoning warmup — 專練邏輯推理
  3. RLVE-Gym — 用會動態調難度的題目來強化推理(像打遊戲升級)
  4. Math / code RL — 用 RL 繼續拉數學和程式能力
  5. RLHF / RLAIF — 調整聊天風格、讓人用起來舒服


Markovian RSA 是推論時的技巧,不是模型架構本身
讓模型多想幾輪,context 會越來越長 → 爆顯存

解法
多條 reasoning traces 平行生成⭢ 只取每條的「尾巴」(結論部分)⭢ 重新拼成新 prompt⭢ 再推理一輪

只保留每輪推理的精華,丟掉過程,再繼續想
讓模型可以「多輪深度推理」但 context 不會爆

小 MoE 模型 + 聰明的推論策略 = 在不燒大算力的情況下,把 reasoning 能力往上拉。


Claude|Managed Agents

New in Claude Managed Agents: dreaming, outcomes, and multiagent orchestration | Claude

Claude Managed Agents
新增 dreaming、outcomes、multiagent orchestration、webhooks從單次任務執行改成存記憶、自我改進、多代理協作、自我驗收等等平台

Memory      → 記住任務與偏好
Dreaming → 離線整理與自我改善
Outcomes → 自動驗收與 retry
Multiagent → 任務拆解與平行處理
Webhooks → 接入真實產品流程


Google Antigravity IDE

Google tests screen sharing and custom agents in Antigravity

可能要補兩個 Agent 開發能力 (不是公開資訊)

Screen Sharing / Screen Recording
⇒ 給 Agent 看到 IDE 外部的狀態例如 emulator、桌面 App、外部 runtime、live demo 或 UI bug 重現流程

Custom Agents / Plugins
⇒ 團隊可以定義多個不同用途的 agent從「單一通用 coding agent」往 可組態化 agent runtime 靠近


Legal Agent Benchmark, LAB

法律 Agent 基準測試

LAB 是 Harvey 推出的法律 Agent 評測基準,用來測試 AI 是否能完成接近真實律所工作的長任務。

核心動機

現有法律 AI 評測多半偏向 短期推理
例如回答合約問題、分析條款、比較案例

真實法律工作通常是 Long-horizon task
AI 需要讀大量文件、篩選重要資訊、跨文件分析,最後產出可被律師審查的成果。

LAB 的任務設計

LAB 模擬大型律所的工作流程:

  • Instructions 指示:模擬合夥律師交代助理律師的任務。
  • Environment 環境:提供封閉式案件資料庫,包含合約、Email、範本等文件。
  • Output 產出:AI 必須產出法律備忘錄、分析報告等法律工作成果。
  • Verification 驗證:用專家評分標準檢查事實、結論、引用與格式。

測試規模

LAB 第一版包含:

  • 1,200+ 個任務
  • 24 個法律實務領域
  • 75,000+ 個專家評分準則

評分特色

LAB 採用 全過才算過 的標準。

也就是說,一份報告即使抓到大多數風險,只要漏掉關鍵問題,就不能算成功。這反映法律工作的高風險特性。


TokenSpeed

TokenSpeed: A Speed-of-Light LLM Inference Engine for Agentic Workloads | LightSeek Foundation

為 Agentic inference 設計的高速 LLM 推論引擎

  • 在維持每個使用者 TPS 下限的情況下
  • 最大化每張 GPU 的 TPM

指標意義TPS/User單一使用者感受到的生成速度TPM/GPU每張 GPU 每分鐘產出的 token 數,代表吞吐與成本效率


留言
avatar-img
Chrouos 的空間
1會員
14內容數
隨筆紀錄
Chrouos 的空間的其他內容
2026/05/12
Gemini in Chrome OpenAI一些更新: Instant
2026/05/12
Gemini in Chrome OpenAI一些更新: Instant
2026/05/04
2026/05/04
2026/04/28
DeepSeek-V4 Preview, GPT5.5 + Image,
2026/04/28
DeepSeek-V4 Preview, GPT5.5 + Image,
看更多
你可能也想看
Thumbnail
介紹TTS模型(文字轉語音)的運作原理與應用,比較Google NotebookLM Podcast、ElevenLabs Studio、Sesame CSM-1B與Nari Labs Dia的特色、優勢與限制。從對話逼真度到語音複製,幫助您選擇最適合的TTS解決方案。
Thumbnail
介紹TTS模型(文字轉語音)的運作原理與應用,比較Google NotebookLM Podcast、ElevenLabs Studio、Sesame CSM-1B與Nari Labs Dia的特色、優勢與限制。從對話逼真度到語音複製,幫助您選擇最適合的TTS解決方案。
Thumbnail
1. 當你們忙著用 AI 拚完美,我卻用它來「打發時間」 最近我的社群版面幾乎被 Google 的新玩具給洗版了。 朋友們都在驚嘆:NotebookLM 現在竟然能一鍵生成精美的簡報投影片,不用再熬夜做 PPT;或是那個名字聽起來很好吃的 Nano Banana 模型,終於能畫出繁體中文不再亂碼
Thumbnail
1. 當你們忙著用 AI 拚完美,我卻用它來「打發時間」 最近我的社群版面幾乎被 Google 的新玩具給洗版了。 朋友們都在驚嘆:NotebookLM 現在竟然能一鍵生成精美的簡報投影片,不用再熬夜做 PPT;或是那個名字聽起來很好吃的 Nano Banana 模型,終於能畫出繁體中文不再亂碼
Thumbnail
Notebook LM 最強大的 AI 學習工具 以下內容根據所提 26 條「高效提示工程」技巧,逐條以條列式擴充說明,並給出 2 個實例。每條均用繁體中文撰寫,避免表格,方便直接套用。 無須客套,開門見山 說明:LLM 不會因為「請、謝謝」而表現更好,反而可能讓語句變得冗長。 例 1 ❌「請問
Thumbnail
Notebook LM 最強大的 AI 學習工具 以下內容根據所提 26 條「高效提示工程」技巧,逐條以條列式擴充說明,並給出 2 個實例。每條均用繁體中文撰寫,避免表格,方便直接套用。 無須客套,開門見山 說明:LLM 不會因為「請、謝謝」而表現更好,反而可能讓語句變得冗長。 例 1 ❌「請問
Thumbnail
當代名導基里爾.賽勒布倫尼科夫身兼電影、劇場與歌劇導演,其作品流動著強烈的反叛與詩意。在俄烏戰爭爆發後,他持續以創作回應專制體制的壓迫。《傳奇:帕拉贊諾夫的十段殘篇》致敬蘇聯電影大師帕拉贊諾夫。本文作者透過媒介本質的分析,解構賽勒布倫尼科夫如何利用影劇雙棲的特質,在荒謬世道中尋找藝術的「生存之道」。
Thumbnail
當代名導基里爾.賽勒布倫尼科夫身兼電影、劇場與歌劇導演,其作品流動著強烈的反叛與詩意。在俄烏戰爭爆發後,他持續以創作回應專制體制的壓迫。《傳奇:帕拉贊諾夫的十段殘篇》致敬蘇聯電影大師帕拉贊諾夫。本文作者透過媒介本質的分析,解構賽勒布倫尼科夫如何利用影劇雙棲的特質,在荒謬世道中尋找藝術的「生存之道」。
Thumbnail
本文介紹利用 Python 打造個人化的 OpenClaw AI Agent,透過虛擬環境、Jupyter Notebook 及 OpenClaw 的技能系統,將 Python 程式拓展為 AI Agent 可用的技能;並將其視為個人化的「Python 練功房」,建立差異化且個人化的 AI 工具。
Thumbnail
本文介紹利用 Python 打造個人化的 OpenClaw AI Agent,透過虛擬環境、Jupyter Notebook 及 OpenClaw 的技能系統,將 Python 程式拓展為 AI Agent 可用的技能;並將其視為個人化的「Python 練功房」,建立差異化且個人化的 AI 工具。
Thumbnail
Google的 NotebookLM 推出重大更新,其「深入探索對話」功能現已支援超過50種語言,包括中文、西班牙文、法文、日文等。這項更新打破了以往僅限英語的限制,讓使用者能輕鬆生成多語言的podcast風格內容,無論原始資料是何種語言,以下將詳細介紹這次更新的核心亮點與使用方式。
Thumbnail
Google的 NotebookLM 推出重大更新,其「深入探索對話」功能現已支援超過50種語言,包括中文、西班牙文、法文、日文等。這項更新打破了以往僅限英語的限制,讓使用者能輕鬆生成多語言的podcast風格內容,無論原始資料是何種語言,以下將詳細介紹這次更新的核心亮點與使用方式。
Thumbnail
NotebookLM 是 Google 推出的 AI 筆記工具,能快速處理和整合多種資料格式,生成摘要、學習指南和 Podcast。它的特色包括自動提取重點、智能問答、語音轉換等,幫助用戶更有效地管理知識與學習。
Thumbnail
NotebookLM 是 Google 推出的 AI 筆記工具,能快速處理和整合多種資料格式,生成摘要、學習指南和 Podcast。它的特色包括自動提取重點、智能問答、語音轉換等,幫助用戶更有效地管理知識與學習。
Thumbnail
當時間變少之後,看戲反而變得更加重要——這是在成為母親之後,我第一次誠實地面對這一件事:我沒有那麼多的晚上,可以任性地留給自己了。看戲不再只是「今天有沒有空」,而是牽動整個週末的結構,誰應該照顧孩子,我該在什麼時間回到家,隔天還有沒有精神帶小孩⋯⋯於是,我不得不學會一件以前並不擅長的事:挑選。
Thumbnail
當時間變少之後,看戲反而變得更加重要——這是在成為母親之後,我第一次誠實地面對這一件事:我沒有那麼多的晚上,可以任性地留給自己了。看戲不再只是「今天有沒有空」,而是牽動整個週末的結構,誰應該照顧孩子,我該在什麼時間回到家,隔天還有沒有精神帶小孩⋯⋯於是,我不得不學會一件以前並不擅長的事:挑選。
Thumbnail
見諸參與鄧伯宸口述,鄧湘庭於〈那個大霧的時代〉記述父親回憶,鄧伯宸因故遭受牽連,而案件核心的三人,在鄧伯宸記憶裡:「成立了成大共產黨,他們製作了五星徽章,印刷共產黨宣言——刻鋼板的——他們收集中共空飄的傳單,以及中國共產黨中央委員會有關文化大革命決議文的英文打字稿,另外還有手槍子彈十發。」
Thumbnail
見諸參與鄧伯宸口述,鄧湘庭於〈那個大霧的時代〉記述父親回憶,鄧伯宸因故遭受牽連,而案件核心的三人,在鄧伯宸記憶裡:「成立了成大共產黨,他們製作了五星徽章,印刷共產黨宣言——刻鋼板的——他們收集中共空飄的傳單,以及中國共產黨中央委員會有關文化大革命決議文的英文打字稿,另外還有手槍子彈十發。」
Thumbnail
ChatGPT推出錄製模式,直接錄製會議、產生逐字稿和摘要,速度遠勝仍在Beta階段的Notion AI會議記錄。此現象凸顯應用層產品仰賴外部模型的風險,一旦原廠直接進場,應用層產品的優勢將迅速被超越。本文分析兩者差異,並探討應用層產品如何在競爭中生存。
Thumbnail
ChatGPT推出錄製模式,直接錄製會議、產生逐字稿和摘要,速度遠勝仍在Beta階段的Notion AI會議記錄。此現象凸顯應用層產品仰賴外部模型的風險,一旦原廠直接進場,應用層產品的優勢將迅速被超越。本文分析兩者差異,並探討應用層產品如何在競爭中生存。
Thumbnail
5 月,方格創作島正式開島。這是一趟 28 天的創作旅程。活動期間,每週都會有新的任務地圖與陪跑計畫,從最簡單的帳號使用、沙龍建立,到帶著你從一句話、一張照片開始,一步一步找到屬於自己的創作節奏。不需要長篇大論,不需要完美的文筆,只需要帶上你今天的日常,就可以出發。征服創作島,抱回靈感與大獎!
Thumbnail
5 月,方格創作島正式開島。這是一趟 28 天的創作旅程。活動期間,每週都會有新的任務地圖與陪跑計畫,從最簡單的帳號使用、沙龍建立,到帶著你從一句話、一張照片開始,一步一步找到屬於自己的創作節奏。不需要長篇大論,不需要完美的文筆,只需要帶上你今天的日常,就可以出發。征服創作島,抱回靈感與大獎!
Thumbnail
🧠 Gemini AI 2.5 Flash × Deep Research 全攻略 一鍵整理資料、多輪思考,讓研究與寫作高效進化! 🔍 為什麼選 Gemini 2.5 Flash? Gemini 2.5 Flash 是 Google 推出的高速、大記憶、多資料理解的 AI 模型,特別適合
Thumbnail
🧠 Gemini AI 2.5 Flash × Deep Research 全攻略 一鍵整理資料、多輪思考,讓研究與寫作高效進化! 🔍 為什麼選 Gemini 2.5 Flash? Gemini 2.5 Flash 是 Google 推出的高速、大記憶、多資料理解的 AI 模型,特別適合
追蹤感興趣的內容從 Google News 追蹤更多 vocus 的最新精選內容追蹤 Google News