Roblox 用 AI 即時翻譯 16 種語言,聊天延遲壓到約 100ms
做了一個 統一的多語翻譯模型,一次支援 16 種語言、共 256 種翻譯方向
代價是模型會很大
Roblox 最初的模型大約有 10 億參數
再用 knowledge distillation 把模型壓縮到 6.5 億以下參數
並搭配 quantization 和 model compilation 進一步加速
系統會先查 翻譯快取,命中就直接回傳;
如果沒有命中,再用 dynamic batching 把多個請求一起送進 GPU
Roblox 推出 16 種語言版本的 AI 即時聊天翻譯 | Roblox
補充:Roblox 當時已在平台上線這項功能,適用於使用 TextChatService 的體驗。官方也提到,早期測試對聊天互動量、停留時間與遊玩品質都有正向影響。
Mistral 的 Voxtral TTS
是一個 4B 的文字轉語音模型,支援 9 種語言,能用很短的語音片段做聲音複製,並強調自然度與低延遲。
Mistral AI開源文字轉語音模型Voxtral TTS | iThome
補充:Voxtral TTS 建立在 Ministral 3B 上,支援 9 種語言與短語音提示做 voice cloning。開放權重版本提供固定聲線,完整可自訂聲音的能力則放在 Mistral AI Studio。
Meta 的 Avocado 系列進度不如預期
Meta 傳延後發佈全新 AI 模型 Avocado:性能落後 Gemini 3 | 鏈新聞 ABMedia
報導引述 NYT 與 Reuters,Avocado 並非失敗,而是介於 Gemini 2.5 和 Gemini 3 之間,所以 Meta 選擇延後發布
文中也提到 Meta 內部曾討論短期授權 Gemini 來支撐部分產品
Claude Code Channels
它讓使用者可以透過 Telegram 或 Discord,直接對既有的 Claude Code session 傳訊息派任務
Anthropic公布Claude Code Channels,開發人員可用Telegram、Discord和Claude溝通 | iThome
補充:它本質上是把外部訊息或 webhook 推進既有 Claude Code session 的事件通道。現階段仍是 research preview,需 Claude Code v2.1.80+,且目前不支援 Console 與 API key 驗證。
算力競爭已經變成國家級、產業級規模
Musk 的 Terafab 想做的不只是晶片,而是把 logic、memory、packaging、testing 都整合在一起,甚至延伸到太空中的 AI 衛星算力 未來 AI 的瓶頸不只在模型,而在 晶片供應、電力、封裝、散熱、部署位置。
OpenAI砍掉Sora,OpenAI 要把影片產品線(含 app、API)收掉
把算力與重心轉去下一個模型「Spud」,猜測:
- 算力有限,要集中火力在更核心模型
- 企業市場競爭變得更重要
Anthropic 推出研究預覽版,讓 Claude 可以直接操作桌面
把 AI 從「回答問題」往前推到「直接代操作」 目前是 research preview
ARC-AGI-3 上線
主打測試 AI 是否能像人類一樣,在沒教學、沒特別訓練下,進入陌生互動環境並快速學會解題。結果文中列出的 frontier models 幾乎都不到 1%,例如 Gemini 3.1 Pro 0.37%、GPT-5.4 0.26%、Claude Opus 4.6 0.25%,但人類測試者是 100%
測的不是背過多少知識,能不能在新環境中即時適應
Anthropic 想教育使用者,AI 的價值不是只靠模型,而是靠上下文設計能力
未來職場差距可能不只是「有沒有用 AI」,而是「會不會正確地把任務脈絡交給 AI」。AI literacy 會慢慢變成新的工作能力門檻。
Apple 取得 Gemini 完整存取,可縮成離線 Siri 模型
強化 Apple 在 on-device AI 的能力
結果:代表 Apple 可能更積極補強 Siri 的 AI 競爭力。 限制:缺少官方技術說明與產品時間表。
Google新演算法TurboQuant 標榜僅需六分之一存儲數量 嚇趴記憶體 | 產業熱點 | 產業 | 經濟日報
LLM 記憶體用量縮減 20 倍!NVIDIA 超狂新技術 KVTC,靠「KV 快取」翻轉記憶體瓶頸 | TechNews 科技新報
TurboQuant: Redefining AI efficiency with extreme compression
Google 的 TurboQuant 主打把 LLM memory usage 降到原本的 1/6,並提升推論速度,重點在於壓縮 KV cache
補充:Google Research 原文更精確地說,TurboQuant 是一組向量量化方法,背後結合 PolarQuant 與 QJL,不只可壓 KV cache,也可用在 vector search。官方強調在多個 long-context benchmark 上,KV memory 可壓到約 1/6 甚至更低,同時維持幾乎無損精度,注意力計算速度最高可到 8x。
對照來看,NVIDIA 的 KVTC 比較像另一條路線:不改模型權重,借用類似 JPEG 的 transform coding 思路壓縮 KV cache,特別適合長上下文、多輪對話、agentic workflow 與 iterative RAG。
隨便紀錄,參考各個電子報,文筆請 ChatGPT 潤飾










