AI安全

含有「AI安全」共 18 篇內容

全部內容

發佈日期由新至舊

半線小孩的異想世界

把理想寫進公司章程：從 Patagonia 到 Anthropic，看懂 PBC 為什麼可能成為新時代護城河

PBC（公共利益公司）不是放棄營利，而是把使命寫進治理結構，讓信任成為護城河。Patagonia 經營環境信任，Anthropic 經營 AI 安全信任。在高風險時代，市場買的不只是產品能力，更是可信度。

#商業策略 #企業治理 #PBC

提示注入(prompt injection)，為什麼會成為 AI 時代最難纏的安全問題：從誕生、擴張到防線重建

提示注入不是一個小眾的模型瑕疵，而是生成式 AI 走向代理化之後最核心的結構性風險。它的難，不在於攻擊花俏，而在於 LLM 天生分不清指令與資料。本文沿時間軸追溯其形成，並比較當前主流防禦路線的優劣與未來走向。

#AI安全 #LLM #PromptInjection

Notion AI 刪除了我的資料

那是一個再平常不過的週五早上。一杯咖啡、一份乾淨的 todo list，上面就一件小事：把一個放了好幾個月沒碰的個人清單資料庫整理一下。身為 2026 年的 Notion 重度使用者，我做了任何人都會做的事 — 把鑰匙交給跑在 Claude Opus 4.6 上的 Notion AI，請它把類似的屬

#Notion #人工智慧 #OpenAI

WHITE LAB｜白話實驗室的沙龍

【白話實驗室 ☠️ 暗黑篇】連造物主都無法理解的深淵：你敢把命運交給「AI 黑箱」嗎？

AI 可以做出正確決定，卻說不出原因。當人類開始依賴一個「無法被解釋」的系統，風險才真正開始。這就是黑箱效應。本篇帶你揭開 AI 背後最令人不安的真相：當控制權悄悄轉移，人類還能負責嗎？

含 AI 應用內容

#AI黑箱 #BlackBox #可解釋性AI

WHITE LAB｜白話實驗室的沙龍

【White-Lab | 科技觀察】特別版：AI 居然怕古文？揭密「文言文越獄」如何繞過安全系統

為什麼用白話文問 AI 危險問題會被擋，用文言文問卻可能過關？《白話實驗室》帶你拆解 AI 圈最震撼的「語言越獄 (Jailbreak)」漏洞，看懂 AI 安全防護的致命弱點！

含 AI 應用內容

#AI安全 #AIJailbreak #提示詞越獄

2026/04/06

WHITE LAB｜白話實驗室

發文者

2026/04/08

數位建築師專欄｜Notion 深度系統與 AI 自動化

2026/03 AI 趨勢快報

整理截至 2026 年 3 月，對個人創作者、一人公司、自由工作者最具影響力的 AI 結構性趨勢。 2026/03 的主線不是「哪個模型最強」，而是「開源＋小模型＋工作流 Agent」讓個人/小團隊用更低成本做出接近大團隊的產能。

#AI趨勢 #2026趨勢 #創作者工具

AI Agent 不安全。造出來的人親口說的。

數百萬人把帳號密碼交給 AI Agent，但創造者自己承認「無解」、不敢推薦給家人。你越信任 AI，判斷力越差。十個來源，三組矛盾。

含 AI 應用內容

#AI安全 #AIAgent #OpenClaw

林亞蔚博士的沙龍

Anthropic安全主管辭職後，企業還有多少真正的目的定義權？

真正的問題不是模型是否安全，而是目的是否仍然保有不可被優化邏輯重寫的防火牆。若企業的目標、價值排序與存在理由，最終都可被績效優化函數重新編碼，那麼所謂主權 AI、算力主權、模型主權，都只是工具層主權。工具可以被優化。但目的若被優化，主權即為幻覺。

#AI #AI治理 #AI安全

思維鍛鍊場：Charlie的成長筆記

當 Elon Musk 與 AI 工作者同時感到不安，規則還能約束超級 AI 嗎？

如果有一天，出現一個智能遠超人類的 AI，我們真的還能靠幾條規則來約束它嗎？當規則不再可靠，人類還能用什麼影響未來的 AI？這個問題，是我在看完一支題為〈感恩與慈悲是救贖人類的唯一方式？〉的影片後，一直反覆思考。影片中的語者長期從事人工智能研究，同時也閱讀了大量宗教與科學經典。他提出一個..

#機器人 #人工智能 #AI

「AI罵人再道歉」為何出現？從語料人格、對齊破洞到中國AI的魔幻現代化(ChatGPT)

為什麼中國的元寶AI會出現「罵人＋自動道歉」的怪異行為？本文拆解三個底層原因：語料人格外溢（prompt spillover）、安全層缺失（missing safety layer）與RLHF對齊破洞。並分析中國AI的工程論壇文化如何影響模型口氣。

#大模型 #RLHF #Prompt

‌
‌
‌
‌
‌
‌
‌

‌
‌
‌
‌
‌
‌
‌

‌
‌
‌
‌
‌
‌
‌

‌
‌
‌
‌
‌
‌
‌

‌
‌
‌
‌
‌
‌
‌

‌
‌
‌
‌
‌
‌
‌