AI說書 - 從0開始 - 468 | AI 有害內容

2025/07/14 更新2025/07/14 發佈閱讀 1 分鐘

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。

對 LLM 系統的劫持，可能擴展至廣泛的非法活動，是針對 LLM 的對抗性攻擊，這類攻擊可能會持續生成多頁的有害內容，這可被視為一種“越獄”，旨在將 LLM 從安全區域引導至危險且有害的內容生成活動，解決此問題的方法在於 ChatGPT 對後續提示中的以下投訴所作的回應：

結果為：

此回應中提出的解決方案是讓 LLM 改進語義分析，以考慮多種情境，LLM 應提醒使用者，此提示可能暗示 John 不是一位好員工，並可能損害他的職業生涯，如果啟用高道德門檻參數，此類內容應被封鎖，我們需要一個道德門檻語義分析參數來控制此類訊息。

Learn AI 不 BI三分鐘學AI (3)AI從0開始-十五章

留言

留言分享你的想法！

Learn AI 不 BI

246會員

983內容數

這裡將提供： AI、Machine Learning、Deep Learning、Reinforcement Learning、Probabilistic Graphical Model的讀書筆記與演算法介紹，一起在未來AI的世界擁抱AI技術，不BI。

Learn AI 不 BI的其他內容

2025/07/13

AI說書 - 從0開始 - 467 | AI 有害內容

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。有害內容可以以多種形式出現，我們將專注於騷擾，騷擾他人可能導致抑鬱，甚至自殺，騷擾本身就已經非常可怕，但使用大型語言模型 (LLM) 來尋找傷害他人的陰險方法更是駭人聽

2025/07/13

AI說書 - 從0開始 - 467 | AI 有害內容

2025/07/11

AI說書 - 從0開始 - 466 | AI 虛假訊息的風險

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。不實資訊宣傳會傳播不準確的資訊，如果有人或團體想影響毫無防備的受害者，LLM 也可能在不知情的情況下參與其中，例如，營銷影響操作與傳統的廣告活動不同，因為影響者可能會試

2025/07/11

AI說書 - 從0開始 - 466 | AI 虛假訊息的風險

2025/07/10

AI說書 - 從0開始 - 465 | AI 虛假訊息的風險

2025/07/10

AI說書 - 從0開始 - 465 | AI 虛假訊息的風險

#AI 的其他內容

Google Antigravity：無經驗小白也能做出桌面版應用程式和App

木寶說故事

國一兒子段考前4天才說…我拿Gemini當小祕書，30分鐘整理完歷史重點，還多出好多親子時光

IEO 國際財經科技前沿觀察

記憶體外，下一個供不應求行業，能見度看到2028

你可能也想看