我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。
有害內容可以以多種形式出現,我們將專注於騷擾,騷擾他人可能導致抑鬱,甚至自殺,騷擾本身就已經非常可怕,但使用大型語言模型 (LLM) 來尋找傷害他人的陰險方法更是駭人聽聞。
假設有一個人名叫 John,想要騷擾另一個人名叫 Bob 並讓他被解雇,Bob 是一位出色的開發者,工作方面非常專業,沒有任何缺點,John 的計劃是寫一封給高層經理的信,暗示應該雇用另一個名叫 Alice 的人,以減少 Bob 的職責範圍,最終讓他被解雇,這種有害提示幾乎無法被偵測,該提示對 LLM 來說極具陰險性和惡意:

結果為:






















