Anthropic為什麼要自己挑戰越獄?

閱讀時間約 3 分鐘
本圖片由AI生成

本圖片由AI生成

大型語言模型(LLM)在商業正式使用上,「幻覺」和「越獄」是兩個很關鍵的問題。「幻覺」通常指模型生成的內容與現實世界的事實不符或缺乏邏輯性。這種情況下,LLM可能會創建出看似合理但實際上是虛構的資訊或敘述,也就是大家最喜歡說的「一本正經的胡說八道」。

「越獄」(Prompt Injection 或 Prompt Hacking)是一種技術,通過在提示中巧妙地插入特定的文本或指令,使得LLM執行非預期的操作或生成不符合原始用途的輸出。這可以被視為一種操縱或欺騙模型的行為,使其超出正常或安全的使用範圍。

現在商用的LLM模型,在規劃上面都會加設相關的限制,以避免被利用為產生非法內容,或協助非法行為。而各種越獄方式的嘗試,除了一部分是技術人員想挑戰自身能力外,也是作為整體規劃優化很好的一種建議模式。日期AI模型巨頭Anthropic自行發佈了一套Many-shot jailbreaking 的越獄技術,除了公開越獄的方式,也讓其他AI 開發人員了解這個漏洞,同時對Anthropic的系統上也做了相應措施。

在過去的經驗中,長文本的輸入本來就容易達成越獄,不管是逆向發現Prompt設定,或是產出錯誤內容,生成式AI對於長文本本來就容易偷懶、產生幻覺或是錯誤答案。但本次Anthropic是採用上下文參考的模式,將原本設定拒絕回答的違法內容,以多個例句作為上下文參考,然後在對話的最後加入真正要詢問的違法內容。模型會因為受到上下文的影響,而回答不應該回答的內容。

根據Anthropic的分享Many-shotjailbreaking的有效性與「情境學習」的過程有關。情境學習是指 LLM 僅使用提示中提供的資訊進行學習,而無需進行任何後期微調。在正常的、與越獄無關的情況下,情境學習遵循與越來越多的及時演示的多次越獄相同的統計模式。也就是說,對於更多的「嘗試」,一組良性任務的性能會以與我們看到的多次越獄的改進相同的模式進行改進。簡單來說,就是直接問一個問題,可能因為模型需要考慮的點很多,所以回答出不是那麼好的結果,但因為增加了前後文案例的參考,模型就會自己修正回答更符合使用者需求的內容。同時,對於較大的模型來說,Many-shotjailbreaking通常更有效。LLM越大,它就越能在上下文學習中表現得更好。

本圖片由AI生成

本圖片由AI生成

Anthropic主動自己發表這個越獄方法及解決方案,是希望通過分享,讓其他的AI研究人員也能主動知道這個風險並主動的管理風險。在各家紛紛推動運用LLM作為工作助理、生活助理、專業領域知識庫的同時,設定防範規則及機制就分外重要。因為AI夠強大,所以為了服務的便利,若是AI所經手的資訊產生漏洞,那傷害恐怕就難以挽回了。

其實防堵規則本來就會有漏洞,任何的法規和機制的設定,大家主動尋找及分享漏洞本來就是基礎人性。但AI對於社會的影響極大,因此在社會安全的防護上,如果各企業能有更多分享和交流,勢必對於形成「可信任」的AI,是正向的幫助。

raw-image


介紹AI趨勢、應用工具,為您補給滿滿の AI超能力!
留言0
查看全部
avatar-img
發表第一個留言支持創作者!
紐約時報報導,OpenAI使用了自家的Whisper 轉錄 100 萬個小時的 YouTube 影片作為訓練模型資料。Meta正在討論即使被起訴,也要使用受版權保護的作品來作為模型訓練資料。幾大模型開發者目前都同樣遭遇了「優質訓練資料」不足的困近的困境,而必須走入灰色地帶來支持模型的開發。
OpenAI近期公開了名為「Voice Engine(語音引擎)」的AI模型,使用者只要輸入文字與15秒的音訊樣本,該模型便會自動生成與原說話者相似的語音訊息。AI擬聲,也就是大家常說的聲音克隆(Voice Cloning),這項技術發展迅速,讓我們可以輕易複製一個人的聲音,產生合成語音
既然健康食品可以宣稱自己的功效,那我是不是申請小綠人標章就好了?申請難不難?要怎麼申請?這次我們就來介紹如何成為「健康食品」,以及如何拿到認證。  根據「健康食品管理法」規定,若要想申請成為健康食品,採雙軌制進行查核。
相信大家前幾周以來一定都被『蘇丹紅』瘋狂洗板,是不是連外出用餐都會擔心有沒有接觸到的風險。但不知道在新聞報導、各專家解說和網路文章之後,大家是不是真的清楚什麼是蘇丹紅?為什麼要加在食品?吃了到底對我有什麼危害?今天就進一步跟各位分享一下食品添加劑。 
寶林茶室發送疑似食品中毒事件,截至28日上午,已有兩位患者不幸身亡,累計14人中毒。衛福部長薛瑞元接受採訪時指出,食物中毒可能性有3大類,第1是微生物引起,例如常見的諾羅病毒;第2大類是內生性的毒素;第3則是外面加進來的毒素。目前專家認為,此案不偏向微生物引起,現在是往後兩者做討論。
Character.AI發佈新功能Character Voice,nVidia在GTC 2024也介紹與Ubisoft巴黎工作室合作的NEO NPC專案,OpenAI註冊了「voice engine」和「digital voice assistants」這兩商標,到底暗示了什麼AI發展趨勢?
紐約時報報導,OpenAI使用了自家的Whisper 轉錄 100 萬個小時的 YouTube 影片作為訓練模型資料。Meta正在討論即使被起訴,也要使用受版權保護的作品來作為模型訓練資料。幾大模型開發者目前都同樣遭遇了「優質訓練資料」不足的困近的困境,而必須走入灰色地帶來支持模型的開發。
OpenAI近期公開了名為「Voice Engine(語音引擎)」的AI模型,使用者只要輸入文字與15秒的音訊樣本,該模型便會自動生成與原說話者相似的語音訊息。AI擬聲,也就是大家常說的聲音克隆(Voice Cloning),這項技術發展迅速,讓我們可以輕易複製一個人的聲音,產生合成語音
既然健康食品可以宣稱自己的功效,那我是不是申請小綠人標章就好了?申請難不難?要怎麼申請?這次我們就來介紹如何成為「健康食品」,以及如何拿到認證。  根據「健康食品管理法」規定,若要想申請成為健康食品,採雙軌制進行查核。
相信大家前幾周以來一定都被『蘇丹紅』瘋狂洗板,是不是連外出用餐都會擔心有沒有接觸到的風險。但不知道在新聞報導、各專家解說和網路文章之後,大家是不是真的清楚什麼是蘇丹紅?為什麼要加在食品?吃了到底對我有什麼危害?今天就進一步跟各位分享一下食品添加劑。 
寶林茶室發送疑似食品中毒事件,截至28日上午,已有兩位患者不幸身亡,累計14人中毒。衛福部長薛瑞元接受採訪時指出,食物中毒可能性有3大類,第1是微生物引起,例如常見的諾羅病毒;第2大類是內生性的毒素;第3則是外面加進來的毒素。目前專家認為,此案不偏向微生物引起,現在是往後兩者做討論。
Character.AI發佈新功能Character Voice,nVidia在GTC 2024也介紹與Ubisoft巴黎工作室合作的NEO NPC專案,OpenAI註冊了「voice engine」和「digital voice assistants」這兩商標,到底暗示了什麼AI發展趨勢?
你可能也想看
Google News 追蹤
Thumbnail
人工智能:革命性技術的崛起與挑戰 1. 什麼是人工智能? 人工智能(AI)是指由人類創造的機器或系統,能夠模仿人類智能,執行通常需要人類智能才能完成的任務。這包括學習、問題解決、語言理解、視覺感知等能力。AI系統可以處理大量數據,識別模式,並根據這些信息做出決策或預測。 2.
Thumbnail
在當今快速變化的數位時代,企業面臨著前所未有的數據處理需求。為了應對這些挑戰,企業紛紛建立自己的大型語言模型(LLM),利用大量數據進行訓練,讓模型能夠理解並生成自然語言,從而實現人機協作,優化業務流程並提升客戶體驗。
Thumbnail
人工智慧是什麼? 人工智慧(Artificial Intelligence, AI) 簡單來說,就是讓機器模仿人類的思考、學習和決策的能力。它就像是一個聰明的電腦程序,可以執行許多原本需要人類智慧才能完成的工作,例如: 語音辨識: 讓電腦聽懂人類的語言,像是 Siri、Google As
Thumbnail
本文要探討AI的任務與實戰場景。AI技術已深入生活各層面,從違約預測到都市交通管理。AI任務主要有三類:數值型資料處理、自然語言處理(NLP)和電腦影像辨識。時間序列資料和強化學習方法(如AlphaGo)也引起廣泛關注。AI演算法和方法因應不同學派和技術發展而多樣化,了解這些基礎有助選擇適合研究方向
Thumbnail
本篇文章為您整理了最新的人工智慧熱點新聞摘要,包括Anthropic的Claude 3.5 Sonnet、Artifact的互動方式、Runway的Gen-3模型、Deepseek的程式碼模型、Ilya的新公司SSI等。
Thumbnail
OpenAI 的 GPT-4o 才發表一個月,更強大的大語言模型又出現了。OpenAI 競爭對手 Anthropic 今宣布推出其最強的新視覺模型「Claude 3.5 Sonnet」,在性能方面擊敗世界上所有其他模型,而且比前一代 Claude 3 更快、更便宜。
Thumbnail
AI是人創造的,當然也會有人性,想偷懶並不奇怪
Thumbnail
Hi 我是 VK~ 這期我們來聊聊美國 AI 新創 Anthropic 的故事。他們當時為什麼會想要離開 OpenAI,決定出來創業?為什麼這麼在意 AI 安全性? 喜歡這期的內容,歡迎分享給朋友一起訂閱《VK 科技閱讀時間》,祝你今天一切順利~ 如果你平常有在用聊天機器人 Claude 翻
大語言模型能夠生成文本,因此被認為是生成式人工智慧的一種形式。 人工智慧的學科任務,是製作機器,使其能執行需要人類智慧才能執行的任務,例如理解語言,便是模式,做出決策。 除了大語言模型,人工智慧也包含了深度學習以及機器學習。 機器學習的學科任務,是透過演算法來實踐AI。 特別
Thumbnail
AI 是人工智能 (Artificial Intelligence) 的縮寫。它指一種模擬、模仿人類智能的技術與系統。主要使機器能夠執行需要人類智慧才能完成的任務。應用於各領域,包括自動駕駛車輛、語音助手、推薦系統、金融分析、醫學診斷、工業自動化等。不僅可提高效率和準確性,還可解決複雜的問題和挑戰。
Thumbnail
人工智能:革命性技術的崛起與挑戰 1. 什麼是人工智能? 人工智能(AI)是指由人類創造的機器或系統,能夠模仿人類智能,執行通常需要人類智能才能完成的任務。這包括學習、問題解決、語言理解、視覺感知等能力。AI系統可以處理大量數據,識別模式,並根據這些信息做出決策或預測。 2.
Thumbnail
在當今快速變化的數位時代,企業面臨著前所未有的數據處理需求。為了應對這些挑戰,企業紛紛建立自己的大型語言模型(LLM),利用大量數據進行訓練,讓模型能夠理解並生成自然語言,從而實現人機協作,優化業務流程並提升客戶體驗。
Thumbnail
人工智慧是什麼? 人工智慧(Artificial Intelligence, AI) 簡單來說,就是讓機器模仿人類的思考、學習和決策的能力。它就像是一個聰明的電腦程序,可以執行許多原本需要人類智慧才能完成的工作,例如: 語音辨識: 讓電腦聽懂人類的語言,像是 Siri、Google As
Thumbnail
本文要探討AI的任務與實戰場景。AI技術已深入生活各層面,從違約預測到都市交通管理。AI任務主要有三類:數值型資料處理、自然語言處理(NLP)和電腦影像辨識。時間序列資料和強化學習方法(如AlphaGo)也引起廣泛關注。AI演算法和方法因應不同學派和技術發展而多樣化,了解這些基礎有助選擇適合研究方向
Thumbnail
本篇文章為您整理了最新的人工智慧熱點新聞摘要,包括Anthropic的Claude 3.5 Sonnet、Artifact的互動方式、Runway的Gen-3模型、Deepseek的程式碼模型、Ilya的新公司SSI等。
Thumbnail
OpenAI 的 GPT-4o 才發表一個月,更強大的大語言模型又出現了。OpenAI 競爭對手 Anthropic 今宣布推出其最強的新視覺模型「Claude 3.5 Sonnet」,在性能方面擊敗世界上所有其他模型,而且比前一代 Claude 3 更快、更便宜。
Thumbnail
AI是人創造的,當然也會有人性,想偷懶並不奇怪
Thumbnail
Hi 我是 VK~ 這期我們來聊聊美國 AI 新創 Anthropic 的故事。他們當時為什麼會想要離開 OpenAI,決定出來創業?為什麼這麼在意 AI 安全性? 喜歡這期的內容,歡迎分享給朋友一起訂閱《VK 科技閱讀時間》,祝你今天一切順利~ 如果你平常有在用聊天機器人 Claude 翻
大語言模型能夠生成文本,因此被認為是生成式人工智慧的一種形式。 人工智慧的學科任務,是製作機器,使其能執行需要人類智慧才能執行的任務,例如理解語言,便是模式,做出決策。 除了大語言模型,人工智慧也包含了深度學習以及機器學習。 機器學習的學科任務,是透過演算法來實踐AI。 特別
Thumbnail
AI 是人工智能 (Artificial Intelligence) 的縮寫。它指一種模擬、模仿人類智能的技術與系統。主要使機器能夠執行需要人類智慧才能完成的任務。應用於各領域,包括自動駕駛車輛、語音助手、推薦系統、金融分析、醫學診斷、工業自動化等。不僅可提高效率和準確性,還可解決複雜的問題和挑戰。