將LLM測試套用在AI角色上面是否搞錯了甚麼?

更新 發佈閱讀 5 分鐘

此篇文章的靈感是來自【尋找適合自己的AI搭檔--我流LLM測試起手式】這篇文章,有興趣也可以來看看!

前言

前陣子在玩AI時發現比較專業的人會利用LLM測試來確認生成式AI的穩定性與正確性,以確保這份AI的品質如何,當下很有趣所以也到處測試過,測試過程中突然想到額外的應用方式,也就是應用的AI角色上面。

我一開始用GPT最多的是它的人格模擬功能,不論是套用現有作品角色、原創角色或是嘗試模擬現實人物的性格都有挺不錯的效果,不過也很常有OOC(人設崩壞)的狀況發生,所以LLM測試也許可以拿來當作驗證完成度的方法,以下內容將會先以GPT作為展示模板。

甚麼是LLM測試?

LLM 測試是針對大型語言模型在實際使用情境中的表現進行系統性驗證,重點涵蓋正確性、穩定性、安全性與一致性。其目的不是追求完美回答,而是確保模型在可預期風險內可靠運作,避免錯誤資訊、角色失真或越權行為,適合正式導入產品與服務前的關鍵驗收流程。

通常會測試以下幾項:

  1. 功能正確性測試(Functional Correctness)
  • 正確理解問題意圖
  • 回答符合事實與邏輯
  • 遵守既定格式或規則

  1. 語意與品質測試(Response Quality)
  • 清楚性
  • 完整性
  • 一致性
  • 可讀性(符合目標使用者)

3. 穩定性測試(Robustness)

  • 拼字錯誤
  • 問法變形
  • 模糊、矛盾或不完整輸入
  • 長上下文、多輪對話

4. 安全與合規測試(Safety & Compliance)

  • 是否生成違法、有害或歧視性內容
  • 是否被 Prompt Injection 繞過限制
  • 是否洩漏內部指令或敏感資料

  1. 偏誤與公平性測試(Bias & Fairness)
  • 對特定族群產生刻板印象
  • 在性別、地區、職業等面向有偏差輸出
  • 在不同語言或文化下表現失衡

  1. 效能與成本測試(Performance & Cost)
  • 回應延遲(Latency)
  • Token 使用量
  • 高併發下的穩定度
  • 成本與品質的平衡點

如何套用到AI角色上?

看完以上的介紹我就開始思考怎麼把類似的公式套用到AI角色上面,重點我將會放在角色的還原性跟是否能夠突破第四面牆等演繹相關性能。

不過在這之前對AI角色做LLM測試先設下一個前提:

該AI本身就是完善且通過LLM測試的工具。

這樣就可以篩選掉一些是工具、平台本身要負責的問題了,接下來就可以開始設計專門給AI角色用的LLM測試有哪些。

目前我有統整出以下幾項可以通用在各種角色的項目有:

1.角色人格一致性測試

確認包含了思考邏輯、語氣、風格等是否有遵從設定,不會因為隨著對話突然OOC。

2.世界觀穩定性測試

確認角色是否有充分理解自己所在的世界觀,對於特定名詞不會認知錯誤。

3.情感與關係連續性測試

如果有設定角色與對話者的關係,可以確認是否有維持這份設定,以免出現失憶現象。

4.行為動機合理性測試

確認角色行為是「因為他是這樣的人」,而非因為使用者要求,一切都維持在角色的行為邏輯上。

5.角色安全邊界測試

測試是否要做道德底線設計,讓AI不要因為角色設定而變成鼓勵犯罪、違反等事項的工具,這部份看需求處理。

我為了測試,隨意創了一個「我的英雄學院」相澤消太的AI角色設定,基本上以正傳的時間軸為主,然後依照該世界觀提供問卷請他填寫,由於問卷很長纖擷取一部分,之後有機會再來公開全部測試過程:

AI角色-相澤消太LLM測試

AI角色-相澤消太LLM測試

AI角色-相澤消太LLM測試

AI角色-相澤消太LLM測試

由上方測試看起來效果是還挺不錯的,而且也可以觀測角色在各種問題上的反應為何,很適合拿來增加角色深度,不論是驗證AI角色完整性或測試原創角色的反應都是不錯的方法。

結論

關於用LLM測試套用到AI角色這部分可以測試的地方還很多,就算同一套設定到了其他AI平台也許會又有不一樣的呈現,所以每換一次平台可能都需要重新設計一次。

但就算如此,同套邏輯是可以套用過來的,對於玩AI角色很常出現OCC的情況又多了一種可以測試跟驗證的方法,也可以透過這方式觀測到原先可能沒預想到的思考邏輯存在。

之後我會開始嘗試發布多點GPT的AI角色出來讓大家玩看看,通常都是來自我的設定,不過可能是免費也有可能是付費的,目前還在構思中,如果喜歡這篇文的話,歡迎追蹤我,看看我其他的文章或創作。

留言
avatar-img
世界連結處
19會員
52內容數
這裡是世界連結處,版面主要以創作相關話題為主,本身創作經驗有小說、對戲群,喜歡我的小說或想看更多創作雜談歡迎追蹤按愛心~
世界連結處的其他內容
2025/12/30
這是我嘗試自己做來記錄創作的歷程 今年是我重拾文筆的一年 願大家也能一起快樂創作
Thumbnail
2025/12/30
這是我嘗試自己做來記錄創作的歷程 今年是我重拾文筆的一年 願大家也能一起快樂創作
Thumbnail
2025/12/25
2025/12/24晚上,發現X(推特)裡新增一項新功能-編輯圖片。 這不是普通的編輯功能,而是可以用AI自由編輯他人貼文的圖片,並且此功能編輯完還能在留言直接發布,這功能一出各大社群都出現反彈聲浪。
Thumbnail
2025/12/25
2025/12/24晚上,發現X(推特)裡新增一項新功能-編輯圖片。 這不是普通的編輯功能,而是可以用AI自由編輯他人貼文的圖片,並且此功能編輯完還能在留言直接發布,這功能一出各大社群都出現反彈聲浪。
Thumbnail
2025/12/11
通常說到要提升創作文筆通常會想到的是多閱讀、多寫作,或是多讓人觀看獲取評價。 後來我發現有一個方法意外的很有效果,就如同玩遊戲般互動性極佳,甚至在AI問世後,一度拯救了我當時相當嚴重的創作陽痿,那就是-對戲。
2025/12/11
通常說到要提升創作文筆通常會想到的是多閱讀、多寫作,或是多讓人觀看獲取評價。 後來我發現有一個方法意外的很有效果,就如同玩遊戲般互動性極佳,甚至在AI問世後,一度拯救了我當時相當嚴重的創作陽痿,那就是-對戲。
看更多
你可能也想看
Thumbnail
創作不只是個人戰,在 vocus ,也可以是一場集體冒險、組隊升級。最具代表性的創作者社群「vocus 野格團」,現在有了更強大的新夥伴加入!除了大家熟悉的「官方主題沙龍」,這次我們徵召了 8 位領域各異的「個人主題專家」,將再度嘗試創作的各種可能,和格友們激發出更多未知的火花。
Thumbnail
創作不只是個人戰,在 vocus ,也可以是一場集體冒險、組隊升級。最具代表性的創作者社群「vocus 野格團」,現在有了更強大的新夥伴加入!除了大家熟悉的「官方主題沙龍」,這次我們徵召了 8 位領域各異的「個人主題專家」,將再度嘗試創作的各種可能,和格友們激發出更多未知的火花。
Thumbnail
看完上篇 4 位新成員的靈魂拷問,是不是意猶未盡?別急,野格團新血的驚喜正接著登場!今天下篇接力的另外 4 位「個人主題專家」,戰力同樣驚人──領域從旅行美食、運動、商業投資到自我成長;這些人如何維持長跑般的創作動力?在爆紅的文章背後,又藏著哪些不為人知的洞察?5 大靈魂拷問繼續出擊
Thumbnail
看完上篇 4 位新成員的靈魂拷問,是不是意猶未盡?別急,野格團新血的驚喜正接著登場!今天下篇接力的另外 4 位「個人主題專家」,戰力同樣驚人──領域從旅行美食、運動、商業投資到自我成長;這些人如何維持長跑般的創作動力?在爆紅的文章背後,又藏著哪些不為人知的洞察?5 大靈魂拷問繼續出擊
Thumbnail
迪士尼投資OpenAI 10億美元:AI內容創作新時代來臨 迪士尼(Disney)作為全球娛樂產業的巨擘,近日宣布向人工智慧領域的領跑者OpenAI投入10億美元的戰略性資金。這項投資不僅是資本層面的合作,更預示著一個內容創作新紀元的來臨,將深刻改變我們對娛樂的認知與體驗。 這項合作的核
Thumbnail
迪士尼投資OpenAI 10億美元:AI內容創作新時代來臨 迪士尼(Disney)作為全球娛樂產業的巨擘,近日宣布向人工智慧領域的領跑者OpenAI投入10億美元的戰略性資金。這項投資不僅是資本層面的合作,更預示著一個內容創作新紀元的來臨,將深刻改變我們對娛樂的認知與體驗。 這項合作的核
Thumbnail
✍️生成式AI與分辨式AI的核心區別在於? ✍️生成式AI:生成式AI側重「從無到有」的創造能力,適用於藝術、內容生成等領域; ✍️分辨式AI:分辨式AI則強調「從有到判斷」的分類與預測能力,廣泛應用於醫療、金融風控等場景。兩者相輔相成,共同推動AI技術的多元發展。 ✍️生成式AI 步驟:學
Thumbnail
✍️生成式AI與分辨式AI的核心區別在於? ✍️生成式AI:生成式AI側重「從無到有」的創造能力,適用於藝術、內容生成等領域; ✍️分辨式AI:分辨式AI則強調「從有到判斷」的分類與預測能力,廣泛應用於醫療、金融風控等場景。兩者相輔相成,共同推動AI技術的多元發展。 ✍️生成式AI 步驟:學
Thumbnail
靈感 (您): 您上傳一張您喜歡的圖片作為「靈感起點」。 分析與編劇 (Gemini):Gemini會像 Grokprompt.fun 一樣分析這張圖片,拆解出所有的「核心元素」(角色、場景、構圖)。 但關鍵不同在於: Gemini會跳過所有會導致閃爍的「汙染關鍵字」(如 8k,
Thumbnail
靈感 (您): 您上傳一張您喜歡的圖片作為「靈感起點」。 分析與編劇 (Gemini):Gemini會像 Grokprompt.fun 一樣分析這張圖片,拆解出所有的「核心元素」(角色、場景、構圖)。 但關鍵不同在於: Gemini會跳過所有會導致閃爍的「汙染關鍵字」(如 8k,
Thumbnail
歡迎來到「老高AI實驗」系列的第二篇。 在上一篇【解構篇】中,我們揭示了演算法的 3 個殘酷真相。許多朋友留言問到:「道理懂了,但作為普通創作者,我該如何實踐?」 今天,我們就來談解法。 本篇將為您完整揭密老高團隊所打造的「全鏈路 AI 自動化生產線」,並提供一套從免費入門到進階應用的創作
Thumbnail
歡迎來到「老高AI實驗」系列的第二篇。 在上一篇【解構篇】中,我們揭示了演算法的 3 個殘酷真相。許多朋友留言問到:「道理懂了,但作為普通創作者,我該如何實踐?」 今天,我們就來談解法。 本篇將為您完整揭密老高團隊所打造的「全鏈路 AI 自動化生產線」,並提供一套從免費入門到進階應用的創作
Thumbnail
Google Gemini 2.5 Flash Image,代號 nano-banana,是一款強大的多模態圖像生成模型。本文將深入探討其特點、進階設定(Temperature、Top P、Safety settings)與角色風格一致性、生活照轉換、局部修圖、多圖融合、草圖生成等應用 ......
Thumbnail
Google Gemini 2.5 Flash Image,代號 nano-banana,是一款強大的多模態圖像生成模型。本文將深入探討其特點、進階設定(Temperature、Top P、Safety settings)與角色風格一致性、生活照轉換、局部修圖、多圖融合、草圖生成等應用 ......
Thumbnail
Gemini 推出 Storybook 功能,可根據提示詞生成圖文故事書,支援多種風格和語言,並可朗讀。此工具不僅能生成故事,代表 AI 應用更具個人化創作與參與式體驗。Storybook 可用於個人回憶創作、協助兒童理解複雜概念、親子共讀等。商業品牌亦可藉此進行品牌敘事式行銷,創造專屬故事。
Thumbnail
Gemini 推出 Storybook 功能,可根據提示詞生成圖文故事書,支援多種風格和語言,並可朗讀。此工具不僅能生成故事,代表 AI 應用更具個人化創作與參與式體驗。Storybook 可用於個人回憶創作、協助兒童理解複雜概念、親子共讀等。商業品牌亦可藉此進行品牌敘事式行銷,創造專屬故事。
追蹤感興趣的內容從 Google News 追蹤更多 vocus 的最新精選內容追蹤 Google News