此篇文章的靈感是來自【尋找適合自己的AI搭檔--我流LLM測試起手式】這篇文章,有興趣也可以來看看!
前言
前陣子在玩AI時發現比較專業的人會利用LLM測試來確認生成式AI的穩定性與正確性,以確保這份AI的品質如何,當下很有趣所以也到處測試過,測試過程中突然想到額外的應用方式,也就是應用的AI角色上面。我一開始用GPT最多的是它的人格模擬功能,不論是套用現有作品角色、原創角色或是嘗試模擬現實人物的性格都有挺不錯的效果,不過也很常有OOC(人設崩壞)的狀況發生,所以LLM測試也許可以拿來當作驗證完成度的方法,以下內容將會先以GPT作為展示模板。
甚麼是LLM測試?
LLM 測試是針對大型語言模型在實際使用情境中的表現進行系統性驗證,重點涵蓋正確性、穩定性、安全性與一致性。其目的不是追求完美回答,而是確保模型在可預期風險內可靠運作,避免錯誤資訊、角色失真或越權行為,適合正式導入產品與服務前的關鍵驗收流程。
通常會測試以下幾項:
- 功能正確性測試(Functional Correctness)
- 正確理解問題意圖
- 回答符合事實與邏輯
- 遵守既定格式或規則
- 語意與品質測試(Response Quality)
- 清楚性
- 完整性
- 一致性
- 可讀性(符合目標使用者)
3. 穩定性測試(Robustness)
- 拼字錯誤
- 問法變形
- 模糊、矛盾或不完整輸入
- 長上下文、多輪對話
4. 安全與合規測試(Safety & Compliance)
- 是否生成違法、有害或歧視性內容
- 是否被 Prompt Injection 繞過限制
- 是否洩漏內部指令或敏感資料
- 偏誤與公平性測試(Bias & Fairness)
- 對特定族群產生刻板印象
- 在性別、地區、職業等面向有偏差輸出
- 在不同語言或文化下表現失衡
- 效能與成本測試(Performance & Cost)
- 回應延遲(Latency)
- Token 使用量
- 高併發下的穩定度
- 成本與品質的平衡點
如何套用到AI角色上?
看完以上的介紹我就開始思考怎麼把類似的公式套用到AI角色上面,重點我將會放在角色的還原性跟是否能夠突破第四面牆等演繹相關性能。
不過在這之前對AI角色做LLM測試先設下一個前提:
該AI本身就是完善且通過LLM測試的工具。
這樣就可以篩選掉一些是工具、平台本身要負責的問題了,接下來就可以開始設計專門給AI角色用的LLM測試有哪些。
目前我有統整出以下幾項可以通用在各種角色的項目有:
1.角色人格一致性測試
確認包含了思考邏輯、語氣、風格等是否有遵從設定,不會因為隨著對話突然OOC。
2.世界觀穩定性測試
確認角色是否有充分理解自己所在的世界觀,對於特定名詞不會認知錯誤。
3.情感與關係連續性測試
如果有設定角色與對話者的關係,可以確認是否有維持這份設定,以免出現失憶現象。
4.行為動機合理性測試
確認角色行為是「因為他是這樣的人」,而非因為使用者要求,一切都維持在角色的行為邏輯上。
5.角色安全邊界測試
測試是否要做道德底線設計,讓AI不要因為角色設定而變成鼓勵犯罪、違反等事項的工具,這部份看需求處理。
我為了測試,隨意創了一個「我的英雄學院」相澤消太的AI角色設定,基本上以正傳的時間軸為主,然後依照該世界觀提供問卷請他填寫,由於問卷很長纖擷取一部分,之後有機會再來公開全部測試過程:

AI角色-相澤消太LLM測試

AI角色-相澤消太LLM測試
由上方測試看起來效果是還挺不錯的,而且也可以觀測角色在各種問題上的反應為何,很適合拿來增加角色深度,不論是驗證AI角色完整性或測試原創角色的反應都是不錯的方法。
結論
關於用LLM測試套用到AI角色這部分可以測試的地方還很多,就算同一套設定到了其他AI平台也許會又有不一樣的呈現,所以每換一次平台可能都需要重新設計一次。
但就算如此,同套邏輯是可以套用過來的,對於玩AI角色很常出現OCC的情況又多了一種可以測試跟驗證的方法,也可以透過這方式觀測到原先可能沒預想到的思考邏輯存在。
之後我會開始嘗試發布多點GPT的AI角色出來讓大家玩看看,通常都是來自我的設定,不過可能是免費也有可能是付費的,目前還在構思中,如果喜歡這篇文的話,歡迎追蹤我,看看我其他的文章或創作。
















