最近某個炎上事件,道歉聲明被網友用所謂的「AI內容檢測」判斷幾乎整篇內容都是AI生成,方知世道已經到了「AI生成」與「辨別AI生成」的程度。
不過,自己的重點不在「AI內容檢測」的需求,而在於目前市面上關於此類工具的「精準程度」。
誰希望自己絞盡腦汁撰寫出來的文章,被來路不明的AI 檢測工具說內容大多是AI生成?抑或是在檢驗別人的內容,卻因為採用不精準的AI 檢測工具導致沒必要的誤會。因此自己先用文章測試,究竟現在的AI檢測工具水準到達什麼程度。
AI 內容檢測工具ZeroGPT
實測所選用的AI 內容檢測工具是參考文章《AI 文章檢測推薦:7 大免費中文 AI 檢測工具一次看!》提到的七項AI內容檢驗工具。
測試方法很簡單,將文章陸續丟到各個檢驗工具看檢測結果。先說結論,筆者透過自身文章實測後,考量到檢測的字數限制、精準度、AI內容判讀等綜合因素,最終ZeroGPT輾壓勝出。
雖然ZeroGPT被認為強項是在檢測「英文」內容,中文內容檢測的精確率有待提升,但個人在測試七款工具,ZeroGPT的精確度與判讀哪些內容屬於AI生成上,只能說ZeroGPT完全將其他檢測工具按在地上摩擦,完全不能比阿!
雖然把ZeroGPT吹捧成這樣,但也只是「相對」其他AI檢測工具而言,檢測結果「相對」準確,誤判情形仍是挺高的。
至於為什麼我會這樣說?就跟著本文繼續看下去。
文章測試結果
主要分成幾類文章進行檢測:
- 2018年剛進Medium時寫的文章,當時完全沒有AI生成內容的概念誕生。
- 2022年11月30日為基準,這天為ChatGPT首次問世的發布日期(GPT 3.5),以此為分界點,正式宣告AI浪潮與AI生成內容的到來。抓2022年11月30日前後的文章做判讀。
- 自己第一篇透過與ChatGPT聊天後,自己統整內容並產出文章,確認檢測工具是否能準確區分AI生成與筆者撰寫之內容。
- 找一篇近期的文章,內容完全由筆者自行產出,與AI協作的文章相比對,確認檢測工具準確性。
ChatGPT尚未問世的年代
從個人最早的文章《淺談人生觀-生命是長期而持續的累積》檢測結論來看:

不僅是該篇文章,在還沒有AI內容生成的年代,隨機挑幾篇通通都是0%。
不過在結果的上方有一段敘述:
Your Text contains mixed signals, with some parts generated by AI/GPT
您的文字包含混合訊號,其中一些部分由 AI/GPT 生成
毫無AI生成可言的時間點,這段敘述格外諷刺。不過單就檢測結果的0%來看,就是做為整篇文章沒有AI生成內容的依據。
接著挑ChatGPT發布的2022年11月30日作為分界點,前後幾個月各挑一篇文章,判斷AI生成問世的前後,是否會有所差異。
ChatGPT問世前後
ChatGPT問世之前的文章,我選11月27日發布的《如何決定澳洲落地的第一站》檢測,因為離ChatGPT發布前的時間最近:

將五分之一的內容都被檢測為AI生成,個人覺得太誇張。被判讀認為是AI生成的內容以黃標標示(沒問題的內容就跳過,避免篇幅過於冗長):




74552的字符中,僅有182個文字被認為來自AI生成,但最終結論卻是21.97%的內容為AI生成,這比例的換算不知道怎麼來的….???整篇架構內容與AI毫無關聯,更不論當時的AI生成水準,根本無法生產通順的「中文」內容。
接著是ChatGPT問世後的文章,我選擇12月3日的《2022年紐西蘭打工度假必須要知道的三個重點:薪資、稅制、匯率》,同樣是因為該文章離ChatGPT發布後的時間最近:

針對認為是AI生成的內容,也會黃標出來:

這篇文章被黃標的內容更多,反觀認為是AI生成的部分卻僅有13.91%,不明就理。
該文章的架構,明明就是從澳洲打工篇來的,而且撰寫澳洲篇的第一篇,還是發佈在2020年:《在澳洲賺第一桶金必須要知道的三件事:賺了時薪、賦了高稅、賠了匯差》,當時的時空背景,根本沒有AI生成的可能。
因此個人將上述文章納入檢測,得到吃驚的結果:

將近四分之一的內容都被檢測為AI,個人覺得太誇張。被判讀認為是AI生成的內容以黃標標示(沒問題的內容就跳過,避免篇幅過於冗長):



滿弔詭的,4812字符中,有134個文字被認為來自AI生成,但最終結論卻是24.45%的內容為AI生成,無法理解…。整篇架構內容,完全是自行構思與撰寫,與AI毫無關聯,更不論當時的AI生成水準,根本無法生產通順的「中文」內容。
個人與AI協作產出文章內容
個人真正有透過ChatGPT協助產生內容的,僅有一篇文章《淺談近年來,產業界頻繁出現的名詞-「合規」Compliance》,主要是筆者彙整與ChatGPT的談話後,透過個人提供「大框架」加上ChatGPT生成內容,最終再透過筆者調整後的綜合結果:

70.59%的內容為AI生成,這個結果我就滿認同的,黃標內容確實多為AI生成,有興趣的讀者也可以用上述文章對照AI生成的部分,就不再截圖贅言。
近期個人撰寫之文章
最後實測近期完全為個人產出之文章《創業資金的幾種來源方式》,與AI協作的文章作為對照組。檢測的結果如下:

雖然跟還沒有AI生成的年代相比,同樣都有敘述:
Your Text contains mixed signals, with some parts generated by AI/GPT
您的文字包含混合訊號,其中一些部分由 AI/GPT 生成
既然檢測結果為0%,敘述參考就好。
結論:中文內容的檢測精準度有待提升
總的來說,在個人七年多來撰寫三百多篇文章,唯獨一篇文章是與AI協作撰寫而成,但在號稱可以檢測AI內容生成工具的判讀結果上,即便是當今的市場標竿ZeroGPT(暫時),仍有不少誤判的情況發生。
從被判讀為AI生成的黃標內容來看,個人認為誤判的原因有幾個:
- 中文內容確實並非強項。
- 文章結構與敘述方式,與ChatGPT生成的內容與架構高度雷同。
- LLM幾乎都會使用維基百科作為AI模型的訓練資料集,因此當文章引用資料來源為維基百科,黃標範圍幾乎都是維基百科的內容。
- 政府的官方說明也被當作AI生成的內容之一,意味著公部門網站可能也是訓練資料集的一環。(中英文都有這樣的情形)
- AI生成技術日新月異,AI內容檢測工具的技術跟不上,跌代速度太慢。
當市面上號稱可以檢測AI生成內容的工具,精準度與誤判率都有待加強的狀況下,不論是在賣AI檢測工具,抑或者是在業配可以將內容修飾成「看似非AI生成內容」的行銷話術,可行性與效果都要打上大大的問號。
畢竟每款AI檢測工具得出的結果不同,需求者又該如何達到「想透過AI生成內容,卻又不想被檢測到內容是由AI生成」的訴求,現階段沒有一個既定的標準或準則。
結語
回到AI檢測工具在判讀文章或貼文內容上,既然誤判機率仍高,那麼哪天被人拿這些「尚未成熟」的工具檢視時,造成的誤會也只會加深誤解,嚴重時更會讓個人品牌一蹶不振,不得不慎!
當這些AI檢測工具,被那些不用大腦思考的特定人士作為聖杯使用,甚至對於產出的結果堅信不疑;但對苦心產出內容的作者而言,卻只能在精準度存疑的結果面前百口莫辯,真的是很可悲。
錯誤的認知比無知更可怕。
任誰都別小看「第一印象」帶來的「錨定效應」。
至少,在AI發展百花齊放、且技術尚未成熟的現階段,當有人拿著這些檢測工具所產出的結果,質疑我的文章內容有多少比重是透過AI生成,我會超級生氣!
嘔心瀝血卻被評成有多少內容是靠AI,小小書僮可笑可笑!
就跟現狀一堆人拿ChatGPT的回答截圖貼給別人,不管內容對錯與否,也不考慮是否為AI幻覺,不去辨別就全盤接受。與其花時間跟這種「認知不到位,真偽難分辨」的腦死靈長類溝通,東一句ChatGPT說的,西一句ChatGPT這樣回答的,我只能遺憾的說:
腦袋是個好東西,既然不懂得思考、也不願意思考,莫怪我套句怪醫黑傑克的名台詞:「皮諾可,這個直接電死!」

















