〈無關經驗的輸出:從AI虛構到洗稿抄襲(二):改寫到什麼程度,可以算作原創?〉2025-06-11
在前一篇文章裡,我們談到一種特定形式的AI幻覺--「明明內容是虛構,AI卻硬要說自己有出處」的情況。透過這種說法,AI強行否認我對它編造事實的指控,將自己的錯誤限縮在「引用了錯誤的內容」中。
但在我們接著討論AI之前,我想先談談另一個看似毫不相干,內在邏輯卻息息相關的事情--「自媒體說書人抄襲問題」。
一個看似無關的爭議:自媒體抄襲問題
或許你還有印象,兩年前,在中文YouTuber圈有著大量粉絲的頻道「老高與小茉」遭人踢爆其中幾部影片有非常明顯的抄襲痕跡,影片的主要段落幾乎完全取自另一個在中文世界沒有名氣的日文頻道。
這樣的行為在當時引起了很大的爭議,許多觀眾認為這是很嚴重的抄襲行為。但同時,也有不少觀眾依然喜歡老高,其中一種立場認為老高的影片比較長、有添加自己的東西,已經足以稱為原創。另一些人則認為,老高有用自己的方式重說一遍,他們喜歡的就是「老高說故事的方式」,就算非原創也不影響。
從這裡,我們已經開始看到這組爭議與AI虛構之間的共通問題:「改寫到什麼程度能夠算作原創」。對老高的粉絲或一些遇到相似爭議的自媒體創作者而言,他們想要宣稱的事情是,他們「改得足夠多」,所以已經能夠算是原創。但在GPT的例子上,模型的宣稱恰恰相反,它的概念是:「我輸出的所有內容,說到底都是看來的(抄來的),一點都不算原創」。
在實務上,確實很多人會用「相似程度」、「多少比例雷同」這樣的方式在處理問題:爭論那是否「抄得太誇張」,還是在相似的內容之外,有加足夠多「自己的東西」。
但這其實是一種誤導之下的討論,問題絕不是可以被用「多少比例以上算抄、多少比例以下不算」來消解的。當然,如果兩個作品間有七八成的內容完全一樣,我們很難說那不是抄襲;但如果「完全一樣」的地方很少,其他地方都經過足夠充份的「換句話說」,也不代表它就擁有足夠的原創性。
嚴謹的「原創性」判定,沒有想像中容易
之所以論文的抄襲檢測、AI檢測不可能完全準確也與此問題相關,因為某些對人類而言明顯的判斷,要提供統一標準做可量化的判斷時,就會發現其實沒有那麼簡單。
在電子遊戲領域這些例子特別明顯,譬如《原神》之於《薩爾達傳說》、《帕魯》之於《寶可夢》,任何人只要看了宣傳片,都能立刻注意到它們包含了許多一目了然相似的地方。但如果要從可被文字化、嚴謹化、法律化的角度檢視,人們會發現要去將其定義為抄襲,遠比直覺以為的更加困難。
如果美術和代碼都沒有直接使用,那類似的機制玩法實現、類似的視覺風格呈現,要怎麼嚴格地去拆解它原創的程度呢?「一看就很像啊!」完全可以成為一種社群自發性地批評或抵制過分相似者的手段,但如果要在法律或哲學上宣稱它存在有某種承接關係--而不是巧合或啟發自相同的大自然與公共知識--我們需要更多證據。
這種法律上的從嚴認定,可以保護創作者的創作自由不被版權流氓侵害,但也可能被抄襲者當作卸責手段。在AI的情況裡面,模型卻反過來「從寬認定」,把根本不一樣的東西說成有出處來卸責。
一個有趣的事實是,在老高自己對抄襲風波的回應裡面,他的論述是:「光速不變不是原創、1+1=2不是原創,我的觀眾也沒有要求我原創」。這套說法雖然除了粉絲沒有人會買單,但推到底其實跟AI想走的那條路一樣:我輸出的一切都不是原創,那都不是「我說的」,我沒有要承擔與這些說法相關的任何責任。
到了這裡,兩個看似無關問題之間的相似性已經逐漸浮現出來。在後續的文章裡面,我們會檢視「無根據的虛構」與「無原創的抄襲」這兩者包含的共同問題,以及隨之而來的有害結果。並指出,在接下來的幾年裡面,兩者的結合如何讓問題變得更加一發不可收拾。
延伸閱讀:
〈AI幻覺/AI說話的幻覺〉
〈虛構如何成為真實?--AI幻覺與維基假條目事件〉
〈GPT的第一個著名謊言:關於「我不是機器人」的寓言〉
〈多媒體時代下的「疑似抄襲」問題:老高與尼克星爭議〉
〈Palworld.衝擊玩家世界的《幻獸帕魯》(二):抄襲、作弊?不,是諧仿。〉
〈What On Earth We Believe ?〉