英國的 Getty Images 案與德國的 Gema 案(針對 OpenAI)。這兩個案子雖然都在談 AI 模型是否侵權,但對「模型記憶(Memorization)」的認定卻給出了不同的看法。
其實除了各國的判斷標準不同,每個案件的事實也不同。本文作者 Andres Guadamuz 提到,AI 是學習了(不侵權)還是記住了(侵權)訓練資料,有時也取決於在訓練資料中重複的程度。
如果一首紅遍大街小巷的流行歌(像是 Gema 案中的歌詞),在訓練資料庫裡出現了幾千幾萬次,模型自然會發生「過擬合(Overfitting)」,把內容記得滾瓜爛熟,隨便一問就能吐出一模一樣的歌詞。這時候,侵權風險當然高。反之,如果是訓練資料庫裡只出現過一次的冷門文章,模型通常只能學到「概念」或「風格」,而記不住具體細節。這時候,要認定它「複製」了原創內容,法律上的難度就高得多。
未來的著作權(版權)官司,重點可能與資料清洗、去重,以及模型架構的技術都有極大關係。
原文:The persistence of memorization, by Andres Guadamuz (2025/11/28)

























