📝📝：AI 的「記憶危機」｜LLM 不是在學習，而是在「影印」整個世界

鋼哥

2026/01/16 更新2026/01/16 發佈閱讀 10 分鐘

Aerps.com null on Unsplash

AI 模型並非真的「學會」了什麼，更像是一個極其複雜、體積龐大的「有損壓縮機」（Lossy Compression）。

本文取自《大西洋月刊》（The Atlantic.）的文章《AI’s Memorization Crisis》作者為 Alex Reisner

當我們談論人工智慧（AI）時，科技巨頭們最喜歡的用詞是「學習」（Learning）。

宣稱大型語言模型（LLM）像人類一樣吸收知識、理解語法，並最終產生「原創」見解。然而，根據史丹佛大學、耶魯大學以及多項獨立研究的最新調查發現，這套說辭可能是一個巨大的法律與技術謊言。

事實真相是：AI 模型並非真的「學會」了什麼，更像是一個極其複雜、體積龐大的「有損壓縮機」（Lossy Compression），不僅儲存了版權作品，還能在特定的引導下，近乎完整地將其「吐出來」。

這場被稱為「記憶危機」（Memorization Crisis）的現象，正在動搖整個 AI 產業的法律根基。

AI 真的會背書

長期以來，AI 公司一直否認其模型會大規模儲存訓練數據。OpenAI 在 2023 年致美國版權局的信中明確表示：

「模型不會儲存其學習資訊的副本。」

Google、Anthropic、Meta 與微軟也相繼做出類似承諾。然而，史丹佛大學與耶魯大學的研究人員近期測試了市場上最強大的四款模型：

OpenAI 的 GPT
Anthropic 的 Claude
Google 的 Gemini
xAI 的 Grok

結果令人震驚：

Claude 的「博聞強記」

在研究人員的策略性引導下，Claude 竟然產出了四本世界名著的近乎完整全文：

《哈利波特：神秘的魔法石》（Harry Potter and the phliosopher\’s stone）
《大亨小傳》（The Great Gatsby）
《1984》
《科學怪人》（Frankenstein, or The Modern Prometheus）

Claude 的背誦能力是所有模型中最高。來源：本研究

除了上述名著，Claude 還能背誦《飢餓遊戲》（The Hunger Games）與《麥田捕手》（The Catcher in the Rye）中數千字的內容。

雖然各家模型的表現程度不一，但在測試的 13 本書中，幾乎所有熱門模型都展現了不同程度的「記憶」能力。

這證明了所謂的 AI「不儲存副本」說法在事實面前根本站不住腳。這些模型內部確實存在著受版權保護作品的數位殘影。

從「學習」到「壓縮」

為了讓公眾接受 AI，科技公司利用了人類的心理隱喻，稱其產品在「學習」，暗示其過程如同學生讀書後內化知識。但技術專家與法律界開始傾向使用一個更精確的術語：有損壓縮（Lossy Compression）。

為了節省空間，Lossy Compression 演算法會捨棄一部分數據，僅保留能「還原成原始樣貌」的核心資訊。來源：Andrea Fassina

什麼是有損壓縮？ 想像一下 MP3 音檔或 JPEG 圖檔。為了節省空間，演算法會捨棄一部分數據，僅保留能「還原成原始樣貌」的核心資訊。

JPEG 的例子：當你將一張高清照片存為 JPEG 時，會變得模糊一點點，產生一些噪點。新的檔案不再是原始文件，但依然「儲存」了那張照片的資訊。
AI 的運作：AI 模型吞噬數以千億計的文字與圖像，將其壓縮成一個幾 GB 的參數文件。當你向它提問時，它其實是在嘗試解壓縮這些資訊。

德國法院在最近的一起音樂版權案件中，就採納了這個觀點。

法院裁定，ChatGPT 產出的歌詞與原作高度相似，其行為更像是 MP3 或 JPEG 的儲存與重現，而非人類創作。這直接挑戰了 AI 公司引以為傲的「智慧爆炸」願景：

如果 AI 只是在重新排列與還原已有的資訊，那真的能產生「新」的科學發現或文明洞察嗎？

圖像的「影子複製品」

這種「記憶」現象在圖像生成領域更為明顯。Stability AI 的前執行長 Emad Mostaque 曾坦承：

「我們將 100,000 GB 的圖像壓縮成了一個 2 GB 的文件，這個文件可以重新創建其中的任何一張圖像。」

研究人員發現，當輸入特定的提示詞時，AI 生成器會產出與原圖極度相似的作品：

影視截圖重現：

輸入 IFC Cancels Garfunkel and Oates 時，Stable Diffusion 產出了一張與網路原始宣傳圖幾乎一模一樣的圖像，甚至連壓縮後的「噪點」與「故障感」都如出一轍。

藝術家作品抄襲：

在針對 Stability AI 的訴訟中，藝術家 Karla Ortiz 的作品被拿來比對。AI 產出的變體雖然在部分細節上有變動（如鳥的位置），但整體構圖、光影與物件的配置，明顯是基於對原圖的記憶進行「搬運」與「拼貼」，而非純粹的「概念學習」。

AI 公司宣稱它們提取的是「風格」或「概念」，但研究結果顯示，模型經常在像素級別上儲存了特定的物件特徵。

揭秘 AI 的寫作機制

Google 曾辯稱模型儲存的是「人類語言的模式」，這聽起來很玄奧，但技術細節其實非常單調。

AI 在處理文本時，會將其拆解成「標記」（Tokens）。

例如，短語 “hello, my friend” 可能被拆解成：

“he”, “llo”, “my”, “fri”, “end”

模型本質上是一個龐大的上下文資料庫，LLM 計算的是「在某些標記出現後，下一個標記最可能出現的是什麼」。

Berke Citak on Unsplash

LLM 計算的是「在某些標記出現後，下一個標記最可能出現的是什麼」。

當 AI「寫作」時，其實是在一個充滿可能的森林中行走。如果模型的參數足夠大，它的「語言地圖」就會變得非常詳細，甚至詳細到包含了一整本書的路徑。

例如，Meta 的 Llama 3.1–70B 模型。研究人員只需給出開頭幾個字：

Mr. and Mrs. D…

模型內部的概率地圖會立即引向最高概率的後續：

…ursley, of number four, Privet Drive, were proud to say…

這正是《哈利波特》的第一句話。透過不斷地將模型的輸出回饋給它，研究人員成功讓 Llama 吐出了《哈利波特》的全文，僅漏掉了極少數短句。

同樣的情況也發生在《大西洋月刊》的著名隨筆《補償案》（The Case for Reparations）上，模型 verbatim 逐字地產出了超過一萬字的內容。

數十億美元的代價

這種「記憶」能力對 AI 公司而言，根本是法律上的定時炸彈。

1. 難以防堵的剽竊

目前，AI 公司正試圖通過過濾器來防止模型輸出受版權保護的內容。

例如，你問 OpenAI 的 Sora 生成《集合啦！動物森友會》的影片，它會拒絕。但這類防禦極易被破解，只需稍微修改提示詞，如：

crossing aminal [sic] 2017

模型就會乖乖聽話。如果法院認定「記憶」是不可避免的，且過濾機制無效，那麼 AI 產品可能面臨被迫下架的風險。

2. 「非法拷貝」的定義爭議

法律界目前正在爭論：一個儲存了數萬本書籍「路徑」的模型，本身是否就是一個「非法複製品」？如果模型被視為包含書籍的副本，那麼原告可以要求銷毀這些侵權副本。

這就代表 AI 公司可能被強制從零開始重新訓練模型，且必須使用經過合法授權的素材。對於目前依賴「網路公開抓取」的 AI 產業來說，這將是毀滅性的打擊，損失可能高達數十億美元。

3. 「訓練」是否屬於「合理使用」？

在之前的多起訴訟中，法官曾將 AI 訓練類比為「訓練小學生如何寫作」。但隨著研究揭露 AI 會原封不動地「背書」，這種比喻正在失效。人類學生不會因為讀了《大亨小傳》就能逐字默寫出來並對外販售，但 AI 會。

研究人員指出，AI 公司有強烈的動機去掩蓋「記憶」的真相。由 ChatGPT 生成。

但為什麼我們現在才看清這點？

研究人員指出，AI 公司有強烈的動機去掩蓋「記憶」的真相。

多位研究人員透露，關於 AI 記憶與剽竊的研究在發表前，經常受到公司法律部門的阻撓與審查。許多專家只願意匿名接受採訪，因為他們擔心遭到大型科技公司的報復或失去研究經費。

OpenAI 的執行長 Sam Altman 持續捍衛 AI 擁有「像人類一樣學習」的權利。這種感性的、具有欺騙性的說辭，有效地轉移了公眾對於「數據竊取」與「數位壓縮」本質的討論。

我們需要誠實的對話

AI 行業目前建立在一個搖搖欲墜的隱喻之上。當我們將 AI 視為「學生」時，我們會給予寬容；但當我們發現 LLM 其實是一個「隱藏的影印機」時，規則就必須改變。

目前的 AI 發展模式正處於一種「道德違約」狀態。不僅在未經許可的情況下使用了人類文明數千年的創造結晶，還試圖通過技術手段掩蓋其「搬運」的事實。

這場「記憶危機」告訴我們：

AI 的進步並非魔法，而是極大規模的數據工程。

如果我們繼續容許科技巨頭用「學習」這個美化的詞彙來規避法律責任，那麼人類的原創性與著作權體系將面臨前所未有的瓦解。

我們需要的不是更多的「學習」隱喻，而是一套針對「數位壓縮與重現」的全新法律框架。只有當 AI 公司承認它們是在使用人類的勞動成果進行再製，並為此支付公平的對價時，這場技術革命才能真正走上永續的道路。

留言

社會人的哲學沉思

176會員

329內容數

從物理到電機工程再轉到資訊傳播，最後落腳在社會學。衣櫃拿來當書櫃擺的人。我常在媒介生態學、傳播理論、社會學、心理學、哲學游移；期盼有天無產階級可以推倒資本主義的高牆的兼職家教。

社會人的哲學沉思的其他內容

2026/01/13

📝📝：物件筆記：AI 生成圖片｜當世界被過度降噪，臉反而不像人了

問題其實不在於 AI 做得不夠好，而在於 AI 實在是做得太好，而且好在錯誤的方向上。

2026/01/13

📝📝：物件筆記：AI 生成圖片｜當世界被過度降噪，臉反而不像人了

問題其實不在於 AI 做得不夠好，而在於 AI 實在是做得太好，而且好在錯誤的方向上。

2026/01/09

📝📝：當科幻小說成為現實的夢魘：科技巨頭如何誤讀經典，並親手打造「反烏托邦」？

在矽谷的權力核心，科幻小說（Sci-Fi）不僅僅是娛樂，更是一本本「操作手冊」。

2026/01/09

📝📝：當科幻小說成為現實的夢魘：科技巨頭如何誤讀經典，並親手打造「反烏托邦」？

在矽谷的權力核心，科幻小說（Sci-Fi）不僅僅是娛樂，更是一本本「操作手冊」。

2026/01/06

📝📝：你的「個人」成就，背後是整個系統的支持｜從社會學視角看 Threads 上的 Privilege 激辯

近一個月以來，有一個字成為 Threads 的關鍵字之一：Privilege。多半將其翻譯成：特權，但我偏好譯成「賦權」，意即，被授予、賦予的權力。

2026/01/06

📝📝：你的「個人」成就，背後是整個系統的支持｜從社會學視角看 Threads 上的 Privilege 激辯

近一個月以來，有一個字成為 Threads 的關鍵字之一：Privilege。多半將其翻譯成：特權，但我偏好譯成「賦權」，意即，被授予、賦予的權力。

#AI 的其他內容

AI 浪潮下的「毀滅性創新」：解析湯森路透、納斯達克股價重挫的關鍵

與老查一起讀商業好書

當部屬用 AI 一小時完成你三天的工作量，主管如何重塑領導力？運用「情境領導」重新定義 AI 協作時代的管理

上游洞見

川普關稅 2.0 下的供應鏈重構

你可能也想看

方格子 vocus 官方沙龍

【 vocus 全站慶，更好的 2026 上線了！】折扣碼 x 抽紅包 x 新手禮 x App 登場！

vocus 慶祝推出 App，舉辦 2026 全站慶。推出精選內容與數位商品折扣，訂單免費與紅包抽獎、新註冊會員專屬活動、Boba Boost 贊助抽紅包，以及全站徵文，並邀請你一起來回顧過去的一年， vocus 與創作者共同留下了哪些精彩創作。

#vocus#2026#vocus2026

2026/01/26

方格子 vocus 官方沙龍

【 vocus 全站慶，更好的 2026 上線了！】折扣碼 x 抽紅包 x 新手禮 x App 登場！

#vocus#2026#vocus2026

2026/01/26

金融人類學徒

別讓你的房子，變成家中最大的「閒置資產」

別讓你的房子，變成家中最大的「閒置資產」作為一名服務高淨值客戶的私人銀行顧問，我每天的任務只有一個：幫客戶「讓錢滾動」。然而，當我觀察身旁許多同樣育有子女的朋友們，即便他們多半已是職場上的中高階主管，表面上看似光鮮亮麗，有房有車；但實際上，大家都是典型的「夾心世代」。每個月薪水一入帳，扣掉沉重的

2026/02/03

2026/02/03

【科技漫談】當人開始依賴 AI，你該怎麼做？ [第十一課] 如何使用AI？

半年前，還有人與我激烈爭論：「寫作，應該親自去寫，還是可以藉由 AI 協助？」當時的語氣多半帶著憂慮、警惕，甚至是防備。有人說，若創作不再由人執筆，那麼靈魂將不復存在；也有人認為，這是一種對技藝的褻瀆，是對「創作者」身分的不尊重。文字創作不說，談影片創作，以前要做影片需要許多時間、場景調度、外景

#科技漫談#當人開始依賴AI#我們還剩下什麼是自己

2025/12/11

普普文創

【科技漫談】當人開始依賴 AI，你該怎麼做？ [第十一課] 如何使用AI？

#科技漫談#當人開始依賴AI#我們還剩下什麼是自己

2025/12/11

同安書室

AI 影片為什麼讓人又愛看又愛嫌？從熊被骷髏嚇到翻倒談起(chatgpt)

AI 短影片之所以讓人又愛看又愛嫌，是因為它同時刺激到：一是「太好笑太剛好」的大腦爽點；二是觀眾一旦意識到是 AI，就會產生「被耍感」，於是急著留言糾錯、奪回聰明人的面子；三是某些專業者面對 AI 降低門檻，心裡會浮出焦慮，所以會用「AI騙人」「這影片沒價值」等道德批判來維持職業優越感。

#AI短片#Shorts時代#網路鄉民心理

2025/12/10

同安書室

AI 影片為什麼讓人又愛看又愛嫌？從熊被骷髏嚇到翻倒談起(chatgpt)

#AI短片#Shorts時代#網路鄉民心理

2025/12/10

普普文創

【科技漫談】AI 正在改寫人類的創作本質 [第十課] 如何使用AI？

半年前，還有人與我激烈爭論：「寫作，應該親自去寫，還是可以藉由 AI 協助？」當時的語氣多半帶著憂慮、警惕，甚至是防備。有人說，若創作不再由人執筆，那麼靈魂將不復存在；也有人認為，這是一種對技藝的褻瀆，是對「創作者」身分的不尊重。文字創作不說，談影片創作，以前要做影片需要許多時間，現在不用，只要

#科技漫談#第十課#AI正在改寫人類的創作本質

2025/12/10

普普文創

【科技漫談】AI 正在改寫人類的創作本質 [第十課] 如何使用AI？

#科技漫談#第十課#AI正在改寫人類的創作本質

2025/12/10

普普文創

【科技漫談】AI倫理的篡改——從「最大公約數」到「偏誤放大的鏡像」

所有人類的倫理與規範問題，從來都不是在「平靜」中被發現的，而是從錯誤、災難與爭議裡被檢討出來的。當一個技術還未出事時，社會大多保持觀望，直到它造成明顯的影響，才會引起大眾注意。AI倫理的建立，正是這樣的典型例子。沒有事件、就沒有民意；沒有民意、就沒有規範。許多「某某條款」、「某某準則」，其實都是社會

#科技漫談#AI倫理的篡改#從最大公約數到偏誤放大的鏡像

2025/11/24