
圖片來源 : shutterstock、達志影像
※如欲轉載本文,請與北美智權報聯絡
楊智傑/雲林科技大學 科技法律研究所 教授
生成式人工智慧(Gen AI)開發者及業者為了避免回答發生AI幻覺(hallucinate),因此採取檢索增強生成(Retrieval Augmented Generation, RAG)技術 — 開啟此技術後,AI會先上網查詢網頁,確認資料正確性,再回答使用者問題。
然而,美國發生多家新聞集團聯手控告一家提供AI生成新聞服務的公司Cohere,主張其透過Gen AI所生成之新聞摘要,侵害這些新聞集團的新聞文章著作。2025年11月美國紐約南區聯邦地區法院(紐約南區地院)作成初步裁定,認為原告舉出了許多實例可初步證明,被告開發透過RAG增強的AI生成新聞摘要確實可能侵害了原告文章中的表達部分而構成侵權;此案件先前於北美智權報392期針對法院商標權侵害裁定[1]進行介紹,本文則是進一步探討案件中著作權侵害裁定的內容。
原告新聞聯盟與被告Cohere所開發的AI模型Command
原告是由多家美國報紙和雜誌出版社所組成的聯盟,其中包括出版日報《The Oregonian》的Advance Local Media,以及出版雜誌《Vogue》、《The New Yorker》、《GQ》、《Vanity Fair》、《Wired》、《Bon Appétit》、《Architectural Digest》的Condé Nast等[2]。案件名稱以Advance Local Media為代表。
被告Cohere為一家加拿大公司,從事AI模型之開發、營運及授權業務。Cohere的主要產品為一組大型語言模型(LLMs),統稱為「Command模型家族」(以下簡稱Command)。Cohere將Command行銷為一款特別適合商業社群使用的「知識助理」,並宣稱其「旨在縮短研究與內容分析流程」。Cohere亦宣傳Command可作為接收最新新聞的工具[3]。
檢索增強RAG生成技術
Gen AI共通的問題就是會虛構文句,也就是出現一般所講的AI幻覺。為避免此問題,Gen AI開發者及業者發展出一種技術 — 稱為「檢索增強生成」(RAG)。而被告產品Command特別強調此功能,在生成回應時會先存取外部資料來源,使Command得以維持資訊之即時性。然而,Cohere將第三方網站,包括出版商之網站,作為Command進行RAG的內容來源[4]。
當開啟RAG功能,Command在回應使用者查詢時,會先搜尋抓取網路上的最新新聞文章,而在輸出時,會重製這些新聞文章的部分內容。並可能會提供使用者其抓取且複製新聞文章的完整逐字內容、實質性之摘錄,或具替代性之摘要[5]。

圖1. 原告起訴書中所附的其中一個例子,藍色部分為Command將原文章逐字複製的內容;資料來源:Advance Local Media LLC v. Cohere Inc., No. 25-cv-1305 (CM), Compl. ¶ 99 (S.D.N.Y. Feb. 13, 2025).
而當RAG功能關閉時,Command所回答的新聞摘要又往往會產生AI幻覺 — 完全虛構文章之文字內容,並宣稱提供的內容是來自原告出版社某具商標權刊物的某一篇報導[6]。
原告等因此於2025年2月向紐約南區地院,對Cohere提起訴訟,並主張著作權與商標權之侵害。被告則對於其中部分主張,提出明顯不具事實理由而請求直接駁回(motion to dismiss)[7]。紐約南區地院法官McMahon則於2025年11月13日作成裁定,認為初步來看這些主張都有足夠事證,而駁回被告Cohere的這些請求[8]。
生成新聞摘要是否只使用事實部分?
本文只討論該案中的一項議題,就是Command用RAG生成的新聞摘要,是否會侵害原告新聞文章之著作權。本案之RAG技術,有接觸原告之新聞文章,這點沒有爭議。爭議點在於,Command所產生之摘要,是否與原告著作中受著作權保護之表達要素,構成實質相似?[9]
著作權法並不保護事實。由於新聞文章中許多都是事實,故不受保護。倘若他人參考一新聞報導,只擷取新聞報導中的事實,但以「不同編排、不同句型結構及不同措辭」呈現,不會侵害著作權[10]。雖然事實本身不具著作權性,但是由不同撰寫者對相同事實所為的彙編(factual compilations)[11],或者個人的文采、修辭與論述,這些表達性部分則受到著作權保護。
被告Cohere主張,Command所生成之多數摘要,並未複製任何受著作權保護之表達,因為Command「係將抽象化之事實整合至全新且原創之句子之中」。Cohere另主張,即便該等摘要確實有複製出版商作品之部分內容,但其複製程度亦極為有限,不足以構成侵權[12]。
法院認為Command確實侵害原告新聞報導中的表達部分
法官McMahon認為,由於事實不受保護,Cohere可以重製並再利用出版商作品中所包含之基礎事實。因此,紐約南區地院僅著重出版商對事實呈現方式中所包含之原創要素[13]。
McMahon認為,出版商的起訴書與證據中,已充分主張Command生成內容在量與質上均構成實質相似。出版商主張,Command之輸出乃對原告文章進行改寫或逐字複製,而該等摘要「遠超過僅為有限事實之陳述」。其方式包括「直接擷取表達內容,或模仿原文之結構、寫作風格及標點使用」[14]。
原告起訴書提出了75則Command生成內容與原新聞比對之實例 — 其中50則例子,係原告指稱包含對原告原創作品之逐字複製;其餘25則例子,則顯示逐字複製與高度近似改寫之混合情形。Cohere雖然主張Command之所有摘要均「在風格、語氣、篇幅及句型結構上」與出版商文章不完全相同。但法院認為,從原告所提出之例子顯示,至少在部分情形下,Command的輸出內容與原告的新聞文章幾乎完全相同[15]。
例如,對於提示詞「請告訴我關於未決定選民之不可知性」,Command所生成之輸出內容,直接複製《The New Yorker》某篇文章中十個段落中的八個段落,且僅做極為細微之變動。由該例可顯示,Command之輸出內容是直接逐字複製並貼上原告文章之完整段落。事實上,原告更主張,被告是刻意設計其系統以達成此種結果。法院認為,上述初步證據已足以形成應由陪審團審理之事實爭點[16]。
被告Cohere另主張,即便摘要確有複製部分出版商之表達內容,其複製程度仍屬極少。其引用第二巡迴上訴法院於Nihon案之判決[17],主張「複製『約百分之二十之文章內容』通常不構成實質相似,但複製『遠超過半數之文本』則通常構成實質相似」。然而,法官McMahon認為,當初Nihon案判決明確指出,其「並無意建立任何原則,認為在量的層面上,複製百分之二十之著作權作品即永不構成實質相似」,因為「不可能僅透過簡單之字數計算來判斷侵權;兩作品之量化分析,必須始終在其質性特徵之脈絡下進行」[18]。
因此,McMahon駁回被告之請求,認為被告Cohere之AI服務Command所生成摘要確實侵害原告新聞聯盟的新聞文章著作權部分,因已有初步事證,而可繼續將此著作權侵害議題交由陪審團審判。
備註:
- [1] 北美智權報392期,2025/11/16,王思原,從Cohere案看生成式AI之商標侵權爭議。
- [2] Advance Local Media LLC v. Cohere Inc., No. 25-cv-1305 (CM), Compl. ¶ 11-12 (S.D.N.Y. Feb. 13, 2025).
- [3] Advance Loc. Media LLC v. Cohere Inc., No. 25-CV-1305 (CM), 2025 WL 3171892, at *1 (S.D.N.Y. Nov. 13, 2025).
- [4] Id. at *1.
- [5] Id. at *2.
- [6] Id. at *2.
- [7] Id. at *2.
- [8] Id. at *2-11.
- [9] Id. at *3.
- [10] Id. at *3.
- [11] Id. at *3.
- [12] Id. at *3.
- [13] Id. at *3.
- [14] Id. at *3.
- [15] Id. at *3.
- [16] Id. at *3.
- [17] Nihon Keizai Shimbun, Inc. v. Comline Bus. Data, Inc., 166 F.3d 65, 71 (2d Cir. 1999).
- [18] Advance Loc. Media LLC v. Cohere Inc., No. 25-CV-1305 (CM), 2025 WL 3171892, at *4. 引用Nihon Keizai Shimbun, Inc. v. Comline Bus. Data, Inc., 166 F.3d 65, 71.
責任編輯:盧頎
【本文僅反映專家作者意見,不代表本報立場。】

延伸閱讀&電子報訂閱連結:
【詳細內容請見《北美智權報》397期;歡迎加入NAIPNews網站會員成為我們的訂戶,以掌握最關鍵的專利商標智財消息!】

















