今年3月20日立法委員葛如鈞等多人在立法院教育及文化委員會質詢時不約而同地表示,由於訓練AI(人工智慧)用的繁體中文資料不足,恐怕會影響台灣文化發展,就此中央研究院應協助整合大量的繁中文本資料以訓練台灣版LLM(大型語言模型)。葛委員並指出,日本政府近來採取大膽作法,允許AI使用任何資料,不做保護,藉此儘可能提高日文資料數量,質詢中研院長廖俊智台灣是否適合比照?廖俊智回答日本的做法相當前瞻,台灣需要先深入研究利弊得失,擷取優點後再因地制宜。
中研院正在思考盡量立即開放「不涉及著作權」的相關資料,未來也希望會努力排除「法規的限制」,開放資料給LLM訓練。此也顯現出台灣應修法促進資料治理,排除台版ChatGPT上路的障礙,以提升台灣在國際的競爭力及話語權。問題就在於:在全世界整個AI浪潮下,我們的法規應如何調適,即:涉及在《人工智慧基本法》草案或《著作權法》等層面,應透過怎樣的立法或修法方式才可達到如同《著作權法》第一條規定所謂「保障著作人著作權益,調和社會公共利益,促進國家文化發展」之目的,這就是本文的發想,並提出一些淺見參考。
在2023年4月ChatGPT轟動全世界後,國科會啟動打造「可信任生成式AI對話引擎」(TAIDE),其以Meta發布的開源模型Llama為訓練基底,再透過繁中資料進行微調(fine-tuning),可執行中文對答、文章摘要、中英翻譯等任務。國際AI專家吳恩達曾接受《遠見》雜誌獨家專訪時表示,TAIDE的發展有助於台灣文化價值在全球的能見度,且擁有一個能反映台灣價值觀及對民主信念的模型非常重要。
前Google台灣總經理簡立峰曾比喻,「讓模型多讀一點中文書」,也凸顯出除了算力不夠外,資料太少、著作權的障礙,都是台灣發展本土化LLM的巨大挑戰。因此,簡立峰向政府喊話,「你認為要保有文化、歷史和價值觀,就應該要把資料拿出來」,意思是應處理LLM訓練資料的著作權問題。這正是為什麼AI需要更多的臺灣中文資料。如果資料不足,或僅有部分少數資料,將影響模型的表現及學習效果。換言之,面對資訊數位化的AI時代,蒐集及利用資料而形成有用資訊,極度仰賴數據之集結與處理,如資料不全情況下,恐妨礙大數據之完整性,不利於AI發揮其自主訓練及深度學習的功能。
關於台版ChatGPT繁體中文資料,具體來說有三點重要性:
首先要面臨的問題是:為增加AI訓練的資料來源,政府或企業將蒐集資料投向資料庫裡的行為,合法嗎?我國經濟部智慧財產局曾對此行為作出函釋(經授智字第11252800520號):「在蒐集資料訓練AI模型階段,訓練資料如受著作權法保護(下稱原始著作),會涉及『重製』原始著作之行為,除有著作權法第44條至第65條合理使用之情形外,應取得著作財產權人之同意或授權,始得為之。」 多數國家、美國與歐盟的《著作權法》規範,也類似我國的規定,即:AI模型訓練未經著作財產權人同意或授權,使用受著作權法保護的資料,就可能涉及非法重製。至於是否符合「合理使用」(fair use)原則,目前國際上尚未定論。
然而台灣就自己的LLM所需繁體中文資料,在初步的方向應從如何著手開放資料的取得,是否從政府既有的出版品做微調開放?或是就相關的文化內容得以「獲取授權的方法」開放?還是如同日本的做法全面開放資料供AI訓練呢?
律師侯宜秀認為台灣其實有很多繁體中文資料,可以利用過去長期累積下來的數位化、數位典藏、開放資料等,朝「涵容」(寬容)的方向去訓練台灣自己的語言模型或GPT,並且注入台灣的價值,包含自己所有的國家語言文化,例如阿美語、泰雅語、排灣語等等,不僅師出有名且合理,更能彰顯台灣與其他國家的差異,也對世界會是一個很好的示範。
觀諸台灣的《著作權法》第44、45、48、48-1、64、65條等規定限制可知,不論是政府出版品、文化內容授權,或資料的全面開放,均面臨不可行的困境及其需要調適之狀況,也就是使用或重製他人的著作,必須在「合理範圍內」或諸多限定情形,以符合「合理使用原則」。
例如建置AI資料庫的訓練,需要大量的全文資料,若依照目前上述的著作權法相關規定,即使向中央的文化部、國家圖書館、國立台灣文學館、故宮,或是地方政府等機關尋求「資料」,頂多也只能取得這些政府出版物或文化內容的少量「資訊」或「摘要」,必須另外且個別找到機構的代表窗口,以取得授權部分、全部或全文的著作與資料。
葛委員提到「日本允許AI使用任何資料,藉此儘可能提高日文資料數量」,我就想起我以前碩士論文–《人工智慧著作權法及管理規範之研究》也有稍微提及日本《著作權法》在2019年針對AI使用著作資料的修法內容。日本就AI策略方向的制定與運作,是從國家甚至國際高度去做思考,即使目前仍在擬定其AI白皮書做為指導原則,但早就2019年就已修改《著作權法》去促進及鼓勵AI尤其是LLM的發展。
參照蔡明誠教授在2024年1月的文獻《論人工智慧時代著作權法結合著作與其他著作類型之概念及利用》(刊登於《月旦法學雜誌》第344期)第18、19頁處的介紹,有明確點出日本《著作權法》將AI訓練資料的過程分成兩階段來評價,即:著作或數據資料在「AI模型訓練(LLM的開發)」的階段,不損害著作權人的利益;後續「LLM生成出作品」的階段,就還是可能侵害到原作的著作權,也就是生成品的外觀或表達形式是否「實質近似」原作而有俗稱「抄襲」的法律問題。
其實我國沒有必要完全仿效日本《著作權法》的制度。因爲:
目前生成式AI發展正處於方興未艾的時期,雖已產生不少風險的疑慮及訴訟官司,但如能兼顧資訊安全與權益的衡平,應給予較大自由的發展空間。雖然日本著作權法帶來一些啟發,但蔡明誠教授也建議《著作權法》可採取所謂的「自由但規制」(Freedom but Regulation)原則,即:原則上給予從巨量資料中學習的較大學習空間,例外才加以規制。
就這個修法方向而言,台灣就「自己LLM學習及訓練上所需繁體中文資料」的階段,應能從政府既有或未來的出版品及文化內容做全面開放,將這些資料列入機器學習的範疇。
隨著AI模型的發展「訓練數據」變成新興市場,科技巨頭公司與數據供應方紛紛簽訂相關的「資料授權」協議或契約。換言之,目前在美國已經掀起一波尋找著作權人的熱潮,甚至依照Business Research Insights等研究機構估算「AI數據市場」規模目前約為25億美元,預測十年內可能成長至300億美元。
例如美國論壇Reddit同意授權平台內容給Google公司;Shutterstock、Freepik與,Defined.ai也分別與Meta、Google、Amazon、Apple等科技巨頭達成授權圖像資料的協議。
OpenAI公司也與德國出版社Axel Springer、美聯社、法國世界報、西班牙Prisa Media、英國金融時報等機構,合作簽署數據授權協議,以讓AI模型可以訓練新聞內容。OpenAI之所以願意支付「使用數據資料的費用」,主要是因為目前直接擷取公開網路內容作為原始訓練數據,不僅因未經著作權人同意而容易導致訴訟糾紛,也更需要付費索取更新、更珍貴的內容(尤其是know-how),其生成式AI表現的結果才更加精準確實。
尤其在歐盟《人工智慧法》(AI Act)及美國《自動生成式人工智慧著作權揭露法》(Generative AI Copyright Disclosure Act)草案均有規定要求AI公司應將其採用訓練資料內容、來源公開透明化,也就是必須說明其資料集對於著作權內容保護的作法,以保障創作者。在這樣的監理規範浪潮下,台灣政府可能也會從善如流,透過授權的方法取得AI使用資料的內容數據,以免產生糾紛或阻礙。
就這個方法而言,台灣就自己LLM學習及訓練上所需的繁體中文資料,也只能從目前授權的方式,嘗試類似音樂著作權集管團體那樣,由統一授權窗口、收費標準及程序管道,讓政府既有或未來的出版品及文化內容可有效率且統一做授權使用。
除了像日本那樣大破大立全面支持AI訓練可使用創作者的內容,或像美國科技公司以銀彈支付取得大量數據資料的授權外,台灣《著作權法》第44條有規定「中央或地方機關,因立法或行政目的所需,認有必要將他人著作列為內部參考資料時,在合理範圍內,得重製他人之著作。但依該著作之種類、用途及其重製物之數量、方法,有害於著作財產權人之利益者,不在此限。」似乎讓「開放資料給台灣LLM訓練」的這個難題出現一道曙光。
換句話說,在台灣對於「將他人著作即資料數據給LLM為內部訓練」之立法或行政目的,容有法規某範圍或程度的調適空間、形成自由。也就是在「合理範圍」光譜上,僅需修法微調,而不用大動干戈,就能確定可自政府既有或未來的出版品及文化內容做適當開放。
但怕修法目的恐過於薄弱,所以不只需要單一法令,或僅是「台灣AI行動計畫2.0」這樣的願景而已,更需要上位戰略思維的政策大法去指引台灣AI發展的政策方向,更加師出有名,本文認為這就是《人工智慧基本法》草案。
據了解,歐盟AI Act沒有直接或明確提到保障或促進文化發展的規定,但可能間接地影響到文化發展。關於未來台灣的《AI基本法》,本文建議再加入「AI之發展應保障文化之發展與保存」的方針規範,包含「開放資料」、「AI企業應繳納文化保存稅」、「國家應針對運用AI擴大文化發展與保存之相關補助及計畫」等項目,也能適當彌補著作權人的實際損失,或編列授權資料數據所需的經費,並調適《著作權法》的相關條文規範。
例如在《著作權法》明確規範:輸入端的資料引用或利用的「學習階段」,是出自於機器自動化的資料處理與利用,應給予在著作財產權更寬的豁免或合理使用的空間,以精進文化的發展。
綜上所述,台灣應先立《人工智慧基本法》、修改《著作權法》,以調適相關法規而促進資料治理,排除台版ChatGPT上路的障礙,以提升台灣在國際的競爭力及話語權,達到「保障著作人著作權益,調和社會公共利益,促進國家文化發展」之目的。
*本文亦發表於「科技立委葛如鈞.寶博士」部落格: