AI機器學習從訓練資料數據集Dataset開始,至AI產出的output,所有過程舉凡:資料數據集的重製、中間步驟的重製、模型的非文義性重製,皆有重製行為,是否構成侵權?
此時合理使用(Fair Use)原則的轉化性因素(Transformative Factor)在AI機器學習方面應如何調整適用?
就此,涉及AI從學習到著作的生產過程(包括利用他人著作訓練AI的情形)是否有侵害他人著作權之議題。
以微軟AI小冰創作的現代詩為例,其運作主要是將大量的現代詩資料輸入進小冰的資料庫中,透過大數據的資料探勘,分析每個字的前、後最常出現的關聯字。以目前AI最核心的主流技術-深度學習,有賴於大量經過結構化、適當標記的「資料」進行訓練,雖模擬成人類透過「閱讀」來學習,但將大量的現代詩「資料」輸入進小冰的資料庫中,這些現代詩作為受著作權法保護的「語文著作」,實際上已被「重製」在小冰的資料庫裡,而其作用可能單純作為訓練AI使用,亦可能之後會作為小冰組成的一部分而對外提供服務,此時也可能涉及「改作」或「公開傳輸」的利用行為,吾人即必須認知這些可能涉及AI著作權的法律風險或相關問題。
由技術的角度來看,以上開深度學習的方式訓練如微軟小冰這樣的AI,絕對涉及著作的重製,如不符合著作財產權限制(合理使用)的規定,即可能構成侵權;然而,「訓練」AI的過程與一般著作利用不同,著作經濟利益的保護,過去主要因其具有欣賞、娛樂或實用的功能而被保護,以確保足夠的經濟誘因,但AI至少在訓練的時候,