文字與資料探勘(Text and Data Mining,TDM)是指自動化分析大量的資料,以識別出其中的模式或規律,以萃取出有價值的資訊。TDM 結合了自然語言處理(NLP)、機器學習(ML)、統計分析等技術,能夠處理和分析大量的非結構化數據,以發現隱藏的趨勢、模式和關聯性。從學術研究到商業情報,從公共政策分析到市場趨勢預測,TDM 的應用範圍廣泛,其重要性不言而喻。

然而,在資料探勘的執行過程中,往往需要處理和分析受著作權保護的內容。依照大部分國家的著作權法,未經著作權人同意,重製或散佈受著作權保護的內容是違法的。而資料探勘過程中常需要將著作權人的創作在電腦中建立臨時的副本,甚至會自動產生新的衍生內容,這些步驟都可能被視為侵犯著作權。
為了確保此種資料探勘不會侵犯著作權,一些國家在著作權法中引入 TDM 例外條款。例如歐盟在 2019 年通過的《數位單一市場著作權指令》,允許研究機構等非營利組織為了資料探勘的目的而重製受保護的作品,然而若資料探勘是為了商業活動,則著作權人可以拒絕作品被使用。相較之下,日本的 TDM 例外條款就更為全面,只要不利用原作者的表達方式,允許研究者可以以任何目的進行 TDM,甚至直接複製有著作權的作品並擷取其中的知識。1
美國則較為不同,是以合理使用(Fair Use)原則來保護 TDM,也運作得還算良好。例如 Google 在 Google Book Search (GBS)計畫中,將合作圖書館的上百萬本紙本書籍進行掃描及數位化,供學術研究尋找資料之用。而作為交換,圖書館則可以獲得這些書籍的數位檔案。這雖然是明顯的複製了有著作權的內容,但被法官認為是對社會有益的合理使用。
然而,即使有例外條款,在實際運作 TDM 時仍有許多障礙,例如:
- 作品可能被數位版權管理(Digital Rights Management)技術所保護
- 仍有可能侵犯資料庫(database)的特別權(sui generis)
- 必須遵守個人隱私或是資安的相關法規
隨著人工智慧和大數據分析的重要性不斷提升,文字與資料探勘將在更多領域發揮舉足輕重的作用。若能營造一個有利技術發展的法律框架,才可讓新興技術發揮潛力,創造更多有價值的貢獻。