之前七法事件鬧得沸沸揚揚,很多人都關注「法規沿革」為什麼能變成特定人的著作權。其實美國這邊,許多判決的內容是要花錢才能查到的 (我也是要追訴訟的時候才發現XD)。
但前些日子, Hugging Face (就是 AI 領域常聽到的那間公司)把這些判例做成資料集給大眾下載了,算是一大福音。前陣子被中央社提告的台大博士生,分享的繁中資料集也是衍生自 Hugging Face 釋出的 FineWeb-2 資料集。

判例是需要整理的,而很多廠商過去就是靠這樣的服務來賺律師的錢。不過 AI 的興起應該讓這個的護城河慢慢被填平。過往廠商靠人工去摘要、分類,讓律師能夠很快找到判例,但現在資料也被開源,又有了 AI,就降低了後進者的進入門檻。
這讓我想到專利的摘要 (Abstract)。
雖然名為摘要,但通常內容並非專利的核心,所以咱專利人通常都會用自己的方法寫摘要。一些付費資料庫有提供類似的服務 (最有名的應該是科睿唯安的 Derwent Innovation,讓人類專家去研讀專利後撰寫,也難怪定價頗高),不過這樣的優勢,在 AI 時代應該很容易被快速追上吧。
很多產業會誕生,是因為有些東西被搞得太難懂。
我也一直不理解,為什麼很多國家的判決,都要用很難用的 PDF 檔來公開。