專利分析的資料庫差異性
其實已經有蠻多文獻、心得都有討論
這邊分享一個我自己的心得
Fig.1是我自己繪製的一個專利家族連結態樣,
在圖形的繪製上x軸方向是時間軸方向,
母案是US2009289319P(Fig.1左下角紅框框處)
可以看到這件專利家族數量非常龐大
當時(2023.01.07)在統計時有900多件申請案
後來有幸在一場演講中認識的朋友,
請他幫我從另一個商用資料庫下載這件案子的專利家族,
於是就有下面這張Fig.2的統計。
Fig.2有兩個知名的商用資料庫,
分別是DI與WIPS,
同以這件WO2021113854A1這件去抓取專利家族資料時,
產生的數據不全相同,甚至數據類型也不一樣。
DI的所提供的廣義專利家族(INPADOC資料)共有1622件公開公告號,
經系統轉換後得到合計1090件申請案。
WIPS很有趣地跟DI的資料型態不同,
WIPS在系統上顯示的是共1259件patent family members,
但實際下載檔案只有取得1117件,與系統上所顯示的1259件少了142件,
經查,這142件主要為臨時案,
DI與WIPS不同之處是,
DI提供的INPADOC資料是公開/公告號,WIPS則是申請號,
兩者在資料型態上完全不同,這是其之一差異。
另一個差異是WIPS把臨時案案號算入到家族行列中,
從專利「申請」的角度來看,
這確實是申請人在申請的意志下所產生的一個「申請趨勢」,
但從具有可做為專利權運作的實際專利文件來看,
則必須僅使用具有公開公告號之申請案,
因此,若沒有深入理解個資料庫所提供的資料上的差異,
將會導致分析結果的差異。
其之三的差異是WIPS扣除掉臨時案數量後,
得到的專利家族申請數量比DI多出27件,
此數據的差異會導致分析人員在進行專利分析時母體數據上的落差,
進而影響到後續分析(例如申請趨勢、IPC、專利權人分析、國家地區別分析...等等),
甚至。
在最後,我也運用了一些技巧,
以人工方式進行專利家族的擷取(Fig.2中handmade資料),
獲得專利家族數量共1349件申請案,合計1999件公開公告號,
與DI、WIPS系統所提供的家族數量相差又更大,
因此可推見後續的分析數據上又勢必相差更多,
一旦數據相差越多,分析結果漂移的程度會更大,
造成分析結果上的偏差甚巨。
結論1: 要充分了解所用的資料庫特性。
結論2: 如果要用到兩個以上的資料庫進行分析時,
千萬要小心資料庫差異所造成資料不匹配。
結論3: 人工抓取雖然是最完整的,但是所耗的時間跟人力卻是最高的,