2023-11-23|閱讀時間 ‧ 約 3 分鐘

專利分析-資料庫差異性


專利分析的資料庫差異性

其實已經有蠻多文獻、心得都有討論

這邊分享一個我自己的心得


Fig.1是我自己繪製的一個專利家族連結態樣,

在圖形的繪製上x軸方向是時間軸方向,

母案是US2009289319P(Fig.1左下角紅框框處)

可以看到這件專利家族數量非常龐大

當時(2023.01.07)在統計時有900多件申請案

Fig.1. WO2021113854專利家族_PANK繪製

後來有幸在一場演講中認識的朋友,

請他幫我從另一個商用資料庫下載這件案子的專利家族,

於是就有下面這張Fig.2的統計。


Fig.2有兩個知名的商用資料庫,

分別是DI與WIPS,

同以這件WO2021113854A1這件去抓取專利家族資料時,

產生的數據不全相同,甚至數據類型也不一樣。

Fig.2. 各資料庫與手工資料差異性_PANK繪製

DI的所提供的廣義專利家族(INPADOC資料)共有1622件公開公告號,

經系統轉換後得到合計1090件申請案。


WIPS很有趣地跟DI的資料型態不同,

WIPS在系統上顯示的是共1259件patent family members,

但實際下載檔案只有取得1117件,與系統上所顯示的1259件少了142件,

經查,這142件主要為臨時案,


DI與WIPS不同之處是,

DI提供的INPADOC資料是公開/公告號,WIPS則是申請號,

兩者在資料型態上完全不同,這是其之一差異。


另一個差異是WIPS把臨時案案號算入到家族行列中,

從專利「申請」的角度來看,

這確實是申請人在申請的意志下所產生的一個「申請趨勢」,

但從具有可做為專利權運作的實際專利文件來看,

則必須僅使用具有公開公告號之申請案,

因此,若沒有深入理解個資料庫所提供的資料上的差異,

將會導致分析結果的差異。


其之三的差異是WIPS扣除掉臨時案數量後,

得到的專利家族申請數量比DI多出27件,

此數據的差異會導致分析人員在進行專利分析時母體數據上的落差,

進而影響到後續分析(例如申請趨勢、IPC、專利權人分析、國家地區別分析...等等),

甚至。


在最後,我也運用了一些技巧,

以人工方式進行專利家族的擷取(Fig.2中handmade資料),

獲得專利家族數量共1349件申請案,合計1999件公開公告號,

與DI、WIPS系統所提供的家族數量相差又更大,

因此可推見後續的分析數據上又勢必相差更多,

一旦數據相差越多,分析結果漂移的程度會更大,

造成分析結果上的偏差甚巨。


結論1: 要充分了解所用的資料庫特性。

結論2: 如果要用到兩個以上的資料庫進行分析時,

千萬要小心資料庫差異所造成資料不匹配。

結論3: 人工抓取雖然是最完整的,但是所耗的時間跟人力卻是最高的,


分享至
成為作者繼續創作的動力吧!
© 2024 vocus All rights reserved.