網頁爬蟲的相關法律責任

閱讀時間約 4 分鐘

何謂網頁爬蟲

根據維基百科,網路爬蟲(web crawler),也叫網路蜘蛛(spider),是一種用來自動瀏覽全球資訊網的網路機器人,其目的一般為編纂網路索引。
如今,爬蟲已經不再限於建立網路索引。由於爬蟲可自動執行的特性,重複在網路上複製、下載的枯燥工作,也可以交由爬蟲來完成。舉個例子,在〈網頁爬蟲實作-下載司法院書狀範本〉一文中,便是利用爬蟲自動到司法院網頁下載書狀範本。如果沒有用爬蟲,我可能得花上一個星期才能將書狀名稱、下載網址複製下來,然而透過爬蟲,我只用一個晚上就完成了。

使用爬蟲的法律責任

雖然爬蟲是如此好用的工具,但使用時也必須留意相關的法律規範。

著作權

重製
網路上的圖片、文章、音樂、影片、軟體均有著作權,如果使用爬蟲將其全部複製,可能涉及著作權法第3條第1項第5款所稱之重製。重製不一定侵害著作權,但必須符合合理使用的規範。
舉例而言,如果是為了教學、評論、非營利自用的目的而重製,就可以主張合理使用。但如果是轉貼在自己的部落格,那可能就難逃侵權責任。
robot.txt
網路上有流傳一種說法:使用爬蟲必須遵循robot.txt的內容,以免觸犯著作權法。然而這是不正確的說法。
robot.txt,根據維基百科的定義,是一種存放於網站根目錄下的ASCII編碼的文字檔案,用於告訴網路爬蟲此網站中的哪些內容是不應被搜尋引擎取得的,而哪些是可以被爬蟲取得的。
robot.txt充其量只是作者(或是網站管理者)對搜尋引擎爬蟲的授權範圍,換句話說,搜尋引擎根據robot.txt的內容進行爬蟲、快照,基本上不會觸犯著作權法。但如果不是搜尋引擎的爬蟲,而是私人運行的網頁爬蟲 (如自己撰寫的python程式、網路上下載的爬蟲軟體),就無法援引robot.txt作為智慧財產權侵權責任的免責事由

個人資料保護法

有時候網頁上的資訊,涉及個人資料。諸如:姓名、出生年月日、特徵、教育程度、職業、聯絡方式等等。這些個資的蒐集 (爬蟲)、處理 (資料清理)、利用都必須符合個人資料保護法第19條的規範。
個人資料保護法第19條第1項:非公務機關對個人資料之蒐集或處理,除第六條第一項所規定資料外,應有特定目的,並符合下列情形之一者: 一、法律明文規定。 二、與當事人有契約或類似契約之關係,且已採取適當之安全措施。 三、當事人自行公開或其他已合法公開之個人資料。 四、學術研究機構基於公共利益為統計或學術研究而有必要,且資料經過提供者處理後或經蒐集者依其揭露方式無從識別特定之當事人。 五、經當事人同意。 六、為增進公共利益所必要。 七、個人資料取自於一般可得之來源。但當事人對該資料之禁止處理或利用,顯有更值得保護之重大利益者,不在此限。 八、對當事人權益無侵害。
簡而言之,取得這些個資必須是依據法律明文規定、出於與當事人有約定、學術研究必要、公共利益必要,或者資料是取自於一般可得之來源、已合法公開之個人資料。
舉例而言,許多人會在人力資源網站放上自己的履歷,內含姓名、email、學經歷等等個資,如果使用爬蟲蒐集下來,欲進行行銷或其他方式的利用,就必須符合前述個人資料保護法的規定。
同樣的,robot.txt也不能作為個人資料保護法的免責事由

公平交易法

公平交易法的目的,主要是在維護競爭秩序。倘若網頁資料的取得,是他人的心血結晶、有利於在市場上競爭,透過網頁爬蟲將該資料不費吹灰之力全部複製、利用,則有可能違反公平交易法第25條之規定。
公平交易法第25條:除本法另有規定者外,事業亦不得為其他足以影響交易秩序之欺罔或顯失公平之行為。
舉例而言,許多房仲會到競爭對手的網站大量複製售屋資訊,再放置到自己的房仲網站上,營造也有受屋主委託賣屋的假象,進而吸引買家。如此一來,便使得花費大量精力簽下委託售屋契約的房仲平白無故被搭便車。

刑法

網頁爬蟲在蒐集資料時,多半也必須實際進到該網頁,讓網頁載入內容、顯示內容。因此,如果短時間內進行極大量的網頁爬蟲,有可能會癱瘓網站。如此一來,可能會觸犯刑法第360條干擾電腦設備罪。不過以目前市面上主流的網頁主機而言,單純以網頁爬蟲工具要形成類似DDoS的效果,著實也有些困難。

科技始終來自於人性

網頁爬蟲可以幫助我們快速完成重複、枯燥的複製工作,但因為使用網頁爬蟲讓「複製」太過輕易,也容易使得人們忘記資料的取得與整理,其實是一件多麼不容易的事情。
然而網頁爬蟲本身沒有善惡,端看使用者如何運用,這也是所謂的科技中立性。
在使用網頁爬蟲之前,首先確定爬下來的資料,是否符合著作權法的合理使用規範;其次,如果爬下來的資料涉及他人個資,最好是取得同意後再使用;再者,如果爬下來的資料是事業競爭對手的資料,則是能免則免
此篇文章會顯示動態置底廣告
為什麼會看到廣告
38會員
52內容數
正在就讀法律系的你,一定耳聞過司律考試,甚至已經下場考過。我有幸從考海中上岸,希望透過我的經驗,幫助正在迷惘、焦急、或是洩氣的你/妳。專題內容包含是否要參加考試、如何準備考試、面授與函授的優缺點比較等等,幫助你/妳找到最適合自己的解方。
留言0
查看全部
發表第一個留言支持創作者!
GYB的沙龍 的其他內容
俗話說的好:科技始終來自於人性。網頁爬蟲工具,可以幫助人類完成重複性高且枯燥、瑣碎的收集過程。我透過本次有目的的實作,也算是初嘗網頁爬蟲的甜頭,未來應該還是會努力學習Python,畢竟能自己寫程式,就代表能自動化處理更多種樣態的工作。
在返校一年多後,總算是將這篇文章順利完成。辭職對於任何人來說都是重大的決定,而決定返回校園唸書更是需要決心。尤其在面對論文時,看著身旁朋友不斷高升、領年終,心裡難免忐忑。期許自己能善用返校期間的各種資源,讓自己蹲得更低、跳得更高。
一開始我將Bitwarden架設在我私人的伺服器上,過程中吃了不少苦頭。後來架設於NAS上,大幅降低佈建難度。且NAS的原始設計就是長時間不間斷地開機運行,我認為是現階段自架Bitwarden的最佳方案。
Bitwarden是現階段值得推薦的一款密碼管理軟體,可以避免「一個密碼打天下」的危險狀態。若選擇自架Bitwarden伺服器則可免費獲得付費訂閱版本的功能全部功能,對於有一點技術能力的人來說,是個經濟實惠的選擇。
最近剛修完研究所的資訊隱私課程,課程中閱讀了Tim Wu的《The Attention Merchants》一書,對於廣告行業、自媒體有了不一樣的認識。 無論是創作者還是使用者,我們都不斷的在不同平台之間游走-創作者帶著創作、使用者帶著注意力。
如何讓筆電、平板合作順暢,應該是未來所有平板廠商都必須面對的問題。在沒有購入蘋果全家桶之前,選擇iPad必定會面臨如何跨裝置同步使用的問題。因此這篇文章主要就是紀錄我如何克服其中的困難,提供給有同樣需求的讀者參考。
俗話說的好:科技始終來自於人性。網頁爬蟲工具,可以幫助人類完成重複性高且枯燥、瑣碎的收集過程。我透過本次有目的的實作,也算是初嘗網頁爬蟲的甜頭,未來應該還是會努力學習Python,畢竟能自己寫程式,就代表能自動化處理更多種樣態的工作。
在返校一年多後,總算是將這篇文章順利完成。辭職對於任何人來說都是重大的決定,而決定返回校園唸書更是需要決心。尤其在面對論文時,看著身旁朋友不斷高升、領年終,心裡難免忐忑。期許自己能善用返校期間的各種資源,讓自己蹲得更低、跳得更高。
一開始我將Bitwarden架設在我私人的伺服器上,過程中吃了不少苦頭。後來架設於NAS上,大幅降低佈建難度。且NAS的原始設計就是長時間不間斷地開機運行,我認為是現階段自架Bitwarden的最佳方案。
Bitwarden是現階段值得推薦的一款密碼管理軟體,可以避免「一個密碼打天下」的危險狀態。若選擇自架Bitwarden伺服器則可免費獲得付費訂閱版本的功能全部功能,對於有一點技術能力的人來說,是個經濟實惠的選擇。
最近剛修完研究所的資訊隱私課程,課程中閱讀了Tim Wu的《The Attention Merchants》一書,對於廣告行業、自媒體有了不一樣的認識。 無論是創作者還是使用者,我們都不斷的在不同平台之間游走-創作者帶著創作、使用者帶著注意力。
如何讓筆電、平板合作順暢,應該是未來所有平板廠商都必須面對的問題。在沒有購入蘋果全家桶之前,選擇iPad必定會面臨如何跨裝置同步使用的問題。因此這篇文章主要就是紀錄我如何克服其中的困難,提供給有同樣需求的讀者參考。
你可能也想看
Google News 追蹤
Thumbnail
這個秋,Chill 嗨嗨!穿搭美美去賞楓,裝備款款去露營⋯⋯你的秋天怎麼過?秋日 To Do List 等你分享! 秋季全站徵文,我們準備了五個創作主題,參賽還有機會獲得「火烤兩用鍋」,一起來看看如何參加吧~
Thumbnail
美國總統大選只剩下三天, 我們觀察一整週民調與金融市場的變化(包含賭局), 到本週五下午3:00前為止, 誰是美國總統幾乎大概可以猜到60-70%的機率, 本篇文章就是以大選結局為主軸來討論近期甚至到未來四年美股可能的改變
Thumbnail
Faker昨天真的太扯了,中國主播王多多點評的話更是精妙,分享給各位 王多多的點評 「Faker是我們的處境,他是LPL永遠繞不開的一個人和話題,所以我們特別渴望在決賽跟他相遇,去直面我們的處境。 我們曾經稱他為最高的山,最長的河,以為山海就是盡頭,可是Faker用他28歲的年齡...
Thumbnail
在當今的IG時代,多媒體內容已成為網頁設計不可或缺的一部分,它不僅豐富了用戶的互動體驗,還能顯著提升網站的吸引力和溝通效率。本文將探討多媒體內容對用戶體驗(UX)的影響、SEO最佳實踐與多媒體的整合方法,並提供成功整合多媒體的網站案例。
Thumbnail
交互式元素在現代網頁設計中扮演著越來越重要的角色,不僅因為它們能夠提升用戶體驗,還因為它們對搜索引擎最佳化(SEO)帶來的潛在好處。本文將探討交互式設計對SEO的好處、實施交互式元素的方法,並通過一個成功案例分析,展示這些元素如何有效地提升網站性能和搜索排名。
Thumbnail
響應式網頁設計(Responsive Web Design, RWD)已成為現代網站開發不可或缺的一部分。響應式設計不僅能夠確保網站在各種設備上都能提供良好的用戶體驗,而且對於搜索引擎優化(SEO)也有著重要的影響。本文將探討響應式設計的最新技術、其對SEO的優勢以及一些成功的實際案例。
Thumbnail
package main import ( "fmt" "io" "net/http" "os" "strconv" ) func Get(url string) (result string, err error) { resp, err1 := http.Get(url) if
Thumbnail
在如今的資訊時代,如何有效的獲取並處理數據,成為了許多專業人士和企業的重要需求,爬蟲技術,作為獲取網絡數據的重要工具,其重要性不言而喻,而這篇文章將分享Python爬蟲的基礎,讓你能獲取想要的網頁數據。
Thumbnail
全球第二大的加密貨幣交易所FTX在上個月(2022/11)宣布破產,現在依照美國法律進入重整程序,這一波號稱幣圈內雷曼兄弟事件的爆雷,不少台灣人損失慘重甚至被列為全球第七的重災區,我自己就在律師LINE社群中,看到有道長說他自己在這一波損失了八位數。 目前台灣受災戶向FTX求償的方式,不外乎透過台灣
Thumbnail
很多網站,都要求前端工程師要做出在手機跟電腦上都能順利顯示的介面。這種自動調整手機跟桌機的技術,叫做 Responsive web design (RWD)。
好不容易把客人招攬到店裡來了,那要如何讓他買單呢?其實網路購物跟實體商店的消費者心理是大同小異的;不外乎是兩個重要的因素: 良好的購物體驗 刺激消費衝動 試著想想,當我們走進高級精品店時,店員是不是在你一進門,就很親切地打聲招呼,然後請你坐在舒服的沙發上,詢問需不需要飲料或小點心,並遞上
Thumbnail
在初學網頁排版的時候,文字、段落、列表的排版可以說是比較好上手的,只要稍微透過margin、padding、border及文字顏色上調整,就可以輕易獲得一段美美的文字。 然而要去調整圖片的大小及其他相關效果,就不是那麼容易的一件事了,往往在開發時,都會出現圖片效果不如自己預期的狀況。
Thumbnail
與HTML不同,CSS是專門修改網頁內容「樣式」的程式語言,也就是說你沒有辦法透過CSS去新增網頁的文字或是圖片等相關的內容,但你可以透過HTML新增網頁內容後,再使用CSS去修改他的樣式,例如⋯⋯
Thumbnail
這個秋,Chill 嗨嗨!穿搭美美去賞楓,裝備款款去露營⋯⋯你的秋天怎麼過?秋日 To Do List 等你分享! 秋季全站徵文,我們準備了五個創作主題,參賽還有機會獲得「火烤兩用鍋」,一起來看看如何參加吧~
Thumbnail
美國總統大選只剩下三天, 我們觀察一整週民調與金融市場的變化(包含賭局), 到本週五下午3:00前為止, 誰是美國總統幾乎大概可以猜到60-70%的機率, 本篇文章就是以大選結局為主軸來討論近期甚至到未來四年美股可能的改變
Thumbnail
Faker昨天真的太扯了,中國主播王多多點評的話更是精妙,分享給各位 王多多的點評 「Faker是我們的處境,他是LPL永遠繞不開的一個人和話題,所以我們特別渴望在決賽跟他相遇,去直面我們的處境。 我們曾經稱他為最高的山,最長的河,以為山海就是盡頭,可是Faker用他28歲的年齡...
Thumbnail
在當今的IG時代,多媒體內容已成為網頁設計不可或缺的一部分,它不僅豐富了用戶的互動體驗,還能顯著提升網站的吸引力和溝通效率。本文將探討多媒體內容對用戶體驗(UX)的影響、SEO最佳實踐與多媒體的整合方法,並提供成功整合多媒體的網站案例。
Thumbnail
交互式元素在現代網頁設計中扮演著越來越重要的角色,不僅因為它們能夠提升用戶體驗,還因為它們對搜索引擎最佳化(SEO)帶來的潛在好處。本文將探討交互式設計對SEO的好處、實施交互式元素的方法,並通過一個成功案例分析,展示這些元素如何有效地提升網站性能和搜索排名。
Thumbnail
響應式網頁設計(Responsive Web Design, RWD)已成為現代網站開發不可或缺的一部分。響應式設計不僅能夠確保網站在各種設備上都能提供良好的用戶體驗,而且對於搜索引擎優化(SEO)也有著重要的影響。本文將探討響應式設計的最新技術、其對SEO的優勢以及一些成功的實際案例。
Thumbnail
package main import ( "fmt" "io" "net/http" "os" "strconv" ) func Get(url string) (result string, err error) { resp, err1 := http.Get(url) if
Thumbnail
在如今的資訊時代,如何有效的獲取並處理數據,成為了許多專業人士和企業的重要需求,爬蟲技術,作為獲取網絡數據的重要工具,其重要性不言而喻,而這篇文章將分享Python爬蟲的基礎,讓你能獲取想要的網頁數據。
Thumbnail
全球第二大的加密貨幣交易所FTX在上個月(2022/11)宣布破產,現在依照美國法律進入重整程序,這一波號稱幣圈內雷曼兄弟事件的爆雷,不少台灣人損失慘重甚至被列為全球第七的重災區,我自己就在律師LINE社群中,看到有道長說他自己在這一波損失了八位數。 目前台灣受災戶向FTX求償的方式,不外乎透過台灣
Thumbnail
很多網站,都要求前端工程師要做出在手機跟電腦上都能順利顯示的介面。這種自動調整手機跟桌機的技術,叫做 Responsive web design (RWD)。
好不容易把客人招攬到店裡來了,那要如何讓他買單呢?其實網路購物跟實體商店的消費者心理是大同小異的;不外乎是兩個重要的因素: 良好的購物體驗 刺激消費衝動 試著想想,當我們走進高級精品店時,店員是不是在你一進門,就很親切地打聲招呼,然後請你坐在舒服的沙發上,詢問需不需要飲料或小點心,並遞上
Thumbnail
在初學網頁排版的時候,文字、段落、列表的排版可以說是比較好上手的,只要稍微透過margin、padding、border及文字顏色上調整,就可以輕易獲得一段美美的文字。 然而要去調整圖片的大小及其他相關效果,就不是那麼容易的一件事了,往往在開發時,都會出現圖片效果不如自己預期的狀況。
Thumbnail
與HTML不同,CSS是專門修改網頁內容「樣式」的程式語言,也就是說你沒有辦法透過CSS去新增網頁的文字或是圖片等相關的內容,但你可以透過HTML新增網頁內容後,再使用CSS去修改他的樣式,例如⋯⋯