AI在偷偷抓我網站內容甚至隱私資料? 你要用來人工模型訓練,要先講欸!

閱讀時間約 2 分鐘
相信這是老生常談了,網路世代加上科技的隨之普及,現在人人穿梭在網路世界已司空見慣,無遠弗屆一詞再也不是誇飾,而是歷歷在目的現象。

網路世代孕育出一些部落客、出版文字業者,舉凡擁有自己網站的經營相關人士,那網站的背後無盡的知識寶庫優質內容到更隱私的後台觀看人數客群SEO相關的數據都是這些人的重要資產。但你可曾擔憂過這些無價之寶被人偷偷用網路爬蟲給無情複製、拿去餵餵AI智慧模型訓練則輕,如果是有心人士拿去做一些偷來暗去的則事情大條。

最大被針對討論的無非是我們的Google大哥,坐擁搜尋引擎首選寶座的他儘管前陣子遭受Microsoft的Edge小小的威脅,如今海水稍稍退潮後Google卻還是穩穩地站在浪潮中穿穩褲子。也因此,許多文字創作者、專家學者、或科技界的商務人士等都暗暗質疑過Google一直以來到底有沒有偷偷拿大家的資料去做AI訓練呢?!

大家放心!Google信任部門副總(Trust of VP),Danielle Romain,幾天前宣布新的功能。在不久的未來,網站搜尋索引文件檔robots.txt將增加新控制功能,讓這些出版業者或網站所有人能自由選擇「是否提供相關內容,協助人工智慧服務「Bard」,以及Google Cloud的Vertex AI等在未來更加進步。

在翻的白話點就是:未來如果他們要拿你的網站內容去訓練自家AI的話,都會先徵求你的同意,而不會直接拿走。
Source: Meme梗圖倉庫

Source: Meme梗圖倉庫

但是...修但幾咧,現在Bard就是一款經過好幾層訓練出來的人工智慧了,早就把網路上的資料當把費吃一輪,現在才問會不會有點先斬後奏?

巧合的是,另一個網路文章發佈平台Medium跟上其他大型媒體新聞平台,如CNN、NY Times的行列,也在幾日前禁止一些機器人未經知會的自動爬蟲、非經作者同意剽竊內容去訓練AI的功能。

如此措施施行能保障這些創作者的文字都有被使用前尊重的重視,甚至是有拒絕被使用的權利;然而大數據世代普及化,許多數據公司、行銷公司為了讓AI吃更飽長更大而不停索求資料、甚至為了時間的迫切未經同意的資料也照單全收。

要怎麼去衡量「資料量足夠讓大型模型能夠持續茁壯」,與「在商業上的所可能引發的資安等疑慮」,恐怕還有很長的時間要來進行討論。



Ref:

https://techcrunch.com/2023/09/28/your-website-can-now-opt-out-of-training-googles-bard-and-future-ais/

https://techcrunch.com/2023/09/28/medium-hints-at-a-nascent-media-coalition-to-block-ai-crawlers/

JuRood
JuRood
留言0
查看全部
發表第一個留言支持創作者!