相信這是老生常談了,網路世代加上科技的隨之普及,現在人人穿梭在網路世界已司空見慣,無遠弗屆一詞再也不是誇飾,而是歷歷在目的現象。
網路世代孕育出一些部落客、出版文字業者,舉凡擁有自己網站的經營相關人士,那網站的背後無盡的知識寶庫、優質內容到更隱私的後台觀看人數、客群、SEO相關的數據都是這些人的重要資產。但你可曾擔憂過這些無價之寶被人偷偷用網路爬蟲給無情複製、拿去餵餵AI智慧模型訓練則輕,如果是有心人士拿去做一些偷來暗去的則事情大條。
最大被針對討論的無非是我們的Google大哥,坐擁搜尋引擎首選寶座的他儘管前陣子遭受Microsoft的Edge小小的威脅,如今海水稍稍退潮後Google卻還是穩穩地站在浪潮中穿穩褲子。也因此,許多文字創作者、專家學者、或科技界的商務人士等都暗暗質疑過Google一直以來到底有沒有偷偷拿大家的資料去做AI訓練呢?!
大家放心!Google信任部門副總(Trust of VP),Danielle Romain,幾天前宣布新的功能。在不久的未來,網站搜尋索引文件檔robots.txt將增加新控制功能,讓這些出版業者或網站所有人能自由選擇「是否提供相關內容,協助人工智慧服務「Bard」,以及Google Cloud的Vertex AI等在未來更加進步。
在翻的白話點就是:未來如果他們要拿你的網站內容去訓練自家AI的話,都會先徵求你的同意,而不會直接拿走。
但是...修但幾咧,現在Bard就是一款經過好幾層訓練出來的人工智慧了,早就把網路上的資料當把費吃一輪,現在才問會不會有點先斬後奏?
巧合的是,另一個網路文章發佈平台Medium跟上其他大型媒體新聞平台,如CNN、NY Times的行列,也在幾日前禁止一些機器人未經知會的自動爬蟲、非經作者同意剽竊內容去訓練AI的功能。
如此措施施行能保障這些創作者的文字都有被使用前尊重的重視,甚至是有拒絕被使用的權利;然而大數據世代普及化,許多數據公司、行銷公司為了讓AI吃更飽長更大而不停索求資料、甚至為了時間的迫切未經同意的資料也照單全收。
要怎麼去衡量「資料量足夠讓大型模型能夠持續茁壯」,與「在商業上的所可能引發的資安等疑慮」,恐怕還有很長的時間要來進行討論。
Ref:
https://techcrunch.com/2023/09/28/your-website-can-now-opt-out-of-training-googles-bard-and-future-ais/
https://techcrunch.com/2023/09/28/medium-hints-at-a-nascent-media-coalition-to-block-ai-crawlers/