前一陣子看了一個關於Facebook的一個採訪,標題下的很聳動叫:
Yann LeCun explains why Facebook would crumble without AI
不負責任翻譯就是:為什麼FB沒AI會崩壞!
影片如下(完整影片放留言~ 1個多小時的內容,沒有涉及很多的技術,不懂機器學習深度學習的朋友也能聽懂喔~)
先介紹一下Yann LeCun給不認識他的朋友,Yann LeCun目前是FB(Meta)的首席科學家與Yoshua Bengio和Geoffrey Hinton共同獲得2018年的Turing Award(計算機領域的諾貝爾獎)在深度學習領域有著卓越的貢獻,包括CNN(convolutional neural network卷積神經網路), BP(back propagation反向傳播)等...也有人稱他為CNN之父。
這邊我結合自己查到的一些資料和Yann LeCun的內容和大家分享一下我對Facebook或是說我對整個網絡社群媒體的看法,先強調一下,這篇文章是以技術的觀點出發,科技本身是沒有對錯的,造成對錯的是使用者。
(FB超爛的!FB是政府的打手!FB打擊言論自由!)這樣的聲音我們時不時會聽到...
我們常聽到周邊或是網絡上有人抱怨FB各種亂封鎖或是充斥著假新聞和詐騙,最近又流行在各個KOL貼文下面留言:我只看誰誰誰的詐騙手法…
這確實是FB和大型的網絡社群目前遇到的大問題,但為什麼這個問題這麼棘手?
我們要知道Facebook目前有全球有近30億個用戶(日活用戶近20億),而IG則有超過10億用戶(日活用戶近5億),看到這個數量級之後,我們再來想像一下20億個日活用戶只要有1%的人不遵守社群規則,發佈色情暴力等相關圖片或是粗俗的留言,每天將會產生多少則這種不良貼文或是言論?
那如果我們只聚焦在台灣呢?
根據Jan's Tech Blog之前發佈的統計[1],台灣的FB用戶將近1800萬,IG則是將近890萬!可以說台灣人口2400萬人口,絕大多數的人都有使用FB或IG,若台灣的使用者每天有1%不遵守社群規則,那也會產生將近18萬則!
根據報告FB光今年第二季度就刪除了近17億個假帳號[2],也就相當於每天刪除將近2000萬個假帳號…
這些數量很顯然是不可能人工刪除的,所以需要人工智慧AI來幫忙,Yann LeCun說目前FB的AI算法可以識別出不遵守社群規則的圖片和語言,團隊花了好幾年的時間不斷優化,現在基本上不雅的圖片、暴力宣傳的貼文等,幾乎都是AI自動刪除!
圖像識別大家比較好理解,就是去檢測出照片裡面是否有不適合兒童觀看或是帶有令人不安恐懼的部分,檢測到就加以刪除,但仇恨言論或是暴力言論呢?
不少人對FB這個仇恨言論或暴力言論的定義表示不解?怎樣算仇恨或暴力言論?這也導致很多人說FB幕後被人操控,FB是在言論審查和控制,從AI的角度,我們要識別文字的內涵這件事情是相對困難的,更別提全世界有多少種語言,語言之間的翻譯又是一大問題,很多言論在台灣可能無傷大雅,但在其他地方或許已經違反法律了!
舉個例子,'我反對暴力','我支持暴力',兩句話都有暴力,如果只是讓AI識別暴力這個字然後就刪除,那很明顯前者就被錯殺了,這例子也可以推廣到一個句子或是一段文字上譬如說:
狀況一:納粹當年屠殺大量的猶太人
(…一大段歷史闡述…)
我們人類必須記取教訓,才能換來和平。
狀況二:納粹當年屠殺大量的猶太人
(…一大段歷史闡述…)
我們組織記取失敗的教訓,力求復興此主義。
很明顯的,狀況一和狀況二想表達和傳達的意義大相逕庭,如果AI沒有記憶的能力,很有可能狀況二就沒有辦法被屏蔽掉,就會在網絡上大量傳播,更進一步來說,很多句子必須要結合上下文才能明白作者真正想表達的事物,如果只是抓到一些關鍵字或是關鍵句就加以屏蔽,那就會造成許多問題發生(斷章取義就是這麼來的,當然AI也會斷章取義)。
這邊Yann LeCun大神提到去年開始隨著自然語言(Natural Language Processing)的進步(基本上就是自監督學習(self supervised learning)的算法變強),就是我們常聽到的Transformer, BERT和GPT-3等,熟悉芝麻街美語的朋友對BERT應該不陌生,BERT是芝麻街美語的人物,那這些模型有甚麼特別的呢?
這些自然語言處理的模型一個比一個參數多且一個比一個巨大,這邊借用李宏毅老師的影片截圖[3],可以看到BERT這個模型有340 million(3.4億)個參數,假設BERT是一般人的高度,那GPT-3就是台北101(175 billion(1750億)個參數),那Google又推出Transformer這個模型,有1.6 trillion (1.6兆個參數)…
回到如何定義不良言論和翻譯,就是靠這類的模型進步,才能夠達到一天刪除數百萬甚至數千萬則不良言論,並且無語言障礙(FB支援近200種語言翻譯),順帶一提,像BERT和GPT-2這類的模型,如果要達到FB或Google的效果(那怕是1/10的能力),基本上一般電腦或一般的公司是根本train不起來的,動輒數十億個參數不縮小網絡是不太可能跑得動…(Yann LeCun還提到,FB和google之間會交流算法,大家互相進步,這就是開源的好處,所以才可以發展的這麼快。)
Yann LeCun還提到不良言論和違法定義在不同地區不同政府都是不一樣的,FB必須要根據當地的法律進行處理,所以看到這邊,希望阿財有給大家不一樣的觀點,FB/IG/YouTube這類的大型社交網站,每天都有數以萬計的用戶在使用,只要有少少比例的用戶違規,乘下來就是一個驚人的數字,這麼龐大的數量級,要說言論審查或打壓或許大家把AI想的太神了,建議大家可以看一下李宏毅老師的另一個演講:今天的人工智慧 其實沒有你想的那麼厲害![4]
科技本身沒有對錯,如果硬要說巨頭們的問題,應該是壟斷數據,所以Web3.0和區塊鏈技術想要打破這些巨頭對資料的壟斷,那又是另一個話題了,以後在和大家慢慢分享~
大家不要吝嗇你們的愛心,並且歡迎大家留言分享阿財的文章,你們的支持是阿財繼續科普分享的動力~
延伸閱讀:
參考資料: