作者:陳華夫
類似的實驗最近幾年頻繁出現。從
圖像識別到
語音辨識,各種基於少量訊息輸入的「對抗性」和「干擾性」因素可以輕易地造成
深度學習(Deep Learning)算法的
人工智慧系統的判別錯誤。
相比之下,人類的認知可不會這麼容易被干擾。例如很多人都有過「茫茫人海中,一眼認出你」的體驗,為何
人臉辨識系統抗干擾能力比起人類是望塵莫及的?這就凸顯
深度學習已經走入了類似
鍊金術一樣的窘境。需要從新的
認知與
演算法構造角度去奠定
人工智慧可
解釋性的基礎。
從2012年
卷積神經網路AlexNet出現開始,伴隨著
人工智慧技術的快速發展,其核心算法
深度學習在參數規模和
演算法複雜度上一路狂飆,目前已經達到十幾億參數的規模。如此複雜的
演算法,需要
大數據支持其進行模型訓練。就如同一頭越長越大的怪獸,需要更多的食物餵鵝。但餵鵝出的這頭
深度學習怪獸能夠在特定領域達到或接近人類的「
認知能力」嗎?很可惜,還差得遠。目前的
深度學習算法還是以一種類似於
鍊金術的方式進行構建的。
這種鍊金術式的方法,業界稱為
黑盒模型(Black-box modelling):也就是說,高度複雜的多層次
演算法形成類似於一個不可打開的黑盒子,我們只能依賴於系統的輸入輸出對黑盒內部的關聯關係進行調整和優化,最終形成的最佳模型,但無法詳細地拆解,分析 與
解釋。
人工智慧技術已經在部分領域把人類的水平遠遠地甩在了身後,但相比人類的
認知能力,仍屬「
弱人工智能」─即不能真正地推理(Reasoning)和解決問題(Problem_solving),及不能擁有如人類智慧的自主意識。
1)
監督學習需要大量人工標註數據,在有明確學習目標並了解對錯的前提下進行
學習並獲取
知識。換句話說,
人工智慧系統在
學習(模型訓練)的過程中必須一手拿著習題,一手拿著正確答案。如果沒有正確答案,
人工智慧系統完全無從判斷哪個結果是正確的,哪個結果是錯誤的,也就無法開展
學習過程。
但人類在嬰兒時期,主要的
學習過程是處於無目標、無對錯的狀態。嬰兒對於外界的絕大部分認知,如認識家人及各種物體玩具,乃至對於抽象概念的認知如時間、空間、重力等,都是在沒有任何指導和正確答案的情況下完成的。對於動物來說,由於缺乏同類指導幫助,有
監督學習的方式更為罕見。就算是沒有學過「人類」的定義,狗也不會混淆人和其它靈長類動物。和
深度學習的
人工智慧系統相比,動物都是無師自通的歸納高手,更不用說人類了。
2)
人工智慧無法提煉出規則,無法模塊化知識。由於我們進行的是「黑盒訓練」,在模型得到滿意的預測結果後,我們就可以認為該
人工智慧系統獲得了特定領域問題的
知識。但模型內部的複雜關聯卻無法清晰拆解,更無法提煉成為顯性的
知識或規則,最終也就無法從
邏輯上確認模型內部
知識的正確性。
當然,模型的有效性是可以通過實踐數據驗證的。但有效性和正確性往往是不能劃等號的。這就好像是拿著海量的帶有正確答案的選擇題讓
人工智慧系統學習,最終取得了不錯的評估結果。當然
人工智慧系統有可能掌握了一些知識點,但也有可能是
人工智慧系統發現了「三長一短選最短,三短一長選最長,兩長兩短就選B,同長同短就選A」這樣的答題「秘笈」,從而取得了不錯的成績。但由於
演算法的複雜性導致無法分辨和拆解「有效
知識」和「無效
知識」,最終只能全部接受或捨棄。
由於訓練數據
記憶體在著類似於「秘笈」一樣的
規則(我們稱為
認知偏誤),再加上模型無法提煉出明確的
規則(規律),所以
深度學習模型結果一定混雜了部分錯誤的
知識。這就是為什麼基於少量的干擾訊息,就可以輕易造成
人工智慧統的誤判。因為這些干擾訊息往往準確地命中了系統錯誤的
知識。
在
圖像識別場景下也是同樣的情況。當一個系統能夠正常識別人的面部後,如果需要識別被遮擋住左側或者右側的面部,模型必須使用大量的單側人臉圖片進行訓練,其工作量和訓練全新模型相差不大。這說明「正常臉部辨識模型」的
知識並未舉一反三的應用到新的模型上。而對於一個人類嬰兒來說,他一旦具備識別某種物體的能力,那麼只要稍加引導,他就能夠通過物體的局部特徵來識別整個物體,這就證明了說嬰兒具有
學習轉移的能力。這也是為什麼目前
人工智慧系統對模糊或殘缺字體的識別準確度不高,而人類卻可以輕易完成的原因。
對於人類來說,
知識是可以分解組合的,及舉一反三的
學習轉移到新領域。而
人工智慧的
知識目前還呈現出不可分割的一個整體狀態,大大局限了
人工智慧的應用場景和迭代優化速度,甚至在知識的準確性上被質疑和拷問。
及
鍊金術一樣,方士們(數據科學家)收集到各種奇異的材料(數據),一股腦丟進巨大的爐子(深度學習模型)中進行煉製(訓練),在煉製時間足夠長以後,倒出成品查看是不是變成了黃金。在
鍊金術的整個過程中,方士們其實並不知道煉製的原理是什麼,只是在嘗試各種不同的材料和煉製流程的組合,希望憑著運氣找到正確的煉製方案。是「知其然而不知所以然」的
鍊金術化學,還需要
「近代化學之父」拉瓦錫類似「科學化
人工智慧之父」從新的
認知方式與
演算法構造角度奠定
人工智慧可
解釋性的基礎,催生科學化
人工智慧系統,使其具有:1)
知識的獲取以
非監督學習方式為主。最終的
知識成果包含「抽象
概念」的定義和生成,而這個「抽象
概念」是基於數據本身的
規則(規律)所確定的,有清晰的邊界和適用場景;2)
知識的提煉在於洞察
大數據之間的因果
關係,並對部分包含偏見的數據有相當的抗干擾能力;3)
知識可以通過因果
關係進行提煉和描述,並可以通過
邏輯推理進行確認;4)
知識系統具備完全之舉一反三的
學習轉移的能力,並有革命性的
演算法,及突破性的模型的可
解釋性,只有把
黑盒模型真正轉變為「白盒(透明)模型」,真正的人工智慧時代才會到來。