現在的AI會生成照片、圖片;會使用各種人類的語言,和人類溝通;能在西洋棋及圍棋等棋類,打敗人類第一流的棋手;也能開車;能在數以千萬計的照片中,快速的找出我們想要找的物件;甚至在一些工作上,精密且快速的完成原本是人工的操作。AI還能在人類的各項考試上獲得高分,幫忙寫訴狀等文書。
那麼,AI的能力應該遠勝人類才對。但是:
AI連簡單的數學計算也不見得能正確完成;AI回答的問題常出現幻覺,無視事實結果;AI生成的圖片仍然存在很多奇怪之處,之前也無法正確的處理手指等部分;AI生成的程式仍然錯誤率極高,最佳化的效果也差強人意;連AI擅長的對話,也常出現前言不對後語。
那麼,AI真的那麼聰明嗎?
先說結論,以人類的標準來說,可能還不及一個小學生的智商。
一個能說百餘國語言,回答職業律師問題還能寫程式的小學生?怎麼想都不可思議。
正常來說當然不可能,但如果只是拿本題庫在旁邊給小學生抄,那就不一定了。而AI背後的,可是高達數十TB的巨大資料庫,而檢索資料正是電腦的專長。
當然這個類比並不完全恰當,給小學生一本英文字典也無法讓他立刻流暢的講英文,給小朋友一本六法全書,也無法照著寫訴狀,但GPT類的AI顯然可以。
想說明這點,就要說到目前GPT的原理。台大李宏毅教授曾以接龍為例,說明GPT是怎麼組織句子的。簡單說,AI能在龐大資料庫中組織,找出下一個合理的字,組成一個符合人類期待的句子。但AI並不真的知道這個句子在代表什麼意思。但人類期待的句子,只是看起來合理,有組織性,不見得就是事實。這就產生了類似幻覺的問題,讓AI一本正經的胡說八道。
同樣的問題,反應到數學等等需要深入思考的項目。人類在計算數學時,需要的不只是過去的經驗,還需要一些創意來解決一些問題。這時只是資料庫重組,未必能解決數學上的問題。例如AI可能知道1+1=2;2+2=4,但題目變成1+2時,AI未必能從過去經驗,進一步推理得到1+2=3的答案。
也許有人不服。在測試AI時也會刻意使用一些確定不存在於資料庫的題目,如果AI只知道從過去資料檢索,又怎麼可能只靠運氣答對大部分的題目?
從我所知的AI原理來說,這是因為AI會在重構句子時,會依據學習的結果來重組成「合理」的句子。而這個重組的過程中,會給AI一定的推導能力。使得AI能從過去的經驗中,推導出我們「認為合理」的答案。而大部分我們覺得合理的答案,就應該是正解。換言之,合乎「常識」。
另一個AI常見的現象,就是失憶。常常前面下的條件及對話,再談兩句他就忘了。條件愈長,失憶的情況就愈嚴重。
對AI有研究的人應該都知道,AI分析文章及輸出都是用Token為單位。Token可能是一個字,或是一個名詞或動詞。每次輸出入的記憶容量,就是AI每次對話能處理Token的容量。
以chatGPT來說,GPT-4的容量可以到達32K,大概是25,000字左右的文章;而GPT-3.5則只有4K,大概是3,125字的水準。(GPT 3.5 Turbo開放到16K;而Claude 2更是號稱高達10萬Token之多。)
看起來似乎很多,畢竟我行文至此也不過千餘字,GPT 3.5就能應付了,不是嗎?
但事實並沒有那麼單純。我們每一次和AI對話,其實都是一次獨立的事件,我們提示AI,然後AI回答。所以實際上AI其實根本不記得你上次講了什麼,也不記得他自已說了什麼。這和目前AI使用者的感受是不同的,明明他就可以根據上下文回答使用者的問題。
其實達到對話連續串連的,不是AI本身,而是使用介面。以chatGPT來說,就是那個歷史對話框。每一次我們和AI在對話時,這些使用介面都會偷偷帶入我們和AI之前的對話記錄,讓AI知道之前的對話以及他的回答。再根據這些內容,產生新的回答。
所以隨著對話的增長,我們傳送的Token會逐漸累積,直到突破GPT的上限。
說到這,你還會覺得GPT-4的32K很多嗎?
而為了解決這個問題,各AI介面當然不會傻傻的放任記錄一直成長,會採用一些方式,例如叫AI自己把上面的對話做摘要,之後只要提示摘要給AI即可。這樣可以省下大把Token,讓對話更有效率,也更省錢。(GPT是以每次Token數計費的)
但摘要之所以為摘要,就是因為他省略了大部分不重要的細節。而重不重要,則是由AI判斷。再隨著對話延長,就要進一步的對過去的摘要進行摘要。重覆以上過程,就會讓資訊的遺失更嚴重,也就導致了AI的失憶。
Claude等AI工具,試著把一次處理Token的數目加大到100K來解決AI失憶的問題。未來可能會有更大的處理量的工具問市,在一定程度上提高AI的記憶力。也會讓我們覺得AI更聰明。
但我認為這不是一個治本的方法。畢竟一次能處理的Token再怎麼長,隨著對話的累積,也一定有突破的一天。更何況要把愈來愈長的對話傳輸到Server上再等他回應,是十分沒有效率的作法。
我和AI對話到一定長度時,就會把需要的部分備份下來,重新開啟一個新的對話。對我來說這樣的AI IQ會高一點。
比較好的方法,當然是把過去的對話納入AI模型之中,讓這些對話內容成為原始訓練資料之一。這些模型就是AI的長期記憶,我們問AI的大部分問題,都是從這些模型中提取出來的。但問題是一次訓練的成本太高,GPT-3一次訓練的成本高達200到1200萬美元,訓練一次的時間隨硬體不同從數小時到數天都有可能。
從事AI的工程當然更明白這個問題,也在想法子解決。而他們的方法有兩種:
簡單來說,重新訓練的成本太高,花的時間太長。所以在原本的模型上加入新的資料就好。
這個方法雖然大幅的減少了訓練的成本及時間,但仍不可能達到即時記憶的效果,也仍然需要相當的硬體成本。使用者想要在家放一台,每天教他一點新東西的難度非常高。但對一些商業應用來說,這己經是接近現實的方案了。公司企業可以在原本幾百萬美金的訓練出的模型上,加上自己的客戶或產品資料,建構出專屬的模型。
GPT開放了微調功能。雖說是微調,但比較接近加上前題條件的對話。
也就是說,每一次對話,都會先提醒AI這些內容,而這些內容是不可以被省略的。因為每次都會提示,所以AI也就不會忘記這些內容。但AI不見得100%採用微調的內容,所以回覆時忽略了微調內容的可能性仍然存在。
微調的好處是在目前的GPT架構上就可以達成,不需要大改。也不需要重新訓練模型,就可以提升AI的記憶力。但既然是隨著對話加入的內容,當然也會佔用token數。當希望AI記憶的東西多時,反而會削減AI對一般對話的記憶力。
當然GPT是個複雜的新技術,在這裏只是很簡單以科普的角度來討論AI智商的問題。也讓來此的讀者能大概了解一下GPT目前的發展及相關的問題。
但智商本身其實是一個很模糊的定義,就像是要我們怎麼去定義一個人是否聰明的標準。是反應快呢?是想的多呢?想得深呢?有創意呢?知識豐富呢?還是一定要以上兼具?
但比起這些條件,我覺得聰明與否,是種相對的條件。
GPT剛問世時,讓全世界都十分驚訝!電腦居然有辨法,用自然的人類語言,和人類溝通對話。這就是種相對的感受,因為之前的電腦辨不到,所以出現了這樣的電腦我們就會覺得驚訝。就像一個台灣成人能說流暢的英文,一般人都會覺得好厲害;但美國一個小學生能講流輰的英文,則是再正常沒有的事。但一個台灣成人和美國小學生的智商誰高,顯然不能用會不會講英文來判斷。
GPT也是一樣,相對於人類,他仍然是一台電腦。雖然不斷地宣稱他要取代人類的工作,但他仍然是一個工具。所以並不是AI要取代人類,而是因為人類有了更強大的工具,所以需要的人力減少了。而會使用這些工具的人類,當然會比不使用的人站在更有利的位置。
所以與其問AI聰不聰明,更該問的問題恐怕是用他的人夠不夠聰明才對。
我有個朋友,在GPT最紅的那個時期發表了宣言,表示只要GPT幻覺問題沒有修正,他就不會使用這種工具。因為他得到的結果是不可信賴的,有問題的。
那時我想,他有可能永遠都用不了AI工具了。
AI幻覺問題,有可能隨著資料庫的擴大,可核對的事實增加而減少。但我覺得不可能完全消失。因為就算是人類,我們也有太多不可判斷的事實。例如外星人存在不存在,在目前就不是一個有肯定答案的問題。所以別把GPT這些AI工具當成問答工具,而是整理資料用的工具。事實的查核判斷,仍要落在人類身上。
電腦本來就是一個整理資料極有效率的工具,也是他當初被發明的目的。現在有了AI後,只是多了一個更有效率的介面,更方便的助手。不管是工作用、學習用,AI都是擔任輔助的角色。把AI寫的報告、文章,毫不確認核實就丟出去,是使用者不好,還是AI不好?這不是顯而易見的嗎?
同樣的,因為GPT可以寫作報告,所以學校是否禁用GPT的討論也增加了。但是,比起要不要禁用GPT,我覺得更該檢討的是教育本身有沒有與時俱進。
人類應該要去思考,為什麼要考試,為什麼要交報告。更進一步的,去思考為什麼要透過報告來核定一個學生的學習成果?甚至更深入的思考教育的本質是什麼。而不是為了要保留現在報告和考試的形式,所以把GPT給禁了。當作沒看到就沒事了。
其實這個話題能討論的很多,包括AI生成圖型的智商都能談一談。而這裏也還沒談到AI解數理及邏輯推理問題的構想。
GPT可能是現今最接近人類的AI模型之一,但我相信未來還會出現其他更好的理論或更好的模型,人類在這萬年間就是這樣一直走過來的,不斷的發明,取代,再發明,再取代。但從來難的不是技術的突破,而是人類社會適應這個科技的速度太慢。
最近GPT及相關生成式AI引發了一連串的版權之爭,因為人類目前還沒有一個制度來決定用來訓練生成式AI的內容版權及利益歸屬,所以必須要透過不斷的爭論來解決這個問題。這是全體人類要一起解決的問題。
但對個人來說,要擔心AI取代自已嗎?我想用最近看到的一個名句來做個結論:
史蒂芬·金:「我的書可以被用來訓練 AI,但它還無法取代我。」