現在的GPT AI到底有多聰明

2024/09/05 更新2023/09/06 發佈閱讀 10 分鐘

前言

現在的AI會生成照片、圖片；會使用各種人類的語言，和人類溝通；能在西洋棋及圍棋等棋類，打敗人類第一流的棋手；也能開車；能在數以千萬計的照片中，快速的找出我們想要找的物件；甚至在一些工作上，精密且快速的完成原本是人工的操作。AI還能在人類的各項考試上獲得高分，幫忙寫訴狀等文書。

那麼，AI的能力應該遠勝人類才對。但是：

AI連簡單的數學計算也不見得能正確完成；AI回答的問題常出現幻覺，無視事實結果；AI生成的圖片仍然存在很多奇怪之處，之前也無法正確的處理手指等部分；AI生成的程式仍然錯誤率極高，最佳化的效果也差強人意；連AI擅長的對話，也常出現前言不對後語。

那麼，AI真的那麼聰明嗎？

先說結論，以人類的標準來說，可能還不及一個小學生的智商。

能回答職業律師題目的小學生

一個能說百餘國語言，回答職業律師問題還能寫程式的小學生？怎麼想都不可思議。

正常來說當然不可能，但如果只是拿本題庫在旁邊給小學生抄，那就不一定了。而AI背後的，可是高達數十TB的巨大資料庫，而檢索資料正是電腦的專長。

當然這個類比並不完全恰當，給小學生一本英文字典也無法讓他立刻流暢的講英文，給小朋友一本六法全書，也無法照著寫訴狀，但GPT類的AI顯然可以。
想說明這點，就要說到目前GPT的原理。台大李宏毅教授曾以接龍為例，說明GPT是怎麼組織句子的。簡單說，AI能在龐大資料庫中組織，找出下一個合理的字，組成一個符合人類期待的句子。但AI並不真的知道這個句子在代表什麼意思。但人類期待的句子，只是看起來合理，有組織性，不見得就是事實。這就產生了類似幻覺的問題，讓AI一本正經的胡說八道。

同樣的問題，反應到數學等等需要深入思考的項目。人類在計算數學時，需要的不只是過去的經驗，還需要一些創意來解決一些問題。這時只是資料庫重組，未必能解決數學上的問題。例如AI可能知道1+1=2；2+2=4，但題目變成1+2時，AI未必能從過去經驗，進一步推理得到1+2=3的答案。

也許有人不服。在測試AI時也會刻意使用一些確定不存在於資料庫的題目，如果AI只知道從過去資料檢索，又怎麼可能只靠運氣答對大部分的題目？

從我所知的AI原理來說，這是因為AI會在重構句子時，會依據學習的結果來重組成「合理」的句子。而這個重組的過程中，會給AI一定的推導能力。使得AI能從過去的經驗中，推導出我們「認為合理」的答案。而大部分我們覺得合理的答案，就應該是正解。換言之，合乎「常識」。

失憶的AI

另一個AI常見的現象，就是失憶。常常前面下的條件及對話，再談兩句他就忘了。條件愈長，失憶的情況就愈嚴重。

對AI有研究的人應該都知道，AI分析文章及輸出都是用Token為單位。Token可能是一個字，或是一個名詞或動詞。每次輸出入的記憶容量，就是AI每次對話能處理Token的容量。

以chatGPT來說，GPT-4的容量可以到達32K，大概是25,000字左右的文章；而GPT-3.5則只有4K，大概是3,125字的水準。(GPT 3.5 Turbo開放到16K；而Claude 2更是號稱高達10萬Token之多。)

看起來似乎很多，畢竟我行文至此也不過千餘字，GPT 3.5就能應付了，不是嗎？

但事實並沒有那麼單純。我們每一次和AI對話，其實都是一次獨立的事件，我們提示AI，然後AI回答。所以實際上AI其實根本不記得你上次講了什麼，也不記得他自已說了什麼。這和目前AI使用者的感受是不同的，明明他就可以根據上下文回答使用者的問題。

其實達到對話連續串連的，不是AI本身，而是使用介面。以chatGPT來說，就是那個歷史對話框。每一次我們和AI在對話時，這些使用介面都會偷偷帶入我們和AI之前的對話記錄，讓AI知道之前的對話以及他的回答。再根據這些內容，產生新的回答。
所以隨著對話的增長，我們傳送的Token會逐漸累積，直到突破GPT的上限。

說到這，你還會覺得GPT-4的32K很多嗎？

而為了解決這個問題，各AI介面當然不會傻傻的放任記錄一直成長，會採用一些方式，例如叫AI自己把上面的對話做摘要，之後只要提示摘要給AI即可。這樣可以省下大把Token，讓對話更有效率，也更省錢。(GPT是以每次Token數計費的)

但摘要之所以為摘要，就是因為他省略了大部分不重要的細節。而重不重要，則是由AI判斷。再隨著對話延長，就要進一步的對過去的摘要進行摘要。重覆以上過程，就會讓資訊的遺失更嚴重，也就導致了AI的失憶。

Claude等AI工具，試著把一次處理Token的數目加大到100K來解決AI失憶的問題。未來可能會有更大的處理量的工具問市，在一定程度上提高AI的記憶力。也會讓我們覺得AI更聰明。

但我認為這不是一個治本的方法。畢竟一次能處理的Token再怎麼長，隨著對話的累積，也一定有突破的一天。更何況要把愈來愈長的對話傳輸到Server上再等他回應，是十分沒有效率的作法。

我和AI對話到一定長度時，就會把需要的部分備份下來，重新開啟一個新的對話。對我來說這樣的AI IQ會高一點。

比較好的方法，當然是把過去的對話納入AI模型之中，讓這些對話內容成為原始訓練資料之一。這些模型就是AI的長期記憶，我們問AI的大部分問題，都是從這些模型中提取出來的。但問題是一次訓練的成本太高，GPT-3一次訓練的成本高達200到1200萬美元，訓練一次的時間隨硬體不同從數小時到數天都有可能。

微調

從事AI的工程當然更明白這個問題，也在想法子解決。而他們的方法有兩種：

基本原本的模型再訓練。
微調。

再訓練 - LoRA

簡單來說，重新訓練的成本太高，花的時間太長。所以在原本的模型上加入新的資料就好。

這個方法雖然大幅的減少了訓練的成本及時間，但仍不可能達到即時記憶的效果，也仍然需要相當的硬體成本。使用者想要在家放一台，每天教他一點新東西的難度非常高。但對一些商業應用來說，這己經是接近現實的方案了。公司企業可以在原本幾百萬美金的訓練出的模型上，加上自己的客戶或產品資料，建構出專屬的模型。

微調

GPT開放了微調功能。雖說是微調，但比較接近加上前題條件的對話。

也就是說，每一次對話，都會先提醒AI這些內容，而這些內容是不可以被省略的。因為每次都會提示，所以AI也就不會忘記這些內容。但AI不見得100%採用微調的內容，所以回覆時忽略了微調內容的可能性仍然存在。

微調的好處是在目前的GPT架構上就可以達成，不需要大改。也不需要重新訓練模型，就可以提升AI的記憶力。但既然是隨著對話加入的內容，當然也會佔用token數。當希望AI記憶的東西多時，反而會削減AI對一般對話的記憶力。

相對的聰明

當然GPT是個複雜的新技術，在這裏只是很簡單以科普的角度來討論AI智商的問題。也讓來此的讀者能大概了解一下GPT目前的發展及相關的問題。

但智商本身其實是一個很模糊的定義，就像是要我們怎麼去定義一個人是否聰明的標準。是反應快呢？是想的多呢？想得深呢？有創意呢？知識豐富呢？還是一定要以上兼具？

但比起這些條件，我覺得聰明與否，是種相對的條件。

GPT剛問世時，讓全世界都十分驚訝！電腦居然有辨法，用自然的人類語言，和人類溝通對話。這就是種相對的感受，因為之前的電腦辨不到，所以出現了這樣的電腦我們就會覺得驚訝。就像一個台灣成人能說流暢的英文，一般人都會覺得好厲害；但美國一個小學生能講流輰的英文，則是再正常沒有的事。但一個台灣成人和美國小學生的智商誰高，顯然不能用會不會講英文來判斷。

GPT也是一樣，相對於人類，他仍然是一台電腦。雖然不斷地宣稱他要取代人類的工作，但他仍然是一個工具。所以並不是AI要取代人類，而是因為人類有了更強大的工具，所以需要的人力減少了。而會使用這些工具的人類，當然會比不使用的人站在更有利的位置。

所以與其問AI聰不聰明，更該問的問題恐怕是用他的人夠不夠聰明才對。

超級助手

我有個朋友，在GPT最紅的那個時期發表了宣言，表示只要GPT幻覺問題沒有修正，他就不會使用這種工具。因為他得到的結果是不可信賴的，有問題的。

那時我想，他有可能永遠都用不了AI工具了。

AI幻覺問題，有可能隨著資料庫的擴大，可核對的事實增加而減少。但我覺得不可能完全消失。因為就算是人類，我們也有太多不可判斷的事實。例如外星人存在不存在，在目前就不是一個有肯定答案的問題。所以別把GPT這些AI工具當成問答工具，而是整理資料用的工具。事實的查核判斷，仍要落在人類身上。

電腦本來就是一個整理資料極有效率的工具，也是他當初被發明的目的。現在有了AI後，只是多了一個更有效率的介面，更方便的助手。不管是工作用、學習用，AI都是擔任輔助的角色。把AI寫的報告、文章，毫不確認核實就丟出去，是使用者不好，還是AI不好？這不是顯而易見的嗎？

同樣的，因為GPT可以寫作報告，所以學校是否禁用GPT的討論也增加了。但是，比起要不要禁用GPT，我覺得更該檢討的是教育本身有沒有與時俱進。

人類應該要去思考，為什麼要考試，為什麼要交報告。更進一步的，去思考為什麼要透過報告來核定一個學生的學習成果？甚至更深入的思考教育的本質是什麼。而不是為了要保留現在報告和考試的形式，所以把GPT給禁了。當作沒看到就沒事了。

結論

其實這個話題能討論的很多，包括AI生成圖型的智商都能談一談。而這裏也還沒談到AI解數理及邏輯推理問題的構想。

GPT可能是現今最接近人類的AI模型之一，但我相信未來還會出現其他更好的理論或更好的模型，人類在這萬年間就是這樣一直走過來的，不斷的發明，取代，再發明，再取代。但從來難的不是技術的突破，而是人類社會適應這個科技的速度太慢。

最近GPT及相關生成式AI引發了一連串的版權之爭，因為人類目前還沒有一個制度來決定用來訓練生成式AI的內容版權及利益歸屬，所以必須要透過不斷的爭論來解決這個問題。這是全體人類要一起解決的問題。

但對個人來說，要擔心AI取代自已嗎？我想用最近看到的一個名句來做個結論：

史蒂芬·金：「我的書可以被用來訓練 AI，但它還無法取代我。」

#生成式AI

#chatGPT

Alex Lee的沙龍數位宇宙

留言

留言分享你的想法！

Alex Lee的沙龍

2會員

3內容數

對於科技，我有說不出的熱愛及想像。不但投身其中從事相關行業，這些年來也不斷的精進了解各種科技新知。但是，我在不斷的牛㬭這些知識之餘，卻一直忘了回饋分享這些來自於大眾的學問。所以我立了這個專欄，不談程式碼，不講理論，純粹「談」科技，並預測未來這些技術的發展。你喜歡，也期待與諸位共嗚。

你可能也想看

有所知zhi的沙龍

讓ChatGPT來考113年會考作文……

先寫結論： AI真的很厲害，而且只會愈來愈厲害，但我們人類還是得繼續學習。而且因為AI工具的便利，人類學習將更貼近學習的本質---為了成長和幸福。以往為了應付工業化進程而必須花大量時間反覆記誦或演練的重複性工作，將大量減少，也不再需要花大量時間學習某些特定目標的應用技能工具，如：『文件繕打

2024/05/31

2024/05/31

近期一則有趣的生成式AI新聞，內容是這樣說的：「像是ChatGPT等生成式AI，跟人一樣會產生幻覺。所謂的幻覺，是指生成式AI用錯誤、甚至是不存在的資訊回答使用者的提問。其中的錯誤率，ChatGPT是3%，Meta旗下的聊天機器人是5%，而Google的PaLm竟高達27%。」

2023/11/28

2023/11/28

雖然AI在許多領域展現出驚人的能力，如圖像生成、語言理解、棋藝、駕駛等,但從更深層次看,AI的核心仍是模式匹配和數據組合。AI不能真正理解語意,也缺乏人類的創造力。進一步分析了GPT等語言模型的技術原理，認為其實質上是從大量文本中學習Words組合規則，而非真正理解文本意思。這導致AI展現出諸如

2023/09/06

2023/09/06

人工智能聊天機器人現在非常方便，我們可以隨意的讓他生成部落格，email ，信件格式，運動計畫，書本段落標題等等，節省無數工作的時間。不過，在使用人工智能來產生文章的時候，我們需要有一些考核的指標，來選擇最適合我們的AI工具。

2023/08/01

2023/08/01

AI浪潮自從去年ChatGPT後，AI這個本來沉寂已久的話題，瞬間火爆全世界，不論是各家各戶開始瘋狂訓練自己的大語言模型與基礎模型，包含法國的Bloom、Meta的LLaMA、AWS的Titan、Google的LaMDA等等，抑或是開始推出自己的生成式AI工具等等，例如Google的Bard、百

2023/07/14

2023/07/14

本文探討大資料對模型的影響。研究指出，大資料量對模型的語法和世界知識理解有顯著影響。固定運算資源下，DeepMind發現適應參數數量更重要，這使模型Chinchilla以較小規模但更多訓練資料，在實際任務中優於Gopher模型。這說明增大模型的規模已不具有太大意義，應增加訓練資料。

2023/06/20

2023/06/20

AI 憑什麼這麼強 (一)：人工智能模型的湧現現象

本文回答幾個問題：(一) 什麼叫做湧現；(二)湧現是什麼現象；(三)為什麼我們造不出自己的超級 AI。看完後，你會理解現在 AI 的現象跟趨勢、一些技術與專有名詞，像是參數、大型機構與他們模型的名字。

#ChatGPT#人工智慧#人工智能

2023/05/16

Darren的沙龍

AI 憑什麼這麼強 (一)：人工智能模型的湧現現象

#ChatGPT#人工智慧#人工智能

2023/05/16

技術PM路易斯的沙龍

為什麼ChatGPT數學不好? 淺談人工智慧與演算法的差別

AI人工智慧跟一般的演算法差別在哪邊呢? 本篇就是要告訴你為什麼無所不能ChatGPT，上知天文下知地理，可是就是有一個很明顯的弱點，請他算數學卻很常算錯，明明這個ChatGPT 充滿想像力，請他寫演講稿，草擬策略都很在行，為什麼數學就是不行呢?

#AI人工智慧#ChatGPT#人工智慧

2023/05/16

技術PM路易斯的沙龍

為什麼ChatGPT數學不好? 淺談人工智慧與演算法的差別

#AI人工智慧#ChatGPT#人工智慧

2023/05/16

追蹤感興趣的內容從 Google News 追蹤更多 vocus 的最新精選內容追蹤 Google News