現在的GPT AI到底有多聰明

2023/09/06閱讀時間約 10 分鐘

前言

現在的AI會生成照片、圖片；會使用各種人類的語言，和人類溝通；能在西洋棋及圍棋等棋類，打敗人類第一流的棋手；也能開車；能在數以千萬計的照片中，快速的找出我們想要找的物件；甚至在一些工作上，精密且快速的完成原本是人工的操作。AI還能在人類的各項考試上獲得高分，幫忙寫訴狀等文書。

那麼，AI的能力應該遠勝人類才對。但是：

AI連簡單的數學計算也不見得能正確完成；AI回答的問題常出現幻覺，無視事實結果；AI生成的圖片仍然存在很多奇怪之處，之前也無法正確的處理手指等部分；AI生成的程式仍然錯誤率極高，最佳化的效果也差強人意；連AI擅長的對話，也常出現前言不對後語。

那麼，AI真的那麼聰明嗎？

先說結論，以人類的標準來說，可能還不及一個小學生的智商。

能回答職業律師題目的小學生

一個能說百餘國語言，回答職業律師問題還能寫程式的小學生？怎麼想都不可思議。

正常來說當然不可能，但如果只是拿本題庫在旁邊給小學生抄，那就不一定了。而AI背後的，可是高達數十TB的巨大資料庫，而檢索資料正是電腦的專長。

當然這個類比並不完全恰當，給小學生一本英文字典也無法讓他立刻流暢的講英文，給小朋友一本六法全書，也無法照著寫訴狀，但GPT類的AI顯然可以。
想說明這點，就要說到目前GPT的原理。台大李宏毅教授曾以接龍為例，說明GPT是怎麼組織句子的。簡單說，AI能在龐大資料庫中組織，找出下一個合理的字，組成一個符合人類期待的句子。但AI並不真的知道這個句子在代表什麼意思。但人類期待的句子，只是看起來合理，有組織性，不見得就是事實。這就產生了類似幻覺的問題，讓AI一本正經的胡說八道。

同樣的問題，反應到數學等等需要深入思考的項目。人類在計算數學時，需要的不只是過去的經驗，還需要一些創意來解決一些問題。這時只是資料庫重組，未必能解決數學上的問題。例如AI可能知道1+1=2；2+2=4，但題目變成1+2時，AI未必能從過去經驗，進一步推理得到1+2=3的答案。

也許有人不服。在測試AI時也會刻意使用一些確定不存在於資料庫的題目，如果AI只知道從過去資料檢索，又怎麼可能只靠運氣答對大部分的題目？

從我所知的AI原理來說，這是因為AI會在重構句子時，會依據學習的結果來重組成「合理」的句子。而這個重組的過程中，會給AI一定的推導能力。使得AI能從過去的經驗中，推導出我們「認為合理」的答案。而大部分我們覺得合理的答案，就應該是正解。換言之，合乎「常識」。

失憶的AI

另一個AI常見的現象，就是失憶。常常前面下的條件及對話，再談兩句他就忘了。條件愈長，失憶的情況就愈嚴重。

對AI有研究的人應該都知道，AI分析文章及輸出都是用Token為單位。Token可能是一個字，或是一個名詞或動詞。每次輸出入的記憶容量，就是AI每次對話能處理Token的容量。

以chatGPT來說，GPT-4的容量可以到達32K，大概是25,000字左右的文章；而GPT-3.5則只有4K，大概是3,125字的水準。(GPT 3.5 Turbo開放到16K；而Claude 2更是號稱高達10萬Token之多。)

看起來似乎很多，畢竟我行文至此也不過千餘字，GPT 3.5就能應付了，不是嗎？

但事實並沒有那麼單純。我們每一次和AI對話，其實都是一次獨立的事件，我們提示AI，然後AI回答。所以實際上AI其實根本不記得你上次講了什麼，也不記得他自已說了什麼。這和目前AI使用者的感受是不同的，明明他就可以根據上下文回答使用者的問題。

其實達到對話連續串連的，不是AI本身，而是使用介面。以chatGPT來說，就是那個歷史對話框。每一次我們和AI在對話時，這些使用介面都會偷偷帶入我們和AI之前的對話記錄，讓AI知道之前的對話以及他的回答。再根據這些內容，產生新的回答。
所以隨著對話的增長，我們傳送的Token會逐漸累積，直到突破GPT的上限。

說到這，你還會覺得GPT-4的32K很多嗎？

而為了解決這個問題，各AI介面當然不會傻傻的放任記錄一直成長，會採用一些方式，例如叫AI自己把上面的對話做摘要，之後只要提示摘要給AI即可。這樣可以省下大把Token，讓對話更有效率，也更省錢。(GPT是以每次Token數計費的)

但摘要之所以為摘要，就是因為他省略了大部分不重要的細節。而重不重要，則是由AI判斷。再隨著對話延長，就要進一步的對過去的摘要進行摘要。重覆以上過程，就會讓資訊的遺失更嚴重，也就導致了AI的失憶。

Claude等AI工具，試著把一次處理Token的數目加大到100K來解決AI失憶的問題。未來可能會有更大的處理量的工具問市，在一定程度上提高AI的記憶力。也會讓我們覺得AI更聰明。

但我認為這不是一個治本的方法。畢竟一次能處理的Token再怎麼長，隨著對話的累積，也一定有突破的一天。更何況要把愈來愈長的對話傳輸到Server上再等他回應，是十分沒有效率的作法。

我和AI對話到一定長度時，就會把需要的部分備份下來，重新開啟一個新的對話。對我來說這樣的AI IQ會高一點。

比較好的方法，當然是把過去的對話納入AI模型之中，讓這些對話內容成為原始訓練資料之一。這些模型就是AI的長期記憶，我們問AI的大部分問題，都是從這些模型中提取出來的。但問題是一次訓練的成本太高，GPT-3一次訓練的成本高達200到1200萬美元，訓練一次的時間隨硬體不同從數小時到數天都有可能。

微調

從事AI的工程當然更明白這個問題，也在想法子解決。而他們的方法有兩種：

基本原本的模型再訓練。
微調。

再訓練 - LoRA

簡單來說，重新訓練的成本太高，花的時間太長。所以在原本的模型上加入新的資料就好。

這個方法雖然大幅的減少了訓練的成本及時間，但仍不可能達到即時記憶的效果，也仍然需要相當的硬體成本。使用者想要在家放一台，每天教他一點新東西的難度非常高。但對一些商業應用來說，這己經是接近現實的方案了。公司企業可以在原本幾百萬美金的訓練出的模型上，加上自己的客戶或產品資料，建構出專屬的模型。

微調

GPT開放了微調功能。雖說是微調，但比較接近加上前題條件的對話。

也就是說，每一次對話，都會先提醒AI這些內容，而這些內容是不可以被省略的。因為每次都會提示，所以AI也就不會忘記這些內容。但AI不見得100%採用微調的內容，所以回覆時忽略了微調內容的可能性仍然存在。

微調的好處是在目前的GPT架構上就可以達成，不需要大改。也不需要重新訓練模型，就可以提升AI的記憶力。但既然是隨著對話加入的內容，當然也會佔用token數。當希望AI記憶的東西多時，反而會削減AI對一般對話的記憶力。

相對的聰明

當然GPT是個複雜的新技術，在這裏只是很簡單以科普的角度來討論AI智商的問題。也讓來此的讀者能大概了解一下GPT目前的發展及相關的問題。

但智商本身其實是一個很模糊的定義，就像是要我們怎麼去定義一個人是否聰明的標準。是反應快呢？是想的多呢？想得深呢？有創意呢？知識豐富呢？還是一定要以上兼具？

但比起這些條件，我覺得聰明與否，是種相對的條件。

GPT剛問世時，讓全世界都十分驚訝！電腦居然有辨法，用自然的人類語言，和人類溝通對話。這就是種相對的感受，因為之前的電腦辨不到，所以出現了這樣的電腦我們就會覺得驚訝。就像一個台灣成人能說流暢的英文，一般人都會覺得好厲害；但美國一個小學生能講流輰的英文，則是再正常沒有的事。但一個台灣成人和美國小學生的智商誰高，顯然不能用會不會講英文來判斷。

GPT也是一樣，相對於人類，他仍然是一台電腦。雖然不斷地宣稱他要取代人類的工作，但他仍然是一個工具。所以並不是AI要取代人類，而是因為人類有了更強大的工具，所以需要的人力減少了。而會使用這些工具的人類，當然會比不使用的人站在更有利的位置。

所以與其問AI聰不聰明，更該問的問題恐怕是用他的人夠不夠聰明才對。

超級助手

我有個朋友，在GPT最紅的那個時期發表了宣言，表示只要GPT幻覺問題沒有修正，他就不會使用這種工具。因為他得到的結果是不可信賴的，有問題的。

那時我想，他有可能永遠都用不了AI工具了。

AI幻覺問題，有可能隨著資料庫的擴大，可核對的事實增加而減少。但我覺得不可能完全消失。因為就算是人類，我們也有太多不可判斷的事實。例如外星人存在不存在，在目前就不是一個有肯定答案的問題。所以別把GPT這些AI工具當成問答工具，而是整理資料用的工具。事實的查核判斷，仍要落在人類身上。

電腦本來就是一個整理資料極有效率的工具，也是他當初被發明的目的。現在有了AI後，只是多了一個更有效率的介面，更方便的助手。不管是工作用、學習用，AI都是擔任輔助的角色。把AI寫的報告、文章，毫不確認核實就丟出去，是使用者不好，還是AI不好？這不是顯而易見的嗎？

同樣的，因為GPT可以寫作報告，所以學校是否禁用GPT的討論也增加了。但是，比起要不要禁用GPT，我覺得更該檢討的是教育本身有沒有與時俱進。

人類應該要去思考，為什麼要考試，為什麼要交報告。更進一步的，去思考為什麼要透過報告來核定一個學生的學習成果？甚至更深入的思考教育的本質是什麼。而不是為了要保留現在報告和考試的形式，所以把GPT給禁了。當作沒看到就沒事了。

結論

其實這個話題能討論的很多，包括AI生成圖型的智商都能談一談。而這裏也還沒談到AI解數理及邏輯推理問題的構想。

GPT可能是現今最接近人類的AI模型之一，但我相信未來還會出現其他更好的理論或更好的模型，人類在這萬年間就是這樣一直走過來的，不斷的發明，取代，再發明，再取代。但從來難的不是技術的突破，而是人類社會適應這個科技的速度太慢。

最近GPT及相關生成式AI引發了一連串的版權之爭，因為人類目前還沒有一個制度來決定用來訓練生成式AI的內容版權及利益歸屬，所以必須要透過不斷的爭論來解決這個問題。這是全體人類要一起解決的問題。

但對個人來說，要擔心AI取代自已嗎？我想用最近看到的一個名句來做個結論：

史蒂芬·金：「我的書可以被用來訓練 AI，但它還無法取代我。」

2會員

3Content count

對於科技，我有說不出的熱愛及想像。不但投身其中從事相關行業，這些年來也不斷的精進了解各種科技新知。但是，我在不斷的牛㬭這些知識之餘，卻一直忘了回饋分享這些來自於大眾的學問。所以我立了這個專欄，不談程式碼，不講理論，純粹「談」科技，並預測未來這些技術的發展。你喜歡，也期待與諸位共嗚。

留言0

查看全部

發表第一個留言支持創作者！

Alex Lee的沙龍的其他內容

科技觀察家

在方格子的第一篇，就從自我介紹開始吧。我是Alex，長居日本的資訊相關工程師。熱衷各項科技發展及開發的同時，也對各種科技演進及應用提出我個人的看法。在方格子開設這個共享點，除了讓長期累積下來的心得，有一個可以記錄的地方。也希望有一個地方，可以和同好分享互動，一起討論科技相關議題。而這些議題不

#科技 #工程師 #觀察

科技觀察家

#科技 #工程師 #觀察

你可能也想看

台中散戶の交易日常

2024/09/08

操盤手の交易週報與展望(Sep.W2)

1.加權指數與櫃買指數週五的加權指數在非農就業數據開出來後，雖稍微低於預期，但指數仍向上噴出，在美股開盤後於21500形成一個爆量假突破後急轉直下，就一路收至最低。台股方面走勢需觀察週一在斷頭潮出現後，週二或週三開始有無買單進場支撐，在沒有明確的反轉訊號形成前，小夥伴盡量不要貿然抄底，或是追空

美股韭菜王

2024/09/18

Fed 9月會議：傳達「不想要落後給曲線」的正向信號，著手管理市場的衰退預期

重點摘要： 1.9 月降息 2 碼、進一步暗示年內還有 50 bp 降息 2.SEP 上修失業率預期，但快速的降息速率將有助失業率觸頂 3.未來幾個月經濟數據將繼續轉弱，經濟復甦的時點或是 1Q25 季底附近

#聯準會 #Fed #降息

方格子 vocus 官方沙龍

2024/08/27

「相簿裡最捨不得刪的 N 張照片！」：完成任務抽富士即可拍！

近期的「貼文發佈流程 & 版型大更新」功能大家使用了嗎？新版式整體視覺上「更加凸顯圖片」，為了搭配這次的更新，我們推出首次貼文策展 ❤️ 使用貼文功能並完成這次的指定任務，還有機會獲得富士即可拍，讓你的美好回憶都可以用即可拍珍藏！

#相簿裡最捨不得刪的照片

小神婆酥酥的神祕基地

2024/08/25

現在的你，是誰？

第一次來找我Coach時，我都會讓大家先跟我說你的「舊故事」。何謂舊故事？「舊故事」指的是你不想要的現況。以顯化SP來說，例如：對方劈腿、被封鎖、曾經出現過讓你印象深刻的爭吵等等，工作上則可能是你嘗試過靠顯化改進，但仍未進步的地方。

#顯化 #顯化法則 #小神婆酥酥顯化

被自己給帥翻的韓俊碩

2024/07/28

我會先打一些內容給GPT後面再交給GPT去整理去思考去寫那一章節的故事

我會先打一些內容給GPT後面再交給GPT去整理去思考去寫那一章節的故事，所以大致上都是GPT幫我寫的我只提供一半內容和點子GPT提供完整內容

#作者ChatGPT

山日月表演工作坊/田聖希戲劇指導的奇幻沙龍

2024/07/15

現在的時代變了，導演不必是那個最懂表演的人，但必須是最尊重表演專業的人

為期三個月的進階表演課，課後我都會寫心得備註，在戲劇創作上得到聖希老師不少啟發，在表演藝術上也在學員們毫無保留的努力下，獲得諸多不同的視野角度。像個演員般去感受困難和挑戰，這都是對慣於發號施令的編導來說，極為珍貴和必要的養份——你必須好好趴下去在泥濘中打滾，才能體會和演員站在同個陣線的感覺。

#演員 #表演課 #表演進階

已讀 Podcast

2024/06/26

現在的女友，絕對是比妳，好一千倍、一萬倍的人

「恭喜你啊!」這是我們分手後第一次見到他，我自然而然脫口而出。聽到我的聲音，他沒抬頭，也沒看我一眼，像是...他一直知道我在這裡一樣。「雖然我跟她不熟，也沒說過話，但能感覺她是個很好的人，恭喜你！」我想說的是，恭喜你找到一個對的人...

#創作 #文學 #文字

姐姐邦幫忙

2024/06/19

現在的妳就很美

當對自己當下狀態的滿意，自然會散發讓人舒服的美感，體面的老去，更有一種成熟的韻味，真的不需要強迫自己，過度的追求「外在表徵」必須符合世俗對「俊男美女」的標準，而應該隨著時光的流逝，越來越能跟自己相處，接受自己的限制，肯定自己的優點，活得開心坦然的接受生命中各種的安排。

鄭書羽

2023/06/24

現在的女人到底對媽寶的定義是什麼阿？

有些人說話做事沒主見，習慣性要找人依賴、出主意的，可能跟太有退路有關。每逢大事都只能退到後頭讓別人幫他解決，或是一定要有人代替他下一個方向才能依此前進的，原生家庭應該佔挺大關係。獨立能力、理事能力、做事情扛責任的精神，基於家庭原生照顧的立場都有礙於上述能力的發展，便很容易讓一個男人在成年後還是巨嬰。

#男人責任 #男人擔當 #媽寶定義