現在的GPT AI到底有多聰明

閱讀時間約 10 分鐘

前言

現在的AI會生成照片、圖片;會使用各種人類的語言,和人類溝通;能在西洋棋及圍棋等棋類,打敗人類第一流的棋手;也能開車;能在數以千萬計的照片中,快速的找出我們想要找的物件;甚至在一些工作上,精密且快速的完成原本是人工的操作。AI還能在人類的各項考試上獲得高分,幫忙寫訴狀等文書。

那麼,AI的能力應該遠勝人類才對。但是:

AI連簡單的數學計算也不見得能正確完成;AI回答的問題常出現幻覺,無視事實結果;AI生成的圖片仍然存在很多奇怪之處,之前也無法正確的處理手指等部分;AI生成的程式仍然錯誤率極高,最佳化的效果也差強人意;連AI擅長的對話,也常出現前言不對後語。

那麼,AI真的那麼聰明嗎?

先說結論,以人類的標準來說,可能還不及一個小學生的智商。

能回答職業律師題目的小學生

一個能說百餘國語言,回答職業律師問題還能寫程式的小學生?怎麼想都不可思議。

正常來說當然不可能,但如果只是拿本題庫在旁邊給小學生抄,那就不一定了。而AI背後的,可是高達數十TB的巨大資料庫,而檢索資料正是電腦的專長。

當然這個類比並不完全恰當,給小學生一本英文字典也無法讓他立刻流暢的講英文,給小朋友一本六法全書,也無法照著寫訴狀,但GPT類的AI顯然可以。
想說明這點,就要說到目前GPT的原理。台大李宏毅教授曾以接龍為例,說明GPT是怎麼組織句子的。簡單說,AI能在龐大資料庫中組織,找出下一個合理的字,組成一個符合人類期待的句子。但AI並不真的知道這個句子在代表什麼意思。但人類期待的句子,只是看起來合理,有組織性,不見得就是事實。這就產生了類似幻覺的問題,讓AI一本正經的胡說八道。

同樣的問題,反應到數學等等需要深入思考的項目。人類在計算數學時,需要的不只是過去的經驗,還需要一些創意來解決一些問題。這時只是資料庫重組,未必能解決數學上的問題。例如AI可能知道1+1=2;2+2=4,但題目變成1+2時,AI未必能從過去經驗,進一步推理得到1+2=3的答案。

也許有人不服。在測試AI時也會刻意使用一些確定不存在於資料庫的題目,如果AI只知道從過去資料檢索,又怎麼可能只靠運氣答對大部分的題目?

從我所知的AI原理來說,這是因為AI會在重構句子時,會依據學習的結果來重組成「合理」的句子。而這個重組的過程中,會給AI一定的推導能力。使得AI能從過去的經驗中,推導出我們「認為合理」的答案。而大部分我們覺得合理的答案,就應該是正解。換言之,合乎「常識」。

失憶的AI

另一個AI常見的現象,就是失憶。常常前面下的條件及對話,再談兩句他就忘了。條件愈長,失憶的情況就愈嚴重。

對AI有研究的人應該都知道,AI分析文章及輸出都是用Token為單位。Token可能是一個字,或是一個名詞或動詞。每次輸出入的記憶容量,就是AI每次對話能處理Token的容量。

以chatGPT來說,GPT-4的容量可以到達32K,大概是25,000字左右的文章;而GPT-3.5則只有4K,大概是3,125字的水準。(GPT 3.5 Turbo開放到16K;而Claude 2更是號稱高達10萬Token之多。)

看起來似乎很多,畢竟我行文至此也不過千餘字,GPT 3.5就能應付了,不是嗎?

但事實並沒有那麼單純。我們每一次和AI對話,其實都是一次獨立的事件,我們提示AI,然後AI回答。所以實際上AI其實根本不記得你上次講了什麼,也不記得他自已說了什麼。這和目前AI使用者的感受是不同的,明明他就可以根據上下文回答使用者的問題。

其實達到對話連續串連的,不是AI本身,而是使用介面。以chatGPT來說,就是那個歷史對話框。每一次我們和AI在對話時,這些使用介面都會偷偷帶入我們和AI之前的對話記錄,讓AI知道之前的對話以及他的回答。再根據這些內容,產生新的回答。
所以隨著對話的增長,我們傳送的Token會逐漸累積,直到突破GPT的上限。

說到這,你還會覺得GPT-4的32K很多嗎?

而為了解決這個問題,各AI介面當然不會傻傻的放任記錄一直成長,會採用一些方式,例如叫AI自己把上面的對話做摘要,之後只要提示摘要給AI即可。這樣可以省下大把Token,讓對話更有效率,也更省錢。(GPT是以每次Token數計費的)

但摘要之所以為摘要,就是因為他省略了大部分不重要的細節。而重不重要,則是由AI判斷。再隨著對話延長,就要進一步的對過去的摘要進行摘要。重覆以上過程,就會讓資訊的遺失更嚴重,也就導致了AI的失憶。

Claude等AI工具,試著把一次處理Token的數目加大到100K來解決AI失憶的問題。未來可能會有更大的處理量的工具問市,在一定程度上提高AI的記憶力。也會讓我們覺得AI更聰明。

但我認為這不是一個治本的方法。畢竟一次能處理的Token再怎麼長,隨著對話的累積,也一定有突破的一天。更何況要把愈來愈長的對話傳輸到Server上再等他回應,是十分沒有效率的作法。

我和AI對話到一定長度時,就會把需要的部分備份下來,重新開啟一個新的對話。對我來說這樣的AI IQ會高一點。

比較好的方法,當然是把過去的對話納入AI模型之中,讓這些對話內容成為原始訓練資料之一。這些模型就是AI的長期記憶,我們問AI的大部分問題,都是從這些模型中提取出來的。但問題是一次訓練的成本太高,GPT-3一次訓練的成本高達200到1200萬美元,訓練一次的時間隨硬體不同從數小時到數天都有可能。

微調

從事AI的工程當然更明白這個問題,也在想法子解決。而他們的方法有兩種:

  • 基本原本的模型再訓練。
  • 微調。

再訓練 - LoRA

簡單來說,重新訓練的成本太高,花的時間太長。所以在原本的模型上加入新的資料就好。

這個方法雖然大幅的減少了訓練的成本及時間,但仍不可能達到即時記憶的效果,也仍然需要相當的硬體成本。使用者想要在家放一台,每天教他一點新東西的難度非常高。但對一些商業應用來說,這己經是接近現實的方案了。公司企業可以在原本幾百萬美金的訓練出的模型上,加上自己的客戶或產品資料,建構出專屬的模型。

微調

GPT開放了微調功能。雖說是微調,但比較接近加上前題條件的對話。

也就是說,每一次對話,都會先提醒AI這些內容,而這些內容是不可以被省略的。因為每次都會提示,所以AI也就不會忘記這些內容。但AI不見得100%採用微調的內容,所以回覆時忽略了微調內容的可能性仍然存在。

微調的好處是在目前的GPT架構上就可以達成,不需要大改。也不需要重新訓練模型,就可以提升AI的記憶力。但既然是隨著對話加入的內容,當然也會佔用token數。當希望AI記憶的東西多時,反而會削減AI對一般對話的記憶力。

相對的聰明

當然GPT是個複雜的新技術,在這裏只是很簡單以科普的角度來討論AI智商的問題。也讓來此的讀者能大概了解一下GPT目前的發展及相關的問題。

但智商本身其實是一個很模糊的定義,就像是要我們怎麼去定義一個人是否聰明的標準。是反應快呢?是想的多呢?想得深呢?有創意呢?知識豐富呢?還是一定要以上兼具?

但比起這些條件,我覺得聰明與否,是種相對的條件。

GPT剛問世時,讓全世界都十分驚訝!電腦居然有辨法,用自然的人類語言,和人類溝通對話。這就是種相對的感受,因為之前的電腦辨不到,所以出現了這樣的電腦我們就會覺得驚訝。就像一個台灣成人能說流暢的英文,一般人都會覺得好厲害;但美國一個小學生能講流輰的英文,則是再正常沒有的事。但一個台灣成人和美國小學生的智商誰高,顯然不能用會不會講英文來判斷。

GPT也是一樣,相對於人類,他仍然是一台電腦。雖然不斷地宣稱他要取代人類的工作,但他仍然是一個工具。所以並不是AI要取代人類,而是因為人類有了更強大的工具,所以需要的人力減少了。而會使用這些工具的人類,當然會比不使用的人站在更有利的位置。

所以與其問AI聰不聰明,更該問的問題恐怕是用他的人夠不夠聰明才對。

超級助手

我有個朋友,在GPT最紅的那個時期發表了宣言,表示只要GPT幻覺問題沒有修正,他就不會使用這種工具。因為他得到的結果是不可信賴的,有問題的。

那時我想,他有可能永遠都用不了AI工具了。

AI幻覺問題,有可能隨著資料庫的擴大,可核對的事實增加而減少。但我覺得不可能完全消失。因為就算是人類,我們也有太多不可判斷的事實。例如外星人存在不存在,在目前就不是一個有肯定答案的問題。所以別把GPT這些AI工具當成問答工具,而是整理資料用的工具。事實的查核判斷,仍要落在人類身上。

電腦本來就是一個整理資料極有效率的工具,也是他當初被發明的目的。現在有了AI後,只是多了一個更有效率的介面,更方便的助手。不管是工作用、學習用,AI都是擔任輔助的角色。把AI寫的報告、文章,毫不確認核實就丟出去,是使用者不好,還是AI不好?這不是顯而易見的嗎?

同樣的,因為GPT可以寫作報告,所以學校是否禁用GPT的討論也增加了。但是,比起要不要禁用GPT,我覺得更該檢討的是教育本身有沒有與時俱進。

人類應該要去思考,為什麼要考試,為什麼要交報告。更進一步的,去思考為什麼要透過報告來核定一個學生的學習成果?甚至更深入的思考教育的本質是什麼。而不是為了要保留現在報告和考試的形式,所以把GPT給禁了。當作沒看到就沒事了。

結論

其實這個話題能討論的很多,包括AI生成圖型的智商都能談一談。而這裏也還沒談到AI解數理及邏輯推理問題的構想。

GPT可能是現今最接近人類的AI模型之一,但我相信未來還會出現其他更好的理論或更好的模型,人類在這萬年間就是這樣一直走過來的,不斷的發明,取代,再發明,再取代。但從來難的不是技術的突破,而是人類社會適應這個科技的速度太慢。

最近GPT及相關生成式AI引發了一連串的版權之爭,因為人類目前還沒有一個制度來決定用來訓練生成式AI的內容版權及利益歸屬,所以必須要透過不斷的爭論來解決這個問題。這是全體人類要一起解決的問題。

但對個人來說,要擔心AI取代自已嗎?我想用最近看到的一個名句來做個結論:

史蒂芬·金:「我的書可以被用來訓練 AI,但它還無法取代我。」


2會員
3Content count
對於科技,我有說不出的熱愛及想像。不但投身其中從事相關行業,這些年來也不斷的精進了解各種科技新知。但是,我在不斷的牛㬭這些知識之餘,卻一直忘了回饋分享這些來自於大眾的學問。所以我立了這個專欄,不談程式碼,不講理論,純粹「談」科技,並預測未來這些技術的發展。你喜歡,也期待與諸位共嗚。
留言0
查看全部
發表第一個留言支持創作者!
Alex Lee的沙龍 的其他內容
在方格子的第一篇,就從自我介紹開始吧。 我是Alex,長居日本的資訊相關工程師。熱衷各項科技發展及開發的同時,也對各種科技演進及應用提出我個人的看法。 在方格子開設這個共享點,除了讓長期累積下來的心得,有一個可以記錄的地方。也希望有一個地方,可以和同好分享互動,一起討論科技相關議題。而這些議題不
在方格子的第一篇,就從自我介紹開始吧。 我是Alex,長居日本的資訊相關工程師。熱衷各項科技發展及開發的同時,也對各種科技演進及應用提出我個人的看法。 在方格子開設這個共享點,除了讓長期累積下來的心得,有一個可以記錄的地方。也希望有一個地方,可以和同好分享互動,一起討論科技相關議題。而這些議題不
你可能也想看
Thumbnail
1.加權指數與櫃買指數 週五的加權指數在非農就業數據開出來後,雖稍微低於預期,但指數仍向上噴出,在美股開盤後於21500形成一個爆量假突破後急轉直下,就一路收至最低。 台股方面走勢需觀察週一在斷頭潮出現後,週二或週三開始有無買單進場支撐,在沒有明確的反轉訊號形成前,小夥伴盡量不要貿然抄底,或是追空
Thumbnail
重點摘要: 1.9 月降息 2 碼、進一步暗示年內還有 50 bp 降息 2.SEP 上修失業率預期,但快速的降息速率將有助失業率觸頂 3.未來幾個月經濟數據將繼續轉弱,經濟復甦的時點或是 1Q25 季底附近
Thumbnail
近期的「貼文發佈流程 & 版型大更新」功能大家使用了嗎? 新版式整體視覺上「更加凸顯圖片」,為了搭配這次的更新,我們推出首次貼文策展 ❤️ 使用貼文功能並完成這次的指定任務,還有機會獲得富士即可拍,讓你的美好回憶都可以用即可拍珍藏!
Thumbnail
第一次來找我Coach時,我都會讓大家先跟我說你的「舊故事」。 何謂舊故事? 「舊故事」指的是你不想要的現況。 以顯化SP來說,例如:對方劈腿、被封鎖、曾經出現過讓你印象深刻的爭吵等等,工作上則可能是你嘗試過靠顯化改進,但仍未進步的地方。
Thumbnail
我會先打一些內容給GPT後面再交給GPT去整理去思考去寫那一章節的故事,所以大致上都是GPT幫我寫的我只提供一半內容和點子GPT提供完整內容
Thumbnail
為期三個月的進階表演課,課後我都會寫 心得備註,在戲劇創作上得到聖希老師不少啟發,在表演藝術上也在學員們毫 無保留的努力下,獲得諸多不同的視野角度。像個演員般去感受困難和挑戰, 這都是對慣於發號施令的編導來說,極為珍貴和必要的養份——你必須好好趴 下去在泥濘中打滾,才能體會和演員站在同個陣線的感覺。
Thumbnail
「恭喜你啊!」這是我們分手後第一次見到他,我自然而然脫口而出。聽到我的聲音,他沒抬頭,也沒看我一眼,像是...他一直知道我在這裡一樣。「雖然我跟她不熟,也沒說過話,但能感覺她是個很好的人,恭喜你!」我想說的是,恭喜你找到一個對的人...
Thumbnail
當對自己當下狀態的滿意,自然會散發讓人舒服的美感,體面的老去,更有一種成熟的韻味,真的不需要強迫自己,過度的追求「外在表徵」必須符合世俗對「俊男美女」的標準,而應該隨著時光的流逝,越來越能跟自己相處,接受自己的限制,肯定自己的優點,活得開心坦然的接受生命中各種的安排。
Thumbnail
有些人說話做事沒主見,習慣性要找人依賴、出主意的,可能跟太有退路有關。每逢大事都只能退到後頭讓別人幫他解決,或是一定要有人代替他下一個方向才能依此前進的,原生家庭應該佔挺大關係。獨立能力、理事能力、做事情扛責任的精神,基於家庭原生照顧的立場都有礙於上述能力的發展,便很容易讓一個男人在成年後還是巨嬰。
Thumbnail
素食先生很喜歡"心靈""靈性成長方面"的訊息及新知,體驗了挺熱門的"希塔療癒",找尋心中的平靜,並找尋問題的源頭加以改善,在巧妙中看到 "Dianna11靈魂療癒" ...
Thumbnail
當恩比德確定不出戰和凱爾特人半決賽的第一場時,沒人相信他們能戰胜波士頓。有恩比德的費城和波士頓打都費勁,更何況是一個失去了絕對核心的費城呢? 但在季后賽,一切都可能發生。第一節,失去了護框核心的76人禁區被爆。常規賽屬於三分大隊的凱爾特人每個球都突破,而76人的內線大門洞開。 凱爾特人首節打出20
Thumbnail
哩厚哇系諸葛呆,今年的12月受反聖嬰現象影響,北半球極有可能出現明顯偏冷的現,這個部分也會再另外文章和各位分享原物料行情影響。 回到上週的市場行情,股市大幅修正,科技股、中小型股震得大家七暈八素,你有繫好安全帶嗎?聽說,現在的市場有兩隻老虎。
Thumbnail
就算當我自己被問起「以前不也都沒有甚麼問題?」「我們不都是這樣長大的?」或是任何一個經驗比自己更豐富的人告訴你「第一個照書養,之後照豬養」的時候,也無力產生過多的辯駁。
Thumbnail
1.加權指數與櫃買指數 週五的加權指數在非農就業數據開出來後,雖稍微低於預期,但指數仍向上噴出,在美股開盤後於21500形成一個爆量假突破後急轉直下,就一路收至最低。 台股方面走勢需觀察週一在斷頭潮出現後,週二或週三開始有無買單進場支撐,在沒有明確的反轉訊號形成前,小夥伴盡量不要貿然抄底,或是追空
Thumbnail
重點摘要: 1.9 月降息 2 碼、進一步暗示年內還有 50 bp 降息 2.SEP 上修失業率預期,但快速的降息速率將有助失業率觸頂 3.未來幾個月經濟數據將繼續轉弱,經濟復甦的時點或是 1Q25 季底附近
Thumbnail
近期的「貼文發佈流程 & 版型大更新」功能大家使用了嗎? 新版式整體視覺上「更加凸顯圖片」,為了搭配這次的更新,我們推出首次貼文策展 ❤️ 使用貼文功能並完成這次的指定任務,還有機會獲得富士即可拍,讓你的美好回憶都可以用即可拍珍藏!
Thumbnail
第一次來找我Coach時,我都會讓大家先跟我說你的「舊故事」。 何謂舊故事? 「舊故事」指的是你不想要的現況。 以顯化SP來說,例如:對方劈腿、被封鎖、曾經出現過讓你印象深刻的爭吵等等,工作上則可能是你嘗試過靠顯化改進,但仍未進步的地方。
Thumbnail
我會先打一些內容給GPT後面再交給GPT去整理去思考去寫那一章節的故事,所以大致上都是GPT幫我寫的我只提供一半內容和點子GPT提供完整內容
Thumbnail
為期三個月的進階表演課,課後我都會寫 心得備註,在戲劇創作上得到聖希老師不少啟發,在表演藝術上也在學員們毫 無保留的努力下,獲得諸多不同的視野角度。像個演員般去感受困難和挑戰, 這都是對慣於發號施令的編導來說,極為珍貴和必要的養份——你必須好好趴 下去在泥濘中打滾,才能體會和演員站在同個陣線的感覺。
Thumbnail
「恭喜你啊!」這是我們分手後第一次見到他,我自然而然脫口而出。聽到我的聲音,他沒抬頭,也沒看我一眼,像是...他一直知道我在這裡一樣。「雖然我跟她不熟,也沒說過話,但能感覺她是個很好的人,恭喜你!」我想說的是,恭喜你找到一個對的人...
Thumbnail
當對自己當下狀態的滿意,自然會散發讓人舒服的美感,體面的老去,更有一種成熟的韻味,真的不需要強迫自己,過度的追求「外在表徵」必須符合世俗對「俊男美女」的標準,而應該隨著時光的流逝,越來越能跟自己相處,接受自己的限制,肯定自己的優點,活得開心坦然的接受生命中各種的安排。
Thumbnail
有些人說話做事沒主見,習慣性要找人依賴、出主意的,可能跟太有退路有關。每逢大事都只能退到後頭讓別人幫他解決,或是一定要有人代替他下一個方向才能依此前進的,原生家庭應該佔挺大關係。獨立能力、理事能力、做事情扛責任的精神,基於家庭原生照顧的立場都有礙於上述能力的發展,便很容易讓一個男人在成年後還是巨嬰。
Thumbnail
素食先生很喜歡"心靈""靈性成長方面"的訊息及新知,體驗了挺熱門的"希塔療癒",找尋心中的平靜,並找尋問題的源頭加以改善,在巧妙中看到 "Dianna11靈魂療癒" ...
Thumbnail
當恩比德確定不出戰和凱爾特人半決賽的第一場時,沒人相信他們能戰胜波士頓。有恩比德的費城和波士頓打都費勁,更何況是一個失去了絕對核心的費城呢? 但在季后賽,一切都可能發生。第一節,失去了護框核心的76人禁區被爆。常規賽屬於三分大隊的凱爾特人每個球都突破,而76人的內線大門洞開。 凱爾特人首節打出20
Thumbnail
哩厚哇系諸葛呆,今年的12月受反聖嬰現象影響,北半球極有可能出現明顯偏冷的現,這個部分也會再另外文章和各位分享原物料行情影響。 回到上週的市場行情,股市大幅修正,科技股、中小型股震得大家七暈八素,你有繫好安全帶嗎?聽說,現在的市場有兩隻老虎。
Thumbnail
就算當我自己被問起「以前不也都沒有甚麼問題?」「我們不都是這樣長大的?」或是任何一個經驗比自己更豐富的人告訴你「第一個照書養,之後照豬養」的時候,也無力產生過多的辯駁。