現在的GPT AI到底有多聰明

閱讀時間約 10 分鐘

前言

現在的AI會生成照片、圖片;會使用各種人類的語言,和人類溝通;能在西洋棋及圍棋等棋類,打敗人類第一流的棋手;也能開車;能在數以千萬計的照片中,快速的找出我們想要找的物件;甚至在一些工作上,精密且快速的完成原本是人工的操作。AI還能在人類的各項考試上獲得高分,幫忙寫訴狀等文書。

那麼,AI的能力應該遠勝人類才對。但是:

AI連簡單的數學計算也不見得能正確完成;AI回答的問題常出現幻覺,無視事實結果;AI生成的圖片仍然存在很多奇怪之處,之前也無法正確的處理手指等部分;AI生成的程式仍然錯誤率極高,最佳化的效果也差強人意;連AI擅長的對話,也常出現前言不對後語。

那麼,AI真的那麼聰明嗎?

先說結論,以人類的標準來說,可能還不及一個小學生的智商。

能回答職業律師題目的小學生

一個能說百餘國語言,回答職業律師問題還能寫程式的小學生?怎麼想都不可思議。

正常來說當然不可能,但如果只是拿本題庫在旁邊給小學生抄,那就不一定了。而AI背後的,可是高達數十TB的巨大資料庫,而檢索資料正是電腦的專長。

當然這個類比並不完全恰當,給小學生一本英文字典也無法讓他立刻流暢的講英文,給小朋友一本六法全書,也無法照著寫訴狀,但GPT類的AI顯然可以。
想說明這點,就要說到目前GPT的原理。台大李宏毅教授曾以接龍為例,說明GPT是怎麼組織句子的。簡單說,AI能在龐大資料庫中組織,找出下一個合理的字,組成一個符合人類期待的句子。但AI並不真的知道這個句子在代表什麼意思。但人類期待的句子,只是看起來合理,有組織性,不見得就是事實。這就產生了類似幻覺的問題,讓AI一本正經的胡說八道。

同樣的問題,反應到數學等等需要深入思考的項目。人類在計算數學時,需要的不只是過去的經驗,還需要一些創意來解決一些問題。這時只是資料庫重組,未必能解決數學上的問題。例如AI可能知道1+1=2;2+2=4,但題目變成1+2時,AI未必能從過去經驗,進一步推理得到1+2=3的答案。

也許有人不服。在測試AI時也會刻意使用一些確定不存在於資料庫的題目,如果AI只知道從過去資料檢索,又怎麼可能只靠運氣答對大部分的題目?

從我所知的AI原理來說,這是因為AI會在重構句子時,會依據學習的結果來重組成「合理」的句子。而這個重組的過程中,會給AI一定的推導能力。使得AI能從過去的經驗中,推導出我們「認為合理」的答案。而大部分我們覺得合理的答案,就應該是正解。換言之,合乎「常識」。

失憶的AI

另一個AI常見的現象,就是失憶。常常前面下的條件及對話,再談兩句他就忘了。條件愈長,失憶的情況就愈嚴重。

對AI有研究的人應該都知道,AI分析文章及輸出都是用Token為單位。Token可能是一個字,或是一個名詞或動詞。每次輸出入的記憶容量,就是AI每次對話能處理Token的容量。

以chatGPT來說,GPT-4的容量可以到達32K,大概是25,000字左右的文章;而GPT-3.5則只有4K,大概是3,125字的水準。(GPT 3.5 Turbo開放到16K;而Claude 2更是號稱高達10萬Token之多。)

看起來似乎很多,畢竟我行文至此也不過千餘字,GPT 3.5就能應付了,不是嗎?

但事實並沒有那麼單純。我們每一次和AI對話,其實都是一次獨立的事件,我們提示AI,然後AI回答。所以實際上AI其實根本不記得你上次講了什麼,也不記得他自已說了什麼。這和目前AI使用者的感受是不同的,明明他就可以根據上下文回答使用者的問題。

其實達到對話連續串連的,不是AI本身,而是使用介面。以chatGPT來說,就是那個歷史對話框。每一次我們和AI在對話時,這些使用介面都會偷偷帶入我們和AI之前的對話記錄,讓AI知道之前的對話以及他的回答。再根據這些內容,產生新的回答。
所以隨著對話的增長,我們傳送的Token會逐漸累積,直到突破GPT的上限。

說到這,你還會覺得GPT-4的32K很多嗎?

而為了解決這個問題,各AI介面當然不會傻傻的放任記錄一直成長,會採用一些方式,例如叫AI自己把上面的對話做摘要,之後只要提示摘要給AI即可。這樣可以省下大把Token,讓對話更有效率,也更省錢。(GPT是以每次Token數計費的)

但摘要之所以為摘要,就是因為他省略了大部分不重要的細節。而重不重要,則是由AI判斷。再隨著對話延長,就要進一步的對過去的摘要進行摘要。重覆以上過程,就會讓資訊的遺失更嚴重,也就導致了AI的失憶。

Claude等AI工具,試著把一次處理Token的數目加大到100K來解決AI失憶的問題。未來可能會有更大的處理量的工具問市,在一定程度上提高AI的記憶力。也會讓我們覺得AI更聰明。

但我認為這不是一個治本的方法。畢竟一次能處理的Token再怎麼長,隨著對話的累積,也一定有突破的一天。更何況要把愈來愈長的對話傳輸到Server上再等他回應,是十分沒有效率的作法。

我和AI對話到一定長度時,就會把需要的部分備份下來,重新開啟一個新的對話。對我來說這樣的AI IQ會高一點。

比較好的方法,當然是把過去的對話納入AI模型之中,讓這些對話內容成為原始訓練資料之一。這些模型就是AI的長期記憶,我們問AI的大部分問題,都是從這些模型中提取出來的。但問題是一次訓練的成本太高,GPT-3一次訓練的成本高達200到1200萬美元,訓練一次的時間隨硬體不同從數小時到數天都有可能。

微調

從事AI的工程當然更明白這個問題,也在想法子解決。而他們的方法有兩種:

  • 基本原本的模型再訓練。
  • 微調。

再訓練 - LoRA

簡單來說,重新訓練的成本太高,花的時間太長。所以在原本的模型上加入新的資料就好。

這個方法雖然大幅的減少了訓練的成本及時間,但仍不可能達到即時記憶的效果,也仍然需要相當的硬體成本。使用者想要在家放一台,每天教他一點新東西的難度非常高。但對一些商業應用來說,這己經是接近現實的方案了。公司企業可以在原本幾百萬美金的訓練出的模型上,加上自己的客戶或產品資料,建構出專屬的模型。

微調

GPT開放了微調功能。雖說是微調,但比較接近加上前題條件的對話。

也就是說,每一次對話,都會先提醒AI這些內容,而這些內容是不可以被省略的。因為每次都會提示,所以AI也就不會忘記這些內容。但AI不見得100%採用微調的內容,所以回覆時忽略了微調內容的可能性仍然存在。

微調的好處是在目前的GPT架構上就可以達成,不需要大改。也不需要重新訓練模型,就可以提升AI的記憶力。但既然是隨著對話加入的內容,當然也會佔用token數。當希望AI記憶的東西多時,反而會削減AI對一般對話的記憶力。

相對的聰明

當然GPT是個複雜的新技術,在這裏只是很簡單以科普的角度來討論AI智商的問題。也讓來此的讀者能大概了解一下GPT目前的發展及相關的問題。

但智商本身其實是一個很模糊的定義,就像是要我們怎麼去定義一個人是否聰明的標準。是反應快呢?是想的多呢?想得深呢?有創意呢?知識豐富呢?還是一定要以上兼具?

但比起這些條件,我覺得聰明與否,是種相對的條件。

GPT剛問世時,讓全世界都十分驚訝!電腦居然有辨法,用自然的人類語言,和人類溝通對話。這就是種相對的感受,因為之前的電腦辨不到,所以出現了這樣的電腦我們就會覺得驚訝。就像一個台灣成人能說流暢的英文,一般人都會覺得好厲害;但美國一個小學生能講流輰的英文,則是再正常沒有的事。但一個台灣成人和美國小學生的智商誰高,顯然不能用會不會講英文來判斷。

GPT也是一樣,相對於人類,他仍然是一台電腦。雖然不斷地宣稱他要取代人類的工作,但他仍然是一個工具。所以並不是AI要取代人類,而是因為人類有了更強大的工具,所以需要的人力減少了。而會使用這些工具的人類,當然會比不使用的人站在更有利的位置。

所以與其問AI聰不聰明,更該問的問題恐怕是用他的人夠不夠聰明才對。

超級助手

我有個朋友,在GPT最紅的那個時期發表了宣言,表示只要GPT幻覺問題沒有修正,他就不會使用這種工具。因為他得到的結果是不可信賴的,有問題的。

那時我想,他有可能永遠都用不了AI工具了。

AI幻覺問題,有可能隨著資料庫的擴大,可核對的事實增加而減少。但我覺得不可能完全消失。因為就算是人類,我們也有太多不可判斷的事實。例如外星人存在不存在,在目前就不是一個有肯定答案的問題。所以別把GPT這些AI工具當成問答工具,而是整理資料用的工具。事實的查核判斷,仍要落在人類身上。

電腦本來就是一個整理資料極有效率的工具,也是他當初被發明的目的。現在有了AI後,只是多了一個更有效率的介面,更方便的助手。不管是工作用、學習用,AI都是擔任輔助的角色。把AI寫的報告、文章,毫不確認核實就丟出去,是使用者不好,還是AI不好?這不是顯而易見的嗎?

同樣的,因為GPT可以寫作報告,所以學校是否禁用GPT的討論也增加了。但是,比起要不要禁用GPT,我覺得更該檢討的是教育本身有沒有與時俱進。

人類應該要去思考,為什麼要考試,為什麼要交報告。更進一步的,去思考為什麼要透過報告來核定一個學生的學習成果?甚至更深入的思考教育的本質是什麼。而不是為了要保留現在報告和考試的形式,所以把GPT給禁了。當作沒看到就沒事了。

結論

其實這個話題能討論的很多,包括AI生成圖型的智商都能談一談。而這裏也還沒談到AI解數理及邏輯推理問題的構想。

GPT可能是現今最接近人類的AI模型之一,但我相信未來還會出現其他更好的理論或更好的模型,人類在這萬年間就是這樣一直走過來的,不斷的發明,取代,再發明,再取代。但從來難的不是技術的突破,而是人類社會適應這個科技的速度太慢。

最近GPT及相關生成式AI引發了一連串的版權之爭,因為人類目前還沒有一個制度來決定用來訓練生成式AI的內容版權及利益歸屬,所以必須要透過不斷的爭論來解決這個問題。這是全體人類要一起解決的問題。

但對個人來說,要擔心AI取代自已嗎?我想用最近看到的一個名句來做個結論:

史蒂芬·金:「我的書可以被用來訓練 AI,但它還無法取代我。」


2會員
3內容數
對於科技,我有說不出的熱愛及想像。不但投身其中從事相關行業,這些年來也不斷的精進了解各種科技新知。但是,我在不斷的牛㬭這些知識之餘,卻一直忘了回饋分享這些來自於大眾的學問。所以我立了這個專欄,不談程式碼,不講理論,純粹「談」科技,並預測未來這些技術的發展。你喜歡,也期待與諸位共嗚。
留言0
查看全部
發表第一個留言支持創作者!
Alex Lee的沙龍 的其他內容
在方格子的第一篇,就從自我介紹開始吧。 我是Alex,長居日本的資訊相關工程師。熱衷各項科技發展及開發的同時,也對各種科技演進及應用提出我個人的看法。 在方格子開設這個共享點,除了讓長期累積下來的心得,有一個可以記錄的地方。也希望有一個地方,可以和同好分享互動,一起討論科技相關議題。而這些議題不
在方格子的第一篇,就從自我介紹開始吧。 我是Alex,長居日本的資訊相關工程師。熱衷各項科技發展及開發的同時,也對各種科技演進及應用提出我個人的看法。 在方格子開設這個共享點,除了讓長期累積下來的心得,有一個可以記錄的地方。也希望有一個地方,可以和同好分享互動,一起討論科技相關議題。而這些議題不
你可能也想看
Google News 追蹤
Thumbnail
這個秋,Chill 嗨嗨!穿搭美美去賞楓,裝備款款去露營⋯⋯你的秋天怎麼過?秋日 To Do List 等你分享! 秋季全站徵文,我們準備了五個創作主題,參賽還有機會獲得「火烤兩用鍋」,一起來看看如何參加吧~
Thumbnail
美國總統大選只剩下三天, 我們觀察一整週民調與金融市場的變化(包含賭局), 到本週五下午3:00前為止, 誰是美國總統幾乎大概可以猜到60-70%的機率, 本篇文章就是以大選結局為主軸來討論近期甚至到未來四年美股可能的改變
Thumbnail
Faker昨天真的太扯了,中國主播王多多點評的話更是精妙,分享給各位 王多多的點評 「Faker是我們的處境,他是LPL永遠繞不開的一個人和話題,所以我們特別渴望在決賽跟他相遇,去直面我們的處境。 我們曾經稱他為最高的山,最長的河,以為山海就是盡頭,可是Faker用他28歲的年齡...
Thumbnail
第一次來找我Coach時,我都會讓大家先跟我說你的「舊故事」。 何謂舊故事? 「舊故事」指的是你不想要的現況。 以顯化SP來說,例如:對方劈腿、被封鎖、曾經出現過讓你印象深刻的爭吵等等,工作上則可能是你嘗試過靠顯化改進,但仍未進步的地方。
Thumbnail
我會先打一些內容給GPT後面再交給GPT去整理去思考去寫那一章節的故事,所以大致上都是GPT幫我寫的我只提供一半內容和點子GPT提供完整內容
Thumbnail
為期三個月的進階表演課,課後我都會寫 心得備註,在戲劇創作上得到聖希老師不少啟發,在表演藝術上也在學員們毫 無保留的努力下,獲得諸多不同的視野角度。像個演員般去感受困難和挑戰, 這都是對慣於發號施令的編導來說,極為珍貴和必要的養份——你必須好好趴 下去在泥濘中打滾,才能體會和演員站在同個陣線的感覺。
Thumbnail
「恭喜你啊!」這是我們分手後第一次見到他,我自然而然脫口而出。聽到我的聲音,他沒抬頭,也沒看我一眼,像是...他一直知道我在這裡一樣。「雖然我跟她不熟,也沒說過話,但能感覺她是個很好的人,恭喜你!」我想說的是,恭喜你找到一個對的人...
Thumbnail
當對自己當下狀態的滿意,自然會散發讓人舒服的美感,體面的老去,更有一種成熟的韻味,真的不需要強迫自己,過度的追求「外在表徵」必須符合世俗對「俊男美女」的標準,而應該隨著時光的流逝,越來越能跟自己相處,接受自己的限制,肯定自己的優點,活得開心坦然的接受生命中各種的安排。
Thumbnail
有些人說話做事沒主見,習慣性要找人依賴、出主意的,可能跟太有退路有關。每逢大事都只能退到後頭讓別人幫他解決,或是一定要有人代替他下一個方向才能依此前進的,原生家庭應該佔挺大關係。獨立能力、理事能力、做事情扛責任的精神,基於家庭原生照顧的立場都有礙於上述能力的發展,便很容易讓一個男人在成年後還是巨嬰。
Thumbnail
素食先生很喜歡"心靈""靈性成長方面"的訊息及新知,體驗了挺熱門的"希塔療癒",找尋心中的平靜,並找尋問題的源頭加以改善,在巧妙中看到 "Dianna11靈魂療癒" ...
Thumbnail
當恩比德確定不出戰和凱爾特人半決賽的第一場時,沒人相信他們能戰胜波士頓。有恩比德的費城和波士頓打都費勁,更何況是一個失去了絕對核心的費城呢? 但在季后賽,一切都可能發生。第一節,失去了護框核心的76人禁區被爆。常規賽屬於三分大隊的凱爾特人每個球都突破,而76人的內線大門洞開。 凱爾特人首節打出20
Thumbnail
哩厚哇系諸葛呆,今年的12月受反聖嬰現象影響,北半球極有可能出現明顯偏冷的現,這個部分也會再另外文章和各位分享原物料行情影響。 回到上週的市場行情,股市大幅修正,科技股、中小型股震得大家七暈八素,你有繫好安全帶嗎?聽說,現在的市場有兩隻老虎。
Thumbnail
就算當我自己被問起「以前不也都沒有甚麼問題?」「我們不都是這樣長大的?」或是任何一個經驗比自己更豐富的人告訴你「第一個照書養,之後照豬養」的時候,也無力產生過多的辯駁。
Thumbnail
這個秋,Chill 嗨嗨!穿搭美美去賞楓,裝備款款去露營⋯⋯你的秋天怎麼過?秋日 To Do List 等你分享! 秋季全站徵文,我們準備了五個創作主題,參賽還有機會獲得「火烤兩用鍋」,一起來看看如何參加吧~
Thumbnail
美國總統大選只剩下三天, 我們觀察一整週民調與金融市場的變化(包含賭局), 到本週五下午3:00前為止, 誰是美國總統幾乎大概可以猜到60-70%的機率, 本篇文章就是以大選結局為主軸來討論近期甚至到未來四年美股可能的改變
Thumbnail
Faker昨天真的太扯了,中國主播王多多點評的話更是精妙,分享給各位 王多多的點評 「Faker是我們的處境,他是LPL永遠繞不開的一個人和話題,所以我們特別渴望在決賽跟他相遇,去直面我們的處境。 我們曾經稱他為最高的山,最長的河,以為山海就是盡頭,可是Faker用他28歲的年齡...
Thumbnail
第一次來找我Coach時,我都會讓大家先跟我說你的「舊故事」。 何謂舊故事? 「舊故事」指的是你不想要的現況。 以顯化SP來說,例如:對方劈腿、被封鎖、曾經出現過讓你印象深刻的爭吵等等,工作上則可能是你嘗試過靠顯化改進,但仍未進步的地方。
Thumbnail
我會先打一些內容給GPT後面再交給GPT去整理去思考去寫那一章節的故事,所以大致上都是GPT幫我寫的我只提供一半內容和點子GPT提供完整內容
Thumbnail
為期三個月的進階表演課,課後我都會寫 心得備註,在戲劇創作上得到聖希老師不少啟發,在表演藝術上也在學員們毫 無保留的努力下,獲得諸多不同的視野角度。像個演員般去感受困難和挑戰, 這都是對慣於發號施令的編導來說,極為珍貴和必要的養份——你必須好好趴 下去在泥濘中打滾,才能體會和演員站在同個陣線的感覺。
Thumbnail
「恭喜你啊!」這是我們分手後第一次見到他,我自然而然脫口而出。聽到我的聲音,他沒抬頭,也沒看我一眼,像是...他一直知道我在這裡一樣。「雖然我跟她不熟,也沒說過話,但能感覺她是個很好的人,恭喜你!」我想說的是,恭喜你找到一個對的人...
Thumbnail
當對自己當下狀態的滿意,自然會散發讓人舒服的美感,體面的老去,更有一種成熟的韻味,真的不需要強迫自己,過度的追求「外在表徵」必須符合世俗對「俊男美女」的標準,而應該隨著時光的流逝,越來越能跟自己相處,接受自己的限制,肯定自己的優點,活得開心坦然的接受生命中各種的安排。
Thumbnail
有些人說話做事沒主見,習慣性要找人依賴、出主意的,可能跟太有退路有關。每逢大事都只能退到後頭讓別人幫他解決,或是一定要有人代替他下一個方向才能依此前進的,原生家庭應該佔挺大關係。獨立能力、理事能力、做事情扛責任的精神,基於家庭原生照顧的立場都有礙於上述能力的發展,便很容易讓一個男人在成年後還是巨嬰。
Thumbnail
素食先生很喜歡"心靈""靈性成長方面"的訊息及新知,體驗了挺熱門的"希塔療癒",找尋心中的平靜,並找尋問題的源頭加以改善,在巧妙中看到 "Dianna11靈魂療癒" ...
Thumbnail
當恩比德確定不出戰和凱爾特人半決賽的第一場時,沒人相信他們能戰胜波士頓。有恩比德的費城和波士頓打都費勁,更何況是一個失去了絕對核心的費城呢? 但在季后賽,一切都可能發生。第一節,失去了護框核心的76人禁區被爆。常規賽屬於三分大隊的凱爾特人每個球都突破,而76人的內線大門洞開。 凱爾特人首節打出20
Thumbnail
哩厚哇系諸葛呆,今年的12月受反聖嬰現象影響,北半球極有可能出現明顯偏冷的現,這個部分也會再另外文章和各位分享原物料行情影響。 回到上週的市場行情,股市大幅修正,科技股、中小型股震得大家七暈八素,你有繫好安全帶嗎?聽說,現在的市場有兩隻老虎。
Thumbnail
就算當我自己被問起「以前不也都沒有甚麼問題?」「我們不都是這樣長大的?」或是任何一個經驗比自己更豐富的人告訴你「第一個照書養,之後照豬養」的時候,也無力產生過多的辯駁。