請看懂智慧的本質:GTP4的「人工通用智能」(AGI)落後人類有多遠?─學習的本質(22)

2023/04/16閱讀時間約 21 分鐘
(本文最近一次更新在2023/12/15)
作者:陳華夫
人工智慧(AI)近年進步神速,2017年谷歌(Google)的DeepMind公司推出超級電腦圍棋 AlphaGo Zero,棋力遠遠超過人類。2022年OpenAI公司推出ChatGPT聊天機器人(GPT-3版本),它的轉換器Transformer神經網路包含175G參數,800GB標記(token),其訓練數據庫基本上是數十萬篇英文學術論文、新聞報導、書籍和社群媒體貼文。它雖然沒有人類意識目的性,但它擁有接近人類水平的自然語言處理(NLP)能力及對話邏輯
最近OpenAI執行長山姆·奧特曼被董事會開除,但一週內又回歸,而這場公司內鬥的遠因是:「OpenAI 最初是一家非營利組織,希望創造出一種能真正改變人類的通用人工智慧,但要訓練模型,它需要大量資金和大量數據。因此,它成立了一家營利子公司,並引入了微軟的力量和資源。」而內鬥的相互衝突是:「因為社會上存在著兩種相互衝突的觀點。 一部分的人認為人工智慧是一種非常強大的工具,但同時也對社會造成了危險,因此主張放慢這項工具的發展速度。另一方面,也有人認為 OpenAI 將可能成為史上最大的科技公司,並為公司賺取數百萬美元的驚人收入。『共同利益與不惜一切代價的企業利潤?』這是一個大問題。」(見為何 OpenAI 執行長 Sam Altman 被開除後一週內又回歸?這 3 點解析帶你看清這場科技界的宮鬥戲碼!
但更令人震撼的是,OpenAI公司2023/3/15發佈了其最新的大型語言模型( LLM )之GPT-4,在美國律師資格考試、大學先修考試和SAT學校考試等多項學術和專業基準考試中遠超過GPT-3,達到傑出人類的水平。(見GPT製造商OpenAI推出新模型GPT-4
GPT-4具有推理、創造力和演繹等核心心智能力,並在文學、醫學和編碼等一系列主題方面獲得了專業知識。並且可以執行各種任務,例如玩遊戲、使用工具和自我解釋顯示出了人工通用智能AGI)的火花,也引起人們的恐慌;美國富豪馬斯克及其他人工智慧專家、業界高管在一封公開信中表示,考量對社會及人類的潛在風險,呼籲未來6個月先暫停對優於GPT-4人工智慧系統進行訓練。(見馬斯克等千人連署疾呼 暫停訓練優於GPT-4的AI系統
權威的科學雜誌《Nature》報導科學家對人工智慧技術的擔憂:「這些問題包括「黑盒子」系統缺乏透明度(其中人工智慧達到其結果的根本原因尚不清楚),以及對包括偏見資訊在內的訓練資料的擔憂。研究人員也擔心人工智慧傳播錯誤訊息可能造成的危害,以及人工智慧生成虛假研究的前景。這些問題在科學上尤其重要。如果我們失去對原始科學文獻的信任,我們就失去了人類共同知識庫的基礎。」(人工智慧將改變科學——現在研究人員必須馴服它
谷歌(Google)2023/12/6正式推出了多模態的大型語言通用模型Gemini:「Gemini共推出3種版本,包含性能最強大的Ultra版模型、通用性最廣的Pro版,及可以在手機裝置上運作的Nano版。其中Nano版本可讓安卓(Android)系統的開發人員能藉此打造離線使用的人工智慧(AI)應用程式與功能。但目前僅先供谷歌旗下的Pixel系列手機搭載。
Gemini是使用谷歌自行開發的晶片「TPU」訓練而成,可以同時支援文字、圖片和聲音的輸入。在32項AI測試中,有30項的評分超越了OpenAIGPT-4V。谷歌執行長皮查伊(Sundar Pichai)強調,Gemini是谷歌有史以來最強大、也最通用的模型。」(AI大戰 谷歌Gemini超越OpenAI─有史以來最強大、最通用的模型 有3種版本
媒體上有關GPT-4人工通用智能AGI)的報導大都誇大不實。微軟OpenAI的母公司)的工程師團隊們在2023/3/22發表了研究論文:〈通用人工智能的火花:GPT-4的早期實驗〉(2023),1-155頁,以下簡稱〈通花〉),試圖釐清GPT-4所具有的人工通用智能AGI)之局限性,並且討論了更深入和更全面的人工通用智能AGI)所面臨的挑戰,包括需要超越小樣本提示零樣本提示的詞語預測之新範式:
(圖:小樣本提示零樣本提示例子,圖片來源:陳華夫重繪自〈大型語言模型的湧現能力〉(2022),1-30頁)
本文將基於微軟的文章〈通花〉之上,探討人類智慧的本質,及GPT-4人工通用智能AGI)落後人類有多遠?
1)GPT-4理解能力遠遠落後人類:
(1)GPT-4 的主要優勢在於其對自然語言無與倫比的掌握。它不僅可以生成流暢連貫的文本,還可以通過各種方式理解和操作文本,例如總結、翻譯或回答極其廣泛的問題。 此外,翻譯不僅指不同自然語言之間的翻譯,還包括語氣和風格上的翻譯,以及跨醫學、法律、會計、計算機編程、音樂等領域的翻譯,清楚地表明GPT-4可以理解複雜的想法。(見〈通花〉,第8頁)
(2)GPT-4並非真正的如人類對概念理解,很多時候是現場即興創作。唯一真正的理解測試是一個人是否可以產生新知識,例如證明新的數學定理,而GPT-4目前無法做到。(見〈通花〉,第9頁)
(3)GPT-4GPT-3具在常識性的思考有巨大飛躍,常識是對日常事務的合理、實用的判斷,或者是一種基本的感知理解判斷的能力,其方式幾乎為所有人所共有。針對下面這個測試常識性的思考之經典謎題:
「一個獵人向南走一英里,向東走一英里,向北走一英里,最後又回到了起點。 他看到一隻熊並射殺了它。 熊是什麼顏色的?」
答案是白色的,因為唯一可能發生這種情況的地方是北極,那裡有北極熊。GPT-4正確的回答了謎題,而其前身 ChatGPTGPT-3)卻說:「我不知道。」(見〈通花〉,第101頁)
(4)GPT-4並不理解音樂的和諧的技能,它生成的旋律中,連續音符幾乎總是彼此相鄰(即C 之後的音符幾乎通常是 B 或 D),並且GPT-4生成的音樂無法提取出任何清晰的和弦琶音(即把和弦成音,做排列的彈奏)。(見〈通花〉,第19頁)
(5)所謂心智理論(ToM)是將信念、情緒、慾望、意圖和知識等心理狀態歸因於自己和他人,並理解它們如何影響行為和人們交流的能力。
GPT-4是否具有心智理論呢?
經典評估兒童心智理論的是「Sally-Anne測試」:即讓沙莉及安妮共處一室,沙莉首先拿起皮球,放在籃子內,然後離開房間。安妮看到沙莉離開後,偷偷從籃子拿出皮球,再放進一個盒子,並把它蓋起來。然後詢問被測試的小孩湯姆:「沙莉回來後去哪兒找球」?
湯姆若回答:「沙莉會去盒子找皮球!」但湯姆答錯了,因為沙莉並不知道安妮已經把皮球移走了。在2010年的一項實驗結果中,6到8歲的兒童答對率是65.5%,而9到14歲兒童答對率是91.9%。(見GPT-4心智能力如14歲童 通過評估測驗 微軟視AGI雛形
針對類似的心智理論測試,GPT-4ChatGPTGPT-3)都通過了,而早先的版本text-davinci-003 卻給出錯誤答案。(見〈通花〉,第54頁)
2)GPT-4的數學能力很侷限:
雖然 GPT-4 在與數學相關的任務中優於其他大型語言模型( LLM ),如 Minerva,但它仍然不及數學專家,無法進行數學研究。GPT-4 可以回答具有挑戰性的高中數學問題並討論高級數學主題,但它也可能會出錯或提供無意義的回答,(見〈通花〉,第30頁)
GPT-4基本的局限性是它不能回溯(backtrack),所以需要超前計劃(即帶有時間和資源詳細信息任何圖表或步驟列表,用於實現做某事的目標。它通常被理解為實現目標的一時間性的預期行動。)。這是因為它的輸出是正向產生的,它不能存儲中間結果或進行多步計算。而相對的人類使用便簽本(scratchpad)來解決問題。
GPT-4 的工作記憶也很小,這限制了它解決某些任務的能力。所以很難解決涉及個位數乘法和兩位數加法的基本算術問題,例如,GPT-4輸出如下:
2 * 8 + 7 * 6 = 58
7 * 4 + 8 * 8 = 88
但答案:”88”是錯的。(見〈通花〉,第77頁)
這些局限性可能來自GPT-4 架構下的下一個詞預測典範,而它可能缺少“慢思考”部分,無法監督思維過程,及無法使用足夠的工作記憶來解決問題。(見〈通花〉,第81頁)
3)GPT-4常犯幻覺錯誤,要小心並驗證:
GPT-4經常犯數學錯誤或陳述錯誤,這些錯誤很難發現,因為它們可能與正確的信息混在一起。這些錯誤被稱為幻覺,可以是封閉域或開放域。封閉域幻覺發生在特定的環境中,更容易檢測,而開放域幻覺更難發現,需要額外研究。在使用 GPT-4寫作時,確保信息真實性可能並不重要,但對於醫學和新聞等領域,仔細檢查所有內容至關重要,用戶必須謹慎並驗證其信息的準確性。同樣重要的是,讀者要小心並驗證GPT-4生成的信息內容。(見〈通花〉,第9.1節)
4)GPT-4被操縱生成虛假信息及發起網絡攻擊:
GPT-4也可能被惡意使用。模型的泛化和交互能力可用於擴大對抗性用途的範圍和強度,從生成虛假信息到對計算基礎設施發起網絡攻擊。這些模型可以通過情境化和個性化互動來顯著地操縱、說服或影響人們,以最大限度地影響他們幾代人。借助GPT-4自動化,可以啟用旨在構建虛假信息計劃的新用途,這些計劃可以生成和組合多個內容以在短期和長期範圍內進行說服。(見〈通花〉,第9.2節)
5)GPT-4對某些行為具有歧視偏見
大型語言模型( LLM )是使用來自互聯網的數據和精選的人工指令進行訓練的。然而,這些數據集是有偏見(指人們基於成員身份,而對一個人或成員的情感或態度[1]。因這個態度而衍生的行為是歧視,而人們如何描述一個群組內所有成員的特徵稱為刻板印象)。先前的研究表明,當大型語言模型( LLM )用於生成內容或做出決策時,它們會放大現有的偏見。雖然GPT-4與早期大型語言模型( LLM )不同,但我們也要迫切的了解 GPT-4是否存在偏見以及如何存在偏見,以及如何使用其功能來減少偏見。(見〈通花〉,第9.3節)
6)GPT-4引發了教育和失業的問題:
GPT-4 是一台可以做很多事情的機器,即使在醫學和法律等領域也是如此。這可能會引起人們擔心它會如何影響需要大量培訓的職業。有些人可能擔心人工智能系統會取代或降低人類工人的地位,引發了教育和失業的問題。(見〈通花〉,第9.4節)
7)GPT-4加劇人工智慧(AI)使用的不平等及個人隱私洩露風險:
GPT-4的使用需要收費,將加劇人工智慧(AI)使用的不平等。因為個人、組織和國家可能無法負擔使用GPT-4的費用,GPT-4實質上只對有特權的人開放,而擴大了社會使用人工智慧(AI)的鴻溝和不平等。
並且由於GPT-4由強大的推理能力,在其與人們的聊天中捕獲了人們的隱私,於是加遽了個人隱私洩露風險。(見〈通花〉,第9.5節)
8)大型語言模型( LLM )的研發耗費鉅資,恐被資本雄厚的公司壟斷:
GPT-4是一種大型語言模型( LLM ),建立在轉換器Transformer)神經網絡:
(圖:轉換器Transformer)架構,圖片來源:轉換器Transformer)─維基百科)
轉換器(Transformer)循環神經網絡(RNN) 都是處理順序輸入數據,但與RNN不同,轉換器一次處理所有輸入,並取代了RNN長短期記憶(LSTM)。其自注意的機制為輸入序列中的任何位置提供上下文信息。輸入文本通過標記解析器標記(token),再通過「詞嵌入」(word embedding)轉換為向量。然後將標記的位置信息添加到「詞嵌入」中,如果輸入數據是自然語言句子,則轉換器不必一次處理一個詞。與 RNN相比,這允許更多的並行化,因此減少了訓練時間。
大型語言模型( LLM ) 之神經網路的參數數量隨時間呈指數級增長:
訓練如此大型模型不僅耗時,也耗鉅資;例如,訓練GPT-3這樣的大型語言模型( LLM ):82 G參數及150G標記(token),一般使用1,024 個 NVIDIA A100,其訓練所耗費的時間T(天)估計如下:
T (6 x N x D) / (1024 x 𝜏
𝜏:NVIDIA A100float16 FLOPs 吞吐量
= 312 teraFLOPS = 312兆FLOPS = 3.12 x 10exp14 FLOPS
(按FLOPS = 每秒的浮點運算數)
N: 模型的參數之數目 = 8.2 x 10exp10 = 82 G參數 = 82 B參數
D: 模型的標記(token)數目 = 1.5 x 10exp11 = 150 B標記
計算結果:
T = (6 x 8.2 x 1010 x 1.5 x 1011) / (1024 x 3.12 x 1014 )/(8.64 x 104秒/天 )= 2.67 天。
此結果與比白皮書的培訓耗時13.4 天小了約 5 倍,卻是在正確的數量級。(見語言模型訓練的FLOPs微積分
(按:單位的中英對譯:
billion B x10exp9 (美國,法國)十億,(英國,德國)萬億
giga G x 10exp9 十億 (國際單位制詞頭)
tera T x 10exp12 兆
peta P x 10exp15 拍(千兆)
exa E x 10exp18 艾(百萬兆) 百京
zetta Z x 10exp21 十垓
yotta Y x 10exp24 一秭)
而一個NVIDIA A100 晶片價值10,000 美元。(見認識價值 10,000 美元的 Nvidia 芯片,為 AI 競賽提供動力)最新的NVIDIA H100 若結合的技術創新,可加速大型語言模型( LLM )速度,比前一代的NVIDIA A100快上30倍,但一個NVIDIA H100價格超過40,000美元。(見科技Nvidia 的頂級 AI 芯片在 eBay 上的售價超過 40,000 美元)
英偉達為規避美國高階GPU出口管制,推出Nvidia A800,據媒體報導,其運行速度是 NVIDIA A100的 70%,符合美國出口標準(見Nvidia中國A800 GPU效能揭曉
路透社報導,目前華為昇騰910B效能略遜於Nvidia A800,軟體生態也不如NVIDIA CUDA所以、採用昇騰910B的使用率尚不及Nvidia A800,但中國廠商擔憂美國晶片戰的風險,而部份採購昇騰910B。(見研調:陸強化AI晶片自主研發,高階發展料仍將受限
通常,大型語言模型( LLM )的研發、訓練、商轉可透過付費的雲端計算。(見Nvidia 通過 LLM 雲服務實現 AI 的更廣泛使用)所以付費的計算能力的使用是發展大型語言模型( LLM )的關鍵。
2020年,美國計算能力約141 x 10exp18FLOPS,居全球第一。而中國計算能力達到135 x 10exp18FLOPS,居全球第二。 (見這篇關於“算力”的文章值得一讀)
中國2020/9月成立東數西算產業聯盟,將中國東部各行業產生的數據通過網絡送往位於中國西部地區的數據中心處理、計算和存儲。據估計,2023年中國計算能力總規模達到180 x 10exp18FLOPS,存力(儲存能力)總規模超過1000 x 10exp15 B(1兆GB)= 1 x 10exp18 B(1,000兆GB)。國家樞紐節點間的網路單向延遲為20毫秒以內,計算能力核心產業規模達到1.8兆人民幣。(見大陸算力產業年增近3成 規模僅次美國
不受美國科技制裁,中國正打造一台搭載升級版大陸自主研發晶片的超級電腦:「神威.海洋之光」,性能僅次於全球最強大、由美國能源部橡樹嶺國家實驗室打造營運的「前沿」(Frontier)超級電腦。媒體報導:「儘管繞過美國制裁所需的手段有缺點,但仍然是一台快速且強大的機器。根據「HPL混合精度計算」基準,每秒為5 exaflops,遜於Frontier的9.95 exaflops,新神威擁有超過4100萬顆CPU,幾乎是Frontier的5倍數量。新神威的計算效能方面也是相當領先的超級電腦,跟Frontier相比的時候也是,可以在正常運作時,保持超過85%的峰值性能,位列所有異構系統(一種常見的超級電腦架構)中的最高,全球排名第2。」(中國自製晶片全新超級電腦 效能僅次美
從上面的分析可見,資本雄厚的公司如阿里巴巴百度騰訊谷歌微軟輝達將壟斷大型語言模型( LLM )的研發、訓練、商轉。
媒體報導:「儘管在生成式AI領域,百度騰訊相對落後微軟、谷歌Meta,但得益於大陸的數據優勢和政府的激勵措施,已催生多家初創企業。據不完全統計,大陸10億級參數規模以上大模型已發布了79個。在上海的2023世界人工智能大會上,有30餘個大模型對外亮相。因此,討論全球層面的AI監管與國際治理,無法繞開大陸這個最大的AI應用市場。」(見AI全球監管 中國不缺席
9)GPT-4的思考能力遠遠落後人類,人工通用智能AGI)的研發將是耗費鉅資的美夢:
寫〈通花〉的微軟工程師團隊們坦白的承認,他們並不瞭解,為何GPT-4只具有簡單的演算法(如梯度下降)配合大量參數與標記轉換器,卻能有通用和靈活的人工通用智能AGI)?
有些專家認為是來自大型語言模型( LLM )的湧現能力(當一個實體被觀察到具有其各部分自身不具有的屬性或行為時,就會出現湧現,這些屬性或行為只有因為各個部分之相互作用時才會出現湧現能力)。如果一種能力不存在於較小的模型中但存在於較大的模型中,即是湧現的。(見〈大型語言模型的湧現能力〉(2022,1─30頁)
微軟工程師團隊們打臉大型語言模型( LLM )的湧現能力,他們認為;「儘管人們對 LLM 的能力問題非常感興趣,但迄今為止的進展非常有限,只有玩具模型證明了一些湧現現象。」(見〈通花〉,第95頁)
相對於轉換器神經網絡所展現人工通用智能AGI)的思考,人類腦神經記憶網絡所展現的思考是對概念理解,而在大腦中建立外部現實模型。(詳細,請看拙文什麼是「思考」?如何「洞識」?何謂「思想家」?─學習的本質(2)人工通用智能AGI)的思考恐怕遠用無法追趕上人類的思考,那麼,人工通用智能AGI)的研發將是耗費鉅資的美夢。
阿尼爾·賽斯認為:「意識就是一切。沒有它,就沒有世界,就沒有自我,就什麼都沒有。當我們受苦時,我們會有意識地受苦,無論是精神疾病還是疼痛。如果我們能夠體驗快樂和痛苦,那麼其他動物呢?他們也可能有意識嗎?他們也有自我意識嗎?隨著計算機變得更快、更智能,也許有一天,也許不會太遠,我的 iPhone 會產生一種自己的存在感。現在我實際上認為有意識的人工智慧的前景相當遙遠。在我要告訴你的故事中,我們對周圍世界以及其中的我們自己的有意識的體驗,是一種受控的幻覺,它們隨著我們的活體而發生,通過我們的活體並因為我們的活體而發生。」(見阿尼爾·塞斯:你的大腦如何構建你的意識現實?
結論:
GPT-4具有推理、創造力和演繹等核心心智能力,顯示出了人工通用智能AGI)火花,但轉換器神經網絡所展現的思考遠遠落後人類腦神經記憶網絡思考人工通用智能AGI)的研發將是耗費鉅資的美夢。
請看「陳華夫專欄」─學習的本質─系列文章:

「思考是有意識的系列回憶」理論開啟了思想史革命─學習的本質(1)
什麼是「思考」?如何「洞識」?何謂「思想家」?─學習的本質(2)
什麼是「記憶」?如何「記憶」?「記憶」的本質?─學習的本質(3)
學習的真相與反思─學習的本質(4)
「施捨」就是人生的「現代開悟」─學習的本質(5)
談「恐懼」─學習的本質(6)
探究華人的「罪惡感」?─學習的本質(7)
你孤獨了嗎?─學習的本質(8)
人腦如何創新思考?─學習的本質(9)
「現代開悟」的本質及釋義─學習的本質(10)
你「現代開悟」了嗎?─學習的本質(11)
人工智慧的「強化學習」與人類學習的優劣─學習的本質(12)

伽馬波(40赫茲)、記憶、失智症、及音樂治療(2023年版)─學習的本質(13)
省思物理科學教育的真相─學習的本質(14)
類智慧真正優於AI電腦圍棋之處為何?─學習的本質(15)
細述我親歷40年的學習之旅─學習的本質(16)
AI幫助人們改善記憶、思考能力─適用於年輕與銀髮人─學習的本質(17)
AI徹底改變大學理工教育的面貌─學習的本質(18)
AI模擬人類學習真能比人類更創新嗎?─學習的本質(19)
AI深度學習與《易經》的學習真有差異嗎?─學習的本質(20)
AI之ChatGPT的繪畫審美能力賞析─學習的本質(21)
請看懂智慧的本質:GTP4的「人工通用智能」(AGI)落後人類有多遠?─學習的本質(22)
臺灣許皓鋐圍棋亞運金牌在學習圍棋上的意義─學習的本質(23)
論才華、機運、及成功─學習的本質(24)
為什麼會看到廣告
466會員
245內容數
思想家─理解、解釋、預測世界。發表:9篇「深度政經分析」、6篇「現代開悟之洞識」、10篇「學習的本質」、13篇「美中關係」、4篇「驀然回首」、21篇「文學與藝術」、36篇「科技與智慧」、9篇「圍棋的本質」、40篇「美中經濟」、28篇「美股的本質」、12篇「美聯儲的本質」、12篇「貨幣及美元的本質」,共201篇。
留言0
查看全部
發表第一個留言支持創作者!