AI 憑什麼這麼強 (二)：未來兩個方向的改進，讓 AI 變更強大

更新於 2023/06/12發佈於 2023/06/12閱讀時間約 5 分鐘

正文1,724字，主要跟你分享未來 AI 變更強更效率的兩個層面──數據與模型框架。你會從實務者的觀點，知道數據跟 AI (或機器學習模型) 表現間的關係；了解 ChatGPT 為什麼有運算資源的困擾；同時，你也會看到目前最新改善 AI 運算速度的技術發表。

正文開始

系列文的前一篇，我們提及了「湧現」，這是一種隨著模型參數變高 (複雜度變高)，機器產生了一些人們難以理解的神奇表現。

湧現的出現，與模型的參數息息相關。這也驅使我們思考，要打造一個這麼強的智能，非得把東西搞的這麼複雜不可嗎？

更短小精幹的數據，打造出更強的 AI？

應該不用，這可以從兩個方面著手，首先是數據層面。研究者發現，有的語言模型參數量和訓練運算量更低，卻在諸多任務上表現，比大型模型要來的好。這也暗示著只要有一定品質的數據，模型確實可能「以小搏大」。

雖然此些研究並未提及所使用的數據細節，或量化「資料品質」這個概念，我以個人的經驗來分享一下──儘管是不同的研發任務。我的主戰場在財務金融，預測的目標是金融資產的價格。

我們知道金融資產經常受總體經濟、政策、突發事故以及供需基本面影響，可是價格在特定時間內，不會被這些因素同時影響，有時候政策影響大，有時候是供需問題影響。

所以，假如我想建立一個大型預測模型，也就是使用大量資料與變數，去建立模型做預測。你們猜效果會如何？答案是基本上挺爛的。因為能把過去解釋的很好的模型，不一定能預測現在。眼前當下可能是匯率影響最大，但你模型還有其他變數正在打亂「專注力」，以至於模型真正實戰時，反而不知道誰輕誰重。

因此在這種變化多端的環境下，實務上，反而是打造很多小模型，他們都只吃入有限的領域或特定類型的資料，他們個別也還不差，有的還異常強大，彼此最後加總起來，會比一個大模型更強。

百家爭鳴的框架優化

儘管如此，回到語言模型，科學家還無法完全把以小搏大的功勞，完全歸因於數據的高品質，相對的，模型框架也很重要。白話文說，就是你的模型長什麼樣子，也非常重要。

我最愛的例子就是BERT，在講微調新聞情緒判斷的AI時，我也說過他。

他框架主要是Encoder，一個編碼器，計算文字或各種輸入之間的相似性並賦予權重，將這些被壓縮的數值做轉換，在神經網路層中層層傳遞，並輸出結果。

不懂也沒關係，關鍵是這樣一個東西單獨使用，效果未必佳。很多實測表明框架設計中，如果將Encoder和Decoder (與Encoder相對，意為解碼) 一同使用，其效果更佳。這東西就是因著ChatGPT而火紅的Transformer架構，如今這個酷東西，大家都能說上兩句。

這個例子說明了，模型的設計，會根本地影響表現。

也因此，湧現伴隨而來的，技術上是人們對大模型的反思，不一定需要更多數據，框架的優化也扮演重要腳色。

前一陣子，可能將近一個月前，還有人疑問或質疑，OpenAI是不是在開發GPT-5。這猜測旋即被創辦人Sam Altman打破。他在訪談中表示，打造新模型並非當務之急，做出巨大模型不是一個好選擇。

的確 OpenAI 不是沒有挑戰，他們面對O(n^2)，或二次複雜性問題。也就是說，隨著我們輸入的語料等序列資料長度變長，其運算時間與模型參數也高速成長，因而需要更多運算資源，當然，還有GPU (NVIDIA或恐成為最大贏家)。

當然生成式 AI 玩家們，可能已經注意到，ChatGPT與他的服務，似乎常常 "down" 掉。

這個問題正發生在ChatGPT所使用的技術：Attention機制上，所以改善框架成為了重點項目。接下來我們來吊個書袋。史丹佛大學與相關研究團隊提出了 Heyna 結構，在減少20%的運算(FLOP)之下，達到相近於原始GPT的表現。

而最新也有點意思的進展則是Direct Preference Optimization (DPO)，針對ChatGPT 中以 RLHF (基於人類反饋的強化學習) 微調模型這個環節，做出改進。RLHF這類強化學習方案雖然讓AI可以應對多變的環境與對話，但是其穩定度並不如DPO來的好。

技術細節沒辦法多說，就只能在這個小節提一些研究方向。至於什麼方法能真正勝出，我覺得都還遠在未定之天。

小結

總之，框架的改進確實能使資源消耗減少，也未必要刻意追求資料跟參數的擴張。

現在，架構的優化與改進，配上運算資源的提升，AI還會有更進一步的突破。而會是哪個方法突破重圍，哪家廠商、什麼產品會在這個風口浪尖上脫穎而出，值得舉世的技術人跟投資人注目。

系列文未完待續......

留言

留言分享你的想法！

桑的記事本

2023/06/12

AI 真的是探討不完的議題...

Darren的沙龍

14會員

14內容數

大數據意味著什麼？數據科學背後有怎樣的mind set和技術？數據科學家又做些什麼？這些科技/技術，帶給我們什麼生活上和人文上的省思？這個專題會橫跨這些彼此相關的面向，避開生澀的專業詞彙，探索這些事情背後的樣貌。應該會是有趣的知識和想法分享﹝笑﹞

Darren的沙龍的其他內容

2024/08/31

解密 AI 與資料科學 (三) : 統計學──AI 背後沉默的英雄

文章主攻四大領域：機率與統計、計量經濟和量化金融分析。以機率統計為核心主幹，詳加說明其精神與應用。也會輔以其餘三個領域的介紹作為統計實例。統計學是AI / 機器學習背後的英雄，假設檢定與統計分布是其兩大特色，前者找出彼此相互關聯的變數；後者則幫助我們進行模擬和抽樣，幫助我們找尋最優解或近似真實值。

2024/08/31

解密 AI 與資料科學 (三) : 統計學──AI 背後沉默的英雄

2024/07/19

解密 AI 與資料科學 (二) : AI 的類型與實戰場景

本文要探討AI的任務與實戰場景。AI技術已深入生活各層面，從違約預測到都市交通管理。AI任務主要有三類：數值型資料處理、自然語言處理（NLP）和電腦影像辨識。時間序列資料和強化學習方法（如AlphaGo）也引起廣泛關注。AI演算法和方法因應不同學派和技術發展而多樣化，了解這些基礎有助選擇適合研究方向