AI 憑什麼這麼強 (二):未來兩個方向的改進,讓 AI 變更強大

更新於 發佈於 閱讀時間約 4 分鐘
正文1,724字,主要跟你分享未來 AI 變更強更效率的兩個層面──數據與模型框架。你會從實務者的觀點,知道數據跟 AI (或機器學習模型) 表現間的關係;了解 ChatGPT 為什麼有運算資源的困擾;同時,你也會看到目前最新改善 AI 運算速度的技術發表。

正文開始

系列文的前一篇,我們提及了「湧現」,這是一種隨著模型參數變高 (複雜度變高),機器產生了一些人們難以理解的神奇表現。
湧現的出現,與模型的參數息息相關。這也驅使我們思考,要打造一個這麼強的智能,非得把東西搞的這麼複雜不可嗎?

更短小精幹的數據,打造出更強的 AI?

應該不用,這可以從兩個方面著手,首先是數據層面。研究者發現,有的語言模型參數量和訓練運算量更低,卻在諸多任務上表現,比大型模型要來的好。這也暗示著只要有一定品質的數據,模型確實可能「以小搏大」。
雖然此些研究並未提及所使用的數據細節,或量化「資料品質」這個概念,我以個人的經驗來分享一下──儘管是不同的研發任務。我的主戰場在財務金融,預測的目標是金融資產的價格。
我們知道金融資產經常受總體經濟、政策、突發事故以及供需基本面影響,可是價格在特定時間內,不會被這些因素同時影響,有時候政策影響大,有時候是供需問題影響。
所以,假如我想建立一個大型預測模型,也就是使用大量資料與變數,去建立模型做預測。你們猜效果會如何?答案是基本上挺爛的。因為能把過去解釋的很好的模型,不一定能預測現在。眼前當下可能是匯率影響最大,但你模型還有其他變數正在打亂「專注力」,以至於模型真正實戰時,反而不知道誰輕誰重。
因此在這種變化多端的環境下,實務上,反而是打造很多小模型,他們都只吃入有限的領域或特定類型的資料,他們個別也還不差,有的還異常強大,彼此最後加總起來,會比一個大模型更強。

百家爭鳴的框架優化

儘管如此,回到語言模型,科學家還無法完全把以小搏大的功勞,完全歸因於數據的高品質,相對的,模型框架也很重要。白話文說,就是你的模型長什麼樣子,也非常重要。
我最愛的例子就是BERT,在講微調新聞情緒判斷的AI時,我也說過他。
他框架主要是Encoder,一個編碼器,計算文字或各種輸入之間的相似性並賦予權重,將這些被壓縮的數值做轉換,在神經網路層中層層傳遞,並輸出結果。
不懂也沒關係,關鍵是這樣一個東西單獨使用,效果未必佳。很多實測表明框架設計中,如果將Encoder和Decoder (與Encoder相對,意為解碼) 一同使用,其效果更佳。這東西就是因著ChatGPT而火紅的Transformer架構,如今這個酷東西,大家都能說上兩句。
這個例子說明了,模型的設計,會根本地影響表現。
也因此,湧現伴隨而來的,技術上是人們對大模型的反思,不一定需要更多數據,框架的優化也扮演重要腳色。
前一陣子,可能將近一個月前,還有人疑問或質疑,OpenAI是不是在開發GPT-5。這猜測旋即被創辦人Sam Altman打破。他在訪談中表示,打造新模型並非當務之急,做出巨大模型不是一個好選擇。
的確 OpenAI 不是沒有挑戰,他們面對O(n^2),或二次複雜性問題。也就是說,隨著我們輸入的語料等序列資料長度變長,其運算時間與模型參數也高速成長,因而需要更多運算資源,當然,還有GPU (NVIDIA或恐成為最大贏家)。
當然生成式 AI 玩家們,可能已經注意到,ChatGPT與他的服務,似乎常常 "down" 掉。
這個問題正發生在ChatGPT所使用的技術:Attention機制上,所以改善框架成為了重點項目。接下來我們來吊個書袋。史丹佛大學與相關研究團隊提出了 Heyna 結構,在減少20%的運算(FLOP)之下,達到相近於原始GPT的表現。
而最新也有點意思的進展則是Direct Preference Optimization (DPO),針對ChatGPT 中以 RLHF (基於人類反饋的強化學習) 微調模型這個環節,做出改進。RLHF這類強化學習方案雖然讓AI可以應對多變的環境與對話,但是其穩定度並不如DPO來的好。
技術細節沒辦法多說,就只能在這個小節提一些研究方向。至於什麼方法能真正勝出,我覺得都還遠在未定之天。

小結

總之,框架的改進確實能使資源消耗減少,也未必要刻意追求資料跟參數的擴張。
現在,架構的優化與改進,配上運算資源的提升,AI還會有更進一步的突破。而會是哪個方法突破重圍,哪家廠商、什麼產品會在這個風口浪尖上脫穎而出,值得舉世的技術人跟投資人注目。
系列文未完待續......
avatar-img
14會員
14內容數
大數據意味著什麼?數據科學背後有怎樣的mind set和技術?數據科學家又做些什麼?這些科技/技術,帶給我們什麼生活上和人文上的省思?這個專題會橫跨這些彼此相關的面向,避開生澀的專業詞彙,探索這些事情背後的樣貌。應該會是有趣的知識和想法分享﹝笑﹞
留言0
查看全部
avatar-img
發表第一個留言支持創作者!
Darren的沙龍 的其他內容
去年錄製好的線上課程,今年終於上架了! 非常慚愧,在方格子平台還沒寫幾篇內容,就要先宣傳自己的課程。不過現在67折優惠,宣傳還是有必要的吧,哈!我就維持喜寫論述的習性,介紹一下這門課程,以及我在這個領域──金融商品價格預測──所看見的狀況。 好奇的可以當補充課外知識,有興趣的可以看文末的課程連結。
本文回答幾個問題:(一) 什麼叫做湧現;(二)湧現是什麼現象;(三)為什麼我們造不出自己的超級 AI。看完後,你會理解現在 AI 的現象跟趨勢、一些技術與專有名詞,像是參數、大型機構與他們模型的名字。
這篇來寫,嘗試用GPT4解決工作中,一個讓我渾身難受的問題。 任務說明 我要做的事情是,把word檔中表格的部分資訊擷取出來。下圖的示範表格即是一例。 我需要存取表格中特定元素資訊,例如 Net Calorific Value,我得存下Min. 4,750這個訊息,同理可知,Total Sulfur
在英國與老師對嗆?! 先說個故事吧,以前在英國讀書的時候,去選修了一堂數學系的課。 那位老師嚴格要求,選修的學生必須是數學系的學生。如果不是,那學生必須說明自己擁有夠強的數學能力。 我不是數學系的學生,可我終究是吃硬柿子的人。因為我知道,若想加強數學的底子,就必須到這裡來──後來還是去上課了。 上了
這篇文放草稿太久了,放到連GPT4都生出來了。不過沒差,內容通用。 在系列文第一篇,就提到了GPT框架中有對人類語意回饋的學習機制。這機制有個專有名詞,叫強化學習 (Reinforcement Learning)。這讓機器不純粹依著既有資料模式,優化並生成預測;反而讓機器有更強的能力,去因應不同環境
現在這個充滿GPT開箱的年代,做什麼實測都感覺落伍。不過我覺得本文這兩個實測,即便不是最新穎,也算是方便好用且有益於生產力。 工作中,對我來說最困難的事情,就是快速量產。這裡寫兩個使用ChatGPT的案例,一個是寫作,一個是寫程式。後者是我的工作,我讓GPT融入我日常工作。 而下面二個實例,純展示結
去年錄製好的線上課程,今年終於上架了! 非常慚愧,在方格子平台還沒寫幾篇內容,就要先宣傳自己的課程。不過現在67折優惠,宣傳還是有必要的吧,哈!我就維持喜寫論述的習性,介紹一下這門課程,以及我在這個領域──金融商品價格預測──所看見的狀況。 好奇的可以當補充課外知識,有興趣的可以看文末的課程連結。
本文回答幾個問題:(一) 什麼叫做湧現;(二)湧現是什麼現象;(三)為什麼我們造不出自己的超級 AI。看完後,你會理解現在 AI 的現象跟趨勢、一些技術與專有名詞,像是參數、大型機構與他們模型的名字。
這篇來寫,嘗試用GPT4解決工作中,一個讓我渾身難受的問題。 任務說明 我要做的事情是,把word檔中表格的部分資訊擷取出來。下圖的示範表格即是一例。 我需要存取表格中特定元素資訊,例如 Net Calorific Value,我得存下Min. 4,750這個訊息,同理可知,Total Sulfur
在英國與老師對嗆?! 先說個故事吧,以前在英國讀書的時候,去選修了一堂數學系的課。 那位老師嚴格要求,選修的學生必須是數學系的學生。如果不是,那學生必須說明自己擁有夠強的數學能力。 我不是數學系的學生,可我終究是吃硬柿子的人。因為我知道,若想加強數學的底子,就必須到這裡來──後來還是去上課了。 上了
這篇文放草稿太久了,放到連GPT4都生出來了。不過沒差,內容通用。 在系列文第一篇,就提到了GPT框架中有對人類語意回饋的學習機制。這機制有個專有名詞,叫強化學習 (Reinforcement Learning)。這讓機器不純粹依著既有資料模式,優化並生成預測;反而讓機器有更強的能力,去因應不同環境
現在這個充滿GPT開箱的年代,做什麼實測都感覺落伍。不過我覺得本文這兩個實測,即便不是最新穎,也算是方便好用且有益於生產力。 工作中,對我來說最困難的事情,就是快速量產。這裡寫兩個使用ChatGPT的案例,一個是寫作,一個是寫程式。後者是我的工作,我讓GPT融入我日常工作。 而下面二個實例,純展示結
你可能也想看
Google News 追蹤
Thumbnail
大家好,我是woody,是一名料理創作者,非常努力地在嘗試將複雜的料理簡單化,讓大家也可以體驗到料理的樂趣而我也非常享受料理的過程,今天想跟大家聊聊,除了料理本身,料理創作背後的成本。
Thumbnail
哈囉~很久沒跟各位自我介紹一下了~ 大家好~我是爺恩 我是一名圖文插畫家,有追蹤我一段時間的應該有發現爺恩這個品牌經營了好像.....快五年了(汗)時間過得真快!隨著時間過去,創作這件事好像變得更忙碌了,也很開心跟很多厲害的創作者以及廠商互相合作幫忙,還有最重要的是大家的支持與陪伴🥹。  
Thumbnail
嘿,大家新年快樂~ 新年大家都在做什麼呢? 跨年夜的我趕工製作某個外包設計案,在工作告一段落時趕上倒數。 然後和兩個小孩過了一個忙亂的元旦。在深夜時刻,看到朋友傳來的解籤網站,興致勃勃熬夜體驗了一下,覺得非常好玩,或許有人玩過了,但還是想寫上來分享紀錄一下~
大語言模型能夠生成文本,因此被認為是生成式人工智慧的一種形式。 人工智慧的學科任務,是製作機器,使其能執行需要人類智慧才能執行的任務,例如理解語言,便是模式,做出決策。 除了大語言模型,人工智慧也包含了深度學習以及機器學習。 機器學習的學科任務,是透過演算法來實踐AI。 特別
大語言模型,例如OpenAI提供的ChatGPT,是過去幾年發展的深度神經網路模型,開啟自然語言處理的新紀元。
Thumbnail
2022年11月30日,ChatGPT的登場對全球造成了顯著衝擊。隨後,2024年2月15日,OpenAI發布了能夠將文字轉換為圖像的AI模型SORA,這一創新再次引發了巨大的震動。 這兩大創新引發的全球算力需求的增長幅度是前所未有的。 需求的瞬間迅猛增長,但供應的增加卻需要更長的時間。Nv
人們總是期盼科技帶來的創新,說到底是人在心理上對於現行做法想要改變,或是挑戰既有威權的心理投射。 千萬別忘了,在ChatGPT與AI的年代,人要能不被取代,創造資料庫中找尋不到觀點以及同理心,凌駕AI產生新價值。
Thumbnail
ChatGPT 是 OpenAI 開發的大型語言模型,以其強大的生成能力和對話能力而聞名。 ChatGPT 的訓練過程主要分為兩個階段:預訓練和微調。 微調使用了 RLHF(Reinforcement Learning from Human Feedback)技術,可以有效地提高模型生成內容的質量。
「我們將擁有一種比我們所有人都聰明的智能,而我們對發生了什麼毫不知情。」
Thumbnail
大型語言模型(LLM)是基於深度學習的自然語言處理模型,而多模態模型(LMM)能處理多種資料型態。這些模型將對未來帶來重大改變。LLM 專注於理解和生成自然語言,LMM 能夠處理跨模態的內容,並整合多種資料的能力,有望成為未來趨勢。
Thumbnail
前言 在AI經歷數個冰河期後,終於在後疫情時代來到了一個技術高峰,而這個破冰者就是OPen AI(ChatGPT),對於這個話題不管你是是正在接觸AI,對AI技術有些了解的人,抑或是專業領域上對於AI介入感到焦慮的人都希望可以文中得到收穫。 本文想分享一些個人對於AI的理解及對於LLM模型的一些
Thumbnail
生成式 AI 讓人們驚艷,也開始認真思考:生成式 AI 會對教育培訓帶來什麼樣的衝擊?AI 會取代老師嗎?如何運用生成式 AI 來加速學習?企業如何運用生成式 AI 來加速創新? 但也開始懷疑 — 人類的工作是不是真的要被 AI 取代了?.....
Thumbnail
大語言模型(LLMs)對於任何對人工智能和自然語言處理感興趣的人來說都是一個令人興奮的領域。 這類模型,如GPT-4, 透過其龐大的數據集和複雜的參數設置, 提供了前所未有的語言理解和生成能力。 那麼,究竟是什麼讓這些模型「大」得如此不同呢?
Thumbnail
大家好,我是woody,是一名料理創作者,非常努力地在嘗試將複雜的料理簡單化,讓大家也可以體驗到料理的樂趣而我也非常享受料理的過程,今天想跟大家聊聊,除了料理本身,料理創作背後的成本。
Thumbnail
哈囉~很久沒跟各位自我介紹一下了~ 大家好~我是爺恩 我是一名圖文插畫家,有追蹤我一段時間的應該有發現爺恩這個品牌經營了好像.....快五年了(汗)時間過得真快!隨著時間過去,創作這件事好像變得更忙碌了,也很開心跟很多厲害的創作者以及廠商互相合作幫忙,還有最重要的是大家的支持與陪伴🥹。  
Thumbnail
嘿,大家新年快樂~ 新年大家都在做什麼呢? 跨年夜的我趕工製作某個外包設計案,在工作告一段落時趕上倒數。 然後和兩個小孩過了一個忙亂的元旦。在深夜時刻,看到朋友傳來的解籤網站,興致勃勃熬夜體驗了一下,覺得非常好玩,或許有人玩過了,但還是想寫上來分享紀錄一下~
大語言模型能夠生成文本,因此被認為是生成式人工智慧的一種形式。 人工智慧的學科任務,是製作機器,使其能執行需要人類智慧才能執行的任務,例如理解語言,便是模式,做出決策。 除了大語言模型,人工智慧也包含了深度學習以及機器學習。 機器學習的學科任務,是透過演算法來實踐AI。 特別
大語言模型,例如OpenAI提供的ChatGPT,是過去幾年發展的深度神經網路模型,開啟自然語言處理的新紀元。
Thumbnail
2022年11月30日,ChatGPT的登場對全球造成了顯著衝擊。隨後,2024年2月15日,OpenAI發布了能夠將文字轉換為圖像的AI模型SORA,這一創新再次引發了巨大的震動。 這兩大創新引發的全球算力需求的增長幅度是前所未有的。 需求的瞬間迅猛增長,但供應的增加卻需要更長的時間。Nv
人們總是期盼科技帶來的創新,說到底是人在心理上對於現行做法想要改變,或是挑戰既有威權的心理投射。 千萬別忘了,在ChatGPT與AI的年代,人要能不被取代,創造資料庫中找尋不到觀點以及同理心,凌駕AI產生新價值。
Thumbnail
ChatGPT 是 OpenAI 開發的大型語言模型,以其強大的生成能力和對話能力而聞名。 ChatGPT 的訓練過程主要分為兩個階段:預訓練和微調。 微調使用了 RLHF(Reinforcement Learning from Human Feedback)技術,可以有效地提高模型生成內容的質量。
「我們將擁有一種比我們所有人都聰明的智能,而我們對發生了什麼毫不知情。」
Thumbnail
大型語言模型(LLM)是基於深度學習的自然語言處理模型,而多模態模型(LMM)能處理多種資料型態。這些模型將對未來帶來重大改變。LLM 專注於理解和生成自然語言,LMM 能夠處理跨模態的內容,並整合多種資料的能力,有望成為未來趨勢。
Thumbnail
前言 在AI經歷數個冰河期後,終於在後疫情時代來到了一個技術高峰,而這個破冰者就是OPen AI(ChatGPT),對於這個話題不管你是是正在接觸AI,對AI技術有些了解的人,抑或是專業領域上對於AI介入感到焦慮的人都希望可以文中得到收穫。 本文想分享一些個人對於AI的理解及對於LLM模型的一些
Thumbnail
生成式 AI 讓人們驚艷,也開始認真思考:生成式 AI 會對教育培訓帶來什麼樣的衝擊?AI 會取代老師嗎?如何運用生成式 AI 來加速學習?企業如何運用生成式 AI 來加速創新? 但也開始懷疑 — 人類的工作是不是真的要被 AI 取代了?.....
Thumbnail
大語言模型(LLMs)對於任何對人工智能和自然語言處理感興趣的人來說都是一個令人興奮的領域。 這類模型,如GPT-4, 透過其龐大的數據集和複雜的參數設置, 提供了前所未有的語言理解和生成能力。 那麼,究竟是什麼讓這些模型「大」得如此不同呢?