筆記-曲博談AI模型.群聯-24.05.05

更新於 發佈於 閱讀時間約 1 分鐘
投資理財內容聲明

筆記-曲博談AI模型.群聯-24.05.05

https://www.youtube.com/watch?v=JHE88hwx4b0&t=2034s

*大型語言模型 三個步驟:

1.預訓練,訓練一次要用幾萬顆處理器、訓練時間要1個月,ChatGPT訓練一次的成本為1000萬美金。

2.微調(fine tune),預訓練之後,類神經網路裡的參數還不夠精準,所以需要微調,

例如要用來做翻譯功能的語言模型,就要把翻譯的資料、明確的輸入到神經網路,去微調這個參數。

微調完之後,才會得到一個可以拿來應用的模型。

3.推論,把要翻譯的資料輸入,模型經過推論運算,會輸入翻譯好的結果。

*訓練,類似花10年學英文、運算量龐大,學好之後等於把英文的模型建立好;

遇到外國人時講英文,這就是推論。

*推論,需要的處理效能不高,但是推論是個很長時間的運用,會有大量的使用者、不停的運算,

可以不用最高階的處理器,需要的處理器數量龐大。

*微調,用大量的數據,標註、改變微調參數,不用大量的運算,需要的是大量的記憶體,所以需要記憶體容量大的伺服器。

*HBM在GPU旁邊,先進封裝 能夠封的HBM記憶體數量是固定的,

想要做微調的廠商,如果拿訓練用的伺服器來做微調,成本很高,因為只是需要記憶體,並不用那麼多的算力。

--群聯作的是快閃記憶體 固態硬碟,屬於速度比較慢的記憶體,

在微調的時候,可以用中介軟體,讓程式誤以為固態硬碟是跟HBM一樣的記憶體,就可以用低成本的方式放大記憶體容量,因為固態硬碟的容量大,

群聯的aiDAPTIV,屬於微調專用的伺服器,

讓企業可以拿別人預訓練好的大模型,用低價的微調伺服器,微調成企業想要做的產品。

*曲博也認為aiDAPTIV為正確的發展方向。


avatar-img
81會員
270內容數
股市x 投資x 自耕農
留言0
查看全部
avatar-img
發表第一個留言支持創作者!
每日發車 的其他內容
每日台股車況-24.05.03五 今日牛棚: 一詮2486、聯詠3034 今日上車:  *一詮2486     24/05/03              第一天加入。 高檔上漲/量增O/同業 健策股價多頭O/一詮均熱片搶進AI供應鏈O;外資↓投信↑大戶= 今日下車:  無
地震 *24.04.03,開盤前8點超大地震,鋼鐵水泥股開高走低。台積電產能只有小幅影響。 *24.04.04,地震過後,蔣萬安宣布 大都更時代來臨。 *24.04.04,地震讓美光暫停報價。 中國 *24.04.02,中國3月PMI回到50以上。 *24.04.09,中國房企世茂集
筆記-股癌-研華、特斯拉-24.05.01 *研華,產品線廣,什麼東西都做,受到景氣週期的影響不明顯,研華能夠長期穩健經營。 IPC產品小量多樣,有許多特殊規格,毛利率高,IPC產品不容易被替換。 *目前預期IPC還在復甦中、BB ratio逐漸提升到1,IPC復甦的進度會晚於消費型1~2季的
每日台股車況-24.05.02二 今日牛棚: 新唐4919、中華2204 今日上車:  無 今日下車:  *麗臺2465     24/04/30   24/05/02   -6.0%   因為SMCI大跌,進場第二天就跌破進場紅K低點,出場。 整理後上/量增O/美超微跌深後回升O
筆記-財經皓角-FOMC會議-24.05.02 *FOMC會議, 包爾認為通膨還是過高,所以希望維持高利率 來降低通膨。 包爾提到不會升息,目前雖然通膨難降低,但頂多是延後降息時間,以拖待變,不會考慮升息。 --縮表進度放緩,讓市場維持流動性, 過往縮表停止跟通膨沒有太大關係,縮表會停止主
筆記-財經皓角-24.04.30 *半導體的成長週期,目前沒有太大改變。 *這周大概會有50%的標普500企業財報公告完成, 市場原先預估今年EPS 216元,目前提升到240元,如果給中性偏樂觀的PE 21-22倍,標普500今年要守穩在5000點以上的機率高。 -- 24Q1年成長6%,
每日台股車況-24.05.03五 今日牛棚: 一詮2486、聯詠3034 今日上車:  *一詮2486     24/05/03              第一天加入。 高檔上漲/量增O/同業 健策股價多頭O/一詮均熱片搶進AI供應鏈O;外資↓投信↑大戶= 今日下車:  無
地震 *24.04.03,開盤前8點超大地震,鋼鐵水泥股開高走低。台積電產能只有小幅影響。 *24.04.04,地震過後,蔣萬安宣布 大都更時代來臨。 *24.04.04,地震讓美光暫停報價。 中國 *24.04.02,中國3月PMI回到50以上。 *24.04.09,中國房企世茂集
筆記-股癌-研華、特斯拉-24.05.01 *研華,產品線廣,什麼東西都做,受到景氣週期的影響不明顯,研華能夠長期穩健經營。 IPC產品小量多樣,有許多特殊規格,毛利率高,IPC產品不容易被替換。 *目前預期IPC還在復甦中、BB ratio逐漸提升到1,IPC復甦的進度會晚於消費型1~2季的
每日台股車況-24.05.02二 今日牛棚: 新唐4919、中華2204 今日上車:  無 今日下車:  *麗臺2465     24/04/30   24/05/02   -6.0%   因為SMCI大跌,進場第二天就跌破進場紅K低點,出場。 整理後上/量增O/美超微跌深後回升O
筆記-財經皓角-FOMC會議-24.05.02 *FOMC會議, 包爾認為通膨還是過高,所以希望維持高利率 來降低通膨。 包爾提到不會升息,目前雖然通膨難降低,但頂多是延後降息時間,以拖待變,不會考慮升息。 --縮表進度放緩,讓市場維持流動性, 過往縮表停止跟通膨沒有太大關係,縮表會停止主
筆記-財經皓角-24.04.30 *半導體的成長週期,目前沒有太大改變。 *這周大概會有50%的標普500企業財報公告完成, 市場原先預估今年EPS 216元,目前提升到240元,如果給中性偏樂觀的PE 21-22倍,標普500今年要守穩在5000點以上的機率高。 -- 24Q1年成長6%,
你可能也想看
Google News 追蹤
提問的內容越是清晰,強者、聰明人越能在短時間內做判斷、給出精準的建議,他們會對你產生「好印象」,認定你是「積極」的人,有機會、好人脈會不自覺地想引薦給你
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 回顧 AI說書 - 從0開始 - 129 中說,Bidirectional Encoder Representations from Transformers (BER
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 在某些情況下,別人提供的 Pretrained Transformer Model 效果不盡人意,可能會想要自己做 Pretrained Model,但是這會耗費大量運
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 繼 AI說書 - 從0開始 - 82 與 xxx ,我們談論了衡量 AI 模型的方式,那當你訓練的模型比 State-of-the-Art 還要好並想要進行宣稱時,需要
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 Transformer 可以透過繼承預訓練模型 (Pretrained Model) 來微調 (Fine-Tune) 以執行下游任務。 Pretrained Mo
https://www.youtube.com/watch?v=wjZofJX0v4M 這是我看過最好的AI科普影片了;現在流行的GPT使用的大語言模型 (large language model, LLM), 是把每一個單字都當作一個高維度向量 影片中GPT3共儲存50257個英文單字, 每
Thumbnail
我們人類和ChatGPT的對話技巧也是需要學習的,有鑑於此,我想要一天分享一點「和ChatGPT對話的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 針對Generative AI、Foundation Model、Large Language Mode
前陣子自己手刻了ChatGPT,並發了一系列文章: 使用Meta釋出的模型,實作Chat GPT - Part 0 使用Meta釋出的模型,實作Chat GPT - Part 1 使用Meta釋出的模型,實作Chat GPT - Part 2 使用Meta釋出的模型,實作Chat GPT -
大語言模型能夠生成文本,因此被認為是生成式人工智慧的一種形式。 人工智慧的學科任務,是製作機器,使其能執行需要人類智慧才能執行的任務,例如理解語言,便是模式,做出決策。 除了大語言模型,人工智慧也包含了深度學習以及機器學習。 機器學習的學科任務,是透過演算法來實踐AI。 特別
Thumbnail
延續上週提到的,「有哪些不訓練模型的情況下,能夠強化語言模型的能力」,這堂課接續介紹其中第 3、4 個方法
Thumbnail
ChatGPT 是 OpenAI 開發的大型語言模型,以其強大的生成能力和對話能力而聞名。 ChatGPT 的訓練過程主要分為兩個階段:預訓練和微調。 微調使用了 RLHF(Reinforcement Learning from Human Feedback)技術,可以有效地提高模型生成內容的質量。
提問的內容越是清晰,強者、聰明人越能在短時間內做判斷、給出精準的建議,他們會對你產生「好印象」,認定你是「積極」的人,有機會、好人脈會不自覺地想引薦給你
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 回顧 AI說書 - 從0開始 - 129 中說,Bidirectional Encoder Representations from Transformers (BER
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 在某些情況下,別人提供的 Pretrained Transformer Model 效果不盡人意,可能會想要自己做 Pretrained Model,但是這會耗費大量運
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 繼 AI說書 - 從0開始 - 82 與 xxx ,我們談論了衡量 AI 模型的方式,那當你訓練的模型比 State-of-the-Art 還要好並想要進行宣稱時,需要
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 Transformer 可以透過繼承預訓練模型 (Pretrained Model) 來微調 (Fine-Tune) 以執行下游任務。 Pretrained Mo
https://www.youtube.com/watch?v=wjZofJX0v4M 這是我看過最好的AI科普影片了;現在流行的GPT使用的大語言模型 (large language model, LLM), 是把每一個單字都當作一個高維度向量 影片中GPT3共儲存50257個英文單字, 每
Thumbnail
我們人類和ChatGPT的對話技巧也是需要學習的,有鑑於此,我想要一天分享一點「和ChatGPT對話的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 針對Generative AI、Foundation Model、Large Language Mode
前陣子自己手刻了ChatGPT,並發了一系列文章: 使用Meta釋出的模型,實作Chat GPT - Part 0 使用Meta釋出的模型,實作Chat GPT - Part 1 使用Meta釋出的模型,實作Chat GPT - Part 2 使用Meta釋出的模型,實作Chat GPT -
大語言模型能夠生成文本,因此被認為是生成式人工智慧的一種形式。 人工智慧的學科任務,是製作機器,使其能執行需要人類智慧才能執行的任務,例如理解語言,便是模式,做出決策。 除了大語言模型,人工智慧也包含了深度學習以及機器學習。 機器學習的學科任務,是透過演算法來實踐AI。 特別
Thumbnail
延續上週提到的,「有哪些不訓練模型的情況下,能夠強化語言模型的能力」,這堂課接續介紹其中第 3、4 個方法
Thumbnail
ChatGPT 是 OpenAI 開發的大型語言模型,以其強大的生成能力和對話能力而聞名。 ChatGPT 的訓練過程主要分為兩個階段:預訓練和微調。 微調使用了 RLHF(Reinforcement Learning from Human Feedback)技術,可以有效地提高模型生成內容的質量。