筆記-曲博談AI模型.群聯-24.05.05

更新於 發佈於 閱讀時間約 1 分鐘
  • 文內如有投資理財相關經驗、知識、資訊等內容,皆為創作者個人分享行為。
  • 有價證券、指數與衍生性商品之數據資料,僅供輔助說明之用,不代表創作者投資決策之推介及建議。
  • 閱讀同時,請審慎思考自身條件及自我決策,並應有為決策負責之事前認知。
  • 方格子希望您能從這些分享內容汲取投資養份,養成獨立思考的能力、判斷、行動,成就最適合您的投資理財模式。

筆記-曲博談AI模型.群聯-24.05.05

https://www.youtube.com/watch?v=JHE88hwx4b0&t=2034s

*大型語言模型 三個步驟:

1.預訓練,訓練一次要用幾萬顆處理器、訓練時間要1個月,ChatGPT訓練一次的成本為1000萬美金。

2.微調(fine tune),預訓練之後,類神經網路裡的參數還不夠精準,所以需要微調,

例如要用來做翻譯功能的語言模型,就要把翻譯的資料、明確的輸入到神經網路,去微調這個參數。

微調完之後,才會得到一個可以拿來應用的模型。

3.推論,把要翻譯的資料輸入,模型經過推論運算,會輸入翻譯好的結果。

*訓練,類似花10年學英文、運算量龐大,學好之後等於把英文的模型建立好;

遇到外國人時講英文,這就是推論。

*推論,需要的處理效能不高,但是推論是個很長時間的運用,會有大量的使用者、不停的運算,

可以不用最高階的處理器,需要的處理器數量龐大。

*微調,用大量的數據,標註、改變微調參數,不用大量的運算,需要的是大量的記憶體,所以需要記憶體容量大的伺服器。

*HBM在GPU旁邊,先進封裝 能夠封的HBM記憶體數量是固定的,

想要做微調的廠商,如果拿訓練用的伺服器來做微調,成本很高,因為只是需要記憶體,並不用那麼多的算力。

--群聯作的是快閃記憶體 固態硬碟,屬於速度比較慢的記憶體,

在微調的時候,可以用中介軟體,讓程式誤以為固態硬碟是跟HBM一樣的記憶體,就可以用低成本的方式放大記憶體容量,因為固態硬碟的容量大,

群聯的aiDAPTIV,屬於微調專用的伺服器,

讓企業可以拿別人預訓練好的大模型,用低價的微調伺服器,微調成企業想要做的產品。

*曲博也認為aiDAPTIV為正確的發展方向。


avatar-img
81會員
270內容數
股市x 投資x 自耕農
留言0
查看全部
avatar-img
發表第一個留言支持創作者!
每日發車 的其他內容
每日台股車況-24.05.03五 今日牛棚: 一詮2486、聯詠3034 今日上車:  *一詮2486     24/05/03              第一天加入。 高檔上漲/量增O/同業 健策股價多頭O/一詮均熱片搶進AI供應鏈O;外資↓投信↑大戶= 今日下車:  無
地震 *24.04.03,開盤前8點超大地震,鋼鐵水泥股開高走低。台積電產能只有小幅影響。 *24.04.04,地震過後,蔣萬安宣布 大都更時代來臨。 *24.04.04,地震讓美光暫停報價。 中國 *24.04.02,中國3月PMI回到50以上。 *24.04.09,中國房企世茂集
筆記-股癌-研華、特斯拉-24.05.01 *研華,產品線廣,什麼東西都做,受到景氣週期的影響不明顯,研華能夠長期穩健經營。 IPC產品小量多樣,有許多特殊規格,毛利率高,IPC產品不容易被替換。 *目前預期IPC還在復甦中、BB ratio逐漸提升到1,IPC復甦的進度會晚於消費型1~2季的
每日台股車況-24.05.02二 今日牛棚: 新唐4919、中華2204 今日上車:  無 今日下車:  *麗臺2465     24/04/30   24/05/02   -6.0%   因為SMCI大跌,進場第二天就跌破進場紅K低點,出場。 整理後上/量增O/美超微跌深後回升O
筆記-財經皓角-FOMC會議-24.05.02 *FOMC會議, 包爾認為通膨還是過高,所以希望維持高利率 來降低通膨。 包爾提到不會升息,目前雖然通膨難降低,但頂多是延後降息時間,以拖待變,不會考慮升息。 --縮表進度放緩,讓市場維持流動性, 過往縮表停止跟通膨沒有太大關係,縮表會停止主
筆記-財經皓角-24.04.30 *半導體的成長週期,目前沒有太大改變。 *這周大概會有50%的標普500企業財報公告完成, 市場原先預估今年EPS 216元,目前提升到240元,如果給中性偏樂觀的PE 21-22倍,標普500今年要守穩在5000點以上的機率高。 -- 24Q1年成長6%,
每日台股車況-24.05.03五 今日牛棚: 一詮2486、聯詠3034 今日上車:  *一詮2486     24/05/03              第一天加入。 高檔上漲/量增O/同業 健策股價多頭O/一詮均熱片搶進AI供應鏈O;外資↓投信↑大戶= 今日下車:  無
地震 *24.04.03,開盤前8點超大地震,鋼鐵水泥股開高走低。台積電產能只有小幅影響。 *24.04.04,地震過後,蔣萬安宣布 大都更時代來臨。 *24.04.04,地震讓美光暫停報價。 中國 *24.04.02,中國3月PMI回到50以上。 *24.04.09,中國房企世茂集
筆記-股癌-研華、特斯拉-24.05.01 *研華,產品線廣,什麼東西都做,受到景氣週期的影響不明顯,研華能夠長期穩健經營。 IPC產品小量多樣,有許多特殊規格,毛利率高,IPC產品不容易被替換。 *目前預期IPC還在復甦中、BB ratio逐漸提升到1,IPC復甦的進度會晚於消費型1~2季的
每日台股車況-24.05.02二 今日牛棚: 新唐4919、中華2204 今日上車:  無 今日下車:  *麗臺2465     24/04/30   24/05/02   -6.0%   因為SMCI大跌,進場第二天就跌破進場紅K低點,出場。 整理後上/量增O/美超微跌深後回升O
筆記-財經皓角-FOMC會議-24.05.02 *FOMC會議, 包爾認為通膨還是過高,所以希望維持高利率 來降低通膨。 包爾提到不會升息,目前雖然通膨難降低,但頂多是延後降息時間,以拖待變,不會考慮升息。 --縮表進度放緩,讓市場維持流動性, 過往縮表停止跟通膨沒有太大關係,縮表會停止主
筆記-財經皓角-24.04.30 *半導體的成長週期,目前沒有太大改變。 *這周大概會有50%的標普500企業財報公告完成, 市場原先預估今年EPS 216元,目前提升到240元,如果給中性偏樂觀的PE 21-22倍,標普500今年要守穩在5000點以上的機率高。 -- 24Q1年成長6%,
你可能也想看
Google News 追蹤
Thumbnail
隨著理財資訊的普及,越來越多台灣人不再將資產侷限於台股,而是將視野拓展到國際市場。特別是美國市場,其豐富的理財選擇,讓不少人開始思考將資金配置於海外市場的可能性。 然而,要參與美國市場並不只是盲目跟隨標的這麼簡單,而是需要策略和方式,尤其對新手而言,除了選股以外還會遇到語言、開戶流程、Ap
Thumbnail
嘿,大家新年快樂~ 新年大家都在做什麼呢? 跨年夜的我趕工製作某個外包設計案,在工作告一段落時趕上倒數。 然後和兩個小孩過了一個忙亂的元旦。在深夜時刻,看到朋友傳來的解籤網站,興致勃勃熬夜體驗了一下,覺得非常好玩,或許有人玩過了,但還是想寫上來分享紀錄一下~
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 回顧 AI說書 - 從0開始 - 129 中說,Bidirectional Encoder Representations from Transformers (BER
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 在某些情況下,別人提供的 Pretrained Transformer Model 效果不盡人意,可能會想要自己做 Pretrained Model,但是這會耗費大量運
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 繼 AI說書 - 從0開始 - 82 與 xxx ,我們談論了衡量 AI 模型的方式,那當你訓練的模型比 State-of-the-Art 還要好並想要進行宣稱時,需要
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 Transformer 可以透過繼承預訓練模型 (Pretrained Model) 來微調 (Fine-Tune) 以執行下游任務。 Pretrained Mo
https://www.youtube.com/watch?v=wjZofJX0v4M 這是我看過最好的AI科普影片了;現在流行的GPT使用的大語言模型 (large language model, LLM), 是把每一個單字都當作一個高維度向量 影片中GPT3共儲存50257個英文單字, 每
Thumbnail
我們人類和ChatGPT的對話技巧也是需要學習的,有鑑於此,我想要一天分享一點「和ChatGPT對話的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 針對Generative AI、Foundation Model、Large Language Mode
前陣子自己手刻了ChatGPT,並發了一系列文章: 使用Meta釋出的模型,實作Chat GPT - Part 0 使用Meta釋出的模型,實作Chat GPT - Part 1 使用Meta釋出的模型,實作Chat GPT - Part 2 使用Meta釋出的模型,實作Chat GPT -
大語言模型能夠生成文本,因此被認為是生成式人工智慧的一種形式。 人工智慧的學科任務,是製作機器,使其能執行需要人類智慧才能執行的任務,例如理解語言,便是模式,做出決策。 除了大語言模型,人工智慧也包含了深度學習以及機器學習。 機器學習的學科任務,是透過演算法來實踐AI。 特別
Thumbnail
延續上週提到的,「有哪些不訓練模型的情況下,能夠強化語言模型的能力」,這堂課接續介紹其中第 3、4 個方法
Thumbnail
ChatGPT 是 OpenAI 開發的大型語言模型,以其強大的生成能力和對話能力而聞名。 ChatGPT 的訓練過程主要分為兩個階段:預訓練和微調。 微調使用了 RLHF(Reinforcement Learning from Human Feedback)技術,可以有效地提高模型生成內容的質量。
Thumbnail
隨著理財資訊的普及,越來越多台灣人不再將資產侷限於台股,而是將視野拓展到國際市場。特別是美國市場,其豐富的理財選擇,讓不少人開始思考將資金配置於海外市場的可能性。 然而,要參與美國市場並不只是盲目跟隨標的這麼簡單,而是需要策略和方式,尤其對新手而言,除了選股以外還會遇到語言、開戶流程、Ap
Thumbnail
嘿,大家新年快樂~ 新年大家都在做什麼呢? 跨年夜的我趕工製作某個外包設計案,在工作告一段落時趕上倒數。 然後和兩個小孩過了一個忙亂的元旦。在深夜時刻,看到朋友傳來的解籤網站,興致勃勃熬夜體驗了一下,覺得非常好玩,或許有人玩過了,但還是想寫上來分享紀錄一下~
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 回顧 AI說書 - 從0開始 - 129 中說,Bidirectional Encoder Representations from Transformers (BER
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 在某些情況下,別人提供的 Pretrained Transformer Model 效果不盡人意,可能會想要自己做 Pretrained Model,但是這會耗費大量運
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 繼 AI說書 - 從0開始 - 82 與 xxx ,我們談論了衡量 AI 模型的方式,那當你訓練的模型比 State-of-the-Art 還要好並想要進行宣稱時,需要
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 Transformer 可以透過繼承預訓練模型 (Pretrained Model) 來微調 (Fine-Tune) 以執行下游任務。 Pretrained Mo
https://www.youtube.com/watch?v=wjZofJX0v4M 這是我看過最好的AI科普影片了;現在流行的GPT使用的大語言模型 (large language model, LLM), 是把每一個單字都當作一個高維度向量 影片中GPT3共儲存50257個英文單字, 每
Thumbnail
我們人類和ChatGPT的對話技巧也是需要學習的,有鑑於此,我想要一天分享一點「和ChatGPT對話的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 針對Generative AI、Foundation Model、Large Language Mode
前陣子自己手刻了ChatGPT,並發了一系列文章: 使用Meta釋出的模型,實作Chat GPT - Part 0 使用Meta釋出的模型,實作Chat GPT - Part 1 使用Meta釋出的模型,實作Chat GPT - Part 2 使用Meta釋出的模型,實作Chat GPT -
大語言模型能夠生成文本,因此被認為是生成式人工智慧的一種形式。 人工智慧的學科任務,是製作機器,使其能執行需要人類智慧才能執行的任務,例如理解語言,便是模式,做出決策。 除了大語言模型,人工智慧也包含了深度學習以及機器學習。 機器學習的學科任務,是透過演算法來實踐AI。 特別
Thumbnail
延續上週提到的,「有哪些不訓練模型的情況下,能夠強化語言模型的能力」,這堂課接續介紹其中第 3、4 個方法
Thumbnail
ChatGPT 是 OpenAI 開發的大型語言模型,以其強大的生成能力和對話能力而聞名。 ChatGPT 的訓練過程主要分為兩個階段:預訓練和微調。 微調使用了 RLHF(Reinforcement Learning from Human Feedback)技術,可以有效地提高模型生成內容的質量。