更新於 2024/05/06閱讀時間約 1 分鐘

筆記-曲博談AI模型.群聯-24.05.05

    筆記-曲博談AI模型.群聯-24.05.05

    https://www.youtube.com/watch?v=JHE88hwx4b0&t=2034s

    *大型語言模型 三個步驟:

    1.預訓練,訓練一次要用幾萬顆處理器、訓練時間要1個月,ChatGPT訓練一次的成本為1000萬美金。

    2.微調(fine tune),預訓練之後,類神經網路裡的參數還不夠精準,所以需要微調,

    例如要用來做翻譯功能的語言模型,就要把翻譯的資料、明確的輸入到神經網路,去微調這個參數。

    微調完之後,才會得到一個可以拿來應用的模型。

    3.推論,把要翻譯的資料輸入,模型經過推論運算,會輸入翻譯好的結果。

    *訓練,類似花10年學英文、運算量龐大,學好之後等於把英文的模型建立好;

    遇到外國人時講英文,這就是推論。

    *推論,需要的處理效能不高,但是推論是個很長時間的運用,會有大量的使用者、不停的運算,

    可以不用最高階的處理器,需要的處理器數量龐大。

    *微調,用大量的數據,標註、改變微調參數,不用大量的運算,需要的是大量的記憶體,所以需要記憶體容量大的伺服器。

    *HBM在GPU旁邊,先進封裝 能夠封的HBM記憶體數量是固定的,

    想要做微調的廠商,如果拿訓練用的伺服器來做微調,成本很高,因為只是需要記憶體,並不用那麼多的算力。

    --群聯作的是快閃記憶體 固態硬碟,屬於速度比較慢的記憶體,

    在微調的時候,可以用中介軟體,讓程式誤以為固態硬碟是跟HBM一樣的記憶體,就可以用低成本的方式放大記憶體容量,因為固態硬碟的容量大,

    群聯的aiDAPTIV,屬於微調專用的伺服器,

    讓企業可以拿別人預訓練好的大模型,用低價的微調伺服器,微調成企業想要做的產品。

    *曲博也認為aiDAPTIV為正確的發展方向。


    分享至
    成為作者繼續創作的動力吧!
    © 2024 vocus All rights reserved.