筆記-曲博談AI模型.群聯-24.05.05
https://www.youtube.com/watch?v=JHE88hwx4b0&t=2034s
*大型語言模型 三個步驟:
1.預訓練,訓練一次要用幾萬顆處理器、訓練時間要1個月,ChatGPT訓練一次的成本為1000萬美金。
2.微調(fine tune),預訓練之後,類神經網路裡的參數還不夠精準,所以需要微調,
例如要用來做翻譯功能的語言模型,就要把翻譯的資料、明確的輸入到神經網路,去微調這個參數。
微調完之後,才會得到一個可以拿來應用的模型。
3.推論,把要翻譯的資料輸入,模型經過推論運算,會輸入翻譯好的結果。
*訓練,類似花10年學英文、運算量龐大,學好之後等於把英文的模型建立好;
遇到外國人時講英文,這就是推論。
*推論,需要的處理效能不高,但是推論是個很長時間的運用,會有大量的使用者、不停的運算,
可以不用最高階的處理器,需要的處理器數量龐大。
*微調,用大量的數據,標註、改變微調參數,不用大量的運算,需要的是大量的記憶體,所以需要記憶體容量大的伺服器。
*HBM在GPU旁邊,先進封裝 能夠封的HBM記憶體數量是固定的,
想要做微調的廠商,如果拿訓練用的伺服器來做微調,成本很高,因為只是需要記憶體,並不用那麼多的算力。
--群聯作的是快閃記憶體 固態硬碟,屬於速度比較慢的記憶體,
在微調的時候,可以用中介軟體,讓程式誤以為固態硬碟是跟HBM一樣的記憶體,就可以用低成本的方式放大記憶體容量,因為固態硬碟的容量大,
群聯的aiDAPTIV,屬於微調專用的伺服器,
讓企業可以拿別人預訓練好的大模型,用低價的微調伺服器,微調成企業想要做的產品。
*曲博也認為aiDAPTIV為正確的發展方向。