自從DeepSeek R1發表後,有「AI教母」之稱的李飛飛博士團隊在上週發表了一篇「s1:simple test- time scaling」的論文,網上有「標題黨」寫著「只要50美元就能訓練出自己的本地大模型」
事實上50美元只是租用雲端算力的部分支出,團隊在微調模型時用了16張的H100 GPU,訓練時長只花了26分鐘,一開始使用了阿里的Qwen2.5-32B-Instruct大模型做預訓練,之後再從收集的5.9萬筆數學、科學與推理題目中嚴格篩選出1000筆資料,讓原先「什麼都會一點」的通用大模型,變成科學、數學、生物、物理、化學等科目的「專家模型」
這樣做的成果是讓整個模型的應用聚焦在某些領域上,並且砍掉不相關的數據以節省計算時間並提升反饋效率,這對於想在不同領域做垂直應用的公司可說是一大福音
但反過來說,如果原來想做的應用沒有自己的特色,只是採取跟這篇論文一樣的方法,那很有可能變成先進團隊的碾壓對象,之前的努力也付之一炬
所有的發展總是風險與機會並存,如何利用機會,小步快跑,不懼風險,可能是我們在這個時代求得生存的關鍵方式