近日DeepSeek 的推出在市場掀起一波熱議,作為一個僅耗資 560 萬美元完成的開源大型語言模型,DeepSeek 展現了低成本與快速開發的優勢,其成果被部分人視為對 OpenAI 和 Google 壟斷地位的潛在挑戰。
然而,這波熱潮背後也存在諸多爭議。儘管 DeepSeek 提供的模型能以更少資源完成推理任務,但其效能仍無法全面趕上 GPT-4,甚至被認為更適合特定場景的應用而非廣泛推廣。此外,開源模型一直以來的挑戰,如數據品質、算力需求及多模態整合的技術門檻,仍然是限制其對商業化模型產生重大威脅的主要因素。這樣的背景也讓美國主要財經媒體對該事件的報導相對低調,而社群媒體上卻形成了極高的討論熱度,進一步凸顯了意見分歧。
另一方面,市場對開源模型的發展態度也充滿矛盾。一方面,開源模型代表以低成本實現高效推理的可能性,特別是在多模態和邊緣運算場景中展現了潛力;另一方面,過去幾年開源模型屢屢未能趕上 GPT-4 的整體水準,加上其商業化應用效果有限,使市場對其真正影響力抱持保留態度。正如 Meta 的 LLaMA 和 Hugging Face 等知名開源模型的發展所顯示,雖然開源模型以免費和靈活性吸引大量研究者與小型企業,但其影響力仍受到訓練資源和應用場景限制。對於 DeepSeek 是否能真正撼動 NVIDIA 等產業鏈巨頭,還需觀察其技術發展是否能快速商業化,或僅僅停留在技術討論的熱潮中。這一現象也反映投資者對 AI 模型未來趨勢的疲勞感,以及如何在短期熱點中理性篩選出長期價值的挑戰。
上週五(以及現在美股夜盤)包括 NVIDIA、AMD、META 等多家 AI 股下挫,可能與 DeepSeek 引發的市場不安有關,但更大程度受到美聯儲政策會議和高估值壓力影響。
DeepSeek 的影響需觀察相關個股間的強弱變化,如:
新聞參考:
上面的新聞摘要重點還有其他的部分,我沒有節錄出來的部分是技術面的,也就是很多是比較艱深的Data Science方面的東西,有興趣的各位可以上網查詢,這裡僅聚焦討論在投資的方面。
(1)開源模型
(2)成本低且快速
至於效能或使用心得方面,上面的新聞有提到可能還沒辦法跟o1或Google等其他大模型相比。
市場很多人認為DeepSeek就是一個CP值高的模型。也就是用小小的成本就可以達到接近o1的能力。
很多大模型現在推出新的版本或功能時都很叫好,但我個人的觀察一下就沉寂下去,跟過去2023年相比差很多,有的是消費者喜新厭舊心態,有的是真的使用起來沒有當初這些大模型提到的那麼令人驚艷。
我使用o1和Sora的心得,一開始覺得好像不錯,之後用越久越了解AI還真的有很多地方改進的空間。另外,人類的反撲,我發現人類開始嫌惡因為AI的寫作(就不是真人寫的還拿出來賣等等的一堆評論...甚至連利用AI排版也有人不認同),或是AI製圖,看久了哪些是真人畫的插圖,哪些是AI圖,真的畫的(比如插畫)也許沒有AI畫的精緻,但受到實體人類的讚同(認同感)比AI高太多了。
我們不討論AI『現在』對人類的科技貢獻大小的問題(我認為AI對企業或對人類的貢獻很大未來會更大),我們想釐清的是現在的世界目前對AI的發展狀況以及有沒有AI 疲勞感?
DeepSeek不是第一家開源的大語言模型,美國已經有太多家了,你可以講DeepSeek是第一家用這麼便宜的成本就生產出來的大語言模型,但過去『文心一言』剛推出時也讓美國西方世界很緊張,現在呢?
最著名大家比較聽過的就是Meta的LLaMA模型。
也就是利用開源模型所創造出來的這人些的終極目標就是:利用較小較便宜的模型就可以達到ChapGPT的程度,當時他們對標的3.5,但後來時間一久發現真的還好,之後到現在對標GPT 4 仍然一直無法趕上,(我不知道大家對ChatGPT 4的使用感受如何),我幫大家整理以下比較接近GPT 4但還是有差距的開源模型:
說明:
各位可以看到最後面一欄,基本上都落後GPT 4 ,但開源模型在目前仍在加緊趕上的部分。未來要花多久時間趕上?不知道,因為下面會提到困難點,也就是類似大家都在討論什麼時候要到AGI,感覺要快了,但現在就是到不了,因為背後有太多複雜的技術。尤其在資料方面的問題較大。