年假裡除了吃吃喝喝,感受時不時來湊熱鬧的大小地震外,看到最多的新聞莫過於中國發表的開源大語言模型DeepSeek R1,有人說這是中國在前沿科技的一大勝利,也有人說這是開源社區終究會打敗閉源社區的證明
我不是會寫程式的工程師,所以無法針對新模型的演算方法或技術論文加以評論,只能以一個使用者看兩者的優劣
首先DeepSeek目前是免費且開源的,這一點讓之前付費使用大模型的用戶很驚艷,他們能做到這樣是因為成本降低,這種「降本增效」的方式幾乎是所有中國企業的特性
但不知道是否因為我們的網路有點「排斥」DeepSeek,許多問題在討論一半後突然就出現「服務器繁忙,請稍後再試」,這個不穩定性的確蠻影響用戶體驗的
如果只是看這個模型的思維鏈條,可以發現它的「大腦」會自我懷疑跟驗證,直到它認為能給出正確的答案才會「正式回答」,這個步驟我仔細看了以後,覺得很像我們在面對許多事情時內心會產生的「小劇場」,只是AI以具體的文字敘述出來, 讓我有一種「你想太多了」的感覺😅
美國的OpenAI在DeepSeek爆紅以後,不甘示弱地公布了o3-mini和o3-mini-high的新模型,並且在o1及以上的模型也像DeepSeek一樣把思考內容以文字敘述出來,整個使用上的穩定性還是比DeepSeek要好上許多,於高階問題的理解和解釋也能更準確清晰
AI的競爭才剛開始,在這個新時代的拐點,坐看起落,有機會也許還能參與其中,令人由衷感到興奮😆