avatar-avatar
baitailaoren

斯坦福机器人庞博士 Leo 发布,主要探讨了 Deepseek 是技术创新还是蒸馏 OpenAI 的模型这一话题。


Deepseek 的技术创新点:Deepseek 在英伟达芯片底层优化方面表现突出。英伟达的 CUDA 是并行计算语言,其下的 PTX(parallel slide execution)介于 CUDA 和汇编语言之间。Transformer 大模型主要运算是巨大矩阵相乘,需多个 GPU 计算。GPU 的硬件结构中,每个 SM(streaming multiple processor)有计算核和本地内存 S1,S1 内存虽小但速度比 GPU 的 HBM 内存快百倍到上千倍。CUDA 无法直接控制这些计算,PTX 可以。Deepseek 用 PTX 对某些 SM 编程负责数据传输,解决了大模型计算瓶颈,还优化了其他运算,使相同 GPU 发挥出十倍效能,降低了训练和推理成本 。

关于蒸馏 OpenAI 模型的争议:OpenAI 认为 Deepseek 存在蒸馏其模型的情况,即 Deepseek 可能使用 ChatGPT 产生的几百万句对话作为语料来训练自身模型。从训练模型寻找数据分布的角度看,使用已训练好模型生成的对话数据更 “平滑”,而真实数据更复杂。并且,Deepseek 论文测试评分与 OpenAI 的 O1 模型评分在所有项上几乎一样,这引发了质疑。

Deepseek 开源的意义:无论 Deepseek 是否蒸馏 OpenAI 模型,其将模型开源都对人类 AI 发展有重要贡献。它大幅降低了使用大模型的成本,使得大模型应用开发进入新阶段,让开发者们站在同一起跑线,有望推动大模型应用的爆发。

avatar-img
加入討論