Deepseek 是技术创新还是蒸馏 OpenAI 模型

baitailaoren

2025/02/01

斯坦福机器人庞博士 Leo 发布，主要探讨了 Deepseek 是技术创新还是蒸馏 OpenAI 的模型这一话题。

Deepseek 的技术创新点：Deepseek 在英伟达芯片底层优化方面表现突出。英伟达的 CUDA 是并行计算语言，其下的 PTX（parallel slide execution）介于 CUDA 和汇编语言之间。Transformer 大模型主要运算是巨大矩阵相乘，需多个 GPU 计算。GPU 的硬件结构中，每个 SM（streaming multiple processor）有计算核和本地内存 S1，S1 内存虽小但速度比 GPU 的 HBM 内存快百倍到上千倍。CUDA 无法直接控制这些计算，PTX 可以。Deepseek 用 PTX 对某些 SM 编程负责数据传输，解决了大模型计算瓶颈，还优化了其他运算，使相同 GPU 发挥出十倍效能，降低了训练和推理成本。

关于蒸馏 OpenAI 模型的争议：OpenAI 认为 Deepseek 存在蒸馏其模型的情况，即 Deepseek 可能使用 ChatGPT 产生的几百万句对话作为语料来训练自身模型。从训练模型寻找数据分布的角度看，使用已训练好模型生成的对话数据更 “平滑”，而真实数据更复杂。并且，Deepseek 论文测试评分与 OpenAI 的 O1 模型评分在所有项上几乎一样，这引发了质疑。

Deepseek 开源的意义：无论 Deepseek 是否蒸馏 OpenAI 模型，其将模型开源都对人类 AI 发展有重要贡献。它大幅降低了使用大模型的成本，使得大模型应用开发进入新阶段，让开发者们站在同一起跑线，有望推动大模型应用的爆发。

加入討論