业内:DeepSeek或准备适配国产GPU

更新於 發佈於 閱讀時間約 17 分鐘

根据现有资料,DeepSeek正在逐步适配国产GPU,并可能绕开英伟达的CUDA平台,这一趋势得到了多方面的支持和验证。

从技术层面来看,DeepSeek通过汇编式PTX编程而非依赖CUDA,展示了其在硬件适配上的灵活性。这种技术路线使得DeepSeek能够更好地兼容不同硬件平台,包括国产GPU。例如,AMD已经宣布将DeepSeek V3集成到MI300X GPU中,这表明DeepSeek的技术已经具备了与国产GPU合作的基础。此外,DeepSeek的技术报告也显示,其开发团队掌握了PTX语言,这为其适配国产GPU提供了技术支持。

从市场和政策环境来看,中国对自主可控技术的重视以及国产GPU技术的崛起为DeepSeek适配国产GPU创造了有利条件。近年来,国产GPU如华为昇腾、景嘉微等逐步成熟,性能不断提升,这为DeepSeek等AI模型提供了替代方案。例如,DeepSeek已经与华为昇腾展开合作,通过优化算法和硬件协同,显著降低了运行成本。此外,DeepSeek的开源策略也鼓励了更多国产算力芯片的发展。

从产业生态的角度来看,DeepSeek的适配不仅有助于减少对英伟达GPU的依赖,还可能推动国产GPU产业链的进一步发展。例如,DeepSeek的突破验证了国产芯片(如昇腾)的可行性,为国内算力基建投资提供了新的方向。同时,DeepSeek的技术创新和成本优势也吸引了小米等国内科技公司加入其生态链,进一步推动了国产AI技术的应用。

然而,值得注意的是,尽管DeepSeek正在逐步适配国产GPU,但其在某些方面仍可能继续依赖英伟达的高端GPU。例如,英伟达的H800 GPU被用于训练DeepSeek V3模型,并且DeepSeek的某些版本仍然支持英伟达的CUDA平台。这表明DeepSeek的适配策略可能是渐进式的,既利用现有高端GPU资源,又逐步向国产GPU过渡。

DeepSeek正在积极适配国产GPU,并通过技术创新和生态合作推动国产AI技术的发展。这一趋势不仅反映了中美科技竞争背景下的市场需求变化,也展现了国产AI技术在全球AI领域中的竞争力。

DeepSeek选择汇编式PTX编程而非依赖CUDA的具体原因是什么?

DeepSeek选择汇编式PTX编程而非依赖CUDA的具体原因可以从以下几个方面进行分析:

1. 更精细的GPU控制

PTX(Parallel Thread Execution)是一种接近汇编语言的中间指令集,允许开发者进行更细致的硬件层面优化,例如寄存器分配、线程/线程束级别的调整等。这些操作在传统CUDA编程中无法实现,因为CUDA主要是一种高级编程语言,虽然接近人类语言,但在灵活性和控制力上不如PTX。

2. 针对多机多卡训练的需求

在大规模模型训练中,尤其是涉及多机多卡的场景,需要对数据传输、权重管理以及梯度管理等进行更精细的控制。PTX语言能够提供这种能力,而CUDA则更多依赖于高级抽象,可能无法满足这些复杂需求。

3. 技术挑战与创新

PTX编程虽然复杂且难以维护,但DeepSeek团队通过技术创新实现了突破。他们不仅掌握了AI算法和计算机系统架构知识,还招聘了擅长PTX语言的程序员,从而能够直接使用PTX进行算法层面的硬件加速。这种技术手段不仅提升了性能,也展示了DeepSeek在硬件适配上的能力。

4. 摆脱对英伟达的依赖

PTX作为英伟达专为自家GPU设计的指令集,使得DeepSeek能够在不依赖CUDA的情况下优化其他GPU平台。例如,AMD和华为等厂商已经或计划集成DeepSeek模型,这表明DeepSeek的技术具有跨平台兼容性。此外,DeepSeek绕开CUDA的策略也减少了对英伟达技术的依赖,从而降低了潜在的技术垄断风险。

5. 提升效率与性能

PTX语言运行效率极高,尽管其编写难度较大,但DeepSeek通过优化H800 GPU的流水式多流处理器(SMs),实现了通信任务间的高效调度,并采用先进的流水线算法和细粒度调整,使得其在硬件层面达到了超越传统CUDA开发框架的性能。

6. 应对市场和技术环境的变化

当前GPU市场的竞争加剧,尤其是美国对华制裁加剧了GPU厂商之间的竞争压力。DeepSeek选择PTX编程也是为了更好地适应这一环境,通过掌握底层硬件优化技术来增强自身的竞争力。

DeepSeek选择PTX编程而非依赖CUDA的原因在于其能够提供更精细的硬件控制、满足复杂多机训练需求、提升性能并摆脱对英伟达技术的依赖。

华为昇腾和景嘉微GPU在性能上与英伟达GPU相比有哪些具体优势?

华为昇腾和景嘉微GPU在性能上与英伟达GPU相比,各有其独特的优势和特点。以下是基于我搜索到的资料的详细分析:

华为昇腾的优势:

  1. 算力表现优异:华为昇腾910芯片在单精度浮点计算、双精度浮点计算以及INT8计算性能方面均显著领先于英伟达的H20系列,同时在INT4计算性能上也超越了其他竞品,这表明其在AI推理和训练场景中具有较强的竞争力。
  2. 效率与灵活性:昇腾910在效率、可延展性和灵活性方面具有明显优势,尤其在神经网络训练场景中,其性能超越了英伟达V100和谷歌TPU。
  3. 国产替代潜力:昇腾910B芯片在单精度浮点计算、INT8计算等方面表现优异,已超越中国区域可获取的其他竞品(如HGX H20),并且在某些参数设计上优于英伟达的H200。
  4. 政策支持与市场占有率:华为昇腾芯片在中国市场得到了强大的政策支持,并且在AI领域占据了一定市场份额,特别是在数据中心、AI推理和训练等高性能计算场景中。
  5. 生态建设:尽管与英伟达相比生态建设尚有差距,但华为正在积极推进MindSpore开源框架和Ascend Compute Engine等生态工具的开发,以提升其市场竞争力。

景嘉微GPU的优势:

  1. 技术积累深厚:景嘉微是国内首家成功研制国产GPU芯片并实现大规模工程应用的企业,掌握了包括芯片底层逻辑设计、超大规模电路验证、模拟接口设计等关键技术。
  2. 多款自主知识产权GPU芯片:景嘉微已研发出多款具有自主知识产权的高性能GPU芯片,如JM7系列、JM9系列等,这些芯片在图形处理和高性能计算领域展现了技术实力。
  3. 通用性和适配性:景嘉微的JM11系列芯片不仅适用于国内模型,还支持国内主流大模型厂商,这表明其在通用性和适配性方面具有一定的优势。
  4. 国产替代潜力:景嘉微GPU在AI算力和通用计算能力上逐步提升,尤其是在国产替代背景下,其产品有望进一步满足国内市场的需求。

总结:

华为昇腾和景嘉微GPU在性能上各有侧重:

  • 华为昇腾在算力、效率和灵活性方面表现突出,尤其在AI推理和训练场景中具备显著优势,同时得益于中国市场的政策支持和生态建设,其国产替代潜力巨大。
  • 景嘉微则凭借深厚的技术积累和多款自主知识产权GPU芯片,在图形处理和高性能计算领域展现了竞争力,同时其产品在通用性和适配性方面也具有一定优势。

然而,与英伟达相比,两者在生态系统、市场占有率以及高端性能参数上仍有差距。

DeepSeek在适配国产GPU过程中遇到的主要挑战有哪些?

DeepSeek在适配国产GPU过程中面临的主要挑战包括以下几个方面:

  1. 技术开放性维护:DeepSeek在适配国产GPU时,需要克服技术开放性的维护问题。由于DeepSeek的核心算法和模型训练依赖于高度优化的代码,这些代码可能需要针对不同国产GPU架构进行重新优化和调整,以确保其性能和兼容性。
  2. 数据安全保障:在适配国产GPU的过程中,DeepSeek需要确保数据的安全性和隐私保护。这不仅涉及算法层面的优化,还可能需要与国产GPU厂商合作开发更安全的数据处理和存储方案。
  3. 硬件兼容性:虽然DeepSeek设计了高度可扩展的分布式计算能力,但国产GPU的硬件特性可能与NVIDIA显卡存在差异,这可能导致性能瓶颈或效率降低。因此,DeepSeek需要针对国产GPU进行深度适配,包括优化其分布式计算框架和资源调度策略。
  4. 性能差距:尽管DeepSeek通过PTX优化等方式提升了对其他GPU的支持能力,但短期内其性能仍可能依赖于英伟达产品。例如,DeepSeek的模型压缩技术虽然降低了对高端硬件的依赖,但其性能提升仍需进一步优化以匹配国产GPU的能力。
  5. 生态建设不足:DeepSeek目前在生态系统建设上仍处于起步阶段,缺乏强有力的商业化落地策略和产品支持。这使得其在适配国产GPU时可能面临资源分配不足、技术推广困难等问题。
  6. 市场竞争与合作压力:DeepSeek在适配国产GPU的过程中,可能会面临来自摩尔线程等国产厂商的竞争压力。这些厂商可能通过提供本土化算力解决方案来争夺市场份额,而DeepSeek需要在技术合作和市场推广中找到平衡点。
  7. 长期依赖问题:尽管DeepSeek正在逐步减少对英伟达GPU的依赖,但短期内英伟达产品仍是其最优选择。因此,在适配国产GPU的过程中,DeepSeek需要平衡短期性能需求与长期技术自主化的战略目标。
  8. 政策与环境影响:中美技术竞争背景下,DeepSeek可能受到美国出口管制政策的影响。这种政策限制可能迫使DeepSeek加速适配国产GPU的步伐,但同时也增加了其技术研发和市场推广的不确定性。

DeepSeek在适配国产GPU过程中面临的主要挑战包括技术开放性维护、数据安全保障、硬件兼容性、性能差距、生态建设不足、市场竞争与合作压力、长期依赖问题以及政策与环境影响。

DeepSeek与国产GPU合作的具体案例和成效如何?

DeepSeek与国产GPU的合作主要体现在其最新版本DeepSeek-V3的推出和优化上,这一合作在技术、市场和生态方面展现了显著成效。

具体案例与成效

1. DeepSeek-V3的推出与性能

DeepSeek-V3是DeepSeek推出的最新版本,拥有671B参数和37B激活参数,通过在14.8T高质量token上的预训练,其性能达到了国际顶尖水平,与GPT-4o、Claude 3.5 Sonnet等模型相当。这一版本在知识类任务、长文本处理、代码处理、数学竞赛和中文教育评测中表现出色,尤其在响应速度上实现了飞跃,从每代版本前的20个token提升至30个token。

2. 硬件适配与成本优化

DeepSeek-V3通过算法、框架和硬件的协同优化,显著降低了训练成本。例如,在使用2048块GPU时,仅耗时不到280万个GPU小时,总成本为557.6万美元,相比其他开源模型如Llama 3.1 405B的训练成本(3080万GPU小时)大幅减少。此外,DeepSeek还支持AMD的Instinct MI300X GPU,并通过Sglint团队的合作,使其能够在英伟达和AMD的硬件上运行。

3. 国产GPU的支持与合作

DeepSeek与国产GPU厂商摩尔线程展开合作,利用其国产算力解决方案优化算法并适配硬件。这种合作不仅降低了对国际厂商的依赖,还推动了国产AI技术的发展。此外,DeepSeek还支持昇腾平台,进一步提升了推理效率和算力性能。

4. 开源策略与生态建设

DeepSeek实施开源免费策略,通过开源DeepSeek-V3模型,降低了使用门槛,推动了AI生态系统的建设。这一策略不仅吸引了全球开发者和研究人员的关注,还提升了DeepSeek在全球AI领域的竞争力。

5. 行业认可与市场影响

DeepSeek-V3的推出得到了行业内的高度认可。例如,A16z合伙人认为DeepSeek是美国顶尖大学研究人员首选的模型。此外,DeepSeek还被多家企业采用,如富士康在郑州工厂部署了基于DeepSeek技术的质检设备,质检缺陷率达到了99.9997%,展示了DeepSeek在实际应用中的价值。

面临的挑战与未来展望

尽管DeepSeek与国产GPU的合作取得了显著成效,但仍面临一些挑战:

1. 技术开放性与兼容性问题

在适配国产GPU的过程中,可能会遇到技术开放性和兼容性的问题。这需要DeepSeek与国产GPU厂商持续优化合作机制。

2. 生态兼容性与稳定性

国产GPU在算力和软件生态方面仍存在与国际领先产品之间的差距。因此,DeepSeek需要克服这些技术瓶颈,建立深度协同机制。

3. 数据安全与合规性

在国产化过程中,数据安全和合规性是重要的考量因素。DeepSeek需确保其技术方案符合相关法律法规的要求。

总结

DeepSeek与国产GPU的合作通过推出DeepSeek-V3模型、优化算法和硬件适配、降低训练成本以及实施开源策略等多方面取得了显著成效。这一合作不仅提升了国产AI技术的竞争力,还推动了AI生态系统的建设。

国产GPU技术的发展对全球AI领域的影响是什么?

国产GPU技术的发展对全球AI领域的影响主要体现在以下几个方面:

1. 推动国产替代,减少对国际技术的依赖

随着国际形势的变化,例如台积电暂停向中国大陆AI芯片客户提供先进制程工艺的AI/GPU芯片供应,国产GPU面临更大的自主研发压力。然而,这也为国产GPU企业提供了新的机遇。例如,摩尔线程通过自主研发全功能GPU,展示了其技术实力,并计划上市融资,这标志着国产GPU正逐步走向技术自立自强。此外,国产GPU的崛起也受到政策支持,例如中国科协提出“高性能自主可控GPU芯片”的研发需求,进一步推动了国产GPU的技术发展。

2. 提升AI算力基础设施能力

GPU作为AI算力的核心基础设施,在AI训练和推理中扮演着重要角色。目前,全球GPU市场由英特尔、英伟达和AMD三家公司主导,其中英伟达凭借CUDA生态系统占据绝对优势。然而,国产GPU如景嘉微、壁仞科技等正在加速追赶,通过持续的技术创新和生态建设,逐步缩小与国际领先水平的差距。例如,景嘉微推出的高性能智算芯片已应用于AI推理、训练及科学计算等领域。

3. 促进AI产业链的完善与升级

国产GPU的发展不仅提升了AI算力基础设施的能力,还推动了相关上下游产业链的完善。例如,中国电信联合国产芯片厂商打造信创大模型训练平台,支持AI大模型的发展。此外,国内企业在高性能计算、人工智能和大数据等领域的快速发展,也进一步推动了国产GPU市场的扩展。

4. 应对国际竞争与挑战

尽管国产GPU在性能和技术上仍与国际巨头存在差距,但其崛起对全球AI领域具有重要意义。例如,英伟达和AMD长期占据全球GPU市场的主导地位,但国产GPU的快速发展正在改变这一格局。据预测,到2025年,国产GPU市场规模将达到458亿元人民币。此外,国产GPU厂商如摩尔线程、壁仞科技等正在通过技术创新和生态建设,逐步缩小与国际巨头的差距。

5. 助力中国AI产业的自主可控

国产GPU的发展对于中国AI产业的自主可控具有重要意义。例如,华为昇腾、寒武纪、海光信息等国内厂商在AI芯片领域的崛起,有助于缓解美国科技封锁带来的影响。此外,国产GPU的崛起也为国内AI算力需求提供了更强大的支持,例如在超算中心建设和行业产业升级中发挥了重要作用。

6. 推动全球AI市场格局变化

随着国产GPU市场的快速增长,预计到2025年全球GPU市场规模将达到4610.2亿美元,年复合增长率为28.6%。国产GPU的崛起不仅提升了中国在全球AI领域的竞争力,还可能改变全球AI市场的竞争格局。例如,国产GPU厂商可能在某些细分市场中占据更大的份额,并逐步形成与国际巨头竞争的局面。

总结

国产GPU技术的发展对全球AI领域的影响是深远的。一方面,它推动了国产替代进程,减少了对国际技术的依赖;另一方面,它提升了AI算力基础设施的能力,并促进了相关产业链的完善与升级。同时,国产GPU的崛起也对全球AI市场格局产生了重要影响,为中国的AI产业自主可控提供了坚实的基础。

avatar-img
0會員
530內容數
本专栏将探讨如何通过技术进步、消费者行为变化和全球市场动态来塑造这些新模式。我们将深入研究像共享经济、数字化转型和可持续发展战略等趋势,探讨它们如何重塑企业战略和消费者体验。此外,我们还将讨论这些新模式如何在不同行业中被应用,以及它们对未来商业环境的潜在影响。
留言0
查看全部
avatar-img
發表第一個留言支持創作者!
你可能也想看
Google News 追蹤
Thumbnail
大家好,我是woody,是一名料理創作者,非常努力地在嘗試將複雜的料理簡單化,讓大家也可以體驗到料理的樂趣而我也非常享受料理的過程,今天想跟大家聊聊,除了料理本身,料理創作背後的成本。
Thumbnail
哈囉~很久沒跟各位自我介紹一下了~ 大家好~我是爺恩 我是一名圖文插畫家,有追蹤我一段時間的應該有發現爺恩這個品牌經營了好像.....快五年了(汗)時間過得真快!隨著時間過去,創作這件事好像變得更忙碌了,也很開心跟很多厲害的創作者以及廠商互相合作幫忙,還有最重要的是大家的支持與陪伴🥹。  
Thumbnail
嘿,大家新年快樂~ 新年大家都在做什麼呢? 跨年夜的我趕工製作某個外包設計案,在工作告一段落時趕上倒數。 然後和兩個小孩過了一個忙亂的元旦。在深夜時刻,看到朋友傳來的解籤網站,興致勃勃熬夜體驗了一下,覺得非常好玩,或許有人玩過了,但還是想寫上來分享紀錄一下~
Thumbnail
大家好,我是woody,是一名料理創作者,非常努力地在嘗試將複雜的料理簡單化,讓大家也可以體驗到料理的樂趣而我也非常享受料理的過程,今天想跟大家聊聊,除了料理本身,料理創作背後的成本。
Thumbnail
哈囉~很久沒跟各位自我介紹一下了~ 大家好~我是爺恩 我是一名圖文插畫家,有追蹤我一段時間的應該有發現爺恩這個品牌經營了好像.....快五年了(汗)時間過得真快!隨著時間過去,創作這件事好像變得更忙碌了,也很開心跟很多厲害的創作者以及廠商互相合作幫忙,還有最重要的是大家的支持與陪伴🥹。  
Thumbnail
嘿,大家新年快樂~ 新年大家都在做什麼呢? 跨年夜的我趕工製作某個外包設計案,在工作告一段落時趕上倒數。 然後和兩個小孩過了一個忙亂的元旦。在深夜時刻,看到朋友傳來的解籤網站,興致勃勃熬夜體驗了一下,覺得非常好玩,或許有人玩過了,但還是想寫上來分享紀錄一下~