DeepSeek指路算力优化路径，国产AI有望实现生态闭环-新闻动态-北京科技股份有限公司

DeepSeek指路算力优化路径，国产AI有望实现生态闭环

时间：2025-02-12 08:38:45 浏览：504

·DeepSeek同时考虑算法精度和系统效率。除了极致的底层优化，协同优化也可能让大模型在利用国产算力时达到甚至超越英伟达GPU的性能。从最顶层的产品应用到底层的基础设施，大模型的每一个层级都已经形成了非常好的生态，每一个层级上都存在着优化空间。

·未来推理算力或将有2-3个数量级的提升。训练算力需求仍会有所增长，总体来看，算力需求会激增，成本会更高，但算力成本还有巨大压缩空间，单位算力成本将下降，效率得到提升。

“原来大家觉得训练模型只需要招一批算法工程师，再融一大笔钱，买一大批卡，这事就能干了。但现在不是了，现在还需要招一批懂(dǒng)系(xì)统的人，这是AI行业的一个很大变化。”上海交通大学长聘教轨副教授、无问芯穹首席科学家戴国浩日前在接受澎湃科技采访时表示，DeepSeek使用的训练服务算力并没有随模型尺寸等比例成倍增加，而是通过底层优化释放底层硬件性能、软硬件协同创新“压榨”算力，大模型“炼制”开始追求极致性价比。

利用2048张H800 GPU，预估不到两个月时间训练DeepSeek V3。H800每小时每卡2美元租赁成本，训练成本550万美元左右，其中不包括前期探索模型架构、消融实验等开销。戴国浩表示，DeepSeek打响生态闭环第一枪，对国产算力优化提出更清晰的路径。总体来看，算力需求会激增，推理(lǐ)算力或将有2-3个数量级的提升，算力成本会更高，但算力成本还有巨大压缩空间，单位算力成本将下降，效率得到提升。

上海交通大学长聘教轨副教授、无问芯穹首席科学家戴国浩。

底层优化释放底层硬件性能

拆解DeepSeek的技术报告，相对于模型架构、预训练方法和后训练方法，DeepSeek着重介绍系统架构。相比之下，国外开源模型的公开技术报告中对于系统架构的介绍篇幅较少。

戴国浩表示，DeepSeek的极致性价比来自于两大类优化，一是了解硬件细节，实现极致的底层优化；二是打通软件硬件，实现联合协同优化。前者基于确定性的算法模型及底层硬件，开展通信优化、内存优化，这些优化不改变任何程序执行结果。后者如混合精度的量化、对底层硬件的修改，扩大系统的优化空间。

例如在通信优化上，DeepSeek采用双向流水线机制，让计算和通信将近100%重叠，实现更大的专家并行，使得模型能够像流水线一样“边算边传”，这被认为是使用有限资源训练更大模型的有效手段。在底层优化上，PTX的优化使得系统和模型可以更好地释放底层硬件性能，这也是DeepSeek能够更精细控制底层硬件、实现“边算边传”的重要原因。

训练一个大模型，首先要有GPU。但开发者并不需要关注底层硬件的模样，只需要通过Python等高层次语言或英伟达CUDA等硬件接口进行编程，最终调用底层的GPU。而能够直接和底层硬件发生交互的PTX一般被隐藏在CUDA的驱动中，PTX是比CUDA更底层的硬件接口编程语言。越接近底层的语言对硬件的利用效率越高，在同样硬件能力下实现更精细的通信任务管理，将最费时的跨界点通信效率提升60%，跑出效果更好的模型。

PTX编程并非行业机密，但此前几乎所有大模型算法工程师不会接触到这一层语言。因此，如果能够编程和调用PTX，就可以更好地调用底层(céng)硬(yìng)件(jiàn)。不(bù)过(guò)，戴(dài)国(guó)浩(hào)解(jiě)释(shì)，这(zhè)并(bìng)不(bù)意(yì)味(wèi)着(zhe)绕(rào)过(guò)了(le)英(yīng)伟(wěi)达(dá)CUDA的(de)垄(lǒng)断(duàn)。从(cóng)编(biān)程(chéng)范(fàn)式(shì)来(lái)看(kàn)，DeepSeek在(zài)某(mǒu)些(xiē)代(dài)码(mǎ)上(shàng)绕(rào)过(guò)了(le)CUDA的(de)编(biān)程(chéng)，但(dàn)并(bìng)未(wèi)完(wán)全绕(rào)开(kāi)CUDA生(shēng)态(tài)。

软硬件协同创新“压榨”算力

“从最顶层的产品应用到底层的基础设施，大模型的每一个层级都已经形成了非常好的生态，每一个层级上都存在着优化空间。”戴国浩表示，除了极致的底层优化，协同优化也可能让大模型在利用国产算力时达到甚至超越英伟达GPU的性能。“原来的算法架构只考虑算法精度，大家觉得只要算法足够好就行了，但DeepSeek同时考虑算法精度和系统效率。”

例如英伟达H800集成了FP8计算单元，戴国浩表示，使用更低精度训练，理论上可带来2倍的计算加速和50%的显存降低。但由于低精度训练极易损失模型效果，以及大模型高昂的试错成本，开源社区中尚无项目实现大规模FP8预训练落地。而DeepSeek实现了FP8低比特训练出高质量模型，坚定“榨干”硬件所有潜力。

DeepSeek采用MLA（隐空间注意力计算机制）架构(gòu)和(hé)MoE（混合专家模型）架构，MLA架构可进一步降低推理消耗的内存。在模型训练过程中，MoE架构采用1个共享专家和256个路由专家，每个token激活8个路由专家。

据介绍，MoE架构训练超大模型，最大的挑战是负载均衡。DeepSeek引入一个专家偏(piān)见(jiàn)（expert bias），保(bǎo)证(zhèng)专(zhuān)家(jiā)负(fù)载(zài)均(jūn)衡(héng)，提(tí)升(shēng)集群(qún)效(xiào)率(lǜ)。专(zhuān)家(jiā)偏(piān)见(jiàn)只(zhǐ)影(yǐng)响(xiǎng)专(zhuān)家(jiā)路由(yóu)，不(bù)产(chǎn)生(shēng)任(rèn)何(hé)梯(tī)度(dù)影(yǐng)响(xiǎng)。专(zhuān)家(jiā)偏(piān)见(jiàn)动(dòng)态(tài)调(diào)整(zhěng)，如(rú)果某个专家过载，就会降低偏见，如果某个专家负载不足，就会增加偏见。DeepSeek采用MoE架构，又在算法和软件层面解决了MoE本身由于专家并行带来的通信开销问题，充分挖掘了算法、软件、硬件协同创新。

打响国产AI生态闭环第一枪

“无论是底层优化，还是协同优化，必须要对底层硬件和系统有非常深刻的理解，既要懂算法，又要懂硬件。”戴国浩表示，以PTX编程为例，这需要开发者清(qīng)晰(xī)了(le)解(jiě)英(yīng)伟(wěi)达(dá)的(de)硬(yìng)件(jiàn)是(shì)如(rú)何(hé)制(zhì)造(zào)的(de)，因(yīn)此(cǐ)门(mén)槛高，大模型公司少(shǎo)有(yǒu)对(duì)PTX编(biān)程(chéng)。业(yè)内(nèi)拥(yōng)有(yǒu)系(xì)统(tǒng)优(yōu)化(huà)能(néng)力(lì)的(de)团(tuán)队(duì)懂(dǒng)PTX编(biān)程(chéng)，但(dàn)模(mó)型(xíng)训(xun)练(liàn)本(běn)身(shēn)投(tóu)入(rù)大(dà)，难(nán)以(yǐ)持(chí)续(xù)优(yōu)化(huà)。

DeepSeek打响了第一枪，对国产算力优化提出(chū)了更清晰的路径。降低算力成本是国内发展大模型的核心之一。软硬件协同路径包含模型、系统、芯片等关键因素(sù)，在国外，这三者已经形成了完备的闭环生态。戴国浩表示，在以往的认知中，使用国外的芯片预训练、使用国外的模型做微调，得到的模型跟国外的闭源或开源模型相比总存在一定差距，国内的系统、芯片也难以形成闭环生态。但DeepSeek的出现使得国内的模型超越了国外的模型，软硬件协同降低(dī)了(le)算(suàn)力(lì)成(chéng)本，这套方法论可以打破现在的闭环生态瓶颈。

戴国浩说，DeepSeek在论文中单独用2页文字提出对于未来硬件设计的发展建议，进一步佐证了模型、系统、硬件的闭环路线。国外的闭环AI生态始终是一个同构的AI系统，其核心竞争力就在于CUDA-X的垂直整合能力。因此，他认为，未来国内AI发展要通过调动跨越软硬件和上下游生态，加大模型、芯片、系统协同优化和垂直打通，例如根据新一代模型架构来定义未来芯片的底层电路实现、根据国产AI系统的互联通信方式设计高效的混合专家模型架构。

“如何将国内的模型、系统和芯片形成自主可控的闭环，这是未来一定会发生的事。”戴国浩表示，DeepSeek的崛起对国产算力的发展是好消息。未来推理算力或将有2-3个数量级的提升。训练算力需求仍会有所增长。总体来看，算力需求会激增，成本会更高，但算力成本还有巨大压缩空间，单位算力成本将下降，效率得到提升。

戴国浩判断，未来大模型的发展趋势，一是继续国产化，二是极致的软硬件协同优化带来成本下降，提升模型训练和应用的极致性价比。性价比越高，算力需求量就越大，算力越吃紧。当前中国算力生态存在供不应求和供过于求的双重矛盾，中国特有的AI基础设施格局是多模型和多芯片，存在大量异构算力，需要把他们变得能用、好用，在使用闭环中形成硬件和算法的正向循环。戴国浩表示，要通过软硬协同和多元异构压榨算力，降低获取强大基座模型的成本，解决算力缺口，以有限算力实现国产模型能力赶超。