基于DeepSeek国鑫服务器在千亿参数级模型推理场景中效率最高能获得35%的提升

当前位置：首页 > 新闻中心 > 基于DeepSeek国鑫服务器在千亿参数级模型推理场景中效率最高能获得35%的提升

基于DeepSeek国鑫服务器在千亿参数级模型推理场景中效率最高能获得35%的提升

更新时间：2025-02-06

GPU服务器的 NCCL（NVIDIA Collective Communications Library）性能最高提升35%，整机NCCL带宽最高达26GB，AI推理效率与能效比实现跨越式突破。并且，基于DeepSeek、llama2/3大模型实测验证，国鑫服务器在千亿参数级模型推理场景中效率最高能获得35%的提升，TCO（总体拥有成本）降低近30%。这一成果不仅刷新了国产服务器在AI算力领域的性能标杆，也意味着国鑫为大模型厂商的大模型推理的‘最后一公里’提供了关键助力。

垂直优化突破极限，NCCL性能直击大模型痛点

在AI大模型训练与推理中，多卡GPU间的通信效率是制约算力释放的核心瓶颈。Gooxi研发团队针对NCCL底层通信协议、硬件拓扑结构与数据流调度机制展开全栈重构，通过动态负载均衡算法与低延迟通信路径优化。这一突破直接解决了大规模分布式训练中常见的“通信墙”问题，使千亿参数模型训推性能最高提升35%，为DeepSeek等超大规模模型的快速迭代提供了硬件级加速引擎。

DeepSeek大模型实测：推理效率/能效双飞跃

为验证技术突破的实际价值，国鑫研发团队在DeepSeek 大模型上进行了全场景压力测试。结果显示：推理吞吐量最高提升35%：在相同硬件配置下，国鑫服务器支持每秒处理的Tokens数量显著增加，实时推理响应速度逼近毫秒级；

能效比优化35%：通过智能功耗调控算法与通信负载优化，单次推理任务能耗降低超1/3，助力企业实现绿色算力转型；长上下文任务优势凸显：在DeepSeek 擅长的长文本生成、复杂逻辑推理场景中，通信延迟降低使模型输出连贯性提升15%，用户体验显著优化。

TCO降幅可达30%：性能提升直接转化为企业降本增效——以单台服务器支撑的日均推理请求量计算，TCO降幅可达30%，这对规模化AI应用落地具有战略意义。”

上一篇：戴尔R960服务器4路CPU服务器机王今天看下

下一篇：浪潮AI服务器为deepseek报价护航

分享到：微信更多

本文责任编辑【DELL服务器销售中心】

戴尔服务器专卖 - 提供DELL服务器报价及解决方案

基于DeepSeek国鑫服务器在千亿参数级模型推理场景中效率最高能获得35%的提升

DellEMC服务器

DellEMC存储

超聚变服务器

关于我们

在线客服