136-9928-0061 189-1195-6537
当前位置:首页 > 新闻中心 > 基于DeepSeek国鑫服务器在千亿参数级模型推理场景中效率最高能获得35%的提升

基于DeepSeek国鑫服务器在千亿参数级模型推理场景中效率最高能获得35%的提升

更新时间:2025-02-06

GPU服务器的 NCCL(NVIDIA Collective Communications Library)性能最高提升35%,整机NCCL带宽最高达26GB,AI推理效率与能效比实现跨越式突破。并且,基于DeepSeek、llama2/3大模型实测验证,国鑫服务器在千亿参数级模型推理场景中效率最高能获得35%的提升,TCO(总体拥有成本)降低近30%。这一成果不仅刷新了国产服务器在AI算力领域的性能标杆,也意味着国鑫为大模型厂商的大模型推理的‘最后一公里’提供了关键助力。

 


垂直优化突破极限,NCCL性能直击大模型痛点

 

 

 

 

在AI大模型训练与推理中,多卡GPU间的通信效率是制约算力释放的核心瓶颈。Gooxi研发团队针对NCCL底层通信协议、硬件拓扑结构与数据流调度机制展开全栈重构,通过动态负载均衡算法与低延迟通信路径优化。这一突破直接解决了大规模分布式训练中常见的“通信墙”问题,使千亿参数模型训推性能最高提升35%,为DeepSeek等超大规模模型的快速迭代提供了硬件级加速引擎。

 



 

 


DeepSeek大模型实测:推理效率/能效双飞跃

 

为验证技术突破的实际价值,国鑫研发团队在DeepSeek 大模型上进行了全场景压力测试。结果显示:推理吞吐量最高提升35%:在相同硬件配置下,国鑫服务器支持每秒处理的Tokens数量显著增加,实时推理响应速度逼近毫秒级;

能效比优化35%:通过智能功耗调控算法与通信负载优化,单次推理任务能耗降低超1/3,助力企业实现绿色算力转型;长上下文任务优势凸显:在DeepSeek 擅长的长文本生成、复杂逻辑推理场景中,通信延迟降低使模型输出连贯性提升15%,用户体验显著优化。

TCO降幅可达30%:性能提升直接转化为企业降本增效——以单台服务器支撑的日均推理请求量计算,TCO降幅可达30%,这对规模化AI应用落地具有战略意义。”

上一篇:戴尔R960服务器4路CPU服务器机王今天看下
下一篇:浪潮AI服务器为deepseek报价护航
分享到: 微信 更多

本文责任编辑【DELL服务器销售中心


    关于我们

      • 联系方式:
      • 手机:18911956537
      • 官网:www.jxwtdell.com
      • 地址:北京市海淀区海淀路19-1号中成大厦
DELL服务器销售中心 戴尔服务器销售中心
展开