GPU服务器的 NCCL(NVIDIA Collective Communications Library)性能最高提升35%,整机NCCL带宽最高达26GB,AI推理效率与能效比实现跨越式突破。并且,基于DeepSeek、llama2/3大模型实测验证,国鑫服务器在千亿参数级模型推理场景中效率最高能获得35%的提升,TCO(总体拥有成本)降低近30%。这一成果不仅刷新了国产服务器在AI算力领域的性能标杆,也意味着国鑫为大模型厂商的大模型推理的‘最后一公里’提供了关键助力。
垂直优化突破极限,NCCL性能直击大模型痛点
在AI大模型训练与推理中,多卡GPU间的通信效率是制约算力释放的核心瓶颈。Gooxi研发团队针对NCCL底层通信协议、硬件拓扑结构与数据流调度机制展开全栈重构,通过动态负载均衡算法与低延迟通信路径优化。这一突破直接解决了大规模分布式训练中常见的“通信墙”问题,使千亿参数模型训推性能最高提升35%,为DeepSeek等超大规模模型的快速迭代提供了硬件级加速引擎。
DeepSeek大模型实测:推理效率/能效双飞跃
为验证技术突破的实际价值,国鑫研发团队在DeepSeek 大模型上进行了全场景压力测试。结果显示:推理吞吐量最高提升35%:在相同硬件配置下,国鑫服务器支持每秒处理的Tokens数量显著增加,实时推理响应速度逼近毫秒级;
能效比优化35%:通过智能功耗调控算法与通信负载优化,单次推理任务能耗降低超1/3,助力企业实现绿色算力转型;长上下文任务优势凸显:在DeepSeek 擅长的长文本生成、复杂逻辑推理场景中,通信延迟降低使模型输出连贯性提升15%,用户体验显著优化。
TCO降幅可达30%:性能提升直接转化为企业降本增效——以单台服务器支撑的日均推理请求量计算,TCO降幅可达30%,这对规模化AI应用落地具有战略意义。”