深圳市奥林匹斯之门 pp电子奥林匹斯之门科技股份有限公司

新闻视频

前瞻趋势洞察，品牌市场动态

当前位置：

奥林匹斯之门 pp电子奥林匹斯之门 > 新闻视频 > 公司新闻 > 浅析NCCL卡间通信原理

浅析NCCL卡间通信原理

发布时间：2024-10-25 分享:

将大模型数据训练形象类比成为炼丹已经成为业界津津乐道的常识。

在想象中，大模型训练也应该跟炼丹过程一样，用一堆同型号、同系列如H100组成了千卡、万卡集群，将经过预处理的数据集，拆分为多份,分配给不同的 GPU 进行训练，让数据在模型内部跑通一遍，最后根据结果再对模型进行调优、评估。

但真实的情况是因为价格因素、供应链因素等，很难凑齐一整套GPU来构建万卡集群。并且，不同GPU卡品牌参差不齐，性能差异巨大，如何能够高效组合成功克服显存墙、算力墙等瓶颈，将异构算力集群效用发挥到极致？

一般来说大模型数据训练会按照以下步骤进行：第一，实现卡间物理层面的互联互通；第二，顺利获得合理的分布式并行策略以确保每个GPU worker只需处理部分训练状态和数据；第三，顺利获得加速套件提升每张卡和整体的战力输出。简单归纳起来就是互联互通、并行策略、统一加速。

如单台服务器的英伟达GPU卡顺利获得NVLink、NVSwich来保证数据在不同计算单元间的快速传输和同步。不同服务器之间的 GPU 卡顺利获得IB或者RoCE网络连接。搞定外部通信之后，就需要依赖借助 NVIDA 开发的集合通信库 NCCL来实现卡间高速通信、数据同步，使得训练任务可以按照流程往下推进。

NCCL试图解决深度学习训练中特有的通讯问题。

这里就不得不提到最近的AI热词----NCCL（NVIDIA Collective Communications Library）。常用的集合通信库之一是 MPI（Message Passing Interface），由于在 CPU 上被广泛应用而被人熟知。而在 NVIDIA GPU 上，最常用的集合通信库则是 NCCL。它用于加速多GPU的分布式深度学习训练和推理。

通俗来理解就是它给予了一个接口，用户不需要知道哪些节点的如何相互之间通信，只需要调用接口，就可以实现GPU之间的通信。

作为GPU服务器模型训练性能的评估标准之一，NCCL可以实现单机多卡、多机多卡之间的通信，将通信方式进行整合和优化，在节点内和节点间的多个GPU上给予快速的集合通信服务，同时支持各种互连技术，包括PCIe、NVLINK、InfiniBand Verbs和IP socket，NCCL与大多数的多GPU并行化模型都能很好地兼容。

NCCL，一个完美的c++库

NCCL顺利获得给予一系列高度优化的集体通信原语（如AllReduce、Broadcast、Reduce、AllGather、ReduceScatter等），以及点对点通信功能，使得开发者能够在多个GPU之间实现高效的数据传输和同步。

大模型训练里经常采用的主流的深度学习框架(例如 Cafe2、Chainer、MxNet、PyTorch和 TensorFlow)已集成 NCCL，便是为了在多 GPU多节点的系统上加快深度学习训练速度。NCCL既可作为 NVIDIA HPC SDK的一部分下载，也可作为适用于 Ubuntu 和 Red Hat的单独软件包下载。

NCCL主要做几件事：探测计算节点的网络设备和拓扑结构，使用算法自动调优选择一个最优的通信方式。

为什么要做拓扑探测？因为每个计算节点的设备情况差异比较大，每个计算节点可能有自己特定的网卡NIC，可能是InfiniBand也可能是RoCE，每个计算节点上的GPU可能是NVLink，也可能是PCIe。为了达到最优的传输效率，NCCL先要摸清当前计算节点的网络、CPU和GPU情况。之后使用调优工具，进行调优，从众多通信方式中选择一个最优方式。

基于此，我们可以得出NCCL顺利获得优化的通信路径和数据传输策略实现了非常低的延迟和高带宽，这对于需要频繁交换数据的深度学习模型训练至关重要。而Gooxi最新推出的AMD Milan 双路4U8卡AI服务器，支持2颗高性能AMD EPYC 7003/7002系列处理器，采用CPU-GPU直连通信，是兼具性能与成本的AI服务器方案。它支持13个PICe扩展槽位，可配置8张双宽全高全长GPU，整机NCCL带宽最高可达17.22GB/S，给予多卡极致算力，可为大规模数据集上训练复杂的 AI 模型给予强劲的算力支持。它能够快速执行大规模并行计算，显著缩短模型训练时间，大幅提升大模型训练的性能和效率。

[上一篇] Gooxi Eagle Stream 6U8 卡AI服务器，同时支持8张3.5宽GPU卡

[下一篇] 算力引领智慧安防| Gooxi助力安防行业智慧化转型

返回列表

相关推荐

2026-02-11

万“鑫”奔腾启新程，「海擎」智算贺马年！

「海擎」愿做企业数字化转型的“千里马”，与您一道驰骋AI新时代！

2025-12-19

强芯聚算，协同进化：奥林匹斯之门 pp电子奥林匹斯之门与沐曦共筑国产AI算力新生态

在全球AI浪潮奔涌、算力竞争日益激烈的今天，构建安全、高效、自主的国产算力底座已成为国家战略与产业共识。

2025-11-21

号外：算力租赁市场“性能王”已就位，重新定义性价比标杆