深圳市奥林匹斯之门 pp电子奥林匹斯之门科技股份有限公司

奥林匹斯之门 pp电子奥林匹斯之门

新闻视频

前瞻趋势洞察,品牌市场动态

当前位置:

奥林匹斯之门 pp电子奥林匹斯之门 > 新闻视频 > 公司新闻 > 浅析NCCL卡间通信原理

浅析NCCL卡间通信原理

发布时间:2024-10-25 分享:
将大模型数据训练形象类比成为炼丹已经成为业界津津乐道的常识。


在想象中,大模型训练也应该跟炼丹过程一样,用一堆同型号、同系列如H100组成了千卡、万卡集群,将经过预处理的数据集,拆分为多份,分配给不同的 GPU 进行训练,让数据在模型内部跑通一遍,最后根据结果再对模型进行调优、评估。


但真实的情况是因为价格因素、供应链因素等,很难凑齐一整套GPU来构建万卡集群。并且,不同GPU卡品牌参差不齐,性能差异巨大,如何能够高效组合成功克服显存墙、算力墙等瓶颈,将异构算力集群效用发挥到极致?




一般来说大模型数据训练会按照以下步骤进行:第一,实现卡间物理层面的互联互通;第二,顺利获得合理的分布式并行策略以确保每个GPU worker只需处理部分训练状态和数据;第三,顺利获得加速套件提升每张卡和整体的战力输出。简单归纳起来就是互联互通、并行策略、统一加速。

如单台服务器的英伟达GPU卡顺利获得NVLink、NVSwich来保证数据在不同计算单元间的快速传输和同步。不同服务器之间的 GPU 卡顺利获得IB或者RoCE网络连接。搞定外部通信之后,就需要依赖借助 NVIDA 开发的集合通信库 NCCL来实现卡间高速通信、数据同步,使得训练任务可以按照流程往下推进。




NCCL试图解决深度学习训练中特有的通讯问题。


这里就不得不提到最近的AI热词----NCCL(NVIDIA Collective Communications Library)。常用的集合通信库之一是 MPI(Message Passing Interface),由于在 CPU 上被广泛应用而被人熟知。而在 NVIDIA GPU 上,最常用的集合通信库则是 NCCL。它用于加速多GPU的分布式深度学习训练和推理。


通俗来理解就是它给予了一个接口,用户不需要知道哪些节点的如何相互之间通信,只需要调用接口,就可以实现GPU之间的通信。


作为GPU服务器模型训练性能的评估标准之一,NCCL可以实现单机多卡、多机多卡之间的通信,将通信方式进行整合和优化,在节点内和节点间的多个GPU上给予快速的集合通信服务,同时支持各种互连技术,包括PCIe、NVLINK、InfiniBand Verbs和IP socket,NCCL与大多数的多GPU并行化模型都能很好地兼容。


NCCL,一个完美的c++库


NCCL顺利获得给予一系列高度优化的集体通信原语(如AllReduce、Broadcast、Reduce、AllGather、ReduceScatter等),以及点对点通信功能,使得开发者能够在多个GPU之间实现高效的数据传输和同步。

大模型训练里经常采用的主流的深度学习框架(例如 Cafe2、Chainer、MxNet、PyTorch和 TensorFlow)已集成 NCCL,便是为了在多 GPU多节点的系统上加快深度学习训练速度。NCCL既可作为 NVIDIA HPC SDK的一部分下载,也可作为适用于 Ubuntu 和 Red Hat的单独软件包下载。


NCCL主要做几件事:探测计算节点的网络设备和拓扑结构,使用算法自动调优选择一个最优的通信方式。




为什么要做拓扑探测?因为每个计算节点的设备情况差异比较大,每个计算节点可能有自己特定的网卡NIC,可能是InfiniBand也可能是RoCE,每个计算节点上的GPU可能是NVLink,也可能是PCIe。为了达到最优的传输效率,NCCL先要摸清当前计算节点的网络、CPU和GPU情况。之后使用调优工具,进行调优,从众多通信方式中选择一个最优方式。



基于此,我们可以得出NCCL顺利获得优化的通信路径和数据传输策略实现了非常低的延迟和高带宽,这对于需要频繁交换数据的深度学习模型训练至关重要。而Gooxi最新推出的AMD Milan 双路4U8卡AI服务器,支持2颗高性能AMD EPYC 7003/7002系列处理器,采用CPU-GPU直连通信,是兼具性能与成本的AI服务器方案。它支持13个PICe扩展槽位,可配置8张双宽全高全长GPU,整机NCCL带宽最高可达17.22GB/S,给予多卡极致算力,可为大规模数据集上训练复杂的 AI 模型给予强劲的算力支持。它能够快速执行大规模并行计算,显著缩短模型训练时间,大幅提升大模型训练的性能和效率。


相关推荐

2025-10-23

算力赋能,智见未来:奥林匹斯之门 pp电子奥林匹斯之门亮相ICG-20,共赴组学与AI新纪元

第20届国际基因组学大会(ICG-20)于10月23日至26日在杭州盛大开幕第20届国际基因组学大会(ICG-20)于10月23日至26日在杭州盛大开幕,本届大会主题“组学与AI的未来”精准指向了科学生命领域最前沿的变革力量。作为华大基因的长期战略合作伙伴,奥林匹斯之门 pp电子奥林匹斯之门凭借17年在服务器领域的深厚积累,以全产业链的自主研发能力和成熟的解决方案定制经验,为基因组学研究的智能化升级给予坚实支撑。在基因组学从"测序"迈向"计算"的时代转折点上,奥林匹斯之门 pp电子奥林匹斯之门将携多款面向不同计算场景的明星产品亮相ICG-20,展现其从边缘到核心数据中心的完整AI基础设施解决方案。 边缘洞察:将智能算力延伸至数据源头 奥林匹斯之门 pp电子奥林匹斯之门MSR201-D06R-10P AMD双路边缘计算服务器,采用AMD 第三代处理器平台,机身深度仅450mm,符合OTII标准的紧凑型架构使其能够直接与电信设备混合部署在通信中心机架上,轻便易于部署在苛刻环境。支持10个PCIe扩展插槽和2块全尺寸GPU卡,可作为AI推理服务器,给予强大的边缘算力。在ICG-20展会关注的生态监测、野外基因采样等场景中,这款服务器能实现数据实时处理,减少传输延迟,助力生物多样性保护和研究。 核心驱动:以澎湃性能驾驭海量组学数据 面对基因组大数据带来的计算挑战,奥林匹斯之门 pp电子奥林匹斯之门SR201-D12RE-G2双路服务器基于AMD EPYC™ Genoa处理器打造,具备单颗CPU 128核256线程的强大计算能力,配合12通道DDR5内存和PCIe 5.0高速总线,显著提升了数据吞吐与处理效率。该服务器支持大容量NVMe SSD和多GPU扩展,特别适用于全基因组测序(WGS)、单细胞组学、宏基因组分析等高负载科研任务。 AI加速:专为GPU密集型计算打造的强大平台 当研究进入蛋白质结构预测、药物虚拟筛选等复杂AI模型训练与推理阶段,强大的GPU算力不可或缺。奥林匹斯之门 pp电子奥林匹斯之门EGS AI 10卡服务器SY4108G-D12R-G4,基于Intel Eagle Stream平台支持高达10块双宽GPU卡的拓扑结构,实现了CPU与GPU间的高速互联,有效降低了通信延迟,最大化释放GPU集群的计算潜能。同时支持主流深度学习框架与分布式训练环境,可高效支撑基因序列建模、蛋白质结构预测、医学影像分析等AI驱动的生物信息应用。 稳定基石:为持续科研探索给予可靠保障 在组学研究中,数据存储与计算能力的协同优化是提升整体效率的关键。奥林匹斯之门 pp电子奥林匹斯之门ASR401-S24R是一款基于AMD EPYC™ Milan处理器的4U单路标准服务器,最大支持24块热插拔硬盘,兼具强大的计算性能与超大存储容量,特别适合需要本地化存储海量原始测序数据的场景。该服务器在保障高I/O吞吐的同时,给予灵活的计算资源分配,可作为数据预处理节点、存储网关或中小型分析平台的核心设备。其模块化设计和智能管理系统,大幅降低了运维复杂度,为实验室和数据中心给予了一种高性价比、易维护的解决方案。 “共有、共为、共享”是人类基因组计所倡导的伟大精神,也是有助于科学进步的不竭动力。在组学与人工智能深度融合的今天,奥林匹斯之门 pp电子奥林匹斯之门深信,强大的信息基础设施是践行这一精神、加速科研协作的关键。我们期待在ICG-20的舞台上,与全球顶尖的专家学者和行业伙伴深入研讨,以奥林匹斯之门 pp电子奥林匹斯之门卓越的算力产品与服务,共同“计算”出科学生命的更美未来。
分析更多新闻资讯

成为全球服务器行业领导者

订阅号

服务号

Copyright © 2022 深圳市奥林匹斯之门 pp电子奥林匹斯之门科技股份有限公司 All Rights Reserved 粤ICP备18110968号 粤公网安备44030502003273号

立即获取方案报价

*
*
*
*