深圳市奥林匹斯之门 pp电子奥林匹斯之门科技股份有限公司

奥林匹斯之门 pp电子奥林匹斯之门

新闻视频

前瞻趋势洞察,品牌市场动态

当前位置:

奥林匹斯之门 pp电子奥林匹斯之门 > 新闻视频 > 公司新闻 > 浅析八卡GPU服务器互联技术

浅析八卡GPU服务器互联技术

发布时间:2024-11-06 分享:

要说如今市面上最火爆的AI服务器机型,那必定得是GPU八卡机。在实际运用过程中,八卡机器的多GPU并行计算能力能够快速处理大量的推理请求,为加速深度学习模型的训练和推理过程给予算力支持。除此之外它还拥有强大的图形处理能力,实时渲染游戏画面。正是因为其在 AI、推理、人工智能和云游戏等领域的卓越表现,在一众的机型中脱颖而出成为热门机型。

选择一款八卡机第一时间面临的问题就是:选择直连机型还是拓展机型。众多周知,八卡GPU服务器通常配备更强的主板和更多的PCIe通道,以支持多卡同时高速数据传输。由于CPU自带的PCIE lan是固定且有限的,就会导致在实际应用过程的时候一些GPU卡没有多余的通信通道可用。


根据市面上常规的八卡机型,可以分为几下几种:




一、标准GPU服务器的CPU-GPU互联


▎直连机型


以Gooxi AMD Milan平台4U8卡AI服务器为例:它内部搭载2颗AMD第三代处理器,分为128个lan,CPU与CPU中间顺利获得三条Xgmi联通,因而整机可给予128x2-(32x3)=160条PCIE lane。8张双宽GPU占用了16x8=128条PCIE通道后,还有剩余的32条可供其他网卡、raid卡等部件使用,因而它采用直连方式。





▎扩展机型


以Gooxi 的Intel Whitley平台4U10卡AI服务器为例:它内部搭载2颗第三代英特尔至强可扩展处理器,分别为64个lan,整机可给予64x2=128个PClElane,而常用的8张双宽GPU卡往往会占用掉全部的PClE lan(16×8=128),更有甚者在使用10GPU卡的情况下,PClE lan的占用更是达到了160 lan(16×10=160)。因而原本的PCIE通道不够用之后就不得不采用2个Switch芯片进行信号扩展。所以当使用扩展机型时,需要从每颗CPU各调出16个lan连接到Switch芯片,然后Switch芯片再把信号进行增强和放大处理,各扩展出5个PClE×16的槽(共10个PClE×16的槽),而CPU因为各自只调用了16个lan,所以还剩下48个lan(共96个lan)可以扩展出其他的×16或×8的PClE供网卡、RAID卡等扩展卡,或是NVMe硬盘使用。对比业内其他同平台的4U10卡服务器,Gooxi 的Intel Whitley平台,在满足10张GPU卡后,仍拥有多至8个PCIe扩展槽供网卡和RAID卡等使用,更能满足用户复杂多样的应用场景。





二、Switch连接的三种拓扑形式


当采用switch连接的时候,我们又会面临几种选择,是将连接的switch挂在一颗CPU上,还是分别挂在不同CPU上呢?因而产生了三种不同拓扑组合,也就是我们经常看见的balance、common、cascade三种架构。一般来说大部分厂商都是默认的balance,即左右平衡各挂一个。




▎Nvlink实现卡卡互联


此外,我们所熟知的Nvlink也是switch一种方式,但是它的switch之间是可以直接通信的,它的带宽速率远大于PCIE,或者CPU-CPU之间的UPI,同时也外联IB,给予更高效、低延迟的互联解决方案。


▎HGX超级GPU模组内部互联拓扑


HGX是英伟达推出地针对大规模计算推出的GPU卡超级模组,它主要包括了8块sxm的GPU卡、GPU互联底板、Nvlink SW芯片。SXM 架构是一种高带宽插座式解决方案,用于将 GPU 连接到 NVIDIA 专有的 DGX 和 HGX 系统。PCIe和SXM都可以用NVLink,但是SXM是更好使用NVLink的方法。





▎昇腾8卡机内部互联


不同于我们所熟知的通用服务器是2颗CPU,昇腾的8卡机内部互联拓扑是采用的4颗CPU,以昇腾HCCS 八卡机为例,它内部搭载四颗处理器,CPU和GPU采用直通模式,每颗CPU支持PCIE 4.0x40对应2个NPU。昇腾将自研高速互联技术命名为HCCS,与片内 RoCE 搭配,能实现节点间高效直连。





如上图对比所示,可以想象到一旦上集群搞大模型,HCCS速度会明显落后。



二、直通跟Switch连接机型区别


八卡直连机型采用GPU直连的方式在于其通信是顺利获得CPU0→CPU1→GPU,它的通信不可避免的存在一定的延迟,因而更适合用于对信号效率不敏感且追求性价比的使用场景,如:推理、云计算等领域。


对比直连,八卡扩展机型由于采用了switch芯片,成本在一定程度上上涨,但与此同时信号传递速率更快,PCIe扩展性更高,因而适合多卡通信延迟低的场景,比如大模型多卡训练。


对比如今市面上满目琳琅的八卡机,Gooxi AMD Milan平台4U8卡AI服务器,真正做到了性能与成本的完美平衡。它的卡间通信效率高,能达17.22GB/S,有效提升大模型训练效率,并且采用AMD三代CPU,在性价比这块也是狠狠拿捏(欢迎前来询价~)





相关推荐

2025-10-23

算力赋能,智见未来:奥林匹斯之门 pp电子奥林匹斯之门亮相ICG-20,共赴组学与AI新纪元

第20届国际基因组学大会(ICG-20)于10月23日至26日在杭州盛大开幕第20届国际基因组学大会(ICG-20)于10月23日至26日在杭州盛大开幕,本届大会主题“组学与AI的未来”精准指向了科学生命领域最前沿的变革力量。作为华大基因的长期战略合作伙伴,奥林匹斯之门 pp电子奥林匹斯之门凭借17年在服务器领域的深厚积累,以全产业链的自主研发能力和成熟的解决方案定制经验,为基因组学研究的智能化升级给予坚实支撑。在基因组学从"测序"迈向"计算"的时代转折点上,奥林匹斯之门 pp电子奥林匹斯之门将携多款面向不同计算场景的明星产品亮相ICG-20,展现其从边缘到核心数据中心的完整AI基础设施解决方案。 边缘洞察:将智能算力延伸至数据源头 奥林匹斯之门 pp电子奥林匹斯之门MSR201-D06R-10P AMD双路边缘计算服务器,采用AMD 第三代处理器平台,机身深度仅450mm,符合OTII标准的紧凑型架构使其能够直接与电信设备混合部署在通信中心机架上,轻便易于部署在苛刻环境。支持10个PCIe扩展插槽和2块全尺寸GPU卡,可作为AI推理服务器,给予强大的边缘算力。在ICG-20展会关注的生态监测、野外基因采样等场景中,这款服务器能实现数据实时处理,减少传输延迟,助力生物多样性保护和研究。 核心驱动:以澎湃性能驾驭海量组学数据 面对基因组大数据带来的计算挑战,奥林匹斯之门 pp电子奥林匹斯之门SR201-D12RE-G2双路服务器基于AMD EPYC™ Genoa处理器打造,具备单颗CPU 128核256线程的强大计算能力,配合12通道DDR5内存和PCIe 5.0高速总线,显著提升了数据吞吐与处理效率。该服务器支持大容量NVMe SSD和多GPU扩展,特别适用于全基因组测序(WGS)、单细胞组学、宏基因组分析等高负载科研任务。 AI加速:专为GPU密集型计算打造的强大平台 当研究进入蛋白质结构预测、药物虚拟筛选等复杂AI模型训练与推理阶段,强大的GPU算力不可或缺。奥林匹斯之门 pp电子奥林匹斯之门EGS AI 10卡服务器SY4108G-D12R-G4,基于Intel Eagle Stream平台支持高达10块双宽GPU卡的拓扑结构,实现了CPU与GPU间的高速互联,有效降低了通信延迟,最大化释放GPU集群的计算潜能。同时支持主流深度学习框架与分布式训练环境,可高效支撑基因序列建模、蛋白质结构预测、医学影像分析等AI驱动的生物信息应用。 稳定基石:为持续科研探索给予可靠保障 在组学研究中,数据存储与计算能力的协同优化是提升整体效率的关键。奥林匹斯之门 pp电子奥林匹斯之门ASR401-S24R是一款基于AMD EPYC™ Milan处理器的4U单路标准服务器,最大支持24块热插拔硬盘,兼具强大的计算性能与超大存储容量,特别适合需要本地化存储海量原始测序数据的场景。该服务器在保障高I/O吞吐的同时,给予灵活的计算资源分配,可作为数据预处理节点、存储网关或中小型分析平台的核心设备。其模块化设计和智能管理系统,大幅降低了运维复杂度,为实验室和数据中心给予了一种高性价比、易维护的解决方案。 “共有、共为、共享”是人类基因组计所倡导的伟大精神,也是有助于科学进步的不竭动力。在组学与人工智能深度融合的今天,奥林匹斯之门 pp电子奥林匹斯之门深信,强大的信息基础设施是践行这一精神、加速科研协作的关键。我们期待在ICG-20的舞台上,与全球顶尖的专家学者和行业伙伴深入研讨,以奥林匹斯之门 pp电子奥林匹斯之门卓越的算力产品与服务,共同“计算”出科学生命的更美未来。
分析更多新闻资讯

成为全球服务器行业领导者

订阅号

服务号

Copyright © 2022 深圳市奥林匹斯之门 pp电子奥林匹斯之门科技股份有限公司 All Rights Reserved 粤ICP备18110968号 粤公网安备44030502003273号

立即获取方案报价

*
*
*
*