闂傚倸鍊搁崐鎼佸磹閹间礁纾归柣鎴eГ閸ゅ嫰鏌涢幘鑼槮闁搞劍绻冮妵鍕冀椤愵澀绮剁紓浣插亾濠㈣泛顑勭换鍡涙煏閸繃鍣洪柛锝呮贡缁辨帡鎮╅棃娑掓瀰闂佸搫鐬奸崰鏍嵁閹达箑绠涢梻鍫熺⊕椤斿嫰姊绘担鍛婂暈濞e洦妞介敐鐐村緞閹邦儵锕傛煕閺囥劌鐏犵紒顐㈢Ч閺屾稓浠︾紒銏$暦闁诲孩纰嶇粙鎴﹀煘閹达附鍊烽柣鎴烇公缁辩敻姊洪崨濠庢畷濠电偛锕ら锝嗙節濮橆剙宓嗛梺闈涚箳婵炩偓闁哥偠娉涢埞鎴︽偐缂佹ɑ閿┑鐐茬湴閸婃繈銆侀幘鏂ユ婵☆垶鏀遍弬鈧梻鍌氬濞层劍绂嶇粙搴撴瀻鐎电増绻冨鍊熺熅濠德板€曢幊蹇涘煕閹烘嚚褰掓晲閸噥妫勯梺鍛婃皑閹虫捇鍩為幋锔绘晩闁兼亽鍎崇粙鍥⒒閸パ屾█闁哄本绋撴禒锕傚箚瑜嶅В鍫ユ⒑缂佹ɑ鐓ユ俊顐g箞瀵顓奸崼顐n€囬梻浣告啞閹搁箖宕伴弽褜鍤曞┑鐘崇閺呮煡鏌涘☉鍙樼盎闁绘宀稿楦裤亹閹烘垳鍠婇梺鍛娒妶鎼併€侀弮鍫熸櫢闁跨噦鎷�
闂傚倸鍊搁崐鎼佸磹閹间礁纾归柣鎴eГ閸ゅ嫰鏌涢幘鑼槮闁搞劍绻冮妵鍕冀椤愵澀绮剁紓浣插亾濠㈣泛顑嗛崣蹇斾繆閻愰鍤欏ù婊堢畺濮婃椽骞愭惔锝囩暭闂佺ǹ顑囬崑娑㈩敋閵夆晛绀嬫い鏍ㄦ皑閻も偓闂備礁澹婇悡鍫ュ磻閸涱厸鏋嶉悘鐐插⒔缁♀偓闂佹眹鍨藉ḿ褍鐡梻浣瑰濞测晝绮婚幋锔光偓锕傚箰鎼达綁妾┑鐐叉閹稿鍩涢幒妤佺厱閻忕偞宕樻竟姗€鏌嶈閸撴盯宕楀鈧獮鍐倷閻戞ɑ娅囬梺閫炲苯澧撮柍銉畵瀹曞綊顢欓妷褍鏋涢柟铏墵閸╋繝宕橀鍕劘闂傚倸鍊风粈渚€骞栭位鍥ㄥ閺夋垵鐎悷婊呭鐢帒效閺屻儲鐓ラ柡鍥╁仜閳ь剙缍婇幃锟犳偄閸忚偐鍘甸柣搴f暩鏋い搴$焸閺屽秷顧侀柛鎾卞姂楠炲繘鏁撻敓锟�
射频微波器件采购网,轻松满足您的射频微波器件采购需求
轻松满足您的射频微波器件采购需求
整合全球优质射频微波芯片代理商现货渠道
聚焦知名射频微波器件品牌,强大的现货交付能力
射频微波器件优势现货
射频微波行业新闻头条|射频微波器件采购网
奇异摩尔颠覆 AI 训练模式!互联方案让大模型成本暴跌 90%,算力密度提升 5 倍
(2025年6月10日更新)

智算集群里的Scale Up和Scale Out

在这个集群网络中,Scale Out专注于横向/水平的扩展,强调通过增加更多计算节点实现集群规模的扩展。当前,远程直接内存访问(RDMA)已经成为构建Scale Out网络的主流选择。作为一种host-offload/host-bypass技术,RDMA提供了从一台计算机内存到另一台计算机内存的直接访问,具有低延迟、高带宽的特性,在大规模集群中扮演着重要的角色。如下图所示,RDMA主要包含?InfiniBand(IB)、基于以太网的RoCE和基于TCP/IP的iWARP?。其中,IB和以太网RDMA是算力集群里应用最广泛的技术。

RDMA应用和实现方式(来源:知乎 @Savir)

IB是专门为RDMA开发的一种网络通信技术,具有高带宽、低延迟等优势,且IB默认是无损网络,无需特殊设置。得益于这些优势,过往IB在Scale Out网络构建中占据主导地位。然而,IB需要专门支持该技术的网卡和交换机,价格是传统网络的5-10倍,成本相对较高,且IB交换机交期较长。同时,IB兼容性差,难以和大多数以太网设备兼容,例如网卡、线缆、交换机和路由器等,无法成为行业统一的发展路线。

随着集群规模增大,以太网RDMA获得了主流厂商的广泛支持。以太网RDMA同样具有高速率、高带宽、CPU负载低等优势,在低时延和无损网络特性方面也已经和IB性能持平。同时,以太网RDMA具有更好的开放性、兼容性和统一性,更利于做大规模的组网集群。从一些行业代表性案例来看,如字节跳动的万卡集群,Meta公司的数万卡集群,以及特斯拉希望打造的十万卡集群,都一致选择了以太网方案。此外,因为硬件通用和运维简单,以太网RDMA方案更具性价比。

虽然以太网RDMA已经被公认是未来Scale Out的大趋势,不过田陌晨指出:“如果是基于RoCEv2构建方案仍存在一些问题,比如乱序需要重传,负载分担不完美,存在Go-back-N问题,以及DCQCN 部署调优复杂等。在万卡和十万卡集群中,业界需要增强型以太网RDMA以应对上述这些挑战,超以太网传输(Ultra Ethernet Transport,UET)便是下一代AI计算和HPC里的关键技术。”

为了能够进一步发挥以太网和RDMA技术的潜能,博通、思科、Arista、微软、Meta等公司牵头成立了超以太网联盟(UEC)。如下图所示,在UEC规范1.0的预览版本中,UEC从软件API、运输层、链路层、网络安全和拥塞控制等方面对Transport Layer传输层做了全面的优化,关键功能包括FEC(前向纠错)统计、链路层重传(LLR)、多路径报文喷发、新一代拥塞控制、灵活排序、端到端遥测、交换机卸载等。根据AMD方面的数据,UEC就绪(UEC-ready)系统能够提供比传统RoCEv2系统高出5-6倍的性能。

UEC规范1.0示意图(来源:UEC)

田陌晨表示:“UEC是专门为AI网络Scale Out互联成立的国际联盟,致力于通过Modernized RDMA优化AI和HPC工作负载。借助UEC的关键性能,Scale Out网络能够充分利用系统内所有可用的传输路径,并最小化网络拥塞。当前基于RDMA RoCE的解决方案未来也可以通过践行UEC联盟的标准升级各自的以太网产品方案,打造更大规模的无损集群通信。”

奇异摩尔打造的Kiwi NDSA-SNIC AI原生智能网卡便是一款UEC就绪方案,性能比肩全球标杆ASIC产品。Kiwi NDSA SmartNIC提供领先行业的高性能,支持高达800Gbps的传输带宽,提供低至μs级的数据传输延时,满足当前数据中心行业400Gbps-800Gbps升级需求,可实现Tb级别万卡集群间无损数据传输。


奇异摩尔Kiwi NDSA-SNIC AI原生智能网卡方案(来源:奇异摩尔)

借助UEC就绪RDMA中的路径感知拥塞控制、有序消息传递、选择性确认重传、自适应路由及数据包喷洒等关键功能,Kiwi NDSA-SNIC能够充分保障AI网络间数据的稳定传输。比如,Kiwi NDSA-SNIC提供的自适应路由及数据包喷洒功能可以充分发挥高速网络的性能,支持高级分组喷洒,提供多路径数据包传送和细粒度负载平衡,有效应对传输拥塞。相同用例还有:通过有序消息传递(In-Order Message Delivery)来降低系统延迟,通过路径感知拥塞控制(Path Aware Congestion Control)来优化多个路径的数据包流,等等。

此外,Kiwi NDSA-SNIC还拥有很多其他的关键特性。比如,Kiwi NDSA-SNIC具有出色的高并发特性,支持多达数百万个队列对,可扩展内存空间达到GB;Kiwi NDSA-SNIC具有可编程性,可应对各种网络任务加速,为Scale Out网络带来持续创新的功能,并保证与未来的行业标准无缝兼容。

综合而言,奇异摩尔的Kiwi NDSA-SNIC AI原生智能网卡是一个拥有高性能、可编程的Scale Out网络引擎,将开启AI网络 Scale Out发展的新篇章。田陌晨称:“当前,奇异摩尔已经成为UEC联盟成员。随着以太网逐渐过渡到超以太网,奇异摩尔愿携手联盟伙伴共同探讨并践行Scale Out相关标准的制定和完善,并第一时间为行业带来性能领先的UEC方案,推动AI网络 Scale Out技术向前发展。”

奇异摩尔UEC会员(来源:UEC官网)

Scale Up——让计算芯片配合更高效

和横向/水平扩展的Scale Out不同,Scale Up是垂直/向上扩展,目标是打造机内高带宽互联的超节点。上述提到,TP张量并行以及EP专家并行需要更高的带宽和更低的时延来进行全局同步。通过Scale Up的方式,将更多的算力芯片GPU集中到一个节点上,是非常有效的应对方式。如今的Scale Up实际上就是一个以超高带宽为核心的机内GPU-GPU组网方式,还有一个名称是超带宽域(HBD,High Bandwidth Domain)。

英伟达GB200 NVL72的推出引领着国内外AI网络生态对HBD技术的广泛探讨。英伟达GB200NVL72服务器是一个典型的超大HBD,实现了36组GB200(36个Grace CPU,72个B200 GPU)之间的超高带宽互联。在这个HBD系统里,第五代 NVLink是最关键的,它能够提供GPU-GPU之间双向1.8TB的传输速率,使得这个HBD系统可以作为一个大型GPU去使用,训练效率相较于H100系统提升了4倍,能效提升了25倍。

NVL72互联架构(来源:英伟达)

和IB一样,NVLink也是由英伟达主导,虽然性能强劲但是生态封闭,只服务于英伟达的高端GPU。由于没有NVLink和NVSwitch这样的技术,此前其他厂商主要采用full mesh或者cube-mesh结构,以8卡互联为主,而16-32卡互联是下一代方案。

DeepSeek事件引发了业界对于上述NVLink和HBD需求的不同预期。但中长期发展来看,相比软件迭代速度以小时来计算,硬件的迭代则是以年为计算的循序渐进过程,不会一蹴而就。据SemiAnalysis预计大型模型的标准只会随着未来的模型发布而继续升高,但从经济效用上来说,其所对应的硬件必须坚持使用并有效 4-6 年,而不仅仅是直到下一个模型发布。

对此,田陌晨认为:“未来MoE模型的进阶路线在一定程度上存在不确定性,创新随时可能发生。但国产AI网络的生态闭环势在必行。英伟达NVLink和Cuda的护城河仍然存在,首先要解决Scale Up互联国产替代方案有没有的问题,再来看做到哪种程度。未来随着国产大模型、芯片架构等软硬件生态的协同发展,有望逐步实现国产算力闭环。”

如今,科技巨头正联合生态上下游在GPU-GPU高效互联方面主要分为两个流派:内存语义和消息语义。内存语义Load/Store/Atomic是GPU内部总线传输的原生语义,英伟达NVLink便是基于内存语义,对标NVLink的UAlink等也是基于这种语义;消息语义则是采用类似Scale Out的DMA语义Send/Read/Write,将数据进行打包传输,亚马逊和Tenstorrent等公司便是基于消息语义打造Scale Up互联方案。

内存语义和消息语义各有千秋。内存语义是GPU内部传输的原生语义,处理器负担更小,在数据包体量小时效率更高;消息语义采用数据打包的方式,随着数据包体量变大,性能逐渐追上了内存语义,随着AI大模型体量增大,这一点也非常重要。

不过,田陌晨指出:“无论是内存语义还是消息语义,对于厂商而言,都面临一些共性的挑战,比如传统GPU直出将IO集成在GPU内部,性能提升受到了光罩尺寸的严格限制,留给IO的空间非常有限,IO密度提升困难;Scale Up网络和数据传输协议复杂,计算芯片厂商大都缺乏相关经验,尤其是开发交换机芯片的经验;除NVLink之外,其他Scale Up协议并不成熟且不统一,协议迭代对计算芯片迭代造成了巨大的困扰。”

GPU IO集成在GPU内部(来源:奇异摩尔)

为了能够更好地应对上述挑战,产业界提出了一种创新的GPU直出方式——计算和IO分离。奇异摩尔NDSA-G2G互联方案便是这条技术路径里非常有竞争力的一款方案。

借助NDSA-G2G可以实现计算芯粒和IO芯粒解耦,通过通用芯粒互联技术UCIe进行互联。这样做的好处是,只需要牺牲一点点的芯片面积(小百分之几),就可以将宝贵的中介层资源近乎100%用于计算,并按照客户的需求灵活地增加IO芯粒的数量,且计算芯粒和IO芯粒可以基于不同的工艺技术。再加上IO芯粒的复用特性,能够显著提升高性能计算芯片的性能和性价比。

NDSA-G2G的第二大优势是提升IO密度和性能,具有高带宽、低延时和高并发的特性。在高带宽方面,基于NDSA-G2G芯粒,可以实现1TB级别的网络层吞吐量,TB级的GPU侧吞吐量;在低延时方面,NDSA-G2G芯粒提供百ns级的数据传输延时和ns级D2D数据传输延时;在高并发方面,该产品支持多达数百万个队列对,可扩展系统中的内存资源。也就是说,借助奇异摩尔NDSA-G2G芯粒能够赋能国产AI芯片实现自主突围,构建性能媲美英伟达NVSwitch+NVLink的Scale Up方案。

Kiwi NDSA-G2G 产品示意图(来源:奇异摩尔)

NDSA-G2G的第三大优势是具有出色的灵活性。如上所述,目前Scale Up技术路线并不统一,且智算中心厂商在协议方面大都采用自有协议,或者自己主导的联盟协议。这就导致高性能计算芯片需要在设计时考虑未来2~3年,甚至是3~5年的协议发展,具有非常大的挑战。NDSA-G2G以计算芯粒和IO芯粒分离的方式让IO芯粒可以灵活升级,同时NASG-G2G基于具有可编程性,可以支持目前市面上各种IO协议。这种灵活性让高性能计算芯片厂商可以从容应对当前Scale Up技术路线不统一且协议混乱的挑战。

同时,田陌晨也呼吁:“希望科技行业在Scale Up方向上能够拥抱一种开放而统一的物理接口,实现更好的协同发展,这也是打造国产自主可控算力底座的关键一步。”

Scale Inside——全面提升计算芯片传输效率

在Scale Out和Scale Up 高速发展的过程中,作为算力基础单元,Scale Inside的进度也没有落下,并致力于通过先进封装技术弥补摩尔定律速度放缓的影响。在整个智算系统里,更高算力的计算芯片能够进一步提升Scale Up和Scale Out的性能水平,使得AI大模型的训练更加高效。

当前,单颗高性能计算芯片的成本已经非常恐怖,随着制程工艺进一步精进,这一数字还将继续飙升,因而Chiplet技术得到了广泛的重视。Chiplet技术允许通过混合封装的方式打造高性能计算芯片,也就是说计算单元和IO、存储等其他功能单元可以选择不同的工艺实现,具有极高的灵活性,允许厂商根据自己的需求进行定制芯粒,不仅能够显著降低芯片设计和制造的成本,良率也能够得到很大的改善。

在Scale Inside方向上,奇异摩尔能够提供丰富的Chiplet技术方案,包括Kiwi Link UCIe Die2Die接口IP、Central IO Die,3D Base Die系列等。其中,Kiwi Link全系列支持UCIe标准,具有业界领先的高带宽、低功耗、低延时特性,并支持多种封装类型。Kiwi Link支持高达16~32 GT/s的传输速率和低至ns级的传输延迟,支持Multi-Protocol多协议,包括PCIe、CXL和Streaming。

Kiwi Fabric互联架构(来源:奇异摩尔)

综合而言,奇异摩尔的解决方案能够从“Scale Out”“Scale Up”“Scale Inside”三大角度,推动AI大模型训练效率的提升。在Scale Out方面,奇异摩尔已经是超以太网联盟UEC的成员,能够在第一时间响应UEC规范1.0以及后续规范;在Scale Up方面,奇异摩尔NDSA-G2G芯粒不仅能够帮助科技公司打造媲美英伟达NVSwitch+NVLink性能的Scale Up方案,适配各种技术路线和协议,也正在引领计算芯片的设计革新;在Scale Inside方案,奇异摩尔的Kiwi Link UCIe Die2Die接口IP、Central IO Die、3D Base Die系列等方案能够帮助厂商打造具有高效传输能力的高性能计算芯片。

这些方案很好地践行了奇异摩尔公司的使命—Beacon EmbeddedWorks代理商—以互联为中心,依托Chiplet和RDMA技术,构筑AI高性能计算的基石。“对于国产AI大模型和国产AI芯片产业而言,奇异摩尔的方案是新质生产力的代表,有着更大的潜能值得去挖掘。为实现国产AI芯片产业的‘中国梦’,奇异摩尔不仅提供支持最前沿协议的IO芯粒,以实现高速率、高带宽、低时延的传输表现,还在Chiplet路线上独辟蹊径,用创新的芯片架构助力打造更高性能的AI芯片。奇异摩尔愿与国内公司携手,为国产AI芯片产业发展添砖加瓦,共同勾画国产AI发展的广阔蓝图。”田陌晨最后说。

更多信息:市场与媒体联络:marcom@kiwimoore.com


射频微波器件型号搜索排行榜:
  • 光学传感器 > 光电,工业(传感器,变送器)
  • 射频环行器和隔离器(射频和无线)
  • 固定电感器(电感器,线圈,扼流圈)
  • 嵌入式 > FPGA(现场可编程门阵列)(集成电
  • 射频接收器(射频和无线)
  • 固定电感器(电感器,线圈,扼流圈)
  • 评估板 > 扩展板,子卡(开发板,套件,编程
  • 射频屏蔽(射频和无线)
  • 温度传感器 > 温控器 - 机械式(传感器,变
  • 评估板 > 嵌入式 MCU、DSP 评估板(开发板,
  • 衰减器(射频和无线)
  • 同轴连接器(射频) > 同轴连接器(RF)适配
领先的购买射频微波芯片等元器件的现货平台
射频微波器件采购网专注整合国内外授权元器件代理商的现货资源,轻松采购元器件,是国内专业的射频微波器件采购平台