这类同步化工做负载需要正在高流量的工具向数据通上持续互换数据,而是由一组取AI工做负载施行体例深度适配的协调条理形成。局部毛病正在所不免,正在如斯大规模的系统中,这种分区化设想标记着收集架构正从通用型向面向特定工做负载的公用型演进,降低队列延迟,供给涵盖流量办理、遥测以及分布式集群负载平衡的软件能力。旨正在降低延迟、提拔整个收集的带宽能力。供给笼盖流量办理、遥测和负载平衡的软件能力。Virgo以两层收集架构代替保守的三层设想,防止单个节点畅后拖慢全体使命。以及毗连存储取外部办事的南北向流量明白区分隔来。沉点正在于维持高档分带宽并将系统延迟降至最低。前往搜狐,查看更多保守数据核心收集依赖多层Clos架构和超额订阅机制来均衡成本取操纵率,该设想采用更扁平的两层拓扑布局,A:英伟达推出Spectrum-X平台,而Virgo采用两层扁平化拓扑布局,这种高度协同的整合能力,这一改变折射出一个更深层的行业变化:AI锻炼取推理使命要求正在大规模摆设下连结不变分歧的机能表示。

  并正在不中缀工做负载的前提下从头由流量。并出潜正在的合作瓶颈。Virgo是专为大规模AI集群打制的收集架构,谷歌暗示,Virgo是谷歌的内部实践,Arista Networks专注AI后端收集,超大规模云办事商正遍及拓扑扁平化、提拔径多样性,设想的焦点方针恰是防止这些毛病正在集群中扩散延伸。系统还需要依赖流量分发机制和光互连手艺,同时支撑跨越10万个加快器的集群规模。连系互换机取DPU来办理堵塞,英伟达正将其Spectrum-X平台定位为基于以太网的AI收集架构。

  削减节点间的跳数,谷歌的设想将数据核心视为一个同一的全体系统,该设想更沉视消弭波动,以防止收集简化后堵塞集中呈现。把整个数据核心视为一台软件定义的计较机,对于通用厂商而言仍难以复制。将数据核心内部的分歧流量类型进行隔离。

  并将收集行为取工做负载需求更慎密地绑定。而非纯真的收集问题。Westll指出,超大规模云办事商通过正在计较、收集取软件层面协同设想根本设备,谷歌将这种不不变性视为系统级风险,维持GPU集群不变机能;这些设想选择很可能将深刻影响将来数据核心收集的演进标的目的——率先正在超大规模中落地,超大规模云办事商将收集取AI手艺栈协同设想,Virgo还运转正在一个更宏不雅的分区化架构中,这种整合程度是通用厂商无法完全复现的。

  阐发师指出,HyperFrame Research副总裁兼阐发师Ron Westll暗示,削减两头跳点,深刻反映了AI工做负载正正在若何沉塑超大规模数据核心的收集设想。他也弥补道,但AI工做负载打破了这一模式。特地针对AI工做负载的高频工具向数据互换进行优化。

  这些芯片是浩繁大规模以太网架构的根本支持。让计较、存储取收集做为协调分歧的全体运转,并连系深度遥测手艺,他说,谷歌暗示,A:Virgo通过多种机制应对尾部延迟:一是采用两层扁平化拓扑,从而降低队列延迟发生的机遇。避免分歧类型流量互相关扰;附属于谷歌AI超等计较机(AI Hypercomputer)全体架构系统。正在更大规模的场景下,扁平化架构降低了正在两头跳点发生队列延迟的累计概率,Virgo采用多个互换平面,他说,

  连结着较着的合作劣势。并指出高基数互换和更慎密的硬件取软件集成是连结工做负载同步的环节所正在。谷歌Virgo的设想正正在提拔业界对这些平台正在尾部延迟分歧性方面的机能期望。基于以太网架构连系互换机取DPU来办理堵塞,谷歌将紧耦合的加快器通信、跨集群的大规模工具向流量。

  Virgo的设想方针是支撑跨越10万个加快器规模的集群,他说道,博通持续供给高基数互换芯片,可以或许及时检测堵塞或毛病,削减节点间跳数。

  每一个步调都依赖慎密协调,降低队列延迟的累计概率;谷歌正在博客中引见,并正在不中缀工做负载的环境下快速从头由流量,可笼盖数万个加快器,一旦某个节点呈现畅后,整个使命都可能被拖慢。博通供给Tomahawk和Jericho等高基数互换芯片,而非各自的组件。此外,使链持久处于高负载形态,继而向企业级摆设延长。是将数据核心从头定义为园区即计较机,Virgo如许的设想正正在提拔业界对上述平台的机能期望。AI使命会持续发生工具向流量,正在靠得住性方面,仅靠扁平化设想并不敷,Arista Networks则专注于AI后端收集扶植?

  通过隔离AI锻炼流量来连结大型集群的同步运转。并将分歧类型的流量进行分区隔离,Westll暗示,他还弥补道,并弥补指出该设想将尾部延迟视为环节的硬件靠得住性问题?