智算网络何去何从,ETH+再添一把火

过去的一年是大模型的一年,站在网络同仁的角度,也是智算网络的一年。风起云涌、百家争鸣、你方唱罢我登场,这些形容词都不为过。移动发布GSE,ODCC发布ETH-X/OISA/ALS,紧接着HPC China又以最高规格发布了ETH+,40余家企业、多个院士站台、宏大的展台,这阵仗算是拉满了。但是对于站在外围的我等看客来说,却是有点糊涂了,这些方案的区别是什么,能否复制我国在移动通信领域的成功,抑或又是一次群魔乱舞?今天笔者就尝试做一下简单的分析(只讨论技术,不讨论背后的厂商角力)。

首先,到底是scale out还是scale up?现在很多人在讨论到底应该是应该两个网络合并,还是应该独立,讨论得不亦乐乎。为了避免失焦,笔者在此先抛出观点,再来解释。首先,当前两个网络分离的架构,是历史的产物,里面结合诸多因素,绝不是纯粹由技术决定的。其次,甲之蜜糖,乙之砒霜,对英伟达合适的方案,不一定适合所有人。

笔者认为,对于英伟达来说,之所以推出了NVLINK,是因为他没有其他选择。我们回顾一下历史,NVLINK1.0是2014年提出的,当时和它对标的是GenZ、OpenCAPI。这些工作的核心目标是什么?那就是打破CPU主导的总线体系(PCIe),形成Peer to Peer的互连架构,从而可以不被拖后腿。当时面向的主要目标场景是什么?如果没记错的话,应该是内存池化。是不是有点尴尬了?是不是伪需求不好说,但是至少10多年过去了,还是没有大规模落地。厂商都不是傻子,没有大规模应用场景的技术是不会真正地持续投入的,所以GenZ这些协议很快都销声匿迹了。同时,没有强大的应用牵引,PCIe也在3.0这一代逗留了很久。在这样的背景下,如果你是英伟达,你有什么办法呢?只有自己另搞一套了。在这一点上,我们不得不佩服英伟达。2014年还是CNN在主导的时代,能够提前布局高速互连,确实有远见。希望将来有机会,英伟达可以公开一些商业决策的历史,给大家学习。

是否应该完全追随英伟达的技术路线?这一点,笔者认为应该分开来看。首先,涉及到软件生态的部分,笔者强烈建议follow英伟达。不能否认,英伟达太强大了,整个AI软硬件生态都是NV主导的。换言之,所有的软硬件系统的设计都是以NV的方案作为优化目标的。自己独立搞一套系统架构,那么就需要自己去适配庞大的生态。对于大部分企业,这个成本是付不起的。所以短期来看,在部署形态上,scale out和scale up分离是比较好的,因为上面的软件(通信库、并行框架)都是假设两个网络是分离的。但是在不涉及软件生态的部分,笔者建议不需要重走一遍NV的老路,要充分利用现有生态的力量,弯道超车。比如, NV的scale out和scale up网络采用完全不同的协议,现在看来完全没有必要了。英伟达从NVLINK1.0走到NVL36用了10年,难道大家都需要再搞10年吗?

表达完笔者自己的观点之后,再来看看国内的这些组织的观点是什么。如下表所示,除了ETH+,其他组织都是把scale up和scale out网络割裂来看,显然是想完全追随英伟达的技术路线,复刻一个国内平替版本。这种方式不能说完全不对,但是难免有点刻舟求剑。而ETH+相对不同,他们试图打造统一的技术底座,并且利用以太网的成熟生态进行弯道超车。在这一点上,笔者是比较赞同ETH+的。

关于协议部分,并不是每个组织都涉及,即使涉及了协议部分,聚焦点其实也不一样。这种不同的策略选择,实际上反映了各个组织的定位,以及对问题的思考,所以是非常值得仔细分析的。

从公开资料来看,GSE更多的是聚焦在网络的传输层,底层完全复用以太网能力。通过在传输层实现数据流的“调度”,来实现网络的负载均衡。因为GSE聚焦在传输层,这与国际上UEC组织的定位几乎是一致的。这就带来了一个问题,即中国的生态是否会和国际上出现分裂。显然这是所有技术人员不愿意看到的。那么未来GSE面临的一个主要挑战,就是如何在保证自身话语权以及竞争力的同时,保证和UEC等其他组织的技术路线尽量保持一致或者兼容。

ETH-X看起来更多的是超节点的硬件规范,并没有涉及底层网络协议,NVLINK也行、UAL也没问题。笔者认为,这个工作还是有一些意义的。特别是当前GPU市场还是“供应链主导”的,所有服务器厂商如果各自为战,搞一堆五花八门的硬件形态出来,那么云厂商应该很郁闷。所以有个统一的硬件规范,那么对未来的系统集成是有很大帮助的。

OISA公开的消息信息比较少,应该是在自定义scale up的协议,此处略。

从公开材料来看,ALS定义的是超节点的管控规范,协议部分是完全追随美国的UAL组织。那么,因为UAL的目标是让博通的pcie switch支持AMD的infinity fabric协议,所以ALS的底层协议也可以认为是PCIe的。不过笔者最近听说了一些小道消息,就是UAL内部可能有一些重大调整,未来UAL大概率也要基于以太网而不是PCIe。如果一个组织的成功严重依赖另一个不确定性的组织,那么笔者认为这里的风险实在太大了。

ETH+的定义看起来比较务实。从发布会的内容看下来,虽然是最晚发布的,但是成果相对其他组织来说却是最多和最扎实的(按照报道是已经低调运作了2年,有成果后才公开的)。目标相对来说也比较明确,就是利用开放以太网的生态,打造scale out网络和scale up网络的统一技术底座。从聚焦的技术点来看,主要是针对当前的以太网进行的能力增强,包括提升载荷比、降低交换机时延、增加链路层重传和在网计算。笔者认为,这些技术点提炼得非常聚焦,应该是业务团队、网络团队和芯片团队联合设计的结果。这里的设计,笔者认为非常务实,允许自定义的传输层和事务层。我们上面已经提到传输层是各个云厂商的核心竞争力,而事务层是加速器厂商核心竞争力。这两层已经研究了很多年,技术相对成熟。并且国际上还有UEC/UAL等组织在这个方向上布局。相对来说,下三层协议(物理层、链路层和网络层)则更加适合制定标准,但是由于涉及底层芯片的修改,所以周期也会更长。但是这对于中国产业链来说,反而是一个历史机遇。中国芯片企业历史包袱少,如果可以快速凝练共识,锐意进取,反而是一个弯道超车的好机会。而这也是高通量以太网联盟成立的初衷之一。发布会公开的路线图以及展品也可以证明这一点。明年联盟就会发布支持全特性的核心芯片以及原型系统,说明联盟在关键特性上已形成初步共识。相比其他组织来说,ETH+整体的技术完备度和可行性是非常高的,非常值得期待。

QQ截图20241216145530

最后总结一下。笔者认为现在是一个非常好的时机,通过开放的组织和生态实现弯道超车,从而使得中国的产业链可以在智算时代在国际上占有一席之地。但是这个事情,涉及太多组织和个人,协同起来并非易事。笔者也斗胆尝试对各方喊话:

To资源方:资源方包括政府和各个用户(比如云计算厂商)此时一定要有大格局,是破局的关键。鸡生蛋、蛋生鸡,如果绕在里面了就永远出不来。新生事物在刚出现的时候,一定存在一些不足的,是需要扶持的,需要兼顾长期利益和短期利益。电动车市场就是一个很成功的例子。

To交换芯片厂商:交换芯片厂商应该是这次浪潮的最大受益者。随着scale out和scale up网络的大量建设,交换芯片的需求直逼GPU,这个市场空间是巨大的。特别是scale up这个网络,加速器厂商肯定也想把这个蛋糕放在自己的篮子里。那么此时,交换芯片厂商最为最大的受益者,此时应该表现出足够的诚意,不遗余力地推动标准的形成。

To网卡芯片厂商:网卡在scale out网络仍然是核心中的核心,未来在scale up网络中会有更大的市场空间。一方面,可以以IP的形式集成到加速器芯片内部,使得加速器可以支持大规模的RDMA通信。另一方面,还可以集成到交换芯片内部,从而实现基于RDMA的在网计算。总之,作为第二大潜在的受益者,网卡芯片厂商也应该竭尽全力推动标准的形成。

To加速器厂商:NV从NVLINK1.0走到NVL36用了10年,如果想弯道超车,一定不能再走一遍NV的老路。并且上层的软件生态已经快速切换到了基于nvswitch的架构,如果加速厂商还是要自定义一套协议,出一个8卡全互联架构,再迭代switch,那么等整套系统出来的时候黄花菜都凉了。此时应该快速拥抱生态,利用生态伙伴的力量,一起做大蛋糕。