旗下微信矩阵:

越来越热的CXL

CXL技术标准似乎杀出了重围。能够让CPU与GPU、FPGA或其他加速器之间实现高速高效的互联,从而满足高性能异构计算的要求。
2022-05-14 15:05 · 微信公众号:半导体行业观察 龚佳佳

二十年前,英特尔公布了取代PCI总线的第三代I/O技术(3GIO技术),也就是我们现在常说的PCI-e(PCI Express)。凭借高性能、高扩展性、高可靠性及出色的兼容性,PCI-e几乎取代了以往所有的内部总线(包括AGP和PCI),成为当时众望所归的未来技术标准。

二十年后,在如今这个数据爆炸式增长,异构计算大行其道的当下,曾经的“未来之星“PCI-e 已经开始出现后继无力的现象,无法成为 CPU、GPU、FPGA 以及其他 AI 计算设备之间沟通的*语言。为了达到*的计算效果,不同的计算设备亟需“一种新语言”。

而这一次,英特尔推出的CXL技术标准似乎杀出了重围。

CXL是什么

CXL全称为Compute Express Link,是由英特尔于2019年3月在InterconnectDay 2019上推出的一种开放性互联协议,能够让CPU与GPU、FPGA或其他加速器之间实现高速高效的互联,从而满足高性能异构计算的要求。

图片来源:英特尔

目前来看,CXL 支持三种协议,分别是,类似于 PCIe 的 CXL.io - CXL 使用 PCIe 总线的物理层,CXL.memory 用于主机内存访问,CXL.cache 用于一致的主机缓存访问。

此外,CXL 联盟也已经确定可从CXL中受益的三类主要设备:

类型 1(CXL.io 和CXL.cache):没有本地内存的专用加速器(例如智能NIC),但可以利用 CXL.io 协议和 CXL.cache 与主机处理器的 DDR 内存进行通信。

类型 2(CXL.io、CXL.cache 和 CXL.mem):具有高性能GDDR或HBM本地内存的通用加速器(GPU、ASIC或FPGA )。

类型 3(CXL.io 和 CXL.mem):内存扩展板和存储级内存。设备为主机 CPU 提供对本地 DRAM 或非易失性存储的低延迟访问。

图片来源:英特尔

最初,英特尔创建CXL标准,是作为 CPU 与 GPU、FPGA等加速器之间的互联通信,从而取代数据中心环境中的PCI-e。一直以来,CPU 都是透过主板上的 PCIe 插槽及 PCIe 协议与加速器沟通,但显然其内存使用效率、延迟和数据吞吐量已经不能满足日益增长的数据和计算速度需要。

相比PCIe,CXL标准在接口规格上可兼容PCIe5.0,也就是说未来服务器 CPU 仍是置于主板 CPUSocket,GPU等加速器也是插在 PCIe 插槽上,但CPU 与 GPU 并非以 PCIe 协议进行沟通,而是采用新的 CXL 协议,可以理解为PCIe 5.0 纯粹是用来提供实体插槽。

此外,CXL最高带宽可达128GB/s几乎能够满足当时所有的数据传输需求,可以在更大程度上允许更高的带宽,更多的连接设备和更低的延迟,解决目前 PCIe 协议存在的 CPU 与加速器之间高延迟、带宽不足等问题,而又不排除PCIe的简单性和适应性。

正因为CXL构建与 PCI-e 逻辑和物理层级之上,所以其兼容性很高,更容易被现有支持 PCI-e 端口的处理器(绝大部分的通用 CPU、GPU 和 FPGA)所接纳,因此,英特尔将CXL视为在PCIe物理层之上运行的一种可选协议,也就是说PCI-e 的互联协议没有被完全抛弃,并且英特尔还计划在第六代 PCI-e 标准上大力推进 CXL 的采用。

除了兼容性很高之外,CXL标准还有另一个较大优势就是内存一致性。

从本质上讲,CXL可在CPU,以及GPU、FPGA等之间建立高速且低延迟的互连,维护 CPU 内存空间和连接设备上的内存之间的内存一致性,允许 CPU 与 GPU 之间绕过 PCIe协议,用 CXL 协议来共享、互取对方的内存资源。透过 CXL协议, CPU 与 GPU 之间形同连成单一个庞大的堆栈内存池,CPU Cache 和 GPU HBM2 内存犹如放在一起,有效降低两者之间的延迟,故此能大幅提升数据运算效率。

除了资源共享(内存池)和交换之外,CXL 还可以通过连接 CXL 的设备向CPU 主机处理器添加更多内存。当与持久内存配对时,低延迟 CXL 链路允许 CPU 主机将此额外内存与 DRAM 内存结合使用。

由于大内存容量决定了大容量工作负载的性能,从这方面看,CXL 的优势显而易见。

CXL与Gen-Z之战

就像开头所提到的,不同的计算设备亟需“一种新语言”,那么自然不会只有一个CXL出现,事实上,CXL可以说是最晚出现的一个标准,在它之前,还有IBM 的 CAPI 和 OpenCAPI、英伟达的 NVLink 和 NVSwitch、AMD的 Infinity Fabric、赛灵思的CCIX ,以及在这部分要说到的Gen-Z。

Gen-Z可以看成是CXL的先行者,源于 HPE 开发的 The Machine,是一种以内存为中心的新型计算机架构。Gen-Z 联盟成立于 2016 年,由HPE 和戴尔提供支持。具体来说,Gen-Z协议允许分配和释放资源,无论是内存、加速器还是网络,可用于创建该资源与一个或多个 CPU 节点的临时或*绑定。本质上,这个想法是把任何类型的存储都作为内存看待,允许软件使用低延迟,高效率操作来访问。

使用 Gen-Z 和 CXL 进行分解。资料来源:IntelliProp

在过去,Gen-Z和CXL都属于数据中心、HPC、AI等领域全新数据设备互联协议的*,分割着数据中心的互连和内部连接,但后来却“节节败退”。先是在2020年4月,Gen-Z联盟与CXL联盟达成合作备忘录,强调了两者之间的合作共赢,CXL专注于机架内CPU、GPU和加速器之间的互联,而Gen-Z负责支持机架之间的互联。在和平休战一年多后,2021年11月,Gen-Z联盟与CXL联盟正式发布公告,把所有Gen-Z规范和资产转移给CXL联盟,双方联盟成员将专注于CXL这*的互联标准。至此,CXL也确立了自己的*地位,将成为未来*的行业标准。

在这场互联标准争夺战中,CXL凭什么可以“吞并”Gen-Z?

这就不得不说到两大联盟的参与者,Gen-Z联盟的参与者包括了AMD、Arm、惠普企业(HPE)、IBM、美光、三星、SK海力士、希捷、西部数据等20个厂商,虽然都是大厂,但是最重要的服务器 CPU 供应商却只有IBM。而CXL联盟那边不仅聚集了内存厂商、IP厂商、加速器厂商等,更重要的是,它有AMD、ARM 、IBM 以及英特尔所有四个主要的 CPU 供应商的加入。任何用于处理器与 DRAM、FPGA以及其他专用处理器互连的后 PCIe 总线技术都必须得到服务器 CPU 供应商的支持,这是一个必要条件。光从这点,Gen-Z联盟就注定难以与CXL联盟抗衡。

而另一方面,CXL较晚的推出时间反而成为了它的“利器”。随着PCI-Express 摆脱了 3.0 和 4.0 代之间七年的停滞状态,并进入两年带宽翻倍的性能节奏,这给基于PCI-Express 协议的CXL带来了更大的优势。相比CXL,Gen-Z等其他协议充其量只能降级为 CPU 到 CPU 互连,而CXL 作为兼容的 CPU 一致性协议,将允许跨 CPU 架构的标准,可以说CXL 在 PCI-Express 5.0 上的性能就是为此而存在的。

紧锣密鼓的布局

自从去年成功“吞并”Gen-Z后,CXL的崛起势头可以说是越发强劲,Marvell、三星、Rambus、澜起科技等大厂们的布局速度日渐加快,尤其在进入5月份后,“落子”速度变得更加密集。

·美满电子收购 CXL 开发商 Tanzanite

美满电子正在进行以数据中心为重点的投资(包括其 CXL 解决方案)来扩大潜在市场,5 月 9 日,美满电子宣布将收购先进 CXL技术*开发商Tanzanite,加速实现完全可组合的云基础架构的愿景。

Marvell存储业务事业部执行副总裁Dan Christman表示:“我们相信 CXL 将成为实现下一代数据中心*资源利用的重大变革者,而收购 Tanzanite 将提高我们解决客户*挑战性问题的能力。“

据了解,未来的云数据中心将建立在利用 CXL 技术的完全分解式架构上,基于连接处理器、加速器和内存的行业标准 CXL 的硅组件将促进具有显着性能和效率优势的新云数据中心架构。

·Rambus收购哈登,加强CXL互连计划

5月5日,行业*芯片和硅 IP 提供商Rambus宣布已签署收购Hardent, Inc. 的协议,该交易预计将于 2022 年第二季度完成。

Rambus官方消息显示,Hardent 拥有 20 年的半导体经验,其世界一流的硅设计、验证、压缩和纠错码 (ECC) 专业知识为 Rambus CXL 内存互连计划提供了关键资源,此次收购加速了下一代数据中心的CXL 处理解决方案的开发。

Rambus总裁兼首席执行官Luc Seraphin 表示:“在 AI/ML 等高级工作负载的需求以及向分类数据中心架构的转变的推动下,基于 CXL 的解决方案的行业势头继续增长。”

·澜起科技发布全球*CXL内存扩展控制器芯片

5月6日,澜起科技发布全球*CXL内存扩展控制器芯片(MXC)。

图片来源:澜起科技

据了解,这款MXC芯片是一款CXL DRAM内存控制器,属于CXL协议所定义的第三种设备类型,按照 CXL 2.0 规范设计,支持 PCIe 5.0 规范速度,专为内存AIC扩展卡、背板及EDSFF内存模组而设计,可大幅扩展内存容量和带宽,满足高性能计算、人工智能等数据密集型应用日益增长的需求。

·三星推出 512GB CXL 内存扩展器 2.0

5月10日,三星宣布开发出三星*512 GB内存扩展器 CXL DRAM,采用ASIC 的CXL控制器,并首次封装了内存容量为512GB的 DDR5 DRAM,与之前的三星CXL产品相比,内存容量为其4倍,系统延迟仅为其五分之一。

三星半导体512GB内存扩展器 CXL DRAM

值得一提的是,三星这次推出的这款内存模组CXL内存扩展控制器芯片正是由上述提到的澜起科技提供。

写在最后

每当一个新名词的出现,就意味着即将出现一个新市场。虽然CXL仅用两年时间就走完了其他标准长途跋涉的路,成为本次互联标准争夺战的获胜者,但其市场还未成熟,这或许又是新的发展机遇。从上述提到的大厂布局,我们可以看出,大陆选手在CXL领域并未落后,甚至抢先获得一分,想必未来只会更加精彩。

正如夏晶晶老师在知乎上曾表示的,CXL是intel对计算产业的一次巨大让利,做好CXL很有可能短期在中国国内获得独特的性能优势。

【本文由投资界合作伙伴微信公众号:半导体行业观察授权发布,本平台仅提供信息存储服务。】如有任何疑问,请联系(editor@zero2ipo.com.cn)投资界处理。