(腾讯云副总裁王亚晨)
随着大模型的火热持续迭代,AI基础设施愈发成为云厂商的核心竞争力之一。
7月1日,腾讯宣布其自研星脉高性能计算网络全面升级,升级后的星脉网络2.0搭载全自研的网络设备与AI算力网卡,支持超10万卡大规模组网,网络通信效率比上一代提升60%,让大模型训练效率提升20%。这意味着,如果原来训练中某个计算结果的同步需要花100秒完成,现在只需要40秒;原来需要花50天训练的模型,只需要花40天。
AI大模型就像是一场F1比赛,腾讯云专门设计了星脉高性能算力网络“赛道”,并自研了TiTa和TCCL网络协议作为“赛事指挥中心与专业车队”,共同让“腾讯云高性能计算集群HCC的GPU服务器”这台马力强大的F1赛车发挥最 大的算力性能,助力客户在AI大模型的竞争中遥遥*。
AIGC的火热推动着AI大模型参数量从亿级到万亿级的飙升。模型参数规模与架构升级对底层网络网络也提出了新的要求。
为支撑AIGC中海量数据的大规模训练,大量服务器通过高速网络组成大规模算力集群,互联互通,共同完成训练任务。
然而,集群规模越大,所产生的通信损耗会越高;同时,AI训练的通信模式,与传统的通信模式差异较大,不同大模型架构也存在着通信模式的差异。部分大模型训练过程中通信占比最 大可达50%。同时,分布式计算模式也意味着,单点的故障将导致整个集群不可用,因此在故障的时候需要快速定位与恢复训练,把损失降到*。
如何在大规模组网前提下,提升通信效率、降低通信占比,让训练稳定高可用,进而提升GPU的利用率和模型训练效率,是AI网络要解决的核心问题。
数据显示,星脉网络2.0可实现大模型训练过程中,网络通信占比(通信时间占总体时间比例)低至6%,远低于10%的业界水平;通信负载率达到90%,与IB网络(Infiniband)持平,相较于标准以太网提升60%。整体能力处于业界*水平。
四大组件全面升级,助力AI训练提速
腾讯自研星脉网络是一套软硬协同的高性能网络体系,包括自研网络设备、通信协议、通信库以及运营系统四大关键组件,每个组件均采用了业界首创的腾讯核心技术。
(腾讯云副总裁王亚晨)
硬件方面,腾讯星脉网络是业界*采用全自研网络设备的高性能网络,包括交换机、自研光模块、网卡等。自研交换机从25.6T容量升级到51.2T,同时在业界率先引入400G硅光模块,速率翻倍,让网络延迟降低40%,支持超10万卡大规模组网。
值得注意的是,星脉网络2.0支持搭载腾讯自研的全新算力网卡,这是公共云业内*为AI训练设计的网卡,网卡采用最新一代 FPGA 芯片,整卡带宽可达400Gbps,具备业界最 高的3.2T整机通信带宽。该自研算力网卡运行着新一代腾讯自研通信协议TiTa,并搭载了腾讯独有的主动拥塞控制算法。
相比起上一代,TiTa协议2.0从部署在交换机转移到了端侧的网卡上,从原来的被动拥塞算法升级到了更为智能的主动拥塞控制算法,可主动调整数据包发送速率,从而避免网络拥堵;并通过拥堵智能调度,实现网络拥塞快速自愈。这让混合专家(MoE)模型训练下网络通信性能相比1.0提升30%,带来训练效率10%的提升。
专为星脉网络设计的高性能集合通信库TCCL,也进行了升级。通过创新的NVLINK+NET异构并行通信、Auto-Tune Network Expert自适应算法等通信库的升级,在MoE模型训练下,给星脉网络带来了30%的通信效率提升,让模型训练效率提升10%。
TCCL 对外的接口跟原生通信库接口完全一致的,主流AI大模型客户不需要额外适配,只需要替换通信库就可以发挥星脉的能力。
通信协议TiTa与通信库TCCL的升级带来的效果叠加,让星脉网络的通信效率提升60%,MoE大模型训练效率提升20%。
网络的故障或任何单点的故障,将导致整个集群不可用,让模型训练暂停。因此,网络的高可用、稳定性也极为重要。为确保星脉网络的高可用,腾讯云自研了端到端的全栈网络运营系统,这也是星脉网络第四大关键组件。
运营系统2.0新增腾讯*技术灵境仿真平台,从原来仅能定位网络问题,到可定位GPU节点问题,实现万卡级训练故障卡顿、慢节点分钟级定位。这对星脉网络进行了360度无死角的立体监控,可以更快发现与定位网络问题,让整体故障的排查时间再次大幅缩短,故障时尽快恢复续训。
打造最适合大模型的云
目前,腾讯云已经面向AIGC场景推出了基于星脉网络的大模型训练集群HCC、AIGC存储解决方案、向量数据库以及行业大模型服务MaaS、天御AIGC内容安全解决方案等大模型全链路云服务。超过80%的头部大模型企业使用了腾讯云服务。
大模型训练集群在HCC将高性能云服务器作为节点,满配最新代次的GPU,节点之间通过自研星脉网络互联,提供高性能、高带宽和低延迟的一体化高性能计算产品。
腾讯云AIGC云存储解决方案是国内*实现存储引擎全面自研的云存储解决方案,可将大模型的数据清洗和训练效率均提升一倍,需要的时间缩短一半。
腾讯云向量数据库Tencent Cloud VectorDB每日支撑超过3700亿次向量检索请求,可支持千亿级向量规模存储,百万级 QPS 及毫秒级查询延迟,适用于大模型的训练推理、RAG场景、AI应用以及搜索推荐服务,实现企业数据接入AI的效率比传统方案提升10倍。
腾讯云打造了天御AIGC全链路的内容安全解决方案,提供包含数据服务、安全专家、机器审核、版权保护、客户体验管理五大服务体系,护航企业从模型训练到事后运营全过程的内容安全建设。
同时,在自身AI基础设施支撑下,腾讯自研的通用大模型腾讯混元大模型也在持续迭代。
借助基于星脉网络的大模型训练集群HCC、Angel机器学习平台等自研底层技术,腾讯搭建起万卡AI训练集群,可以用更少的资源训练更大的模型,训练速度是主流框架的2.6倍;推理成本相比业界主流框架下降70%,并且支持国产主流硬件的适配。
腾讯混元已扩展至万亿级参数规模,采用混合专家模型(MoE)结构,在通用基础能力和专业应用能力方面处于国内主流大模型*地位。无论是企业客户还是个人开发者,都可以通过腾讯云上API直接调用腾讯混元,实现更便捷的智能化升级。腾讯还联合生态伙伴,将大模型技术与20多个行业结合,提供超50个行业大模型解决方案。
大模型时代的来临,将开创下一代云服务,腾讯云致力于打造“最适合大模型的云”,也将持续升级底层AI基础设施,助力企业把握AI时代。