智能化浪潮奔涌澎湃,生成式AI驱动新一轮数字化变革,运营商加速向智能化转型,建设高速算力网络,深化基础设施以支撑新场景、新应用成重要目标。
2024 MWC上海浩鲸科技“智能基础设施”展区,带来异构智算底座调度管理、BICN3.0算力网络一体化方案,分享在解决智算底座集成与应用难题过程中的*经验,打造“跨越异构GPU卡集群管理、跨越智算集群一体化调度、跨越算力主体的一体化支撑”三重能力,加速释放智算底座价值,推动全国一体化算力网络的加速构建。
随着AI等新一代信息技术快速发展,智算需求爆发式增长,在基础设施充分发挥作用的实践过程中。我们发现在云内融合、跨云融合、云边融合三个方面;在GPU卡、智算集群、算力主体三个维度,面临着多重挑战。面对这些挑战,要突破智算底座集成与应用的难题,释放智算底座生产力,浩鲸科技提供异构智算调度管理综合方案、BICN3.0算力网络一体化升级方案,重点实现三个能力跨越,探索解决思路。
1、跨异构GPU的集群管理能力
面对智算需求快速增长、智算资源稀缺、单卡分配和粗粒度资源管理粗旷、集群吞吐量受限等在资源使用上的难题,浩鲸科技提出异构集群管理方案具备三大创新能力,以解决当前异构GPU普遍存在的背景下,降低上层应用算力使用门槛,提升资源利用效率。
1) 异构GPU统一接入及管理,向应用提供标准化调用接口。目前已支持和对接了国内外10+芯片种类;
2) 自研Tower插件,无需购买原厂License,实现1%细粒度算力精分与显存超分;
3) 分时远程调用智算算力,实现GPU资源的共享化使用。
2、跨异构智算集群一体化调度能力
异构算力的多样化现状要求跨集群进行一体化调度,但在调度过程中存在面对不同类型应用如何一体化调度、不同调度训练作业如何并行、如何配置最 优调度方案以提升资源利用率、解决多模型并行的资源冲突等多重挑战。为此,浩鲸科技针对异构算力调度方向提出了基于性能感知自适应跨集群调度框架的前沿性探索,重点研究三大关键技术:
1) 动态并行策略:按异构算力资源现状,分片策略组合支持流水线、数据、向量等多种并行策略的灵活组合;
2) 性能探测技术:基于现网资源情况,探测不同并行策略下的最 优计算性能;
3) 动态分配技术:动态感知智算集群的状态,实现算力资源最 优调度。
3、跨算力主体的一体化支撑能力
为了解决集群内,跨集群问题,浩鲸科技针对BICN算力网络一体化支撑方案进行3.0全新升级,提供跨越算力主体的一体化支撑及并网能力,具备“1+N架构”、“5O调度能力”、“5M并网模式”升级亮点,并探索出灵活合作模式,促进算力服务生态运营。
1) 1+N架构升级:一体化BICN算网支撑能力体系解耦为接入、编排、运营、方案4层,面向不同需求方的要求,组合出N解决方案;
2) 5O调度能力升级:面向异构算力、异主体、异区域、异算色、异平台5异算力,提供一体化调度能力;
3) 5M并网模式丰富度升级,提供信息层、业务层、运营层、编排层、原生4类并网模式支撑,满足各种并网形态的支撑;
商业合作模式升级,面向不同的行业,不同的客户需求,提供灵活的商业合作模式:标品模式、集成模式、赋能模式,促进一体化算力服务生态运营。
浩鲸科技智算底座解决方案致力于为客户快速实现智算资源的统一纳管,提高资源利用吞吐率、提升的使用价值。目前已协助多个省级运营商客户构建智算资源纳管能力,实现异构GPU统一纳管、集群化管理、算力切片等核心能力,为省内大小模型的训练及推理提供算力支撑。同时,浩鲸科技BICN3.0算力网络一体化支撑方案协助福建移动、山东移动、江苏移动及上海新型互联网交换中心等多家运营商及企业,实现内外部算力资源一体化运营,积极输出区域算力一体化平台的建设能力,实现算力高效互补和协同联动。
未来,浩鲸科技将会持续加强在智算方向上的关键技术研究,持续加强在数据加载加速、计算加速及网络加速等方向研究,加速智算底座生产力释放。