1月24日,Meta发布博文介绍正在建设的AI超级计算机AI Research SuperCluster(RSC)。Meta表示,这是目前世界上最快的AI超级计算机之一,每秒可进行50亿次运算,它将加速Meta的AI研究并帮助Meta构建元宇宙。
RSC目前已完成*阶段建设,开始运用于训练具有数十亿参数的大型AI模型。RSC可以帮助Meta的AI研究人员构建更好的AI模型,可以从数万亿个示例中学习;跨数百种不同语言工作;无缝分析文本、图像和视频;开发新的增强现实工具等。借助RSC,Meta可以更快地训练使用多模态信号的模型来确定动作、声音或图像是有害还是良性。这项研究将为Meta的元宇宙计划奠定基础。
人工智能超级计算机是通过将多个GPU组合成计算节点来构建的,然后通过高性能网络结构连接这些节点,以实现这些GPU之间的快速通信。目前,RSC共有760个NVIDIA DGX A100系统作为其计算节点,总共有6,080个GPU。Meta声称这应该可以与劳伦斯伯克利国家实验室的Perlmutter竞争。根据排名网站Top 500的数据,Perlmutter是目前运行中的第五强大的超级计算机。目前*的是日本的Fugaku。随着Meta继续构建和升级系统, RSC的威力预计将提高三倍左右,理论上这将使RSC可以在未来争夺排名第三。
Meta长期以来一直是人工智能研究领域的雄心勃勃的参与者。该公司认为人工智能在元宇宙的发展中发挥着重要作用。“我们希望RSC能够帮助我们构建全新的AI系统,例如,可以为一大群人提供实时语音翻译,每个人都说不同的语言,这样他们就可以在研究项目上无缝协作或玩AR游戏一起,”Meta AI研究人员Kevin Lee和Shubho Sengupta在一篇博文中写道。“最终,RSC所做的工作将为构建下一个主要计算平台的技术铺平道路——元宇宙,人工智能驱动的应用程序和产品将在其中发挥重要作用。”
Meta的研究人员解释说,公司最近在自我监督学习(Self-Supervised Learning)领域取得了长足的进步,这是算法从大量未标记示例中学习的领域。它还引领了基于转换器的模型(Transformers)的进步,这使得人工智能可以通过专注于其输入的某些领域来更有效地推理。Meta总结说,为了实现自我监督学习和基于转换器的模型的全部好处,它需要训练越来越复杂和适应性更强的AI模型,这意味着它需要处理大量的数据。例如,要开发更高级的计算机视觉模型,需要以更高的数据采样率处理更大、更长的视频。
同时,语音识别需要在具有大量背景噪音的*挑战性的场景中工作,自然语言处理必须理解不同的语言、口音和方言。所以Meta决定它需要一台比目前可用的更强大的计算机。
“与Meta的传统生产和研究基础设施相比,RSC的早期基准测试表明,它运行计算机视觉工作流程的速度高达20倍,运行Nvidia NCCL Collectives的速度超过9倍,训练大规模NLP模型快三倍,”Meta AI的研究人员说。“这意味着一个拥有数百亿参数的模型可以在三周内完成训练,而之前是九周。”
除了专注于速度和功率之外,RSC的构建还考虑到了安全性。“RSC的设计从一开始就考虑到了隐私和安全性,因此Meta的研究人员可以使用加密的用户生成数据安全地训练模型,这些数据直到训练前才被解密,”Lee和Sengupta写道。这些保护措施包括确保RSC与公共互联网隔离,没有直接的入站或出站连接。同时,从 Meta 的存储系统到GPU的整个路径都是加密的,只有在使用之前,在GPU端点,内存中的数据才被解密。
Meta透露,RSC的第二阶段建设将在2022年底之前完成,性能将有大幅的提升。RSC将成为世界上最快的AI超级计算机,其混合精度计算性能接近5 exaflops。到2022年,GPU的数量将从6,080个增加到16,000个,这将使AI训练性能提高2.5倍以上。InfiniBand结构将扩展为支持16,000个端口,采用两层拓扑结构,不会出现超额订阅。该存储系统将具16TB/s的目标交付带宽和EB级容量,以满足不断增长的需求。
Meta表示,“我们预计计算能力的这种阶跃函数变化不仅使我们能够为我们现有的服务创建更准确的人工智能模型,而且还能够实现全新的用户体验,尤其是在元宇宙中。”“我们在自我监督学习和使用RSC构建下一代AI基础设施方面的长期投资正在帮助我们创建基础技术,这些技术将为元界提供动力并推动更广泛的AI社区发展。”