旗下微信矩阵:

AI芯片短缺即将到来

在这一轮由Chat GPT掀起的大模型创业潮里,AI芯片成了抢手货,其中GPU最为明显。
2023-05-09 10:27 · 微信公众号:半导体产业纵横 九林

坊间曾传出一份报告,报告称今年年初百度紧急下单了3000台包含8张芯片的A800服务器(相当于2.4万张A800芯片),预计全年会有A800和H800共5万枚需求。无独有偶,阿里云预计也将在今年一万枚左右芯片,其中6000枚是H800。

有知情人士透露,A800、H800芯片目前正遭到包括服务器、互联网厂商的国内公司“哄抢”,“H800国内开始出货了,但本来产量也不多。A800国内今年一年出货的量,超过一半在互联网公司,”该知情人士称,“H800出货更少,剩下客户新订的可能最快要到12月才能交付。”

在这一轮由Chat GPT掀起的大模型创业潮里,AI芯片成了抢手货,其中GPU最为明显。

01 *的“硬通货”

随着现象级AI产品Chat GPT的走红,以大型语言模型为代表的前沿AI技术走向聚光灯之下。不少相关企业都接连推出了自己的大模型,百度、阿里、360、商汤等国内企业纷纷宣布入局AI大模型。

在技术架构层面,AI芯片可分为GPU(图形处理器)、ASIC(专业集成电路)、FPGA(现场可编程门阵列)和类脑芯片。Chat GPT背后的算力支撑主要来自GPU或CPU+FPGA。由于具备并行计算能力,可兼容训练和推理,GPU目前被广泛应用。

大模型对于GPU的要求极高。一方面是对于GPU的数量有要求。根据Semianalysis的测算,Chat GPT每天在计算硬件成本方面的运营成本为69万美元。Open AI需要约3,617台HGX A100服务器(2.8万个GPU)来为Chat GPT提供服务。

另一方面,对于GPU自身的性能也有要求。黄仁勋在一次会议上表示:“当前*可以实际处理Chat GPT的GPU是英伟达HGX A100。”A100由540亿个晶体管组成,打包了第三代Tensor核心,并具有针对稀疏矩阵运算的加速功能,对于AI推理和训练来说特别有用。此后,英伟达还推出A100的替代者——H100,该芯片由台积电5nm定制版本制程(4N)打造,单块芯片包含800亿晶体管,一举成为最强。

一时间,GPU成为了各大企业走向AI时代的*“硬通货”。

除了前文提到的国内两家巨头企业在购买GPU外,4月14日,国内第四大云厂商腾讯宣布推出新一代的高性能计算集群,该集群采用腾讯云自研服务器,搭载了英伟达最新的中国*版GPU H800,服务器间的连接带宽高达3.2Tbps。腾讯称,该服务器集群算力性能较前代提高了3倍,将腾讯自研的“混元NLP大模型”训练时间由11天缩短至4天。

随着国内大模型不断推出,GPU的数量还远远不够满足。据前人工智能NLP企业首席科学家、千芯科技董事长陈巍测算,国内如果想要直接训练出一个GPT-3级别的大模型,最少需要3000到5000枚A100级别的AI芯片。以保守情况估计,目前国内A100级别的AI芯片缺口在30万枚左右。

“疯狂”购买的不止是国内企业,海外巨头也在抢购。

2022年11月发布Chat GPT-3之后,Open AI背后的金主微软表示,已经购买了超过一万枚英伟达A100 GPU芯片,为Chat GPT构建AI计算集群。前不久,马斯克也为了推进推特内部的新AIGC项目,直接购买了约1万个GPU。

不过,地主家的存粮也不多,据消息人士透露,从2022年末,微软就实行了GPU资源配额供给,但今年1月以来审批时间越来越长,如今部分申请需要等待几天甚至几周才能获批。同时,微软向英伟达预订的数万枚GPU芯片,交货无期。

02 GPU价格攀升

如此巨大的需求,推动着本就昂贵的GPU价格再度上涨。

截止5月5日,英伟达最新发布的旗舰AI芯片H100在ebay上的售价达到4万美元一枚。记者搜索eBay时发现,目前共有6家店铺挂牌销售H100芯片,其售价普遍达到4.5万美元左右。相较于之前零售商报价的3.6万美元,提价明显。

国内方面,AI应用的主力芯片——由英伟达2020年发布的A100,价格也在飞速飙升。从年初到现在的5个月内,A100的价格从原来的6万元一路飙升到10万元,涨幅超过50%。业内人士预测由于美国的禁令,国内相关芯片的价格将持续上涨。

去年年底,英伟达推出A100“阉割版”(带宽被限制)——A800显卡,价格也在同步上涨。记者了解到目前A800在京东官网的定价为89999元。但实际上A800现在处于“有价无市”的情况,供应紧张,真实成交价格高于平台报价。

即便按89999元一颗A800芯片的价格计算,1万颗的成本就是约人民币9亿元。A800目前在浪潮、新华三等国内服务器厂商手中是稀缺品,一次只能采购数百片。有业内人士感叹:“一天一个价,一天比一天贵。”

《芯片战争》的作者Chris Miller在接受采访时也做出预测:“对于用于AI的特定类型的芯片,实际上已经出现了繁荣和一些已经变得明显的短缺。而且似乎对这些类型芯片的需求只会增长。”

03 代工产能堪忧

英伟达已经供不上货了。

作为最强GPU,英伟达自然选择了拥有全球*进制程的台积电进行*代工。具体来看,英伟达的A100、A800采用的是台积电7nm工艺、H100则是由台积电5nm定制版(4N)打造。

今年3月,台积电收到了英伟达增加的代工订单,其产品就是A100、H100,并且也包括为国内市场设计的A800系列GPU的代工订单。

在5nm-7nm制程这块,原本今年台积电的产能利用率并不算高点。5nm方面,去年四季度台积电就面临多家客户消减订单;7nm方面,台积电也预测在今年上半年不再处于过去3年的高点。

现实情况却出乎意料,Chat GPT的火热带来的不仅仅是对于英伟达订单的需求,同样也助力了AMD等企业。业内人士表示,AMD也获得了不少客户的急单需求,并且已经向台积电加大了订单量,其产品制程同样覆盖5nm和7nm家族。

台积电先进制程的份额中,各家占比不同。根据日本精密加工研究所所长汤之上隆的预测,2022年的排名依次为:苹果(25.4%)、AMD(9.2%)、联发科(8.2%)、Broadcom(8.1%)、高通(7.6%)、英特尔(7.2%)、英伟达(5.8%)。可以看到,英伟达仅在第七。并且占据台积电25.4%营收的苹果,更是垄断了台积电80-90%的尖端制程。

随着去年年底,特斯拉大量订购了台积电的4nm/5nm制程订单,想将其用于全自动驾驶汽车。巨大的订单量,使得特斯拉一跃拉成为台积电的第七大客户,英伟达顺次排到了第八。

在前七大客户的订单冲击下,英伟达的订单不免也将受到挤压。

并且,远水救不了近火,芯片代工本来就需要较长时间。去年8月,受到美国禁令的影响,英伟达直接对台积电下了“超级急件(super hot runs)”订单。这批“超级急件”总量约5000片,交期将大幅缩短,从原本预估的5至6个月,压缩为2至3个月,最快10月底至11月初开始交货。

由此来看,即使英伟达现在下单台积电,正常情况下GPU的量产仍需要一段时间。

04 吊死在英伟达一棵树上?

业内有人甚至以2021年席卷全球的缺芯潮,来类比眼下的GPU短缺:成千上万的AI初创公司、甚至是大型云服务商,将如当年因缺少关键芯片而停产的车企,或因缺少GPU面临相似困境。

不过,也并非所有客户都“吊死在英伟达一棵树上”,很多人将目标光投向了英伟达的竞争对手,比如AMD的GPU、Cerebras的WSE,Cerebras表示自家WSE-2是”地球上最快的”AI处理器”。

今年1月,AMD预告了重磅产品AMD Instinct MI300,MI300被称为“世界上*款在数据中心集成的CPU+GPU”,MI300加速器专为*的高性能计算(HPC)和AI性能而设计,借助3D封装技术将CPU和加速计算单元集成在一起,总共有1460亿个晶体管,预计在今年问世。苏姿丰表示,该芯片可以将推理建模过程的时间从几个月缩短至几周。

据了解,大约在5年前,微软就开始研发一种芯片,内部代号「雅典娜」(Athena),300人共同研发,专为训练大型语言模型(LLM)而设计。如果顺利,微软将通过Athena将每颗芯片成本降低三分之一,从而为Chat GPT发展提供重要动力。

与此同时,英特尔也率先掀起了GPU价格战。J.Gold Associates分析师Jack Gold表示,英特尔的GPU定价“相当激进,尤其是一些低端产品”;一些超大规模的厂商很有可能会向自家客户提供英特尔的高端GPU。

值得注意的是,面对众多大模型的算力需求,黄仁勋在2023年3月宣布英伟达将开展一项新的云租赁服务——向B端租赁用于开发Chat GPT等人工智能技术的超级计算机。

不过,此举看似开源,实则价格不菲——租赁这种包含8个A100或H100旗舰芯片的价格为3.7万美元/月,约合人民币25.4万元。

如此来看,AI仍旧是富人的游戏。

【本文由投资界合作伙伴微信公众号:半导体产业纵横授权发布,本平台仅提供信息存储服务。】如有任何疑问,请联系(editor@zero2ipo.com.cn)投资界处理。

本文涉及