从早期“百家争雄”,到英伟达“一统江湖”,再到如今AMD、英特尔欲“三分天下”。
GPU在技术与市场的不断变换轮转中,迎来一次次蜕变与重塑。
GPU(Graphic Processing Unit),图形处理器,又称显示核心、视觉处理器、显示芯片,是一种专门在个人电脑、工作站、游戏机和一些移动设备上做图像和图形相关运算工作的微处理器。
由于可视化需要大量的图形、图像计算能力,无论是云端还是边缘侧都需要大量的高性能图像处理能力,因此近年来GPU实现了较快的市场增速。同时,随着GPU自身在并行处理和通用计算的优势,逐步拓展了其在服务器、汽车、矿机、人工智能、边缘计算等领域的衍生需求。
据数据统计,2020年全球GPU行业规模为200亿美元,预计2021年将增长15%。从2015年到2025年,GPU行业预计平均每年增长13%,将从80亿美元扩展到350亿美元的规模。
GPU可以按照两种方式进行分类:按照接入方式可以分为集成GPU和独立GPU,集成GPU将图形核心以单独芯片的方式集成在主板上或CPU芯片上,并且动态共享部分系统内存作为显存使用,因此能够提供简单的图形处理能力,以及较为流畅的编码应用;独立GPU拥有单独的图形核心和独立的显存,能够满足复杂庞大的图形处理需求,并提供高效的视频编码应用。
另一种是根据应用端的不同可以分为PC GPU、移动GPU和服务器GPU。PC GPU是用于PC端,既有独立也有集成;移动GPU用于移动端,一般都是集成;服务器GPU是专为计算加速或深度学习应用的独立GPU。
GPU分类及代表厂商
GPU发展历程,英伟达一统江湖
GPU的诞生和演进
在PC诞生之初,并不存在GPU这个概念,所有的图形和多媒体运算都由CPU负责。但是由于X86 CPU的暂存器数量有限,适合串行计算而不适合并行计算。以英特尔为代表的厂商多次推出SSE等多媒体拓展指令集试图弥补CPU的缺陷,但仅仅在指令集方面的改进起不到根本效果,所以诞生了图形加速器作为CPU的辅助运算单元。
追溯GPU的历史,要从图形显示控制器说起。世界上*台个人电脑IBM5150于1981年由IBM公司发布,这台PC搭载了黑白显示适配器(MDA)和彩色图形适配器(CGA),这便是最早的图形显示控制器。后来,IBM又推出EGA,并于1987年提出了VGA标准,VGA在文字模式下可支持720×400分辨率,绘图模式下可支持640×480×16色和320×200×256色输出,为了保证兼容性,当今的显卡依然会遵循VGA标准。
从MDA到VGA,图形图像的运算都由CPU来完成,图形卡的作用主要是将其显示出来。1991年,S3 Graphics推出的“S3 86C911”,正式开启2D图形硬件加速时代,它能进行字符、基本2D图元和矩形的绘制。到了1995年,几乎所有的显卡都具备2D加速功能,2D图形接口GDI、DirectFB等也都相继出现,并延续至今。
1994年,3DLabs发布的Glint 300SX是*颗用于PC的3D图形加速芯片,它支持高氏着色、深度缓冲、抗锯齿、Alpha混合等特性,开启了显卡的3D加速时代。然而这个阶段的显卡大多没有执行统一的标准,加速功能也不尽相同。能够看到,GPU概念推出之前,ATI、英伟达、3DFX等公司在此领域展开激烈竞争,推动着图形处理芯片的发展。
直到1999年,英伟达推出GeForce256图形处理芯片时,首次提出了GPU的概念,它整合了硬件变换和光照(T&L)、立方环境材质贴图和顶点混合、纹理压缩和凹凸映射贴图、双重纹理四像素256位渲染引擎等,并且兼容DirectX和OpenGL,被称为世界上*款GPU。
GPU的出现(硬件T&L的引入)使计算机减少了对CPU的依赖,并解放了部分原本CPU的工作。2001年微软发布DirectX 8,提出了渲染单元模式(shader model)的概念。从此,GPU从硬件T&L进入shader时代,此时的GPU架构还是固定管线。
固定管线架构持续多年,直到微软推出DirectX 10,shader不再扮演固定的角色,每一个shader都可以处理顶点和像素,这就是统一渲染着色器(unified shader),它的出现避免了固定管线中顶点着色器和像素着色器资源分配不合理的现象发生,使得GPU利用率更高。
*款采用统一渲染架构的GPU是ATI在2005年与微软合作的游戏主机XBOX 360上采用的Xenos,它是ATI*代统一渲染架构。而真正具有影响力的,是英伟达在2006年发布的GeForce 8800 GTX(核心代号G80),成为*款采用统一渲染架构的桌面GPU,其架构影响了日后的数代产品,是一款*划时代意义的GPU。
与G80一同发布的,还有著名的CUDA,它能利用英伟达 GPU的运算能力进行并行计算,拓展了GPU的应用领域,然而这时的CUDA只能算是GPU的副业。2011年TESLA GPU计算卡发布,标志着英伟达将正式用于计算的GPU产品线独立出来,凭借着架构上的优势,GPU在通用计算及超级计算机领域,逐渐取代CPU成为主角。
英伟达“一统江湖”
在早期的图形处理器市场中玩家众多,3DFX通过推出Voodoo 3D加速卡在当时*于市场同行。英伟达由于蔑视当时的主流标准,采用自创的四边形成像(QTM)技术,在同时期打造的NV1和NV2都未成功。此后陆续推出RIVA系列和TNT、TNT2,逐渐占据市场主流地位,并最终通过1999年的GeForce256击败3DFX,并于2000年英伟达将3DFX的知识产权买断。
在进入21世纪后,英伟达从此前的蛮荒时代中脱颖而出,市场中主要还剩下英伟达和ATI。ATI在1985年至2006年之间是全球重要的显示芯片公司,2000年ATI推出Radeon品牌,从此与英伟达开创了独立GPU领域两强争霸的格局。2006年AMD斥资54亿美元收购ATI,旨在融合CPU和GPU。在AMD收购ATI之后的重心更多地转向中低端市场,性能端渐渐落后于英伟达。而后英伟达牢牢掌控着高端市场,AMD的GPU则成为了性价比的代名词。
目前,独立显卡市场主要由英伟达和AMD两家占据。市场调查机构——Jon Peddie Research发布的二季度显卡市场报告显示,在目前独立显卡市场中,目前AMD和NIVDIA两大厂商居于统治地位,从市场份额上来看,AMD独显份额为17%,英伟达则增长到了83%。英特尔在前不久宣布进军高端独立显卡市场,预计*产品将于明年问世。
来源:JPR、海豚投研
报告显示,英伟达在显卡市场中表现强劲,市场占有率和出货量均有明显增长。AMD则需要面临显卡和处理器双线作战,产能更显紧张,所以市场份额呈现了下降的趋势。
英伟达的GPU架构自2008年以来几乎一直保持着每2年一次大更新的节奏,带来更多更新的运算单元和更好的API适配性。在工艺制程方面,英伟达GPU从2008年GT200系列的65nm制程逐步升级到了RTX3000系列的7/8nm制程,在整个过程中,晶体管数量提升了20多倍,使英伟达GPU的能效提升了数十倍,占领了独立显卡技术的制高点。
2008-2020英伟达GPU微架构进化(图源:慧博资讯)
英伟达通过对产品的打磨,从众多显卡厂商中脱颖而出,铸就了GPU高端市场的垄断地位。同时随着自动驾驶、AI、AR/VR等领域的兴起,拥有*优势的英伟达有望继续领跑市场,凭借产品的*性和稀缺性,巩固自身行业地位。
根据前十多年的GPU发展轨迹来看,GPU微架构的升级趋势可以简要地概括为“更多、更专、更智能”。“更多”指的是晶体管数量和运算单元的增加,其中包括流处理器单元、纹理单元、光栅单元等数量上升;“更专”是指除了常规的计算单元,GPU还会增加新的运算单元。例如,英伟达的图灵架构相较于帕斯卡架构新增加了光追单元(RT Cores)和张量单元(Tensor Core),分别处理实时光线追踪和人工智能运算;“更智能”是指GPU的AI运算能力上升。如第三代的张量单元相较于上代在吞吐量上提升了1倍。
此外,在整个过程中,英伟达一直坚持不采用IDM的模式,而是让台积电负责GPU的制造,自生专注于芯片设计,充分发挥比较优势,分散了GPU设计和制造的风险,符合半导体分工的大趋势。
英特尔、AMD奋起直追,欲三分天下
目前在全球GPU市场中主要的3个玩家:英伟达、AMD和英特尔。英伟达专注于GPU领域,由于此前不具备CPU业务,公司重心放在更高性能的独立显卡方向。AMD和英特尔由于自身有CPU业务,在2009年后两家厂商都各自大力发展内置于CPU的高性能集成式图形处理内核。
瞄准了未来的市场需求,以及英伟达在独显市场的垄断地位,英特尔、AMD奋起直追,想要三分天下。
英特尔直面出击
由于英特尔在CPU市场的巨大市场优势,带动了集成显卡的出货。英特尔凭借在CPU市场60%以上的市场份额,获得了GPU市场份额上的*地位。
英特尔是全球*的PC GPU供应商,也是PC和服务器显卡*的IDM厂商。英特尔的GPU最早可以追溯到1998年的i740,但是由于羸弱的性能和缓慢的更新速度,一直没有非常大的起色。进入酷睿i时代后,英特尔通过将核芯显卡和CPU进行捆绑销售,利用CPU的庞大市场份额,确立了公司在集成GPU领域的寡头垄断地位。
英特尔核芯显卡市占率达到68.3%(图源:JPR)
近日,英特尔CEO Pat Gelsinger在受访中表示,目前独显市场几乎由英伟达占据,在许多显示技术应用变得更偏重使用英伟达提供产品,使其变得过于专有,对于市场生态发展显然不利。因此英特尔希望借助接下来持续更新的oneAPI框架设计,让开发者、硬件厂商能更容易统整CPU、GPU,乃至于以FPGA形式建构更具弹性的运算方式,解决编码模型在不同微架构间的壁垒,*化跨平台表现和最小化开发成本,以一种对行业及其创新且更有利和开放的方式来实现更加友好的生态系统。
Gelsinger进一步说明了英特尔打算如何在GPU市场上提供有吸引力的产品,并谈到他们将如何在英特尔平台上实现从集成到分立的无缝过渡。他表示,英特尔聘请了AMD前*GPU架构师Vineet Goel来监督GPU产品基于的Xe GPU架构,负责“架构、设计和验证英特尔的Xe IP路线图”。
Xe GPU架构是2020年英特尔在其架构日中首次推出的,Xe微架构可以满足从集成/入门图形需求到数据中心和高性能计算的需求,Xe的推出标志着英特尔向高性能独立显卡领域的扩张。
Xe系列可以细分为集成/低功耗的Xe-LP、娱乐/游戏的Xe-HPG、数据中心/高性能的Xe-HP、高性能计算的Xe-HPC。英特尔独立GPU分为锐炬Xe MAX和服务器GPU,均隶属于Xe LP系列,微架构与核显Xe相同,采用标准封装和10nm SuperFin制程。
目前,Xe-LP的集成版本已经被第11代酷睿所采用。Xe-LP的移动独立GPU版本DG1和服务器独立GPU版本SG1也已发布。未来,英特尔还将推出面向游戏和高性能桌面的Xe HPG产品线,增加光线追踪等硬件支持,采用传统封装,外包生产。英特尔服务器GPU将使用Xe HPC、Xe HP微架构,采用2.5D和3D先进封装,10nm SuperFin及更先进自家或外包工艺。
根据Pat Gelsinger的说法,强调本身在CPU设计本质上的优势,加上目前持续在GPU产品设计上精进,配合oneAPI框架设计,借此针对不同运算需求搭配*组合。相比英伟达将主力放在GPU产品设计,英特尔在产品设计将能统筹更多运算应用资源,能以相对更低价格取得,预期能带动更大的规模和使用效益。
从英特尔即将推出的 Xe-HPG 显卡背后的期待来看,英特尔有了一个好的开端。至于与AMD的斗争,Gelsinger认为,英特尔即将推出的Alder Lake和Sapphire Rapids将有可能终结对手近年来的成功。
AMD双向突围
AMD是全球*可以同时提供高性能GPU和CPU的企业,且能够同时提供独立GPU和集成GPU,其集成GPU主要运用在Ryzen APU、嵌入式、半定制平台中。独立GPU分为Radeon和Instinct系列,主要用于游戏、专业视觉、服务器等应用。
笔者曾在文章一文中,描述了AMD近年来的势不可挡之势。“去年,除了Ryzen 5000系CPU的发布,AMD还发布了再次震惊世界的Radeon 6000系列GPU,性能摸到了RTX 3090的水准,可以说一举追平了跟英伟达多年的差距。2019年以来,RDNA架构显卡的成功试水,使得连续三年业绩飘红的AMD在原有市值基础上继续大幅上涨,2022年前,AMD将基于更先进的制程打造RDNA3微架构,进一步强化光追等计算表现。”
过去六年,AMD的计算和图形收入的营收由18.05亿美元上升至64.32亿美元,年复合增速29%。未来五年,AMD计划成为高性能计算的*,提供颠覆性的CPU和GPU方案。
从Mercury Research的数据可以看到,经过长达六年的重返数据中心的争夺战,到2021年*季度,AMD的X86处理器在数据中心的销售份额达到了11.5%,并且制定了可靠的路线图,以应对不断壮大且正在复苏的英特尔的竞争。同时,这对于更愿意组合GPU和CPU的优势互相促进产品销量的AMD来讲,无疑也将给英伟达带来一定程度上的冲击。
综合来看,全球GPU已经进入了寡头垄断的格局。在传统GPU市场中,排名前三的英伟达、AMD、英特尔的营收几乎可以代表整个GPU行业的收入。
来源:JPR、海豚投研
独立显卡领域主要由英伟达和AMD控制,而集成显卡领域由英特尔和AMD掌控。就整个GPU市场而言,英特尔在核心GPU上获得桂冠,市场份额为68%,英伟达和AMD为15%上下。
对于英伟达来说,主要对手就是英特尔和AMD,虽然英伟达的独立GPU全球*,但是其并不具备CPU设计能力,相反AMD一直以来都是CPU和GPU同步发展,而且都还做得不错,专注于CPU的英特尔也开始计划搞独立GPU了,而且英特尔除了X86之外,还押宝了RISC-V,都在针对CPU和GPU同时布局。
因此,押宝Arm成了英伟达一个非常好且不容错过的机会,此举可以让英伟达具备CPU设计能力,也可以做到CPU和GPU同时发展,甚至未来还能和X86展开竞争。可以预见,如果Arm的收购能成功,英伟达将会更加强大。
中国市场的X因素
全球GPU市场表现为寡头垄断下的高增长,年复合增速超过30%,主要市场份额被英伟达、英特尔、AMD等美系企业占领。在此宏观背景下,国产GPU企业蓬勃发展,在GPU软硬件方面同时出击。
国产GPU的发展落后于国产CPU,在国产GPU的开发中,GPU对CPU的依赖性和GPU的高研发难度,阻碍了该产业的快速发展。直到2014年,长沙景嘉微才成功研发出了国内*国产高性能、低功耗GPU芯片——JM5400,打破了国外产品长期垄断我国GPU市场的局面。
中国GPU市场规模和潜力非常大,庞大的整机制造能力意味着巨量的GPU需求。另外,国内在物联网、车联网、人工智能等新兴计算领域,对GPU也存在海量需求。据IDC预测,2024年中国GPU服务器市场规模将达到64亿美元,市场空间巨大。
有观点表示,AI技术的爆发和信创产业的起步给国产GPU带来了真正的发展机遇。
GPU在并行计算、浮点以及矩阵运算方面具有强大的性能,逐渐在高性能计算、云端AI应用等场景中处于主导地位。虽然英伟达在这个领域占据主导地位,由于其产品价格昂贵,且国内对产业链安全的考量,国产通用GPU有着广阔的成长空间。同样,由于信创产业的发展,国内的桌面GPU也得到了难得的发展机遇。
在图形GPU领域,还是以景嘉微、航锦科技等为代表的传统企业为主力。另外,国内从事CPU研发的企业(如兆芯、龙芯等),也开始切入这个赛道,增强了国内GPU企业的整体研发实力。以国产替代为核心驱动力,在政策指引和充足资金保障下,整个信创产业将为国产GPU带来巨大的市场空间,远超以往的军用等专业市场。
虽然国产GPU与主流厂商的差距仍很大,但是GPU国产化的道路仍在持续推进。2021年,景嘉微的JM9系列芯片流片、封装顺利。虽然比此前的量产计划晚了1-2年,但产品研发量产工作仍在稳步推进。JM9系列产品对标英伟达的GTX1080。虽然按之前JM7系列情况看,在使用上可能出现效果打折的情况,但比上一代产品有望实现较大的提升。
国内GPU厂商和产品不完全统计:
国内GPU厂商不完全统计(如有遗漏,欢迎补充)
当前,国产GPU已经能完成日常办公等基本的任务需求,有望先从军工领域拓展至国内政企办公领域,但是在性能和使用效果方面的差距还是难以打开民用市场。
GPU的使用效果主要受到硬件和驱动两方面的影响。从国产GPU的发展情况看,硬件端的追赶较容易实现,工艺制程、显存位宽、显存大小、时钟频率和显存频率等GPU的外在指标,可以通过逆向开发较快实现。但即使在相同的硬件情况下,GPU驱动也将明显影响使用效果,之前AMD显卡出问题也大多是驱动造成的。因此,对于国产GPU在驱动方面需要更长的时间去追赶。
GPGPU蔚然成风
2018年6月,图灵奖获得者John Hennessy 和 David Patterson发表了《计算机架构新的黄金时代》的主题演讲,提出了特定领域架构(DSA)的概念,旨在为计算机架构带来创新并努力迈向新的黄金时代。
顾名思义,GPU就是用于3D图形领域的DSA,其目标是在3D虚拟世界中渲染照片般逼真的图像。过去20多年里,GPU的基本需求就源于视频加速,2D/3D游戏,图像渲染。
然而,除了3D用途之外,几乎所有人工智能研究人员都使用GPU来探索超越3D图形领域的概念。GPU运用自身在并行处理和通用计算的优势,逐步开拓服务器、汽车、矿机、人工智能、边缘计算等领域的衍生需求。虽然GPU无法离开CPU独立运作,但是在当前“云化”加速的时代,离开了GPU的CPU也无法胜任庞大的计算需求。所以GPU和CPU组成了异构运算体系,从底层经由系统软件和驱动层支持着上层的各种应用。GPU已经成为了专用计算时代的刚需。
我们将这种设计理念称为通用GPU,即GPGPU,是一种利用GPU处理图形渲染之外通用计算任务的高性能芯片。近年来,在摩尔定律演进的放缓和GPU在通用计算领域的高速发展的此消彼长之下,通用图形处理器(GPGPU)逐渐“反客为主”,利用GPU来计算原本由CPU处理的通用计算任务。
在GPGPU领域,目前各个GPU厂商的GPGPU的实现方法不尽相同,如英伟达使用的CUDA技术、原ATI的ATI Stream技术、Open CL联盟、微软的Directcompute技术。这些技术可以让GPU在媒体编码加速、视频补帧与画面优化、人工智能与深度学习、科研领域、超级计算机等方面发挥异构加速的优势。
以上几种技术中,只有OpenCL支持跨平台和开放标注的特性,还可以使用专门的可编程电路来加速计算,业界支持非常广泛。但是,从市占率角度来看,英伟达无疑是行业的标杆,其不仅拥有百万开发者支持的CUDA,还在指令集的覆盖面、颗粒度、效率等维度有*优势,早早凭借强大的GPU+CUDA方案切入深度学习领域,用大笔研发投入和时间堆积起坚不可摧的生态城墙,鲜有能与其相提并论的玩家。
在2021年以前,中国企业虽然在一些专用芯片领域多有突破,但在GPGPU领域仍是空白。再考虑到产业生态,国产GPGPU替代还有很长的路要走。以中国的云端AI训练芯片市场为例,*的供应商为国外厂商,其市场份额达90%。
今年以来,壁仞科技、登临科技、天数智芯等本土厂商在GPGPU市场英伟达一家独大的背景下,相继进行流片量产,正在努力改变现况。除此之外,若想真正实现自主可控,GPGPU创企们还需在CUDA生态的基础上来推广自己的芯片,随着初代国产芯片陆续顺利落地,打造完整的国产核心技术生态体系也将是必经之路。
因其强大的并行处理能力和存储带宽,GPGPU在人工智能市场和高性能市场有广阔的应用空间。有数据预计,到2025年,我国GPGPU芯片板卡的市场规模将达458亿元,2019年到2025年的年复合增长率将高达32%。按行业来分,互联网及云数据中心为228亿元,安防与政府数据中心为142亿元,行业AI应用为37亿元,高性能计算为28亿元。
由此可见,从预期市场和国产替代的紧迫性来讲,GPGPU拥有大好前景,一旦突破国际巨头在“硬件+生态”层面的壁垒,本土企业的前景将十分美好。
写在最后
从GPU行业厂商的动态和布局来看,战火已经燃起,都在谋划着自己的保卫或突击之战。国产GPU厂商的兴起,将给行业带来新的不确定因素,机遇和挑战同样巨大。
最后,引用AI芯天下的观点,谈谈国内GPU行业要克服的“几座大山”:
(1)产品方面。与英伟达等国际巨头相比,国内GPU尚属于起步阶段。在图形GPU方面,国内*的景嘉微公司,其最新产品也只相当于英伟达几年前的产品水平。未来更多高清3D应用的出现将带来GPU需求的持续增长,对GPU处理能力也是一项不小的挑战,持续改进GPU系统架构和设计方法,提高运算能力和综合显示能力,以应对新形势提出的发展要求。
(2)专利方面。数据显示,全球GPU技术领域专利数量排名前20的公司占有全球70%的GPU专利。英伟达,英特尔和AMD还是GPU技术领域全球专利家族持有数量排名的前三。其中,英伟达持有专利数量占全球总量的近20%。所谓得专利者得天下,本土厂商需要在此发力,构建出可靠的护城河。
(3)在图形领域,GPU对于CPU和操作系统的依附性很强。在GPGPU领域,CUDA生态是国内企业必须要翻越的一座大山。当前的AI开发工程师,多数是在CUDA平台上进行开发的。因此,即使有国产GPU芯片可以实现替代,但要开发者实现迁移则是一项更为艰巨的工作。
(4)近些年,国外GPU技术快速发展,已经大大超出了其传统功能的范畴。国内GPU芯片的研制虽然可满足目前大多数图形应用需求,但在科学计算、人工智能及新型的图形渲染技术方面仍然和国外*水平存在较大差距,未来持续发展国产GPU势在必行。
【本文由投资界合作伙伴微信公众号:半导体行业观察授权发布,本平台仅提供信息存储服务。】如有任何疑问,请联系(editor@zero2ipo.com.cn)投资界处理。