11月22日,由《财经》杂志、财经网、《财经智库》联合主办的“《财经》年会2024:预测与战略”在北京举行。商汤科技联合创始人、首席科学家王晓刚在会上精彩发言。
以下为部分发言实录,投资界(ID:pedaily2012)整理:
2023年通用人工智能和大模型是行业里最重要的突破之一,今天非常有幸和大家分享通用人工智能够给智能汽车领域带来一些什么样的变化和发展的机遇。
我们回顾过去十年人工智能的发展,它是以突破人的肉眼、人的认知的工业应用的红线为起点,2014年商汤首次在人脸识别领域,突破肉眼的识别率,诞生了商汤科技,从此以后有一批AI的应用陆续落地。但是同时也有一个问题,在过程当中需要针对每一个任务,对模型进行针对性的训练,今天你要问我这样的任务能不能完成,往往回答都是可以,但是我要重新采集训练样本,花比较长的时间再去开发AI的系统。过去的几年里我们做过一个统计,商汤这种商业化的模型输出超过3万多个,这里面也意味着比较多的定制化,到了2022年底ChatGPT的出现极大改变了人工智能的范式,基于一个非常强大的通用的模型可以完成很多通用的开放式的人工智能的任务,对于人工智能大规模的推广有非常重大的意义。
回顾一下过去几十年它的发展,人工智能对算力的需求有巨大的提升。过去几十年里,我们都处在小模型的时代,样本很小、规模不大的模型的参数远远大于样本和数据的供给量,但是后面随着互联网时代的到来,人工智能进入了大数据时代。在一个非常大量的数据的情况下,我们需要比较大的模型,有更多的参数把数据的价值利用起来。2012年AlexNet深度学习的出现对算力的需求带来了巨大的提升。从AlexNet到Transformer,算力需求增加了100倍,从Bert到GPT-4又有上千倍算力的增加。特斯拉今天有14000块GPU用于自动驾驶,到明年年初的时候它的算力规模会增加到10万块,谷歌、OpenAI都是以巨大的算力支撑为背景,OpenAI 1万P的算力。
今天大模型的爆发始于2022年底,我们对于大模型的布局在2018年就开始,2018年总部移到上海的时候,我们提出这样一个要求,在上海的临港建立人工智能的数据中心AIDC,那个时候大家不太能够理解作为一个算法的公司为什么有这样的投入去建立比较重的基础设施,我们累计这里面的投入超过了100亿人民币。2023年年初的时候全国有5万块A100的时候,商汤占了其中的1/5,1万块A100,今天我们有3万块高端的A100、A800、H800,这些为从事大模型的研发提供了非常坚实的基础,明年按照我们的规划,整体的算力还要增加2-3倍,今天我们已经达到6000P的算力,到了明年我们也要达到超过1万P。
基于强大的软硬件基础设施,我们能够支撑很多上层的大模型开发。今天我们能够把4000块高端的GPU连接在一起进行高效的大模型训练,超过5千亿参数量规模的大模型的训练,我们把基础设施开放给合作伙伴,这个基础设施同时可以跑超过20个千亿规模的模型。在此基础上有了商汤日日新的大模型体系,包括感知的大模型,2019年我们发布了*个感知的大模型,10亿参数的感知大模型,2022年当时发布了世界上最强的320亿参数的感知大模型,当时谷歌的感知大模型的参数量是200多亿。此外生成式的大模型包括语言大模型、文生图的大模型、大模态的大模型、决策智能、AIfor Science,所有这些都是基于软硬件基础设施的基础。过去五个月我们有超过500人的研发团队聚焦在大模型的研发。超过10亿参数规模的模型在我们的设施上跑过了超过1000次,百亿参数量规模的模型,我们的训练次数超过100次,针对这些中等或小一点的模型反复的训练试错,在这个过程中积累了大量的knowhow,帮助我们针对千亿规模的参数有比较好的成功的训练。
今天看到大模型的出现,不仅仅作为聊天和交互的工具,也成为了一个强大的生产力的工具。我们发现我们的大模型可以做到工具的调用、智能体的交互、机器人的控制。今年5月份的时候我们基于语言大模型发布了*个通才智能体,这个通才智能体可以比较好的做决策和任务中长短期的规划。因为之前大家有一个认知,认为人工智能能够比较好地完成一些规则比较清晰的任务,比如围棋Alpha Go,对于开放式的任务,对它的挑战性就比较高。对于我们的通才智能体,我们做了这样一个实践,在我的世界的游戏里面,需要从非常原子级的元素组合成物体,组成成建筑物,从而构建整个世界,这里面有262个开放式的任务,过去的几年里OpenAI用强化学习完成这些任务的时候总共只解锁了78个任务,我们基于语言大模型实现对262个任务的全部解锁,为将来机器人、自动驾驶提供了非常广阔的空间,能够看到我们的大模型与决策任务的规划展现出来的强大实力。今天我们的模型真正的成为AI操作系统AI的大脑,它能够调用其他的工具、函数、第三方插件,包括代码的生成。
给大家举一些例子。这个展示了多模态的大模型,之前我们用比较多的视觉模型的时候只能完成几个特定的视觉任务。今天我们有了多模态的大模型,我们可以针对图象、视频定义任何的任务,问它任何的问题,它都能够给我们丰富的答案,比如自动驾驶面临着非常复杂的场景要做出决策和判断,大模型就能够帮助自动驾驶的系统做出合理的决策,区分不同的场景。我们的模型给出的反馈,前方有红灯,有行人在穿行,前方有车辆在通信,左右有静止的车辆,后面有救护车的出现,应该做出避让救护车让救护车先行,在这样一个复杂的环境当中有很多种因素构成的情况下,我们的大模型会给到自动驾驶系统一个比较合理的决策。这些很难用基于现有的手动规则书写自动驾驶的决策逻辑,对它们来说是很难完成的。今天有了大模型的出现,在没有高精度地图的指引下能够帮助我们做出这样的判断。
我们可以看到近一年商汤一系列大模型的发布,今年3月份在GPT4,GPT4是多模态大模型,在它发布之前我们已经开源了30亿参数的多模态的大模型,也是当时业界开源里面最强的多模态模型。我们4月份发布了日日新大模型的体系,5月份的时候通才的智能体取得了突破性进展,6月份语言大模型在各项评比中超越GPT3.5,6月份我们发布了全球*个在自动驾驶领域端到端的UniAD大模型,它统一了感知、决策、推理、优化一系列,实现了*个大模型,在CVPR获得*优秀论文,这是CVPR近三十年*个以自动驾驶为题材的*论文,也是从1万篇候选当中选出来的。今年11月份我们会发布我们的世界模型,用于自动驾驶环境的生成和模拟仿真等等。
回到智能汽车这个领域,今天的绝影智能汽车的核心业务就是驾舱云三位一体的发展,核心围绕通用人工智能、大模型,在自动驾驶领域,我们现在已经进行量产落地的是L2+在高速领航,未来推广到城区的领航,城区的环境比高速复杂很多,在这种情况下要摆脱对高精度地图的依赖,端到端的自动驾驶,用一个模型去完成整个自动驾驶各个模块,实现完整的数据驱动,将是未来的发展趋势,我们会基于UniAD工作基础上实现端到端自动驾驶模型的量产。在智能座舱领域,要打造智能座舱的大脑,因为现有的智能座舱是由各个供应商提供一些单点的AI功能,由主机厂基于一些规则形成产品智能座舱的体验,整个体验是比较呆板的,人们把这个叫做假AI。有了大模型以后它可以自动调动智能座舱里面各个AI的单点功能,座舱里面的几十个APP,包括座舱里的各种硬件,能够形成一个完整的智能座舱的体验。这些背后都离不开AI的云服务,无论是驾驶还是座舱都需要数据的闭环,包括大模型的训练,特斯拉有自己的AIDC数据中心,到明年的时候特斯拉自己的算力就超过1万P,国内这些车厂很难建设这样规模的基础设施,而且需要提前布局。我们会把商汤的大装置这样的基础设施开放给车厂和生态合作伙伴。
大模型整体的研发体系,从模型的训练到模型推理的部署、云和端的结合,我们需要大幅的降低推理的成本,在此基础上由大模型的体系包括数据的平台、数据生产的管线,要得到好的行业的无论是通用的大模型还是行业的大模型,非常重要的就是数据的收集、数据的清理,这样的话我们可以提供一整套深入到行业里面的数据生产管线。再往上就是各种串联层包括函数的调用、沙盒的环境、知识融合、安全和价值观的对齐、混合专家系统等等,再往上去支持自动驾驶智能座舱车路协同的应用。我们会把整个这套体系开放给我们的客户我们的合作伙伴。
在智能座舱领域,我们的语言模型的核心就是座舱的大脑,将来基于此构建AI的操作系统,我们的多模态的大模型可以把舱内外各种不同类型的传感器进行融合,全方位地感知乘客和驾驶员的需求。另外我们有长短期的记忆模块,乘客的个人偏好、纪念日、日程安排都以外挂文档的形式跟大模型有这样的结合,这样的话我们的模型就能实现千人千面。在此基础上我们通过AIGC内容生成模型产生虚拟助手,产生千人千面的各种应用,还能够通过语言大模型智能化的控制车辆的各种状态,从而实现智能座舱一个整体的方案。
基于这套架构,在过去的几个月里开发了一系列在智能座舱里面的应用,给我们的乘客带来全新的体验。这里面应用很多,我就举一个例子,比如在健康问诊,因为我们在车舱里面有很多传感器,我们能够主动获得个中人的健康指标,比如血压、心跳等等,但是在大模型出现之前这些指标只是能够存放在那里,比较难发挥它的价值,今天我们有了大模型之后就可以根据这些指标的变化主动触发跟乘客跟驾驶员的交互,我们检测到健康出现状况的时候可以提供健康的咨询,也可以提供紧急的AI倚靠进行救援呼叫,也可以实现自动驾驶自接管,把车停到比较安全的地方。这个大模型的出现实现了跟乘客驾驶员主动的互动。
未来在座舱里面从APP的主动触发去激活大模型,到大模型通过感知客户乘客的需求,主动进行场景的触发,提供主动的专业化的服务,将来车内大模型无处不在,形成非常好的跟用户交互的体验。
智能驾驶未来技术的路线也逐渐清晰,我们基于视觉的,过去智能驾驶有各种传感器,包括激光雷达、摄像头等等,未来是比较清晰的,以视觉为主,去掉激光雷达,大幅降低成本。第二是数据的驱动,我们在过去的自动驾驶整个系统里面有感知、融合、定位、决策、规控等等很多模块,在所有这些模块里只有感知部分依赖于神经网络,依赖于数据驱动,其他模块都是依靠手动的规则,今天有了UniAD的出现就实现了端到端的自动驾驶,一个神经网络完成了所有的模块,一旦所有的模块都能用网络实现的话,就能够实现数据的驱动,因为以往都是靠工程师编写各种规则和补丁解决自动驾驶里面的各种case,现在可以通过数据的方式神经网络进行驱动。
可以看到各个模块当被一个网络串联起来的时候进行数据驱动的时候,每个模块的性能我们看到了大幅的提升。*,未来纯视觉会降低成本,第二摆脱我们对高精度地图的依赖,使自动驾驶实现的范围更广,成本更低,不依赖于高精度地图的更新。第三,能够做到可解释性、安全可靠、可迭代性强。这里面展示了我们最新的一个工作,基于多模态的大模型DriveMLM,输入各种类型的信息,我们的模型还可以给出自动驾驶做每一步决策和操作时背后的逻辑和推理和原因是什么,就是右边展示的以自然语言的方式去解释自动驾驶的行为,今天自动驾驶对我们来说不是一个黑盒,有背后的逻辑在。世界模型可以通过大模型生成各种在自动驾驶场景下非常接近于真实的视频、各种传感器的输出,因为未来端到端的自动驾驶的方案非常依赖于数据的驱动、数据的训练,今天我们能够自动的产生,还有这些模拟的环境,对于训练、测试都会有极大的推动作用,这也是我们最新的成果。
未来大模型给智能汽车带来了非常大的行业变革,一个是端到端的自动驾驶,另外一个是智能座舱里面形成以做大模型为基础的座舱的大脑,最后我们的驾驶和座舱逐渐深度融合,它们会实现在同一颗芯片里面,舱内外的传感器和数据能够实现零拷贝、极低延时的传输,能够给我们在产品层面带来*的体验。所以大模型时代对于智能汽车这样一个场景,能够实现人车的交互、人机的共驾,我们期待在自动驾驶里面大模型能够让它成为安全可靠的老司机,它能够去学习各种驾驶行为和驾驶风格,在座舱里面就能够成为暖心和懂我们的好管家。给智能汽车的行业带来了深刻的变化,我们特别期待未来几年里通过通用人工智能对我们这个行业带来更大的改变。
这是我的分享,谢谢大家!