旗下微信矩阵:

大模型+自动驾驶,发展到什么阶段了

特斯拉的进展会给国内智驾行业带来哪些启发?我们距离自动驾驶的终局还有多远?
2023-11-01 13:52 · 微信公众号:险峰创 险峰

上个月,马斯克乘坐一辆搭载了FSD V12自动驾驶系统的Model S,进行了一场45分钟直播,虽然中间也出现了一些小插曲(比如差点闯了红灯),但整体效果依然非常惊艳。

视频中,这辆Model S能够轻松绕过障碍物,识别道路各种标志,按照马斯克的说法,这些操作从头到尾都是通过端到端AI神经网络实现的,而非预先编程。

特斯拉的进展会给国内智驾行业带来哪些启发?我们距离自动驾驶的终局还有多远?本期险峰主题沙龙,我们将和几位行业专家与初创公司CEO,一起聊聊大模型+自动驾驶的未来。

我们请到了:

杨 洋 觉非科技智能驾驶副总裁

安向京 行深智能创始人

柴思远 智谱AI解决方案总监

温力成 上海人工智能实验室研究员

我们聊到了:

特斯拉的巨大成功,会让纯视觉颠覆掉激光雷达吗?

国内厂家和特斯拉的差距有多少?未来能否追得上?

大模型上车,还有哪些障碍?

大模型对汽车智能化的影响,会有什么机会点?

特斯拉会是自动驾驶的终局吗?

本次活动由险峰投资人徐真主持,为了保证内容质量,我们对嘉宾进行了匿名整理,并打乱了发言顺序,请勿对号入座。

也欢迎更多朋友加入险峰社群,一起探讨大模型+自动驾驶的新方向。

01、特斯拉的巨大成功,会让纯视觉颠覆掉激光雷达吗?

险峰:先聊一个老生常谈的问题,当初特斯拉选择了纯视觉路线,是因为激光雷达的成本太高,但是国内厂商普遍还是选择了摄像头+激光雷达的组合,那么这次FSD V12的成功,会不会让国内厂家也放弃掉激光雷达的路线?

A:我觉得一定会,因为特斯拉已经把这条路走通了,大家没有不跟的道理。

这和GPT的发展逻辑类似:今年国内大语言模型创业如火如荼,很多大厂纷纷下场,立下flag要做一款能对标GPT4的产品,因为人家OpenAI已经把东西做出来了,已经验证的东西,你再去做就非常work,但这也意味着之前那些老的技术路线很快会被放弃掉,同样的道理,对应到未来自动驾驶也是一样的。

B:首先明确一点,纯视觉方案是*够用的,其实人类自己也没进化出激光雷达,人眼本质就是先感知周围的2D图像,经过人脑处理后进行3D深度估算,最后对路况做出判断,所以只靠双目视觉完全可以满完驾驶需求。

但是,作为一个消费者,因为现在还没有一种*的 L4 到 L5 级别的自动驾驶方案,那么比较高档的车型上,配一些激光雷达作为冗余备份,这个需求也是客观存在的。

举个例子,之前特斯拉出现一些撞车的事故,比如前面有一辆翻倒的白色货车,AI就认为那是天空了,这种错误我们人眼也会犯,但如果有激光雷达,可能就会避免掉。

所以,激光雷达并不是说一定要有或者没有,主要是看用户需求,是更关注成本,还是更关注安全。

C:作为企业,我平时对激光雷达接触比较多,首先从实际应用的角度,激光雷达确实能解决一些纯视觉解决不了的问题,比如夜晚低光照,或者逆光炫光的环境,纯视觉都有天然的劣势,这时激光雷达就是一个很好的补充。

回到现实来说,我们也和多家主机厂深入交流过:大家之所以不愿意选择激光雷达,确实是因为成本太高,但是真正用过之后,工程师都说特别爽,实际效果上看还是有它存在的价值。

当然,因为成本高,现在也出现了一些激光雷达的替代方案,比如4D毫米波,其实就是介于传统毫米波和激光雷达之间的产物;另外,纯视觉方案是不是就一定没问题,我认为现在判断也还太早,可能还需要经历更复杂的场景、更多的里程之后再观察。

D:就我的理解,大模型的核心能力是通过Transformer建立起各数据之间的关联,刚才几位老师也就提到,纯视觉*的缺点,它是一个二维的传感器,而激光雷达是三维的,但本质上,二维场景和三维场景是有关联的。

那我们是不是能通过大模型,把2D和3D数据关联起来,让它从某种意义上更深度的理解驾驶场景,产生一些不一样的涌现?我觉得可以拭目以待,如果这一天真的到来,可能2D视觉也好、3D激光雷达也好、 4D毫米波也好,这些数据本质上是同一个数据,无论用哪一个数据,或许都可以能解决自动驾驶的问题。

我想到另一个问题,现在各主机厂都是拼传感器数量,我有多少颗激光雷达、摄像头、毫米波雷达;更多的传感器数量自然也意味着对算力的要求更高,是100、200还是500TOPS,但是事实上,特斯拉已经用实践证明,对算力需求可能并不需要那么高。

我们总是认为,未来汽车会越来越智能,但是大模型驱动下的自动驾驶,是不是会让汽车越来越不智能?比如现在的算力分布,一部分在云端,一部分在车端,那么未来随着大模型的发展,云端算力越来越高,车端反而就不需要太智能,汽车只要忠实地执行云端的指令,可能就已经足够了,这是我的看法,谢谢。

02、国内厂家和特斯拉的差距有多少?未来能否追得上?

A:从这次FSD V12 的表现,结合我对国内主机厂的一些了解,这个差距可能会在一到两年左右,能否追的上主要是看两个方面:

首先是算法层面,我们知道特斯拉用的芯片算力只有144TOPS(万亿次操作每秒),国内厂商至少都是 500 甚至上千TOPS,所以特斯拉对算力的利用效率是非常恐怖的,这是*个需要追赶的。

此外,过去数年里,已经有数百万辆特斯拉汽车在收集真实环境里的道路数据,数据的积累是第二个需要追赶的,当然大模型在这里面也可以发挥一定的作用,比如在虚拟世界进行更好的仿真模拟,减少这种数据采集的周期。

03、大模型上车,还有哪些障碍?

A:首先肯定是算力,现在市场上可以部署大模型的算力平台非常少,国内的一些头部主机厂也在积极布局,但目前看就只有英伟达和特斯拉,其他的算力平台暂时还没有投入使用。

这里所说的算力不是车端算力,而是云端服务器算力,这是大模型部署的前提,现在训练一个文本大语言模型,就已经需要上万张的A100卡,如果再把图像信息也加进来,对算力的要求只多不少;比如说像wayve ,我了解到他们是跟微软的 Azure 合作,用了很多张卡,训练了很久才得到的结果。

第二点就是时间,比如传统的图像训练,可能有个百万帧级别,就能训练出一个小模型,但如果是大模型再涉及到多模态的话,背后是要有数千万帧的训练量;这其中还有一个问题是,业界对于这种多模态的大模型训练,包括文本和视频的对齐,其实都还在探索的阶段,没有一条像GPT一样很明确的路,说你按照这条路走,就一定会得到涌现能力,只能是靠不断尝试。

所以无论算力还是时间,背后都代表着需要大量的资金,需要非常有实力的玩家才能去做这件事情。

04、大模型+智能化对汽车的影响,会有什么机会点?

A:一个方向是大模型带来车内交互方式的改变。其实现在的智能座舱本质还是手机的延续,但是我们的双手要开车,所以车内场景天然适合语音交互而不是触屏,那怎样把语音跟多模交互结合起来,再加入一些手势识别、眼球识别,最后把这些信息转换成车可以识别的指令,这是未来多模态大模型可以期待的事情。

从我们自己看来,目前整个生态和技术已经到了一个快爆发的阶段,可能只差一个类似iPad上《水果忍者》这样的杀手级应用,由此带来一些基于车用大模型的应用层开发,对这个生态我还是非常看好的。

另一个方向可能暂时还没有被太多人关注,就是当车辆完成智能化之后,里面很多的算力,其实是可以作为一个算力中心或者网关来使用的,比如现在英伟达的显卡很贵,那是不是可以把车上这些算力利用起来,用分布式计算替代一部分云计算,可能也是一个方向,需要有人搭建一些基础设施和技术工具来解决。

险峰:这里稍微补充一下险峰的观点,我们对自动驾驶还是比较乐观的,觉得未来一定会有新的机会出现。

其实刚才大家的讨论,都基于一个认知:即一定要用大模型的方式去训练自动驾驶算法,因此才需要算力、数据等大量资源的支撑。但就像当年在渐进式从L2到L4、一步式直接到L4的讨论一样,未来我们是否可以先用一些专用小模型去解决部分特殊场景?它可能不像大模型需要那么高成本,但可以先跑起来去解决现实问题

整个自动驾驶算法训练、测试的链路非常长,如果能在其中一些环节降低成本,企业其实就可以获得营收,这可能是一家初创公司相对低投入、比较好切入的点。

其实特斯拉强就强在,能把学术上的东西实际地做出来应用到车上,虽然工程化问题是自动驾驶迈不过的一道坎,但现在说已经到算法的终局形态也为时尚早,路线虽然在收敛、但也一直在迭代,永远期待有更优解。

05、特斯拉会是自动驾驶的终局吗?

险峰:从发展历程来看,特斯拉2020年引入BEV,21年引入Transformer,再到今天它展示的 FSD V12,特斯拉一直在把学术最前沿的东西不断地工程化,到今天它基本已经摸到了自动驾驶的及格线,甚至是到了七八十分的水平,那么特斯拉下一代的world model,会是自动驾驶的一个*解决方案吗?大家对对此怎么看?我们不妨来畅想一下。

A:我觉得汽车的智能化,核心不仅仅是省掉了一个驾驶员,而是让运输载具实现了信息化。比如一些封闭厂区内,无人载具可以和工厂的TMS或者MES 系统深度地融合,直接成为它的一部分,以前你需要调配一些第三方物流,现在完全不需要,运力会变成像交流电,插上插座就能用一样方便。

从这个角度上来讲,未来的无人驾驶会导致汽车的形态发生分化,会根据不同场景诞生出很多不同的物种,而不是像现在一样,只有乘用车、商务车、货运车之分;比如未来厂区里的运输车,会和公路上跑的运输车完全不一样,不仅是外观不同,能力也完全不同,所以我不认为特斯拉的路线会是一个*解决方案,它会是一个思路、一个方法论,但未来肯定还会有别的方案不断加入到系统中来。

B:我也觉得,现在谈终局可能还有点早,就像刚才主持人说的,特斯拉能够比我们超前两到三年,探索出行业大方向可能是什么,推动整个行业加速往终局的方向上走,这些贡献我觉得怎么夸都不为过,但要真正实现 L4 甚至 L5 的*模式,肯定也需要靠整个行业一起的努力和贡献。

C:太远的终局确实不好判断,我觉得首先能确定的是,大模型*的推理能力,一定是能够应用到自动驾驶中的,包括它能给你一些更好的决策,并且还能给你解释出原因,这个目前已经有一些公司在做了;但大模型的学习效率和速度也还需要迭代,比如现在整个云端要很大算力、很多算据,这还是一个成本很高的事情,还有很大的优化空间,解决了这些问题之后,才有可能让大模型给每个人提供一些个性化的服务,比如更个性化的交互,或者你更喜欢的驾驶风格等等。

D:特别同意刚才嘉宾的一句话——自动驾驶终局的本质,是“如何让机器人理解我们所处的真实世界”,包括特斯拉的world model,也都是在目前自动驾驶的范式之外,探索有没有更好地去推理和理解这个世界的方式。

所以,如果未来有一套算法,能够让通用的机器人非常好地去理解我们的世界的时候,自动驾驶这件事也就迎刃而解了。

这方面,我觉得不是学界在引领业界,而是反过来,业界在领导学界,因为业界才能接触到真实情况下驾驶的一手资料和数据,从而能发现一些我们在实验室里模拟不了的东西,所以,自动驾驶终局需要学界和业界共同去努力,不断加强沟通,对此我个人还是非常乐观的,希望这一天尽早到来。

【本文由投资界合作伙伴微信公众号:险峰创授权发布,本平台仅提供信息存储服务。】如有任何疑问,请联系(editor@zero2ipo.com.cn)投资界处理。