在刚刚过去的WAIC 2023上,没到现场的马斯克,把“擎天柱”派到了现场……
尽管这台人形机器人被放在了罩子,在现场也没有做什么表演或动作展示,但在会场中依然被几度围观。
再结合马斯克在开幕式视频演讲中发表了的观点:
“在将来某个时刻,地球上机器人与人类的比例可能会超过1:1,这意味着机器人的数量将超过人类,甚至会多很多。”
人形机器人无疑成了WAIC 2023上关注度最高的一个话题。
实际上,我们发现,WAIC 2023上,仅仅是关于人形机器人的主题论坛就有不下五个,参展机器人厂商更是超过了20家。
此外,据锌产业了解,现在国内但凡机器人做得还不错的团队,不少都已经开始涉足人形机器人领域。
除了康复机器人领域独角兽企业傅利叶智能在WAIC 2023期间首发人形机器人外,今年下半年我们将会看到有更多人形机器人面世。
似乎,一夜之间,人形机器人犹如雨后春笋般,从各地相继冒出。
为什么圈内人都觉得,人形机器人真得又行了呢?
01
暴力美学造就通用AI
大家之所以会觉得人形机器人又行了,同样和现在科技圈最火爆的大模型不无关系。
2022年11月30日,ChatGPT正式问世,随后,ChatGPT仅仅用了两个月,就拥有了1亿用户。
一个对比数据是,增长到1亿用户量,Facebook用了4.5年,Instagram用了2.5年,即便是如今仍属新鲜事物的TikTok也用了9个月。
之所以列出这么一组数据,是为了更直观地体现ChatGPT当时在全球的火爆程度,而一般这样全球性的现象级产品,必有其颠覆性所在。
ChatGPT的颠覆性在于它的“通用性”,准确地说,应该是人工智能的通用性。
ChatGPT的背后,是一家曾经少有人知(至少在国内是),如今却无人不知的AI创业团队OpenAI,这个创业团队最早是由特斯拉创始人马斯克、PayPal创始人彼得·蒂尔、YC创始人利文斯顿,以及现在OpenAI的掌舵人奥特曼等硅谷大佬创办,目的就是为了研究人工智能技术。
当然,据马斯克曾经透露,创立OpenAI其实还有另一个原因,是几位大佬为了联合对抗谷歌的AI霸权。
这样的硅谷最强天团,既不缺钱,也不缺资源,于是他们走了一条别人敢想不敢干的路——用巨量算力资源训练一个巨量参数的通用人工智能大模型,也就是LLM,通用大语言模型。
这里我们再列举两个数据来看一下,LLM训练究竟有多消耗资源:
GPT-3使用1万块V100 GPU,花了30 天才训练完了1750 亿参数,训练一次要消耗19万度电,整体训练成本约为140万美元;
GPT-4参数规模更是达到了1.76万亿个,理论上来说,消耗资源量至少是GPT-3的10倍。
我们完全有理由认为,这是一群科学疯子,在通过巨量资源尝试引发一次AI质变,他们信奉的是暴力美学。
幸运的是,他们成功地训练出了通用大语言模型,这从ChatGPT问世后的使用效果和科技巨头的追捧热度就能有一个直观感受。
那么,通用大语言模型,能为人形机器人带来什么呢?
02
人形机器人的死亡陷阱
人形机器人一直被认为是机器人的*形态。
之所以如此,是因为,人形机器人理论上可以完成所有人类在做的非标任务。
因而,几乎每个机器人创业团队,或多或少都有过搞人形机器人的念头。
在之前很长一段时间里,大概是早稻田大学搞出WABOT后,人形机器人一直处于一个在硬件能力上寻求突破的阶段。当时大家都是在想,如何通过工程结构、制造能力、系统动力学来让人形机器人像人一样地动起来。
于是,在过去几十年里,随着机器人的电机、控制器、减速器等核心器件的工艺、性能不断提升,以及机器人系统能力逐渐完善,人形机器人最终如愿逐渐能够走了起来。
我们看到,本田在1972年搞出了阿西莫(ASIMO)震惊行业,波士顿动力在2016年亮出了Atlas秀翻全网。
就在波士顿动力Atlas在网上又是表演后空翻,又是表演踩梅花桩时,一个一直未能解决的问题——商业化问题,让波士顿动力始终困于荧幕之上、网络之中。
我们看到,无法很好地实现商业化的波士顿动力,在最近十年里相继被最喜欢工程师的谷歌、最喜欢机器人的软银先后收购后,最终又转手给了现代汽车。
汽车工业是自动化、信息化最高一个场景,也被认为是军工之外最有可能率先用上波士顿动力四足机器人,甚至人形机器人的地方。
2021年6月,波士顿动力正式归于现代汽车门下,而这很有可能将是他们最后一站,如果这一站商业化再没什么成果,人形机器人很有可能会再次掉入死亡曲线中的又一个低谷,沉寂再所难免。
可能有人会问,为什么人形机器人这么难商业化?
这是因为人形机器人是完全仿照人的外形研发的一种机器人,因而天然需要面对更复杂的、不确定的场景。
这有点类似人工智能技术的发展,会下棋的AlphaGo只能算是专用人工智能,这种专用人工智能算法研发只需要瞄着一个应用场景,用大量数据一直进行训练,总有修成神功的一天。
对应到机器人领域,面向各类工业环境研发的专用机械臂已经十分成熟,尤其在汽车工业的冲压、焊接、喷涂、总装等环节中早已有了广泛应用,这也就是为什么工业机器人在全球能有超过1400亿产值规模的主要原因。
人形机器人要解决的不是这些问题,或者说人们期望作为机器人*形态的人形机器人要解决的,不是这类问题,而是真实世界中更复杂的问题,这就需要解决机器人的通用性问题。
我们这里先说一下人工智能的本质,我的简单理解是:
人工智能的本质就是算法。
算法应用到软件上,就形成了有智能推荐系统的搜索引擎、有智能客服系统的电商平台;
算法应用到硬件上,就形成了有智能语音系统的音箱、有智能规划系统的扫地机器人。
所以,当通用大语言模型这样的通用人工智能算法出现后,苦苦寻找提升人形机器人通用性的机器人团队,就兴奋了起来。
人形机器人+通用大语言模型,不就有了通用人形机器人了吗?
03
具身智能,一次机器人的能力泛化
在讨论具身智能之前,我们先要做一个假设:
假设人形机器人所需要的电机的扭矩密度、电池的能量密度都已经足以支撑人形机器人进行各种高强度运动,控制器、减速器也都已经不是问题。
这时候,软实力就变得尤为重要,而以ChatGPT为代表的通用大语言模型,显然已经为人形机器人打了一个样儿。
ChatGPT当然可以直接应用到人形机器人上,这就能让人形机器人在对我们这个真实世界的认知上,有一个极大的提升,人机交互能力也会有一个阶跃式提升。
这也是为什么今年上半年,阿里、百度分别将通用大语言模型首先加载到了旗下天猫精灵、小度智能音箱上,这也或将是我们真正走出弱人工智能的*步。
不过,人形机器人,目前当务之急,还是将运动能力提上去,如果以人类运动能力为标准的话,至少要让人形机器人能先达到及格线以上。
是的,现在市面上大家能看到的人形机器人,即便是最基本的运动能力,仍处在及格线以下(不是说人形机器人的运动能力差,实在是人类运动能力太强了),这是当下行业的一个普遍共识。
而据锌产业了解,现在已经有机器人公司在通过ChatGPT提升人形机器人运动能力,例如优必选就已经在用类ChatGPT大模型做运动规划,通过大模型做长序列、长周期的动作序列拆解。
通过大模型做人形机器人的运动规划的好处是,可以提升机器人在动作执行过程中的决策和规划能力。
这其中体现大模型通用性的,是一个被称作「泛化」的能力。
我是在清华大学交叉信息研究院助理教授许华哲的演讲中了解的这个概念,他用机器人切豆腐为例解释了泛化能力对于具身智能的重要性:
一台机器人学会用一把刀切豆腐后,当这把刀的颜色、姿态、位置无论怎样变化,这台机器人都能识别出这把刀,并完成切豆腐这个任务,这就是泛化能力的体现。
如果人形机器人在运动规划上也有了这样的泛化能力,那么,理论上,人形机器人只要学会在一种地形上走路,就能够自己学会在全地形场景下自由行走。
也就是说,走路就成了人形机器人的一个目标,人形机器人只要在一个环境下实现了这个目标,就能够在所有环境中自适应完成目标。
这时,机器人就从程序执行导向,转向为目标完成导向。
这样的人形机器人也就有了感知运动智能,甚至有了一定的认知能力,人形机器人由此也就完成了一次高维进化。
具备泛化能力,正是人形机器人成为通用机器人的*步。
04
人形机器人的N种可能
首先说一个我自己的判断:
无论是否有被冠以“通用”二字,人形机器人本质上就是一类拥有通用能力的机器人。
如果不是为了做通用机器人,完全没有必要做成人形。
在自动化能力更高的仓储系统中,AGV效率本就更高;在汽车总装车间里,机械臂效率也已经很高。
如果追求*高效,应用于这些场景中的机器人完全没有必要做成人形。
所以,这几年陆续出现的人形机器人,某种意义上,都可以被认为是通用人形机器人。
但人形机器人在实际应用时,会率先在哪些场景落地?
我们现在能够看到的是,特斯拉正在尝试将人形机器人应用于工厂中,前不久发布了人形机器人的傅利叶智能本就是医疗康养机器人领域的明星企业,养老、助老也就成了人形机器人落地场景之一。
显然,制造工厂、医疗康养,已经成了如今人形机器人两个黄金赛道。
如果再往长远来看,就像大模型在各个行业中都已经裂变出了行业大模型一样,搭载行业大模型的人形机器人,也会随之进入各个行业。
不过,这其中还有两个关键难题需要解决:
一个是硬件难题,关键零部件的技术突破,将成为拥有优秀的运动能力的平台级人形机器人成形的关键;
我们看到,国内越来越多硬科技团队涌入人形机器人这一赛道中,但是人形机器人的关键零部件仍需进一步突破,才能支撑起一个通用人形机器人平台的成形。
以电机为例,目前,电机扭矩密度做得最高的是MIT和UCLA做的电机,已经能实现38N.m/kg的扭矩密度,但这尚不足以支撑一台标准体重的成年男人自由弹跳或奔跑。
一个是软件难题,人形机器人现在还没有足够的场景数据,来在某个场景中训练出一个通用人工智能大模型,让人形机器人基于此进行自我进化。
前文提到,以ChatGPT为代表的通用人工智能本身追求的是暴力美学,需要大量样本数据来训练,才能形成具备通用知识的理解、分析、决策能力的通用人工智能大模型。
对于人形机器人而言,由于尚且没有得到批量化应用的场景,也就没有这么多直接的场景数据。
例如在工业场景中,由于此前并没有人形机器人直接参与,相应的运行数据自然也就无从谈起,可以用于人形机器人训练的场景数据,更多是来自空间位置数据、机械臂及制造设备的运行数据,以及工人的工作日志等。
不过,清华大学邓志东教授也指出,大模型+思维链等提示词工程,可以实现零样本学习,这将推动智能机器人的产业落地。
总体而言,人形机器人发展道路上依然有诸多困难。
不同的是,我们现在已经清晰地看到了一条路,一条在三年、五年内有可能跑出通用人形机器人平台,甚至在某些特定场景中跑出人形机器人产品的路。
就在五年前,整个行业的判断还是要十年、二十年,乃至更长时间才能到来。
这就是当下这个时代,一个让机器人团队再次兴奋起来的时代。
【本文由投资界合作伙伴微信公众号:锌产业授权发布,本平台仅提供信息存储服务。】如有任何疑问,请联系(editor@zero2ipo.com.cn)投资界处理。