脸有什么用吗?
在我们的社会中,“脸”几乎是人与人之间互相识别的*标签。
但除此之外,“脸”在我们生活中还承担着一些其他意义:比如刷脸支付,脸会是我们确认支付的许可;比如门禁识别,脸是我们在许多地方畅通无阻的保证。
甚至许多时候我们会气愤地质问别人,你要脸吗?这个这个时候,脸还会包含尊严、道德、责任等许多无形的价值观念。
显而易见,脸几乎是作为的人最重要的特征。以至于当元宇宙热潮来临,人们需要从一个世界进入一个世界时,要做的*件事,也是给自己捏一张“脸”。
但一个有意思的现象是,在人形机器人蓬勃发展的当下,这个致力于模仿人类形象的事物,却几乎从来没有被认真讨论过它的脸应该长成什么样。
人形机器人不需要脸吗?还是说当前的技术条件,这个话题还不应该被讨论?如果一定要给机器人一张脸的话,这张脸又应该怎么做?
01
机器人不要“脸”
人才要“脸”
人形机器人要不要脸,答案是显而易见的。
回顾记忆中那些令人印象深刻的机器人,无论是《变形金刚》里的大黄蜂、擎天柱,还是鸟山明笔下的阿拉蕾,亦或是独自在地球上捡垃圾的瓦力,几乎都有一张生动而鲜明的脸。
但最早的时候,人形机器人要“脸”这件事情是被忽略的。
波士顿动力前CEO Marc Raibert早期就认为,人形机器人“功能就是一切”,“能力、灵巧、感知和智力才是机器人的关键功能,其它的都不重要”。
所以在2024年电动版Atlas发布之前,波士顿动力的机器人几乎都没有明显的脸部特征。
Marc Raibert转变理念是在2021年,波士顿动力液压版Atlas的一则互动视频“Do You Love Me”在网上出圈。这让Marc Raibert意识到,形态的美感可以对机器人的仿生动作带来加成效果,而脸部是形态美最重要的一个特征。
同样是在2021年,这一理念被另一家机器人公司所印证。
这一年,英国机器人制造商Engineered Arts发布了一款名叫Ameca的人形机器人并且迅速出圈,原因就是因为Ameca拥有逼真的面部表情。
“人脸是我们拥有的具有最高带宽的通信工具”,一个表情所能传达的信息要远多于声音和肢体。
而Ameca的出圈,也侧面证明了大众其实更喜爱一个表情丰富、有温度、会表达情感的伙伴,而不是一个空有力气的铁疙瘩。
2009年的一部科幻电影《Moon》也在讲述一个同样的故事。
电影中,男主Sam Bell常常向他的机器人工作伙伴Gerty倾诉心声,Gerty总能一边回答一边给出动画表情来对Sam的遭遇表示同情。
Gerty的本质是一串计算机符号,而这张脸将冰冷的数学运算幻化抽象为平易近人的表情,不仅在言语上安慰了Sam,更是通过视觉交流拉近了人机关系。
显而易见,与机器人相比,人类其实更需要机器人拥有一张脸。只是如何去实现这张脸,目前行业里还没有一个统一的答案。
目前,主流机器人公司在设计面部时主要采用两种策略:
一种是基于集体文化共识,选择中立和抽象的图像,通过符号化的情感传达来满足人类对情感表达的基本需求,以捕捉和传递情感的本质。
另一种则是追求*的逼真度,努力再现人类面部的细节,试图通过接近现实的人类面貌来实现更深层次的情感共鸣和互动。
但这两种方案的落地,却都面临许多挑战。
02
人形机器人,让脸谱符号化
现实中,一款合格的人形机器人,头部需要具备耐用性、抗冲击能力,以适应多样化的操作环境和任务。
因此,包括特斯拉的擎天柱、Figure01、波士顿动力的Atlas等人形机器人在内,其头部使用的基本是金属合金和高强度塑料。
而在这样一个“硬邦邦”的头部,安装一张灵动、表情自然的脸并不容易。
所以当前主流的人形机器人并没有对面部表情做精致的研究设计,而是采用类似Gerty这种抽象的“动画脸”或“卡通脸”。毕竟这样的脸庞几乎能被所有种族的人接受,并且更容易构建。
▲图:主流人形机器人面部设计 产业象限制图
「产业象限」梳理了目前几家主流的人形机器人的脸部形象,可以看到它们面部清一色地使用“头盔式”的“玻璃面罩”,面罩里内置摄像头或使用LED灯带镶边。
比如,仔细观察智元机器人,会发现它在操作矿泉水瓶的时候,表情是微笑的:
宇树新近发布的最新一代人形机器人直接使用凹陷的屏幕面部设计,其顶部配置有摄像头等组件,围绕脸部的蓝色弧光像是一种微笑。
Figure 01机器人借助搭建OpenAI的能力构建大脑,所以它的面部也带有明显的OpenAI特色,即它每一次和人类交流,面部都会出现ChatGPT特有的“思考”符号。
波士顿动力的电动版Atlas采用光圈设计,这种设计参考了皮克斯电影开头的台灯,其内部配置了三个摄像头。
波士顿创始人Marc Raibert在设计Atlas的头部时,并不希望它有类似人类的面孔,因为这会触发“恐怖谷”效应,可能有点反乌托邦。
Marc Raibert觉得对于一个人形机器人来说,只要能保持与人类基本的交流即可。但这种圆环的设计,虽然没有五官,却总觉得这张“脸”自带情愫。
特斯拉的擎天柱如今已进化到第二代,但面部依旧一片漆黑,马斯克鲜少提及擎天柱面部的设计逻辑。
清一色的“黑面骑士”背后也有共同的光学和美学逻辑。
黑色被视为现代、简洁和高科技的象征,公众易于接受的同时,也不乏科技感和未来感。目前包括苹果、特斯拉在内的科技公司,都偏爱在发布会上使用“高级黑”作为底色。
较暗的面罩则有利于突出机器人的眼睛和其它面部特征,让信息在不同条件和不同角度中都能被清晰辨识。此外,黑色面罩还可以有效遮盖和保护面部的各种传感器和显示屏,防止外界光线的干扰。
但这般高科技感的“钢铁美学”,显然无法在与人类互动时,充分满足情感交流的需求,冰冷的机器感,令人形机器人丧失了“人形”应该具有的一点柔性和“人性”。
所以一直以来,企业和科学家也仍然在为做一张无限逼近人类的的机器人脸而努力。
03
机器人,也可以“画皮”?
抽象派为了文化共性,曾尝试在机器人上采用经过修饰的动物脸或卡通脸,但它们无法传递复杂的情感细节,限制了机器人在诸如医疗、教育领域等情感交流高需求的场景下的应用。
所以追求和真人一比一还原的“逼真脸”就成为一个不得不发展的技术路线。
“逼真脸”有两个阵营,一种是依赖机器学习做表情控制的“自主机器人”,另一种是依赖操作员远程操作的“远程控制机器人”。它们的核心差异,是交互的“自主性”来源于机器还是人类。
2005年11月,世界上*个具有表情的人脸行走双足机器人Albert HUBO亮相。一年之后,*个被授予沙特阿拉伯公民身份的机器人Sophia诞生,它能够模仿62种面部表情。其原型融合了古埃及女王娜芙蒂蒂、奥黛丽赫本和这家机器人创始人David Hanson的妻子阿曼达·汉森。
这两款表情机器人都隶属于同一家名叫Hanson Robotics的公司。其头部使用的都是“Fubber”材料,它是具有高弹性和柔韧性的橡胶材料,可以产生皱纹与折痕,贴近皮肤,他们也几乎是最早一批有逼真脸的“自主机器人”。
Albert HUBO使用复杂的控制算法来实现面部表情和肢体运动的协调。其控制系统能够自主管理基本动作和表情,但需要人类预先编程和设定参数。
Sophia具备一定的学习能力,使用自然语言处理、计算机视觉和机器学习算法来理解和回应人类对话,可以通过与人类的互动不断改进其反应和行为,她的“大脑”运行在Hanson Robotics基于云的人工智能 (AI) ——MindCloud上。
前面曾提到的Engineered Arts也醉心于做逼真的人形机器人脸。
旗下最知名的机器人是Ameca使用复杂的传感器和伺服电机,通过结合计算机视觉和自然语言处理,能够理解和回应用户的指令和情感。
据称,Ameca的面部使用的是Engineered Arts开发的一种专有材料,具有高度的弹性和柔韧性,以支持复杂的面部表情和自然的运动。
在中国,EX集团擅长做机器人面部表情,其曾推出还原鲁迅形象的人形机器人人。
EX集团创始人李博阳曾在接受采访时提到,大多数人形机器人公司都更关注机器人的双足这类“腰部以下”的位置,腰部以下主要在于处理好平衡控制的问题,而腰部以上更多与AI所结合的智能决策等相关。EX集团“主要布局腰部以上的方向,核心产品是仿生人形机器人”,“
不论是Albert HUBO、Sophia还是Ameca,他们探索的自主学习机器人的脸都非常具体,按照如爱因斯坦这样的名人或融合真人脸庞创造一张新脸,但这些机器人的硬件都是专有的,Hanson Robotics和Engineered Arts之外的组织的研究人员无法使用这些类人机器人进行自己的研究,他们不得不重新构建新的逼真的类人机器人作为研究对象。
为了解决这类问题,研究人员尝试做了一款开源机器人Eva,通过Eva的相关研究,类人机器人面部表情的生成过程也浮现在大众眼前。
Eva由四个部分组成:面罩驱动机构、下颌、眼睛和颈部,其中,面罩驱动机构主导着Eva的面部表情生成。
Eva的表情生成主要由两部分主导——先是由伺服电机驱动面罩上的表情单元,再由面罩上的钢丝将驱动力传导给硅胶面罩,从而形成Eva的表情。
如图中所示,面罩驱动机构的组成部分有12个MG90S伺服电机、一个定制硅胶面罩、一个支撑面罩的3D打印头骨和钢丝。
每根钢丝的一端连接相应伺服电机的伺服喇叭,另一端连接面罩上的某个点,钢丝连接的点基本在面罩左右两侧呈现对称,确保Eva做出面部表情时,面罩两侧都会被驱动。
钢丝主要通过布条和粘合剂附在硅胶面罩内表面,硅胶面罩由Smooth-On EcoFlex 00-30制成,这种材料与人体皮肤的材料特性非常相似。
根据著名心理学家、面部表情研究的先驱保罗·艾克曼的说法,所有面部表情都可以与愤怒、厌恶、恐惧、喜悦、悲伤和惊讶这6种基本情绪联系起来,Eva的表情设计也以这6种为主。
每一种表情都对应着面部肌肉的特定运动,比如惊讶对应着眉毛向上的运动,喜悦对应着嘴角向上。
▲图:保罗·艾克曼假设的六种基本情绪,Boyuan Chen
Eva的开发者对人类所有面部表情进行分类,建立46个不同的表情动作单元,比如,惊喜可以从AU 1、2、5和26中重现。
不论是自主机器人,还是远程操控机器人,他们的面部表情驱动方式基本都与Eva的运作逻辑类似。即使用伺服电机完成表情驱动。
但自主机器学习的机器人,可能会带来不可预测的行为,并且其仿生相似度很大程度上取决于机器学习模拟人类的智慧和情感技术的成熟度。
为了解决这个问题,于是有了基于人类操作做精确控制的远程操控机器人,尝试弥补自主学习机器人的不足之处。
大阪大学教授石黑浩和日本动画公司Kokoro共同研发出Geminoid——石浩黑的“复制品”,这台高度仿生机器人可以被电脑远程操控,实现模仿石黑浩的行为和面部及头部动作,Geminoid身上有多个执行器,面部有13个、躯干15个、手臂和腿部22个。
根据石黑浩的体验,他认为拥有和自己长得一样的克隆体,最主要的用途在于可以让它做自己的分身,他曾在报道中提到,机器人是自己身体的延伸。
但从Geminoid相关表现来看,它的表情并不自然,比如它在与工作人员交流时,眼神空洞、双手僵硬,与真人有较为明显的区分。
不论是自主学习机器人还是远程操控机器人,即便脸无限逼近人类,但如何在一颦一笑之间依旧保持逼真,至今也没有一个*的方案。即便面部表情无限类人,手部、身体不够与人类相似,依旧跨不过“恐怖谷”效应。
04
结语
人类的寿命有限,可能正因如此,他们对追求另一种让生命可能得以延续的方式十分执着。
制作无限类人的人形机器人,或许能够弥补一部分的缺憾,但“满足感”和“遗憾感”似乎是一对遵循能量守恒定律的双生火焰,它们会一直并存,满足一种需求的同时,又会诞生另一种遗憾。
人形机器人需要有一张脸,但人类的面部的结构极其复杂,涉及骨骼、肌肉、皮肤、神经和血管等多个层次,其中面部有40多块肌肉,覆盖在肌肉之上的皮肤具有弹性和伸缩性,能跟随表情做实时的变化。随着技术进步,对人脸构造所涉及的物理设备会越来越逼真,牵动肌肉的若干个伺服电机也会配合得越来越熟练。
但是,人类面部有一双通往心灵的眼睛,它映射着人生阅历,通过双眼,可以捕捉人所经历的沧桑与喜哀,而这是机器人难以拥有的,即便算法再高级,也很难复制和代替人类的心境。