2024年1月9日-11日,“2024创投大会”在西安举办。本届大会以“向实· 向新 · 向强”为主题,邀请院士专家、投资机构、产业企业从宏观趋势、产业投资、企业发展等多个角度呈现一场思想饕餮盛宴。
会上,中国工程院外籍院士,德国工程院院士,德国汉堡科学院院士 张建伟发表主题演讲《通向鲁棒自主系统的多模态AI之路》
以下为演讲实录,
经投资界(ID:pedaily2012)编辑:
非常高兴从德国汉堡来到古都西安,从丝绸之路的终点回到丝绸之路的起点,在新年伊始之际探讨未来,感到非常兴奋。
我报告的题目是鲁棒自主系统,近期我们实现的大的产业就是智能驾驶,未来在中长期的产业,我讲是未来的个人服务,机器人是他们的鲁棒自主性,他们的可靠性,他们在长期负责的,非结构下环境的自主性,是我们未来用多模态人工智能解决的目标之一。
现在,国际上科学家和企业家的融合也越来越深,Nurture发了一篇说科学家正在把科学的成果向工业化转移,全世界把这种基础的研究和我们未来的产业进行深度的结合,也是一个国际的趋势。
跟大家分享一下物联网时代的机器人具身智能的挑战,刚才克强院士也提到了工业4.0,在十年前德国的国家工程院提出了工业4.0的概念,就是希望用我们未来的人工智能网络、云的技术,提升传统的制造业,今天在全世界各个角落和学术界,和工业界,工业4.0已经起到了一定的影响。
在今天创新创业是处在一个IOT重要的物联网时代,在我们经历了服务和数据物联网给我们前20年带来的产业巨大发展之后,未来的基于物联网的这种硬科技,是我们投资和创业的重点。
未来的高新技术可以产生这种融合性的,颠覆性创新,但是它需要我们现在在人工智能、IOT、机器人、材料、能源、VR、AR,甚至通讯、脑科学这一方面的深度的融合。在这一方面,我想西安都具有着非常好的科研和创业的基础。
应用的垂直领域也是我们为技术驱动提供价值重要的实验场所,从智能制造的工业4.0到未来的出行,未来的健康、农业、家庭服务、教育等,都提供了未来人工智能、物联网和机器人重要的应用场景。
从传统的现在使用的手机、可穿戴,为视觉和听觉进行连接人通讯的工具,到未来的智能汽车,加上移动的功能。中长期我们把操作的功能,把智能的功能进行新的提高,我们说从信息通讯到现在的ChatGPT非具身的智能,到未来的智能汽车,智能机器人的具身智能,为我们提供了非常广泛的应用场景,从信息世界的交互,实现物理世界的交互。
在现在的手机之后,我们现在正在讨论代替手机的下一个形态是演进,还是一种移动的设备,最终的终极形态是个性化,个人的机器人。在ICT通讯和网络技术之后,下一个是智能化给我们带来人口红利,流量红利过去之后真正的智能红利和机器人红利到来的时刻,在这个时刻我们可以在投资界发现非常多令人兴奋的投资标的,包括智能机器人、AIGC、WEB3.0、智能家居和智能存储等。
在疫情期间,我们也在西安组织了世界最大的智能机器人和自动化的旗舰会议,遗憾的是因为疫情,只是在西安进行了小范围的中国参会者的形式。在机器人界,我们在宴会之前是展现了各种各样的机器人的场景,从移动的车到未来移动的飞行机器人,水下移动的机器人。20年前我让德国的博士生画的几幅漫画,让它展现出20年后机器人的场景,今天我们通过欧盟一些基础研发项目,我们已经做出了部分的移动操作的汉堡图书馆,进行物理服务的场景。
通过现在的这种开源软件、硬件,我们现在可以达到和欧美科研整个的同步,机器人的操作系统也是我前十年通过一些我们的论文,通过我们对未来的这种开源操作系统的贡献,也是协调全球的研发能力,来共享未来的机器人落地,智能系统落地机器人这些新的应用。
如何实现0到1,1到10,10到100整个全链条,技术成熟度从整个智能应用,我用一张图来部分表达我们在这一方面的一些实践。从基础研究的技术成熟度到3,到4的研究,我们通过国家的纵向项目来进行包括跨模态学习,包括深度学习和增强学习的研究,在中间这一层技术成熟度从5到8的阶段,我们用一些共享的,包括机器人操作系统的模块来打造这些关键的技术模块,通过我们的投资,通过我们的孵化,在上层进行传统行业的提质增效和一些创新创业新的行为,包括我们未来的人才培养等,使得我们和传统行业的这种垂直的结合,在制造、出行、健康方面,创造新的价值,孵化新的公司。
在这一方面,我想我们在大学进行的一些前沿的研究,20年前我做助理教授的时候,我就做了一款双臂协作的装配机器人,当时是全世界第一个用智能的形式,多模态交互的形式做玩具飞机的装配,当时是一个无人区,今天我们在自动化方面,从单臂的装配到未来的双臂的这种场景,已经变成了一个重要的领域。
我们也把协作机器人现在变成了一种创业的重要基地,机器人也是这一方面的独角兽,在力控臂方面在全世界已经做出了最好的性能,现在在富士康的苹果工厂有上千的应用,未来会有更多新的应用。现在中国自动化的工厂程度已经提高了非常多,但是我们现在还能看到很多工厂还雇几千,几万人,甚至在郑州的工厂有几十万人,70%的工作都是用手的精巧在操作,现在还不能自动化操作,我们在从事着用所谓的多模态机器人,加上视觉、听觉和触觉,来进行机器人的灵巧装配,把这一部分的自动化的难点领域,在进行新的替代,用新的AI多模态的技术。
也是在20年前,我们就做出了这一款移动操作的实验室自动化机器人,这一款机器人在拜耳制药厂的实验室今天还在使用,我们把视听、听觉和触觉都装在机器人的身上,在机器人实验室的场景来进行试管的移动操作。未来在工厂的自动化之后,制药的自动化和整个生物系统的自动化,现在对机器人的要求也是提得越来越高,越来越深,未来对机器人的系统大有应用之地。
服务家庭的机器人,是我们每个人都希望要的产品,我们能不能享用未来家庭服务的机器人,来照顾我们的父母,未来照顾我们自己,使得我们独立的有尊严的生活,我们在欧盟的项目支持下,也做出了这一款室内室外联合的这种服务的机器人,为助残的场景做一些基础实验。我们在多模态的情况下,在视觉和听觉的传感和处理都比较发达的情况下,我们现在研究各种各样的柔性皮肤的传感器,包括可伸拉的穿戴传感器,把具身智能从视觉、听觉到触觉的模态整个打通,来进行产业化。
在3D的相机方面,我15年前写的结构按光的这些论文,现在已经被公司们做成公司们做成创业的一个非常好的点,Mind作为另外一家智能机器人的独角兽,现在是3D点云相机国际上的领军企业,已经在30多个国家得到销售,在智能物流和加工方面已经正在起到非常重要的3D感知的作用。
未来的制造和全流程的工业4.0这种全生命周期的智能化,也是一个非常重要的方面。未来的智能驾驶现在对能源和电池的处理方面,也有新的需求。可能这两年已经是我们第一批动力电池开始报废的时候,现在欧盟和美国都对新能源汽车的本地销售,提出了要本地化处理动力电池和汽车的要求,这些方面自动化和机器人的需求,我们现在正在布局,把未来电动汽车的拆解和能源电池的拆解,来进行无人化的自动化方案。
在自主系统的核心技术方面,克强老师讲了从单个车到网联车,到云和车的服务方面,非常好的一个总揽。在单车的服务方面,我们把人工智能的多传感的技术进行融合,也是大大提高它们在夜间,在雪地,在极端天气下整个的鲁棒性。包括在夜间的识别、规划和感知的例子。
最近斯坦福大学又放出了一些失败的视频,我们物理世界的具身智能实际上面临着非常高的挑战,在感知方面,在交互方面,在操作方面,对环境的价值和操作都有着极高的要求,现在个人机器人还没有达到现在汽车整个的产量,我们看到的只是家庭简单的吸尘机器人,我们只是看到了小的物流配送,量还非常小。未来包括城市的全自动的驾驶,包括工厂带有手的多模态自动化,个人助力和家庭服务机器人,建筑机器人等,都给我们未来的20、30年都提出了重大的挑战。
人工智能最近给我们带来了新的赋能机会,从四个方面再回顾一下,给我们带来赋能的机会。第一个是算力的增长,这种指数型算力的增长,是一个非常独特的现象,和我30多年前在清华学计算机相比,计算能力翻了不是30倍,而是上百万倍,再放眼十年,我们还会获得上百倍的计算能力。在数据方面,我们也有足够多的数据和燃料,从单模态到多模态的数据。从算法方面,我们从处理视觉这种深层的CAN网络,还有去年很火的处理语言的RNN算法,到处理具身智能的算法,现在可以说日新月异,每天都有上百篇非常好的算法来给我们未来的人工智能技术赋能。
第四,现在机器人和人工智能学习,到了如何来学习,在虚拟的空间来进行模拟。我们做出了世界第一个能够正步走的最省电的行走机器人,把下身的形态和上身多年积累的灵巧操作的手,还有仿生的手融合在一起,我们正在打造未来真正的人形机器人。在多模态处理方面,在十年前在深度学习,在大模态和大模型都不火的时候,我们就已经开始布局这一方面的基础研究。我们申请到了中德之间最大的基础研究项目,叫跨模态基础研究项目,去年已经进入到了第八年,我们和脑科学,和心理学共同合作,来研究人的多模态信息的表达、存储、整合和交互,来转移到未来的包括自动驾驶,包括人形机器人算法和系统。
从这种多模态的低层融合,到中层和晚期的信号级和语义级的融合,我们在打造新的算法,用这种新的算法可以把一些不完全的感觉信息能够自动补缺。我们在模型和整个数据方面,我想未来也是给我们赋能的一个重要的基础点。现在不管是汽车的模型,还有人机交互的模型,还有整个世界的模型,我们做出的结果还非常少,所以我们现在需要有大量的数据端到端学习的补充,通过我们未来10、20、30年,甚至上百年这种技术的努力,我们通过具身智能,通过自动驾驶车,通过机器人,通过自动设备,让这些大数据的模型来更好的支撑,更好的完善现在的物理模型,来进行未来更好的模型进化。
一个例子就是我的一个博士后最新做的一款子机器人,传统需要多个相机,通过我们对人模型的建立,就可以非常方便的用两个简单的相机,就做出了这一款个人的对运动的捕捉,我们现在也可以从网上任何人的数据,现在提出人的运动模型,把这些模型来转移到人机交互上,转移到未来的人形机器人的编程上。我们也把现在的模型增强学习深入的融合,我们现在做出了这一款拿到了基尼斯记录的乒乓球机器人,可以个性化来进行训练,来做运动处方的康复作用。
我们把人的多种知识的一小部分,已经融入到服务机器人上,在人机交互的长度方面,可以大大缩短人机交互需要的长度,通过这种交互也是大大的减少机器人对世界理解的模型,和真正模型的误差。
去年ChatGPT横空出世,我在十年前就让我的学生做了一幅图,我说十年后,我们会不会面临一个机器人把全世界的书都读进去的一个场景,去年我们就看到了这个场景对图形和文本方面的影响,当然还不是通过机器人具身的形式,已经通过非具身的形式,已经给我们在这种白领工作的部分替代方面,已经起到了部分的影响。但是在未来这种具身智能,包括机器人的多模态的具身智能方面,未来我想是下一个重要的包括投资和研发,和未来真正的能够创造个性化机器的一个重要的节点。
上个星期在自媒体了起到了一个小小的轰动,通过遥控操作各种各样的服务机器人,在前十年和二十年都在不断的进行,现在通过大模型,我们可以通过这种遥控操作来进行机器人未来的编程。这个视频里面还有很多都是遥控操作的场景,还不是自主的场景,而且鲁棒性还非常差。所以大家不要认为看见这个视频以后,就认为现在的个人化机器人已经达到产品化的程度了。从未来的多模态的具模型,提高可信度和稳定性,摆脱高计算的成本,可解释,把它落到千行百业,是我们下一个创新创业的重要方向。
今天我们也看到了人才是创新创业的一个重要的因素,如何在现在的人工智能时代对工程师的培养,进行新的工科的尝试,是我们现在关心的一个问题。未来在人工智能的领域,我们要更加注重多模态的整合和以人为本的伦理需求的重视,还有重视真正对垂直领域的需求有影响的这种创新创业,对工程师的培育来讲,我们要更加重视他们对多模态的理解能力,他们跨学科的能力,不管是人工智能的从业者,还是非人工智能的从业者,要理解AIGC,人工智能能干什么,不能干什么,包括未来的孩子要学会如何和人工智能共存,要培养对未来自然的解释能力,我们的想象力,我们的好奇心,和发明更好的问题。
我也希望未来德国和中国,和陕西,和西安,有着更多的互补结果,包括在德国的多样性,小而美,兴趣驱动,洪堡大学的这种科研和教学深度融合的原理,和交叉研究的传统,和中国在这一方面开放、快速、灵活、刻苦的顶层设计,工程师红利和团队组织方面,能够深入的互补和互相学习。
未来的人工智能和通信信息技术,和机器人,和未来真正的具身智能的结合,使得产学研能够深入进行国际合作,来培养有国际视野的跨学科的创新人才,来真正应对全球的重大挑战,交叉、创新和融合,来共创和谐社会,美好生活。我想今天在一起这个创投大会,一定在新年里面能够取得新的成果,也希望和各位陕西的同事和朋友们进行深入的合作。谢谢大家!
本文来源投资界,原文:https://news.pedaily.cn/202401/528714.shtml