百度首席科学家吴恩达：对人工智能的有些炒作或担心没有必要

其实我们现在掌握的技术是非常好的，我个人还不知道怎么建造出有自我感知的机器人。当然，我对于技术是很有激情的，我相信会改变我们的生活，给成千上万人的生活带来变化。有些炒作或担心我觉得没有必要。

钛媒体APP

2015-02-02 09:25 钛媒体宋长乐

+ 关注

　　近日，在硅谷召开的百度Big Talk大会上，百度首席科学家吴恩达发表了《人工智能和深度学习》的主题演讲。整个演讲，他主要围绕两个问题展开：　　

1、什么是和什么不是深度学习，这样的技术是什么

2、思考公司、学校、企业是否要做深度学习的技术

　　吴恩达回忆道，过去很多沟通都是通过文字，过去十年间网页就是一堆文字。而如今，尤其在移动互联网领域，沟通已经改变成了图像和语音。

　　他表示神经元网络的技术很有前景，人脑的工作被激发开来，因此模拟神经元的信号，用算法让他更具有智能。而电脑视觉是深度学习带来的革命。为什么深度学习，也就是神经网络如今有迅猛的发展？这就是之所以建立了有效的深度学习的算法，改变整个人工智能的方法。

　　回到七年前，电脑还很难准确识别一副图像中的咖啡杯。但是随着人工智能、深度学习等技术的发展，目前的技术已经能让电脑理解图片。与此同时，在吴恩达的设想中，未来语音识别会给互联网、物联网带来巨大变革，用户和家电之间甚至能够通过对话进行沟通。

　　吴恩达还提到，现在的电脑技术已具备自动识别并描述图片内容等感知能力，但还远远不到担忧机器具备自我感知甚至“邪恶”的时候。在过去有很多人提到了邪恶的机器人，有些人在担心机器人可能会带来负面影响。

　　对于这个话题，吴恩达说自己还不知道如何制造出拥有自我感知的机器人，但是他明确的表示对于人工智能的负面担心，他觉得是毫无必要的炒作。

以下为吴恩达演讲全文，经钛媒编辑：

　　非常高兴大家可以在硅谷相聚，在过去几年有一种人工智能已经开始起飞了，对硅谷有很大的冲击，就像Jason所讲，今天你会听到人工智能如何冲击并改变医疗保险、教育和其他领域。

　　这里面有很多种操作，今天我想和大家分享两件事情，*件，什么是和什么不是深度学习，在二十分钟的时间里面我们希望可以让你知道这样的技术是什么。第二点，对于在*机构里面的你们，你们能够在策略上思考这些机构——公司、学校、企业是否要做深度学习的技术。

　　多年以来，我们一直有这样的创意，就是人工智能的虚拟圈，比如做一个很好的产品，可以得到很多很好的用户，这些用户可以提供很多的数据。最后，用人工智能就可以让很多的产品越来越好，让你得到越来越多的用户，如此产生人工智能的良性循环。但是这样的理念根本没有成功，在这幅拼图里面所缺失的*一环，就是人工智能。来看早一代的人工智能算法，即使有很多的数据支持，但是表现功能不会越来越好，在我脑中有一个非常基本的原因。为什么深度学习冲击世界，因为我们都可以测量算法，所以在大数据里面，新的人工智能的算法越来越好，我们可以*次在整个虚拟圈里完成整个循环。

　　过去时间，很多沟通都是通过文字，过去十年间网页就是一堆文字。如今在百度，我们看到，特别是在移动互联网领域，沟通已经改变成为了图像和语音。百度已经经历改变十五年了，现在就要跟大家分享在图像语音方面的机会。因为在互联网上的沟通，提供更好的服务，给各国和全世界使用。现在谈谈百度如何理解图像和语音。

　　七年前，在斯坦福，我让我的学生写程序识别咖啡杯的图像，他们用了当时*的图像和算法，这就是他们得到的结果。他们发现到处都是咖啡杯，为什么识别咖啡杯这么困难？当我们放大以后继续来看。把他当成红的方块。电脑的问题就是看到这些数据，色素的强度，告诉我们这些数据定义了咖啡杯，所以长久以来这是在电脑图像方面不足的地方。

　　神经元网络的技术很有前景，人脑的工作被激发开来，因此模拟神经元的信号，用算法让他更具有智能。在深度学习，刚才讲的热磁，来模拟人脑，很多研究人员想用这个热磁。可是神经学家知道根本不可能知道人脑如何工作。我的朋友开玩笑说，神经网络好像用卡通画脑子。过度简单的用卡通描述脑子，因此对大脑不是非常了解。

　　这些程序可以了解这些物体，能做的就是说照张相，给神经网络很多数据，很多咖啡杯图像，可以来学习，可以来说这是咖啡杯。这只是识别咖啡杯，是个相对容易，但是计算机视觉比这个要复杂得多，但我们看这个图像，看到很多东西。如果要给很多注解的话，你就说，黄色大巴开在路上，右边的画，你就说，一间起居室，很多阳光照进来，而你写这个注解的能力，就是对这个图像的深度理解。那么，可不可以让电脑理解图片和我们做的一样？如果要让你用中文来注解这张图片，同样，你就看这个图片，说，这个棒球运动员准备击球，一个人在冲浪，一个车停在现场。

　　所以，电脑是否可以理解图像，好像我们有这个能力写注解。所以我给你们一个惊喜，这个字幕不是人写出来的，是电脑写的，百度是*个用神经网络技术写的。现在还有其他好多公司来尾随我们。所以我们今天在的位置在哪里呢？在计算机视觉我们已经建立了一个很好的技术来建立图像。我们在对美国听众展示用中文写的字幕。既然已经有非常复杂的电脑技术，现在就是应用是什么。

　　电脑可以了解在过去五年有长足的发展。应用是什么？医学影像，图像的搜寻，买什么衣服，百度还有其他公司有这样的计算机视觉技术，尝试产品和技术，今天也不知道*的应用是什么，未来几年会改变这方面的情况。

　　所以，电脑视觉是深度学习带来的革命。为什么深度学习，也就是神经网络如今有迅猛的发展？这就是我们来建立了有效的深度学习的算法，改变整个人工智能的方法。举个例子。建造火箭，需要两个部分组成，很大的引擎，很多燃料，好像宇宙火箭，如果有很大的引擎，很少的燃料，这是无法工作的，反之亦然。所以需要有一个很大的引擎和很多的燃料才行的通，算法的时候也是，建立一个很大很大的神经网络。另外数据就是燃料，在整个人类社会的数据化，可以看到很多以前拿不到的数据。这就是很大的可以腾飞的火箭。因此未来的最近今年的深度学习就是让火箭可以腾飞。

　　大概是2010，五年前，*的神经网络有一千万的连接点，几年后我就开始了在google云项目，用一千个电脑建立的一亿个神经元的网络，这其实为深度学习带来很大进展。后来我意识到这是一个非常昂贵的技术，有朋友就意识到用不同的技术，用其他gpu技术，在电脑里面处理讯息图像的技术可以建立这样的神经网络，用大的引擎飞火箭。比过去还大十倍。今天在百度，硅谷或中国建立了巨大的神经网络。代表百度来讲，我们是*个建立深度学习的网络，这就是火箭引擎，现在有很多公司步我们后尘。

　　现在举个实例，深度学习如何了解互联网。今天百度很多用户是用语音搜索，很多太年幼的用户，也有很多年龄大的用户，或文化程度不高的用户，无法用拼音搜索。对于他们，用语音搜索是*的方式可以让我们知道他们的需求。如果在安静的环境中，手机可以识别你的语音。如果在嘈杂的环境中，比如车里或者餐厅中，识别就不是很好，我们要想办法解决这个问题。

　　传统的方式是工程师要写软件，分解成小的软件来解决这个问题。我们要不要换一个角度，为语音识别建立一个火箭发动机一样的流程。一般来说*的语音识别的数据是需要两千小时的数据，我们要利用七千小时的语音数据来，燃料多三倍。我们后来又说从这七千小时语音数据来总结出十万多个小时的数据，通过这些数据，可以建立矩阵，跟其他的语音识别系统，比别的api都好很多。在比较小的时间当中，建立出体系。在嘈杂的环境中也表现的比较好。秘诀就是我们有很大的引擎和很多的燃料。

　　为什么要说这个？市场上有很多的产品，但是语音会是一个改革互联网很大的因素。在这个方面，中国其实*于美国和其他国家很多，特别是在移动互联网方面。我们花很多时间在智能手机上，用打字的方式沟通，即使在嘈杂的环境中用语音沟通，可以通过讲话就可以给另一半发消息，如果语音识别继续改进的话，以后这个技术可能改变我们的生活。

　　此外，语音识别也会对互联网，家用电器带来很大的改革。我有五个遥控器，如果我可以用讲话控制的话就*了。我现在还没有下一代，但是我希望有一天我的儿子或孙子一辈，可以问我在我小时候你跟你的微波炉讲话却没有反应这是真的吗？太不礼貌了。未来语音识别会对我们的技术带来翻天覆地的变化。

　　现在围绕互联网有很多变化，因为现在有很多的数据围绕着语音，如果有很大的引擎很多的燃料，通过深度学习可以深入了解解决这些问题，可以改变我们使用技术的方式，也可以带来其他领域，如金融这些方面的变化。你们可以看出来我非常兴奋，另外还有炒作的因素，在过去有很多人提到了邪恶的机器人，有些人在担心机器人可能会带来负面影响。

　　其实我们现在掌握的技术是非常好的，我个人还不知道怎么建造出有自我感知的机器人。当然，我对于技术是很有激情的，我相信会改变我们的生活，给成千上万人的生活带来变化。有些炒作或担心我觉得没有必要。非常感谢。

打开投资界APP 阅读全文

【本文由投资界合作伙伴钛媒体授权发布，本平台仅提供信息存储服务。】如有任何疑问题，请联系（editor@zero2ipo.com.cn）投资界处理。