视觉识别是人工智能的一个重要研究领域,没有视觉识别能力的机器人无法真正与外界交互。2015年,在微软等大公司的推动下,计算机视觉已经逼近全面突破的拐点。
ImageNet是全球*的计算机视觉挑战赛,挑战赛项目之一是对1000 类、120万张互联网图片进行分类,每张图片人工标注5个相关类别,计算机识别的结果只要有一个和人工标注类别相同就算对。对于该图片集,人眼辨识错误率大概为5.1%,目前只有谷歌和微软等个别参赛团队的算法能够达到低于5%的结果。
2015年12月10日,微软亚洲研究院视觉计算组在ImageNet计算机识别挑战赛中再次打破纪录,获得图像分类、图像定位以及图像检测全部三个主要项目的冠军,将系统错误率降低至3.57%。在计算机视觉识别领域,卷积神经网络(即为有监督的深度学习)是主要的算法。微软亚洲研究院视觉计算组首席研究员孙剑介绍说,他所带领的研究团队使用了高达152层的深层卷积神经网络算法,比以往任何成功的算法层数多达5倍以上。
而在另一方面,微软亚洲研究院硬件计算组与清华大学电子工程系一直在硬件加速领域合作了,从2013年开始双方一起研究怎样把深层卷积神经网络与智能硬件结合起来,其成果就是基于FPGA(可编程芯片)技术的A-Eye视觉芯片。微软的研究表明,高端GPU的图像处理能力是FPGA的2到3倍,但FPGA的功耗约是高端GPU的1/10,多个FPGA结合能以低功耗达到GPU的处理能力。
据微软亚洲研究院硬件计算组主管研究员徐宁仪介绍,A-Eye视觉芯片包括了一个基于软件的压缩算法和基于FPGA芯片的硬件实现,其本质上是通过软件压缩和定制的硬件加速,让计算机视觉识别算法适用于普通的智能终端。基于A-Eye技术的高性能智能视觉芯片,可以广泛用于智能安防、婴儿和老人看护、无人汽车和无人机等各种需要计算机视觉的领域。
目前卷积神经网络的图像识别能力有赖于输入的原始数据集,例如用花卉图像集训练出来的算法就只能识别花卉。基于Bing搜索引擎的大数据,接下来微软正在探索通用型视觉识别算法和工程化实现。一旦工程化实现了通用型视觉识别技术,智能机器张眼看世界的那一天就不远了。
整个人工智能研究的起源,在于一个基本的假设,即能够用机械的方式模仿人类的思维。人工智能前60年,就在这个方向上不断地探索。但是,能否用机械的方式模仿人类的感情呢?
情感的表达远非“0”或“1”那么简单,就像人类的爱情绝非对与错那样*。如何让机器理解人类的情感,又如何把情感与知识进一步结合,发展出全新的计算架构?情感计算前进之路更加艰难,直到微软“小冰”的出现。
微软小冰有可能成为有史以来*情感算法机器人
最开始作为一个聊天机器人,微软小冰由微软亚洲互联网工程院开发,2014年5月29日,一代小冰开始了微信公测,在3天内赢得了超过150万个微信群、逾千万用户的喜欢。2015年8月20日,第三代微软小冰正式发布。2015年11月小冰发布了计算视觉功能,从此,小冰还能根据图片和视频与用户聊天。
然而,微软小冰的意义绝不仅仅是聊天机器人。微软全球执行副总裁沈向洋说,希望小冰成为一个慢慢融入人类社会的机器人、每一个用户的个人助手,而且是一个真正通过情感计算,理解用户、能够交流、能够沟通的人工智能机器人。在更深层上,微软小冰正在成为整个微软的人工智能基础设施,小冰的研究成果正扩散到微软产品与服务的方方面面。
初步统计,仅在微软亚洲研究院就有将近15个研究团队与负责小冰的算法研究,而包括以色列、纽约、休斯顿总部的微软研究院也正为小冰提供技术支持,涉及包括大数据、自然语言互动、计算机视觉、SR(语音识别)、TTS(文字到语音转换)、IoT等十几个领域。
想象一下,未来的家庭里将出现智能手表、智能音箱、智能电视机、智能冰箱、智能燃气表、智能玩具等多种智能设备,人们无法再通过一个个APP与这些智能设备沟通,就必须出现一个超级APP来管控所有的智能设备,微软小冰就有望成为这样的超级人机交互界面。
【本文由投资界合作伙伴钛媒体授权发布,本平台仅提供信息存储服务。】如有任何疑问,请联系(editor@zero2ipo.com.cn)投资界处理。