语音搜索时代开始到来!国外Siri、Google Now大行其道,用户正感受一个特别时代。Siri将iPhone变成一个智能化机器人,利用Siri可通过手机读短信、了解餐厅、询问天气、语音设置闹钟。Google Now则通过智能化读取关键词后,为用户提供相关的语音服务。
国内Siri、Google Now遭遇重重困扰,却给众多企业布局移动互联网机会。中移动通过入股科大讯飞,并联手科大讯飞推出智能语音门户产品,构建自己的Siri梦想。遭遇移动互联网冲击的百度、搜狗们也在积极筹备,通过语音助手类产品构建在PC端的优势。
今年在百度媒体开放日上,百度负责人透露,语音搜索作为移动搜索的重要搜索产品之一,百度将在年底推类似于语音助手产品。搜狗更是在今年11月底推出可应用于iOS与安卓系统平台的语音助手产品,宣布成为国内首家涉足移动智能语音助理服务领域的搜索厂商。
搜狗搜索事业部总经理茹立云对腾讯科技透露,搜狗早在今年3月份就对搜狗语音助手项目立项,到如今搜狗语音助手项目已成立了百人团队,目前已有100万的安装量,希望半年内搜狗语音助手有上万以上的安装。
搜索厂商涉足语音搜索仅仅是时间问题
Siri 的横空出世引发一场语音热潮,建立在语音交互基础上的个人智能助理产品也代表着日后移动产品的发展趋势。早有业内专家指出,一款具备良好体验的的语音助理类工具首先需要强大语言理解能力,其次也需要长期结构化数据积累和索引技术的支持。
茹立云指出,搜索引擎厂商具备比Siri 能力更强主要是在3个方面:1,本身手机语音识别和意图识别,搜素引擎做了多年;2,搜索引擎有很多开放平台数据,比如天气预报、航班、美食数据都可以接入进来,问答数据也可以接入进来,Siri的问答数据则需要手动补充;3,大的搜索引擎厂商都有自己的知识图谱系统,能做精准化演算,Siri则有局限性。
实际上,为对抗Siri,谷歌推出Google Now,其先天优势在于与Google搜索功能结合,智能化读取关键词后,提供的信息相关性更高,并且几乎是瞬间返回答案。而Siri通常在用户提出问题后,要等几秒钟才会得到答案,甚至Siri需要在网上搜索后给出答案。
因此,搜索厂商涉足语音搜索领域仅仅是时间问题。谷歌在华的不作为则给百度、搜狗机会。当前百度、搜狗正在这一领域构建优势。
搜狗拥有自主研发的服务器集群及抓取技术,输入法有本土中文语言模型和基于云端技术的互联网词库,能提高中文分词及长句输入准确率。不过,与百度单独研发不同,尽管搜狗有语音搜素技术,并且已在搜狗输入法上运用,搜狗语音助手还是选择的是第三方。
茹立云介绍,语音助手立项之初,搜狗语音技术处于立项阶段。搜狗曾对国内语音提供商评测和接触,对象包括百度讯飞、盛大语音、云知声和科大讯飞,最终选择云知声为合作伙伴。
“云知声对我们支持到位,效果不错,未来搜狗语音助手和云知声还将深化合作。”茹立云指出,搜狗自身的语音技术也在独立往前走。
语音助手将会有很多扩展功能
据了解,语音搜索从诞生到现在,使用人群还相对精英化。此外,中国是一个人口众多的国家,不仅有众多方言,还面临不少人说普通话不标准的挑战,这些都是语音搜索面临的问题。
茹立云指出,语音搜索的效果并非那样的差强人意,通过对用户语音搜索后的实际数据分析,语音搜索识别能力在85%以上,尤其是中国北方识别率明显比南方高很多,如果依然出现语音搜索错误,用户可通过手动修正。
未来语音搜索大规模铺开时,可通过不同地域声波进行识别。一些大众方言比如上海话、广东话,语音识别技术也基本能像普通话一样解决掉,只要用户规模达到一定程度。“当然,未来很多使用语音搜索用户可能也不太会手动输入,语音搜索的技术方面也得提高。”
茹立云认为,用户正属于从互联网时代向移动互联网时候转移的时期,还没有形成语音搜索使用习惯,完成这一转变可能还需要至少2年时间。
当然,语音搜索服务形态也会发生很多改变和扩展,比如语音助手会有很多周边应用。以搜狗语音助手为例,其将支持号码百事通,里面有3000多万的内置的电话号码。搜狗也会推出SNS产品与搜狗语音助手想通。
对于当前的搜狗语音助手来说,*任务是跑马圈地的扩大用户量。茹立云透露说,搜狗在和很多厂商接触,会在明年1月份公布一批战略合作的伙伴,并适当做一些预装。
茹立云说:“现在语音助手是手机很重要的一个卖点,很多厂商都会打出类似牌子吸引用户,运营商也会和一些软件进行合作。未来搜狗会做一个开放平台,厂商在浏览器或特定应用里可直接把我们后端技术接入进去,通过搜狗语音助手就能够做获得这种智能搜索和回答体验。”
当然,着力于语音操控的苹果对语音软件并不太友好。讯飞语点申请上架时间远超苹果AppStore7-10天的审核周期。国外一款类Siri产品Evi也遭遇类似尴尬。苹果曾公开表示,已有苹果产品或者广告主题外观相似混淆的应用程序将会被拒绝。
对此,茹立云也无奈表示,还没看多国内一款类Siri产品成功上线,谷歌也是将Google Now变成Google语音搜索才上线。当前,搜狗语音助手以Android版本为主,iOS版也在做,不过,搜狗也正跟苹果沟通怎样能让搜狗语音助手上架。
以下是专访搜狗搜索事业部总经理茹立云实录:
腾讯科技:搜狗近日发布智能语音助理软件“搜狗语音助手”,成为国内*家涉足移动智能语音助理服务领域的搜索厂商。能否介绍一下当初为何要做这个项目?
茹立云:之前我们也一直在探索移动互联网时代的搜索形态是什么样的,自从siri发布后,我们觉得siri符合手机平台未来搜索的形态,因为siri能很好的利用手机特性并将手机上使用搜索的不便捷性在一定程度上解决:手机屏幕比较小、输入不便捷,通过语音方式能够很好的解决输入不便捷的问题,同时搜索结果或返回的结果更精准,不像PC上你要一个个去选择。
所以我们认为siri代表了未来移动上搜索的解决方案,但现在处于一个初期阶段,离真正成熟还有相当一段时间需要去努力。
腾讯科技:能否介绍一下国外像siri这样的语音应用是怎样的现状?语音搜索作为移动搜索的重要搜索产品之一,百度也将在年底推类似语音助手的产品。能否又介绍一下国内现状?
茹立云:去年iPhone 4S上推出siri应用,我们看到了语音成为手机上实用的交互方式的可能,而不像以前只能通过输入文字来进行表达,siri更好地利用手机功能,因为手机本身是跟语音打交道。其次是更多地把手机自身控制智能性通过语音方式满足。
再次是后续服务上,siri除手机控制,还可以跟它智能聊天,智能的获取更进一步的结果,比如说本地生活服务,或更深层次的知识计算相关的结果,现阶段大家知道像Google的知识图谱,搜狗的知立方,在这之前Wolfram alpha 也是一个知识计算引擎,并且是知识计算引擎里面相对来讲做得比较早的。苹果把它引入到了siri里面。
在这之后谷歌推出了Google Now,两者的主要差异在于siri基于问答式的方式而google还是以传统搜索方式为主。
之后国内一些厂商也在尝试,但这些厂商缺乏自主的语音识别技术,缺乏语义理解上的积累和后续的服务能力。比如国外有这种开放的成熟知识计算引擎,国内还没有。直到现在搜狗推出语音助手,搜索引擎厂商具备的能力会比之前苹果的能力更强。
腾讯科技:您提到知识图谱,Google推的知识图谱和Google Now,和苹果siri区别在哪里?
茹立云:Google的知识图谱跟siri用的Wolfram|Alpha引擎有比较大的差别,目前Google的知识图谱更多的是在比较热门的领域,突出知识之间的关联,比如说一个明星可以得到他所有演过的电影和唱过的歌之间的关联。而Wolfram|Alpha更多的是根据这种知识的关系做更进一步复杂的计算。比如说它有中国GDP每年的数字,你问它中国一年GDP的增长率,它就可以自动地计算出来,并且生成一个报表,所以这是知识图谱和siri方面的差异。
现在Google更多地把PC上的图谱接到Google Now的一套引擎里。从我的理解来讲,未来像知识图谱这种应用在建立关系的基础上,更重要的是能够做更进一步复杂的计算。它能够给你提供解决方案,不仅仅给你一堆原始的数据。
所以知识图谱是把原来比较复杂、比较混乱的数据通过机器挖掘组织起来,变成比较清晰的关系的数据,进一步的计算我认为未来会产生更大价值。这也正是搜狗在做的非常重要的工作。
腾讯科技:百度在尝试类似的实物搜索,搜狗可能比百度做得更早,大家做实物搜索是为了语音搜索更顺畅展开?
茹立云:首先在PC上有比较大的实物搜索方面的需求,之前这方面的需求比较多的是通过问答方式来解决。但问答会受时间的限制,比如说是一个时间性需求,就会受时间限制;地域性的需求,就会受到地域限制;还有它本身的逻辑性、推理性和延展性都比较差。
因为如果问答里面问的是一个问题,再稍微扩展一点它就解决不了。之前我们举过一个例子,梁启超太太的儿子的情人可能问答里有,但问梁启超太太的儿子的情人的爸爸是谁?那问答里面没有,它就解决不了。通过更近一步的知识图谱或者是知立方或者是知识关系,首先能够把这些知识关系计算在一起,同时它能够在这后面做很多推理的事情。在关系上计算,如果你多么复杂,我都能帮你推理出来。在PC上它就能够弥补原来数据上的不足。
进一步到移动互联网,因为手机界面本身更小,对搜索的结果或回答的结果要求性更高,那么你通过知识图谱这种方式就能够更好地给你提供精准的答案,并且能够把整个推理过程都告诉你。就是更适合移动时代搜索的需求。
腾讯科技:无论是Google知识图谱还是国内的实物搜索,普遍面临的问题是国内各种词句非常丰富,既有深度又有广度,怎么平衡这些问题,为语音搜索来服务呢?
茹立云:本身数据的构建是个逐步的过程,现在无论是Google还是搜狗,还是百度现在覆盖的类别都有限,大家主要是在做人物类、地理位置信息相关,还有动植物,或者是作家相关的东西,但是未来这个会越来越多,因为本身的信息就互联网上,我怎么把它挖掘出来。所以*个是数据的规模尽可能地覆盖用户可能覆盖的领域。
第二个是有了这些基础数据后,怎么样让用户查询和数据能够匹配上,并且能够让这些数据进行相关推理和演算,其实主要是这几个方面。*个是自然语言处理技术和积累。比如古汉语、现代汉语博大精深,悲剧和杯具是同音词,我怎么把它挖掘出来形成同意关系,我能够在词的基础上建立一种网络,能够把相同上下义衍生出来,这是一个自然语言处理上的基本功。
在这个基础上需要做查询意图的理解,怎么把一个自然语言查询转化成后续的知识库可以推理的查询。它可能是一对一,也可能是一对多的计算,这个需要做很多的基础的工作和深入的研究。本身这方面已经有了比较多的尝试了,像原来的开放平台的
计算,在做的就是这方面的工作。
第三块在原有知识库上,本身推理方式的计算,其实是整个系统里面最难的,也是现在人工智能这个领域还没有完全解决的,需要做很多的工作。
腾讯科技:搜索引擎有天然因素去做移动语音搜索。但在移动互联网时代,移动搜索排名也仅仅是在前十位置,位置还次于地图应用,那么语音搜索到底会给移动搜索带来什么样的改变?
茹立云:搜索应用在手机上可能没有PC那么重要,这本身跟移动的特性相关。首先手机输入很不方便,其次移动上会有大量的APP存在,这是跟PC上不一样的,找这些APP对应于PC上找相应的网站或应用。
但有了语音之后,找APP就不用一页页地翻了,对它一说就能找到了。这就像PC上的导航搜索一样,比如现在上某一个网站,用户会从搜索引擎搜索相关网站名称然后再过去这个过程在搜索引擎里称为导航性搜索意图的搜索,就是找意图明确的网站。在手机上,用语音呼出应用其实也是一个搜索的过程。现在搜狗的语音助手支持这方面的功能,并且很多人会用。
其次在手机上,通过浏览器去搜索的过程很费劲,需要打开浏览器,再找到搜索框,再在搜索框里输入想要搜索的内容,然后再在返回结果中找到想要的信息,每个过程在手机上都是高成本的。而如果通过语音搜索的方式,只要一拿出来一说话,精准的结果马上就呈现出来,并且结果是事先通过大量复杂计算得到的,获取结果的成本会大幅降低。从而能够提升用户使用的便捷性和频度。现在有数据显示,在PC搜索上用户每天的搜索是7次,在移动搜索上,通过语音助手的搜索行为,每天可以达到15到20次。
腾讯科技:有一个问题,中国有很多的方言,此外,好多人说普通话都说得不标准,比如说我以前用语音搜索,但我的话如果不标准,可能敲出来的字就不是我想要的,怎么解决语音搜索中面临的这样的问题?我觉得这是很典型的问题。
茹立云:这是语音识别需要解决的问题,但是很高兴地看到在一些大众化的方言中,比如说上海话、广东话,语音识别技术已经基本上能够像普通话一样地把它解决掉。同时在语音搜索里,搜狗做了交互上的创新,siri仅仅能够根据语音来搜索,搜狗的话,如果你觉得这个语音是错的,还可以进一步变成文字输入。可能10次里9次语音是对的,另外一次是错的,那错的那一次还可以用文本修正。这样你这种输入的成本还是大幅度降低。
腾讯科技:好多人其实不想输入,但是他说的话又不太标准,但又是普通话,肯定会遇到这种情况,怎么去通过语音模糊处理,让用户可以更好地达到他想输入的效果?
茹立云:目前语音识别综合能力在85%左右,10次里面可能有1次多是错的,同时我们也提供手动输入的交互方式,可以手动修改语音识别结果,所以整体来讲提升还是很大的。所以这个数据包括了所有中国各个地域的人群,的确会发现北方的识别率明显高很多,南方会差一些。
相对而言,用语音搜索引擎的人文化水平比较高,未来更大规模铺开时,可能会有这种差异,但语音识别里很重要的一块是语音数据本身,只要这个地域的口音的人能够有足够的数据,可能口音就不是太大的问题了。本身声音就是一个声波,不同的地域声波不一样,但还是有可能能够识别出来的。
腾讯科技:国内像科大讯飞做语音很长时间,但感觉这一块国内好像不是特别成熟,至少用的人不是太多,语音搜索这块国内面临的*挑战是什么?
茹立云:语音技术还需要进一步提升,像刚才说的85%,可能真正使用过程中有些人觉得还是不可以接受的,因为错误之后要变成正确的成本很高。第二个是使用习惯的养成,毕竟很多用户原来是传统互联网的,现在往移动互联网迁移,。怎么让大家形成这么一个习惯:我在手机上用语音做搜索是很方便,这是一个过程的迁移,一个习惯的养成。
美国的情境比国内好很多,还是本身发展阶段与行为养成阶段,等大家真正体会到它的好处,自然能把问题解决掉,但需要时间,比如需要两年时间从语音技术成熟到用户行为的转变。
腾讯科技:从技术角度来看,语音助手产品在开发过程中难点在哪些方面?
茹立云:这个产品分成这么几个功能块来讲,*块是语音识别,不像拼音输入法,*的正确率是90%多,但语音识别现在正确率只有80%多,并且用语音交互不像之前用输入法做进行二选那么方便。语音识别是*道门槛,这个门槛迈不过去,一个重要的属性就没有了。
语音助手第二个属性就是智能,智能体现在几个方面。首先是查询意图的识别,一句话进来之后,它的意图到底是什么?这是非常难的地方。这跟搜索引擎不一样,搜索引擎之前很多处理相对来讲是短的查询,而这边会是一个完整的句子。
它需要搜索引擎对自然语言处理的积累以及用户查询意图识别积累。同时需要长句理解上的积累,搜狗输入法在这方面的积累会比较多。其次是意图识别之后对应结果的精准性的匹配和选择,它会依赖于本身的搜索技术以及大量的数据处理技术,这不是一个非搜索引擎厂商能够做的好的,它包括1)基础搜索的数据,因为用户会有很多听小说、看图片的需求。
2)大量智能的问答数据,就是问答上这种精准的匹配和抽取的技术。问答的信息很广泛。能够通过这种技术,使得一方面在闲聊的时候,觉得它也是很智能。另一方面在真实的问答需求上,也能很好地匹配它的需求。3)需求是面向领域的精准化数据搜索引擎开放平台体系就是在解决这个问题。
4)知识计算体系,它能够处理更复杂的问题。现在开放平台,查询后面的答案是固定的,而知识计算,它能够根据知识库自主地做很多复杂的计算。简单来说,刘德华哪年到70岁了,它就能告诉你哪年,这在原来的问答或者是开放平台里面都是解决不了的。
另外一块像之前说了谁的老婆的什么什么,这种关系都能够很好地推理。或者中国历年GDP的增长,知识库里面有每年GDP的数据,都可以演算出来。甚至中国历史上在位时间最长的皇帝是谁,都可以通过整个数据库的计算来告诉你谁是。
腾讯科技:您提到做语音助手前对国内市场进行调研,能不能谈一谈各家的特点?
茹立云:语音助手产品角度,我们调研比较多的是siri和Google Now两个产品,我们会对这两个产品做一个未来趋势上的研判,哪个更像未来移动上的搜索。我们最终觉得siri这种方式会是更接近未来移动搜索的形态,但siri本身在技术能力上有比较大的欠缺,因为它不是搜索厂商,我们可以在这个技术上做更多进一步的工作。所以我们发布了类似siri的产品,而不是Google Now,或是两个同时发布。
第二块是语音技术上,讯飞在通用语音识别上具有*优势,但其他厂家也会有他们的优势,比如像云知声的识别能力和讯飞差不多,但它可以针对性的做很多特定的优化,这个优化包括:面向领域的语音识别和本地的语音识别。
第三块是意图识别和后续服务集成上,这个非搜索引擎厂商就会很薄弱。
腾讯科技:具体在语音助手领域,现在各家是什么现状?
茹立云:目前国内主要的是搜狗语音助手和讯飞语点,分别具有意图识别、资源和语音识别上的优势,后续关键在于各自在发挥优势的同时弥补不足。
腾讯科技:苹果是很封闭系统,搜狗语音助手如果在苹果平台推出,是否缺乏推广优势?
茹立云:我们也看到这个一个问题本身它是一个封闭平台,*步也面临着能不能上架的问题。我们现在看到国内这些语音助手的产品,还没有一家上架的。从国际范围来讲,会有一些上架的,都是很小的厂商,Google Now也是做了这种改变之后,变成Google语音搜索了,上到了iOS系统上。如何才能上架是其中的一个问题,期待苹果有一天能更加开放。
上架之后,因为它有内置的优势,对于这个产品,本身对搜索引擎的理解,搜索引擎的能力以及本地化方面都存在着严重的不足,如果做对比的话,其实它的意图识别和后续的服务上都存在着严重的不足。相对而言,苹果的用户还是比较高端的,一个好的产品,口碑有了,我在上面自然而然就会传播开的。现阶段安卓是我们的主打,同时我们iOS这个版本也在做。我们也正跟苹果沟通,做怎样能够让我们上架的沟通的工作。
腾讯科技:现在的下载量有多少?未来搜狗对语音助手有预期吗?
茹立云:搜狗语音助手从发布到现在下载量破100万。希望半年内能有上万以上的安装。我们现在也会和很多厂商接触,可能1月份会公布一批战略合作的伙伴。
20102起
融资事件
4314.04亿元
融资总金额
11011家
企业
3269家
涉及机构
499起
上市事件
5.33万亿元
A股总市值