旗下微信矩阵:

类Siri应用火热:百度搜狗抢夺语音助手市场

茹立云指出,语音搜索的效果并非那样的差强人意,通过对用户语音搜索后的实际数据分析,语音搜索识别能力在85%以上,尤其是中国北方识别率明显比南方高很多,如果依然出现语音搜索错误,用户可通过手动修正。
2012-12-10 13:34 · 腾讯科技 雷建平

  在这个基础上需要做查询意图的理解,怎么把一个自然语言查询转化成后续的知识库可以推理的查询。它可能是一对一,也可能是一对多的计算,这个需要做很多的基础的工作和深入的研究。本身这方面已经有了比较多的尝试了,像原来的开放平台的

  计算,在做的就是这方面的工作。

  第三块在原有知识库上,本身推理方式的计算,其实是整个系统里面最难的,也是现在人工智能这个领域还没有完全解决的,需要做很多的工作。

  腾讯科技:搜索引擎有天然因素去做移动语音搜索。但在移动互联网时代,移动搜索排名也仅仅是在前十位置,位置还次于地图应用,那么语音搜索到底会给移动搜索带来什么样的改变?

  茹立云:搜索应用在手机上可能没有PC那么重要,这本身跟移动的特性相关。首先手机输入很不方便,其次移动上会有大量的APP存在,这是跟PC上不一样的,找这些APP对应于PC上找相应的网站或应用。

  但有了语音之后,找APP就不用一页页地翻了,对它一说就能找到了。这就像PC上的导航搜索一样,比如现在上某一个网站,用户会从搜索引擎搜索相关网站名称然后再过去这个过程在搜索引擎里称为导航性搜索意图的搜索,就是找意图明确的网站。在手机上,用语音呼出应用其实也是一个搜索的过程。现在搜狗的语音助手支持这方面的功能,并且很多人会用。

  其次在手机上,通过浏览器去搜索的过程很费劲,需要打开浏览器,再找到搜索框,再在搜索框里输入想要搜索的内容,然后再在返回结果中找到想要的信息,每个过程在手机上都是高成本的。而如果通过语音搜索的方式,只要一拿出来一说话,精准的结果马上就呈现出来,并且结果是事先通过大量复杂计算得到的,获取结果的成本会大幅降低。从而能够提升用户使用的便捷性和频度。现在有数据显示,在PC搜索上用户每天的搜索是7次,在移动搜索上,通过语音助手的搜索行为,每天可以达到15到20次。

  腾讯科技:有一个问题,中国有很多的方言,此外,好多人说普通话都说得不标准,比如说我以前用语音搜索,但我的话如果不标准,可能敲出来的字就不是我想要的,怎么解决语音搜索中面临的这样的问题?我觉得这是很典型的问题。

  茹立云:这是语音识别需要解决的问题,但是很高兴地看到在一些大众化的方言中,比如说上海话、广东话,语音识别技术已经基本上能够像普通话一样地把它解决掉。同时在语音搜索里,搜狗做了交互上的创新,siri仅仅能够根据语音来搜索,搜狗的话,如果你觉得这个语音是错的,还可以进一步变成文字输入。可能10次里9次语音是对的,另外一次是错的,那错的那一次还可以用文本修正。这样你这种输入的成本还是大幅度降低。

  腾讯科技:好多人其实不想输入,但是他说的话又不太标准,但又是普通话,肯定会遇到这种情况,怎么去通过语音模糊处理,让用户可以更好地达到他想输入的效果?

  茹立云:目前语音识别综合能力在85%左右,10次里面可能有1次多是错的,同时我们也提供手动输入的交互方式,可以手动修改语音识别结果,所以整体来讲提升还是很大的。所以这个数据包括了所有中国各个地域的人群,的确会发现北方的识别率明显高很多,南方会差一些。

  相对而言,用语音搜索引擎的人文化水平比较高,未来更大规模铺开时,可能会有这种差异,但语音识别里很重要的一块是语音数据本身,只要这个地域的口音的人能够有足够的数据,可能口音就不是太大的问题了。本身声音就是一个声波,不同的地域声波不一样,但还是有可能能够识别出来的。

  腾讯科技:国内像科大讯飞做语音很长时间,但感觉这一块国内好像不是特别成熟,至少用的人不是太多,语音搜索这块国内面临的*挑战是什么?

  茹立云:语音技术还需要进一步提升,像刚才说的85%,可能真正使用过程中有些人觉得还是不可以接受的,因为错误之后要变成正确的成本很高。第二个是使用习惯的养成,毕竟很多用户原来是传统互联网的,现在往移动互联网迁移,。怎么让大家形成这么一个习惯:我在手机上用语音做搜索是很方便,这是一个过程的迁移,一个习惯的养成。

  美国的情境比国内好很多,还是本身发展阶段与行为养成阶段,等大家真正体会到它的好处,自然能把问题解决掉,但需要时间,比如需要两年时间从语音技术成熟到用户行为的转变。

  腾讯科技:从技术角度来看,语音助手产品在开发过程中难点在哪些方面?

  茹立云:这个产品分成这么几个功能块来讲,*块是语音识别,不像拼音输入法,*的正确率是90%多,但语音识别现在正确率只有80%多,并且用语音交互不像之前用输入法做进行二选那么方便。语音识别是*道门槛,这个门槛迈不过去,一个重要的属性就没有了。

  语音助手第二个属性就是智能,智能体现在几个方面。首先是查询意图的识别,一句话进来之后,它的意图到底是什么?这是非常难的地方。这跟搜索引擎不一样,搜索引擎之前很多处理相对来讲是短的查询,而这边会是一个完整的句子。

  它需要搜索引擎对自然语言处理的积累以及用户查询意图识别积累。同时需要长句理解上的积累,搜狗输入法在这方面的积累会比较多。其次是意图识别之后对应结果的精准性的匹配和选择,它会依赖于本身的搜索技术以及大量的数据处理技术,这不是一个非搜索引擎厂商能够做的好的,它包括1)基础搜索的数据,因为用户会有很多听小说、看图片的需求。

  2)大量智能的问答数据,就是问答上这种精准的匹配和抽取的技术。问答的信息很广泛。能够通过这种技术,使得一方面在闲聊的时候,觉得它也是很智能。另一方面在真实的问答需求上,也能很好地匹配它的需求。3)需求是面向领域的精准化数据搜索引擎开放平台体系就是在解决这个问题。

  4)知识计算体系,它能够处理更复杂的问题。现在开放平台,查询后面的答案是固定的,而知识计算,它能够根据知识库自主地做很多复杂的计算。简单来说,刘德华哪年到70岁了,它就能告诉你哪年,这在原来的问答或者是开放平台里面都是解决不了的。

  另外一块像之前说了谁的老婆的什么什么,这种关系都能够很好地推理。或者中国历年GDP的增长,知识库里面有每年GDP的数据,都可以演算出来。甚至中国历史上在位时间最长的皇帝是谁,都可以通过整个数据库的计算来告诉你谁是。

  腾讯科技:您提到做语音助手前对国内市场进行调研,能不能谈一谈各家的特点?

  茹立云:语音助手产品角度,我们调研比较多的是siri和Google Now两个产品,我们会对这两个产品做一个未来趋势上的研判,哪个更像未来移动上的搜索。我们最终觉得siri这种方式会是更接近未来移动搜索的形态,但siri本身在技术能力上有比较大的欠缺,因为它不是搜索厂商,我们可以在这个技术上做更多进一步的工作。所以我们发布了类似siri的产品,而不是Google Now,或是两个同时发布。

  第二块是语音技术上,讯飞在通用语音识别上具有*优势,但其他厂家也会有他们的优势,比如像云知声的识别能力和讯飞差不多,但它可以针对性的做很多特定的优化,这个优化包括:面向领域的语音识别和本地的语音识别。

  第三块是意图识别和后续服务集成上,这个非搜索引擎厂商就会很薄弱。

  腾讯科技:具体在语音助手领域,现在各家是什么现状?

  茹立云:目前国内主要的是搜狗语音助手和讯飞语点,分别具有意图识别、资源和语音识别上的优势,后续关键在于各自在发挥优势的同时弥补不足。

  腾讯科技:苹果是很封闭系统,搜狗语音助手如果在苹果平台推出,是否缺乏推广优势?

  茹立云:我们也看到这个一个问题本身它是一个封闭平台,*步也面临着能不能上架的问题。我们现在看到国内这些语音助手的产品,还没有一家上架的。从国际范围来讲,会有一些上架的,都是很小的厂商,Google Now也是做了这种改变之后,变成Google语音搜索了,上到了iOS系统上。如何才能上架是其中的一个问题,期待苹果有一天能更加开放。

  上架之后,因为它有内置的优势,对于这个产品,本身对搜索引擎的理解,搜索引擎的能力以及本地化方面都存在着严重的不足,如果做对比的话,其实它的意图识别和后续的服务上都存在着严重的不足。相对而言,苹果的用户还是比较高端的,一个好的产品,口碑有了,我在上面自然而然就会传播开的。现阶段安卓是我们的主打,同时我们iOS这个版本也在做。我们也正跟苹果沟通,做怎样能够让我们上架的沟通的工作。

  腾讯科技:现在的下载量有多少?未来搜狗对语音助手有预期吗?

  茹立云:搜狗语音助手从发布到现在下载量破100万。希望半年内能有上万以上的安装。我们现在也会和很多厂商接触,可能1月份会公布一批战略合作的伙伴。

【本文由投资界合作伙伴腾讯科技授权发布,本平台仅提供信息存储服务。】如有任何疑问,请联系(editor@zero2ipo.com.cn)投资界处理。