技术壁垒:语音识别+语义分析
对于中国用户来讲,Siri给国内用户带来的*困扰就是其不支持中文。据了解,目前Siri共支持四种语音,即英文、法文、德文和日文。其中英文部分只支持美国、英国和澳大利亚的口音,对于其他国家和地区的英语口音在识别上还存在困难。
有分析认为,声调和地方口音庞杂,或许是Siri中文版迟迟未推出的主要原因。一家国外媒体表示,对于语音识别来说,中文*挑战性,因为普通话只有400个单音节声音,根据声调予以区别,而且中国还拥有很多种方言和数不尽的地方口音。
国际巨头苹果的劣势,对本土创业企业而言却是机遇所在,是本土研发类似Siri产品的*优势。
小编从智能360这款应用的“机器人的声音”设置一项了解到,单是机器人的声音就有12中语音可供选择,除了传统意义上的男女普通话和男女童及老人普通话之外,其中还包括台湾普通话、女生东北话、男声河南话和女声陕西话等多种带有地方特色方言的各式普通话可供选择。同类中虫洞在这方面也表现优异,它给提供的语音选择多达18种,小编尝试了一下,的确很精准的抓住了各个地方的发音技巧和规律。这个小细节或许在一定程度上解释了中文在韵律上的复杂性和Siri迟迟没有推出中文版的原因吧。
此外,基于语音的人机交互智能应用,构成整个语音系统框架的是两部分,即语音识别和语义识别。前者是诠释说话的人说的内容是什么,后者则是对话的内容进行进一步的诠释,要想达到理想的语音输出效果,需要二者的*配合才可以,否则答非所问的窘境仍然无法彻底避免。
通过对目前市面上出现的类Siri语音助手的试验小编也验证了“听懂其音,不解其意”的现状。这些Siri的效仿者普遍面临一个共同的问题是,它通常能听得懂你在说什么,却不理解你在说什么。换而言之,其实就是它能够识别到人的语音功能,却无法准确的诠释语义的含义,这也让很多用户在用的时候经常出现“所问非所答”的令人啼笑皆非的情景。要想达到理想的人机互动效果,语音和语义上的有机*结合才是避免尴尬的最终要做的事情。
专家观点:不适合创业公司?
对于国内不少开发者开始拓土这一领域,创新工场CEO李开复在微博中称:“中国Siri或安卓Siri的计划不太适合创业公司,因为投入大、风险高、技术难以实现。”对于语音控制这项技术研究多年为何依然有较大的屏障,李开复认为:“过去30年,总说语音要改变世界,为什么没有改?有几个理由,*是语音识别的精确度不够,第二是语音应用在哪里,靠一小批的语音专家拍脑袋想,不是办法。”
著名天使投资人薛蛮子在微博评论:“中国Siri从头开始创业难,但有积累有实力的中国企业还是存在的,关键是要有可持续发展性。”
对于语音控制的前景,微软的创始人盖茨也曾说过,五年后语音会改变世界。只是,这样的论调,盖茨每隔五年都要再说一遍。
也许我们还不清楚实现真正意义上的人机交互还有多远的路要走,但是“调戏类Siri”已经成为某类青年的调侃标配,因为它们也的确够萌、够2、够天真。
【本文由投资界合作伙伴创业邦授权发布,本平台仅提供信息存储服务。】如有任何疑问,请联系(editor@zero2ipo.com.cn)投资界处理。