随着“一带一路”新丝路的战略实施,西安再一次将全球目光聚焦到这座历史文化名城上来,成为中国走向世界的契机。随着2017年硬科技创新大会的成功举办,硬科技成为西安市的新名片。由西安高新技术开发区与清科集团联合举办、中科创星协办的2018“一带一路”硬科技产业投资高峰论坛于2018年11月8日在西安召开。打造硬科技应用典范,激发科技创新活力,加速硬科技的聚集。
信中利资本集团董事总经理、高级合伙人刘朝晨,中科闻歌创始人、董事长王磊围绕《大数据与行业转型》这一议题进行了深入探讨。以下为对话精华,经西安创业网(www.XianDream.com)编辑:
刘朝晨:今天第三次来到西安,充分感到了西安这两年在整个创新创业方面变化,不光是政府引领,包括业界,投资界,企业界再到民间非常踊跃,我和王总很有幸能在硬科技这么重要的板块里面做一个论坛讨论的开场,我们先做一个简单的自我介绍。
王磊:我是来自于中科闻歌,以前一直做大数据方面的技术研究工作,后来带着团队的成果出来创立了中科闻歌。中科闻歌主要定位做大数据的基础平台,以及和行业结合的相关应用,在这个领域里我们有十多年相关的积累。
刘朝晨:我来自一家投资机构叫信中利,我们从99年成立到现在已经有19年的时间,投了有200多家公司,这里面不乏在信息科技产业的龙头企业,包括细分的大数据行业的企业。我们覆盖的范围非常广泛,从信息科技到医疗健康,到文化娱乐,到高端制造,到节能环保,到新材料,我们已经完成了40多个基金。我们这里面很多标杆的项目大家都很了解,你们去看电影的华谊兄弟,你们每天用的百度,大家体检的美年大健康,包括现在新能源汽车的未来汽车,我们已经有很多上市,全球和资本市场有几十家企业。
回到主题,组织者给我们安排的是探讨大数据,我知道王总是行业的专家。大数据这个词已经被谈了很多年,大数据我想很多人不见得有特别深刻的理解,经常说有几个V,我不知道王总是不是从专业的角度,大数据的四V包含哪些方面。
王磊:四个V就不讲了,大家对大数据的理解,很多是用这四个V来概括。现在大数据发展到了一个新的阶段,在上一个阶段我们投入了大量云计算设备,已经存储了大量的数据和信息,现在需要从数据感知迈向计算认知,重点是利用好数据。
这几年我确实也看到一个趋势,无论政府也好,企业也好,非常把数据的价值挖掘出来,怎么样利用数据现在已经成了各行业高度关注的课题,刚才主持人提到的数字中国,也是希望充分分析和利用大数据,进一步到可以支持科学决策。
我看了一下2017年官方统计数据,大数据这块的市场产值已达到4700亿的规模,数据积累体量已经到了数十ZB级别,需要我们在利用、分析以及为决策服务进行进一步突破。
刘朝晨:我给大家稍微补充一点。大数据大家听的比较多,以为好像数据多就是大数据,其实这是一个不是很准确的概念。因为几个V一个是多,数量巨大,但是光是巨大的数据,如果没有海量的速度更新。第二个非常关键的就是这和我们经常讲的速度是一个更专业的词汇,是一个矢量的词汇,要求大量的更新和不断进行迭代。还有一个重要点,如果你的数据只是在一个细分行业里积累了很多,价值非常有限。第三个V就是广度,多样化。最后就是谈到了数据最终是不是具备多大的核心的价格。前三层的东西积累出来可以产生大数据产生的价值。
在座的每一个人都有手机,你的手机里都装有几十个APP,在每时每刻,每个人都是数据的产生者。今天我想跟王总探讨几个关键问题,你们起源是中科院自动化所,尤其是在于跨媒介,媒体,社会化媒体的数据聚集和挖掘,包括在自然与深度分析方面,同时也涉及到。
我想问几个问题,核心一点是大数据大家都去谈到人工智能,很多专业的人说现在的人工智能还是相对的伪人工智能,其实大数据是很实在的,只不过现在的人工智能是因为我们具备了更高更强的算力,在算力的基础上我们对大数据处理的能力和效率和效果进行了高速的迭代和发展,但是依然停留在计算这样一个层面。王总怎么看?
王磊:刘总的总结,对大数据说得非常全面的。刘总也提到人工智能现阶段,目前还没有想象的那么神奇,它需要一个发展阶段,个人觉得大数据也是,需要逐步发展。
早期大部分大数据是简单统计层面,或是基础数据存储平台层面,但是很多问题都不是统计层面上简单可以解决的,这样去定位和理解大数据还缺乏一些内涵,大数据现在最难以解决难题应该是认知层面,其中刘总提到的语义分析就属于这个范畴。这几年很火的AlphaGO,大家都知道战胜了人类的棋手,它的胜利显然是高级的,但离普适智能还有距离,比如让机器来做一个阅读理解的题,就比下围棋要难很多,因为需要对语义进行深度认知和推理,挑战是很大的。我认为大数据下一阶段应该要在数据利用层面,去解决一些深度认知计算问题,从感知到记忆再到推理,尤其是记忆和推理阶段,很多工作还需要做,无论是研究界,还是产业界,尤其是和行业深度结合,挑战还非常大。
刘朝晨:王总讲的我非常认同,其实对深度的语义的理解和学习,这样一个经验模型的建立,可能是在大数据的基础之上,真正往人工智能的决策方面需要突破的关键点。现在已经是海量了,因为时间是非常有限的,但是每天你被大量的数据所充斥。目前主要应用的热点,更广泛的来看这个行业,现在大数据应用的热点,尤其对现在产业的进一步的升级,或者创新,您觉得主要的机会在哪几方面?
王磊:这个问题在座搞投资的很多,包括刘总估计也有很好的答案。我本身是做技术研究出身的,我简单谈谈我的认识。大数据已经历了十年左右的发展,前期很多大数据公司做平台,比如说把数据存起来,这一块已经算是告一段落,当然做精做细也有很多机会,比如今年,美国公司上市的公司ElasticSearch,也是算是超级独角兽,它解决的问题就是解决大数据搜索问题,搭建企业级数据搜索平台,获得了很好的收益。未来大数据板块一定是跟领域深度结合,现在我们可以看到,无论是我们做泛媒体数据,还是司法大数据、旅游大数据、以及政务大数据我觉得都是有机会的,它的机会在于与这些领域模型的深度结合。泛泛大数据仅仅可以支持非常粗浅的应用,但是对某些特定领域的宏观决策把握,再到中观分析,再到微观细节模式发现,必须要再进一步在技术层面上和领域深度建模结合在一起,人工智能技术的结合也非常重要,让大数据具有聪明的计算能力,使处理数据更加智能化。总体来说,深刻改变行业,并能起到应有作用,才是大数据的价值所在,这些方面是比较有机会。
刘朝晨:你们做的这块,你们觉得基于大数据,在跨媒体行业,从行业的产业应用,应用大数据,对他们业务的创新起到什么样的辅助性的作用,带来什么样的机会?
王磊:我先说一下我们的业务,我们定位是做泛媒体大数据,主要是在帮助记者去生产更多的内容是我们的核心业务。大数据和行业结合,我们做了很多案例,讲个具体例子,在智慧城市方面,我们做的平台可以把物联网里的物联设备数据提取过来,通过大数据一张图分析设备相关状态,并对他的故障率进行预测分析,目前已应用在国内一些城市中。当然还有一些更加深度应用案例,就是基于认知计算的语义理解,我们也做了相关的工作。上周五CCTV《机智过人》节目里面,“AI法官”就是这样的一个应用,一个案件出来以后,律师研究案件是非常耗费力气的,包括公众要了解案件情况,确定犯了什么罪和怎么量刑,AI法官就是干这个事情,还获得了中国计算机学会的奖励,我们能够帮助律师和法官非常方便地,基于案情描述关联历史判例,给出定罪依据和量刑情况,取得了较好的成效,其实AI法官是非常难的,因为要及其自动提取案情的关键描述,最后再做推理给出量刑判定,需要解决深度语义理解问题。
刘朝晨:你讲的是辅助的对于一些案件的案例性的分析,这个确实很有用。衍生过来它在医疗,我们知道大数据的采集对医疗基本的检测,尤其是一些医疗片子的积累,包括进行对比,机器通过图象识别来进行大量的海量分析。其实数据是多维的,有声音、文字、图像、动态的。再就是从个性化的学习,在我们不断收集各种个体,包括K12的过程中,他们每个个体产生的通用性样本之后,其实可以根据你个人的反馈很精准的对每个个体的学习能力和学习的曲线进行绘制。可以通过机器有辅导性的给它进阶性的推送完善他的课程。这些和我们生活中各个领域的渗透都是非常多的。这里面存在一个问题,海量的数据让我们更方便,无论是个人,还是我们所在的机构,成为一个受众。但同时因为我们不断的产生数据包括我们的机构也在同步的产生数据,并且被整个社会里面专业的公司,第三方机构,管理部门不断的获取,获取的过程中进行加工和分析,同样我们也变得更加的透明。在这样的一个过程中,其实是变量的关系。我知道你们去年拿了两轮以上的投资,你对于台下的创业者有什么建议,我们如何在传统行业里利用好大数据,以及在这个时代赋予的机会,帮助他们在传统产业里进行更好的提升,增强竞争呢?
王磊:这个问题刘总提的非常好,我也分享我个人的体会,我觉得大数据是非常硬的硬科技,我刚才讲到海量数据统计和浅层分析其实已经是老一代技术,大数据如果停留在这个层面,它的创新度是及数据库技术的。
如果大数据创业这块,非常重要的一点是要把行业问题理解清楚,做好问题定义,就是通过大数据可以得到什么样相对深刻洞察,可以支撑管理和决策,这点业务定位要做好。从创业角度来讲,我认为大数据的公司是需要磨炼的,前面的老师也讲到硬科技需要时间的积累和磨砺,大数据的核心点是怎么样去挖掘分析,有很多难点问题需要我们去攻克。如果要创业,必须要选准一个大数据领域的难点和痛点问题,同时还要积累很好的人才队伍,做好打持久战的准备,来把这个事情做好。
刘朝晨:因为我做投资,我也跟大家分享一点。前天我要来会议之前,正好我投资的一家机构已经收购了中国的一家上市公司,要进入到在大数据行业的重组和重要布局。我们非常欣喜的看到这家机构的动作,因为它不是在某一个领域做穿透性大数据,包括模型建立和产品研发的机构,它是一个做平台的机构。
在大数据行业里面是有很多的机会,但是在过去将近5年以上的时间,基本上无论是做基本的平台,还是在刚才谈到的媒体、公共安全、医疗卫生、工业制造、教育等等各个领域进行纵向的,细分平台的搭建和纵向的服务挖掘服务的公司,以及相关的数据,首先要有采集,第二要有汇集,第三要有重新的分类,筛选,模型的建立,然后要进行应用,还要循环性的存储,反馈,形成闭环。
在每一个链条中都有相应的公司做支持,在各个领域里,其实在过去五年以上的时间,都被各种VC机构,天使机构,PE机构进行了大量的布局。应该说生态已经是非常的丰富了,留给创业者的空间是比较有限的,但是依然有机会,为什么?因为大的平台,大的生态已经建立了,你的机会在于你的核心竞争力在生态体系细分里面的切入,但是要具备非常强的在上下游和周边生态的整合和互动加速发展能力。也就是你如何更好的在生态里面定位你的核心价值和你*化利用生态提供的生态空间,高速度来转化帮助你的核心价值进行重塑发展这样的机会把握的能力。只有这样的公司,可能在细分领域里才能够脱颖而出,而且速度是非常快的。
最后,我想问一个问题,最近因为国家公安系统对市场上很多做数据,还有服务,还有包括互联网精准营销和推广的公司进行了整治,甚至已经调查了一些公司,而且在深度调查一些公司。甚至是涉及到公民很多隐私性的数据在商业性应用之后不被告知的商业化的再销售再应用,其实已经涉及到中国的刑法。王总能不能给行业里的人提一些建议,如何在数据的隐私保护上来提高我们的意识,并且在发展上,我们还有哪些关键点需要快速的进行完善呢?
王磊:刘总提到数据隐私保护是大家普遍关心的问题,我们公司主要是做行业数据层面,在大数据涉及个人隐私也仅仅有一点粗浅了解。大数据隐私保护方面,关系到方方面面,关系到每个人的切身利益。我觉得,大数据相关的公司应该要站在做好保护好每一个用户数据的立场出发,去考虑和设计业务,用隐私的数据来谋取利益是不合适的,我们从业者需要对自己提出这么一个要求。另一个层面,国家也一定会在这个方面出台相关的政策,其实大家也注意到,现在欧盟和美国这块都有了相应的举措,我相信在保护隐私方面会有好的解决方案。
刘朝晨:我们每个人都作为数据的生产者,我们在的机构也都作为重要的数据的生产者,同时我们也是使用者。你不光要注意到自己隐私信息的保护,你更重要关注到当你从各种渠道获取的信息,如果你在进行广播和传播,尤其在你进行商业加工和使用的过程中,其实*点就是数据的来源的合法性,对它方数据信息隐私的保密性最基本的意识。因为整个生态的建立在法制最基础是变得越来越关键了。大家越来越意识到数据本身的价值,数据本身的价值还是一个存量性的东西,有可能还是一个静态的东西,这需要我们各个行业的从业者更加智慧和巧妙的抓住在数据存量和静态的基础上如何进行更好的开发、利用,合理合法的开发利用的机会,才有可能成为你自己所从事的创业企业,或者事业,或者业务的一个非常好的助力提升的工具,不光让自己受益,同时兼顾受益于他人。