在分享投资年度峰会上,明略数据创始人吴明辉发表了题为《企业级大数据和人工智能服务》的主题演讲。在演讲中,吴明辉以公安系统为例,展示了系统成功地从海量数据中构建出嫌疑人与其同伙的关系网络,从而掌握了详细准确的情报信息。
从企业大数据出发,明略会走向人工智能市场。吴明辉认为,所有优秀的人工智能算法,都依赖于好的样本数据采集。明略数据通过自主研发的大数据产品,最终目标是将人工智能警察、人工智能税务风控师等等变成现实。
明略数据是行业内技术积累和实际应用都有深厚积累的公司,如果对大数据、人工智能感兴趣,吴明辉的演讲内容不能错过。
以下为演讲全文:
很多投资人称我们是中国的Palantir,就是为抓捕本拉登提供了情报分析服务的美国大数据软件公司。与Palantir最初创立时相似,明略数据成立于2014年4月,核心员工都拥有处理分析海量互联网数据的能力积累与在广告反欺诈领域的算法实践,得到了最初的大数据实力沉淀。
今天的明略虽然成立短短两年,但在市场上已经服务了非常多标杆企业和机构,包括省市公安局、税务局、金融行业的银联商务,高端制造领域的中车集团,我们在为各领域更多客户提供大数据管理和挖掘服务在内的解决方案。
而实现这一切要源于明略的核心价值——人才!从最初的20人成长到今天200多人,我们是在与百度、谷歌这样世界500强的顶尖企业争夺人才。到今天,明略积累了众多来自清华、北大和海外名校的科学家,组建成为明略大数据科学家团队。这个团队,这些人才正是明略核心的价值,我们将他们的智慧与价值应用到关乎国家安全的重大领域项目中去,创造落地价值。
以公安系统为例,针对一个大案要案的侦查工作会涉及数百名警员进行情报搜集、比对、分析工作。举例搜查比对嫌疑人之间的银行转账记录,单此一项工作就会耗费无数人力和时间。这也造成某些案件可能要花六个月甚至更长的时间来一点点侦破。
明略数据的大数据情报研判系统对破大案要案非常有帮助。举例来说,在某市抓获的贩婴团伙,很大程度上是因为这套系统成功的从海量数据中构建出嫌疑人与其同伙的关系网络,从而掌握了详细准确的情报信息。
这套系统背后的技术非常复杂,但难点却不在大数据的“大”上。一个地市级的公安局系统,数据量在几百个T的规模,远不及BAT企业的上百可能都没有到P的规模,难点在于数据挖掘和关联分析,也只有做到这点,数据才能真正的被应用起来。
回到刚才公安领域的例子,数据系统内没有标记某两个人是同学、同事,更甚至是团伙,但通过我们的系统,通过判断个体的行为轨迹,就可以判断出他们的关系网络。比如,某两个人昨天同乘一班飞机,今天同住一个酒店,入住时间相差一分钟,我们推测出来这两个人可能是认识的,关系可能是同学、同事或者是同伙。再举一个例子,当两个或几个案件中出现相同或类似线索时,就会进行串并案分析。比如A警察在破案过程中识别一个戴红帽子、穿绿衣服的犯罪嫌疑人,B警察的另一案件中也发现同一特征嫌疑人,这个情况下,处理不同案件的不同干警之间并没有实时交流,如何做到串并案呢?明略大数据情报研判系统将所有侦查、审讯笔录联结在一起,自动挖掘出案件间同车、同人等的关联关系。明略做的正是通过数据挖掘,把系统中孤立的数据关联起来。这一点在公安里面具有非常广泛的应用。
公安领域的实践是具有代表性的。从这一聚焦的领域出发,我们瞄准的是人工智能市场。
罗振宇讲过一个概念:农业社会,人类可以和活着的植物发生密切的协作,畜牧业就是和活着的动物有密切的协作,工业社会就是人和死去动物变成的煤炭协作,然后又和动物死去变成的石油协作。互联网是让人和人的大脑发生了连接,构成协作。
我想说在人工智能时代实现之前,即IT时代和互联网时代实现的是人和活着的人的能力连接。未来的AI时代是不仅可以跟活着的人的能力连接,甚至可以跟已逝的专家学者的知识、经验、智慧连接起来,这才是人工智能的价值。在IT时代,绝大多数大数据应用或核心算法应用都在于搜索。但AI时代,我们要做的是把人和人的智慧连接起来。
例如公安领域,我们将判案人员的思路、逻辑、智慧编入系统,再将这套系统应用到各地,并让各地的优秀探长的智慧不断完善系统,最终,“系统”将成为最优秀的警察。就像阿尔法狗超过了李世石一样。
人工智能的目标是让机器像人类一样学会学习,能够反馈,掌握提升自己的能力。比如小朋友学习如何分辨男生和女生的过程,小朋友的妈妈会在见到不同样本后给出结论,这是一个男生或这是一个女生,当看过一百个人后,小朋友的思维就会总结出一个判断经验。什么叫反馈系统?就是当他学习了一百个样本之后仍然会有例外,比如他遇见了李宇春,他判断错了。这个时候他通过自我反馈知道只看头发长短来判断是不准确的,还要看一些其他特征,而后进行进一步提升。
智能技术的发展也是如此,像谷歌汽车在做的就是不断采集数据,不断反馈,不断提升,不断变得智能。明略数据在与某轨道交通的合作中也是这样,通过对数据样本的不断学习和反馈,得出轨道组件的故障率,从而降低成本,保障运行安全。同样的思路,康加通过终端不断学习人体健康样本进行训练学习,最终实现医疗体检功能。秒针也正在将所有广告数据与产品销售数据连接起来,挖掘分析之间的关联关系,不断学习、反馈,最终得出智慧。
可见人工智能的未来发展,核心不在算法的提升,而在样本。技术壁垒已经很难成为垄断性局面,很多优秀的公司都把最核心的算法开源了。样本才是关键中的关键,因为所有优秀的人工智能算法,都依赖于好的样本数据采集。
明略数据的工作正是通过自主研发的大数据产品:MDP大数据安全平台,DataInsight分布式大数据挖掘平台,以及SCOPA大数据关联关系挖掘系统,将公安行业、医疗行业、金融行业里所有数据通过大数据管理平台存储下来,挖掘信息,通过建立关联关系形成有价值的洞察,通过学习与反馈系统连接人类经验,最终形成智慧。我们正在将这套方法论运用到2B领域的各个细分行业中去。我们的最终目标是将人工智能警察、人工智能税务风控师等等变成现实。
明略数据,从现在,到未来,通过大数据技术,通过人工智能延伸人类智慧。
本文来源投资界,原文:https://news.pedaily.cn/201608/20160810401451.shtml