旗下微信矩阵:
首页 产业 ai 正文

第四范式黄缨宁:用对抗的手段,提升AI系统的安全性

第四范式AIOS总经理黄缨宁发表了《应用场景驱动数据流通,攻防理念护航隐私计算》的主题演讲。
2021-10-21 08:55 · 投资界

2021年10月20日,由成都市科学技术局联合电子科技大学、中国电子学会区块链分会及清科创业等相关单位联合举办“2021数字技术与信息安全创新发展峰会”在成都隆重举行。现场汇集数字经济、区块链领域的投资大咖与优秀企业家同台,直击热点话题,洞悉行业发展方向,捕捉产业变革机遇,共探数字经济产业繁荣之路。

会上,第四范式AIOS总经理黄缨宁发表了《应用场景驱动数据流通,攻防理念护航隐私计算》的主题演讲。

第四范式黄缨宁:用对抗的手段,提升AI系统的安全性

以下为演讲实录,经投资界(ID:pedaily2012)编辑整理:

感谢主办方的邀请,感谢大家还继续坐在这里一起来讨论一下整个的数字经济,包括产业数字化的问题。

今天我们前面的很多分享嘉宾都有讲道,我们如何去融合数据的问题。其实在第四范式的实践理念中,我们发现要把数据用好,其实技术并不是最关键的点,也不是我们客户用数据的人。目前来说最关心最卡脖子的点,其实是从信息化到智能化,到智慧化。这三个点的区别是什么?信息化,我们把很多做过的事情,用数字化的方式存证起来。我们从有纸到无纸,有很多的系统到信息系统,我们做一些独立的决策,把这些留存下来的数据发挥一些应用,然后再到智慧化,所有的数据联合起来形成一个数据的生态,然后更多的更好的发掘一些数据的价值。

今年数据安全法发布了以后,各式各样子如何融合的技术,已经形成了非常好的势头,大家都在说这个技术,都在说我们可以用这个事情来促进数据融合。但是范式作为一个已经成立了七八年的企业服务公司,在我们跟很多的企业沟通过程中,其实技术并不是卡住他们的第一个点。

他们与到我们的时候,会问一些什么样的问题,融合用数?我们可以用这个数,用那个数,用政府的数据,用我们集团的各种子公司的数据融合起来,我对业务有什么样的价值,这些数据加起来,能够做什么样子的场景,这些场景能够让我的业务指标能够提升吗?如果不能提升,做它干嘛。如果我们发现了一个场景,这个融合用数有一些提升,会问这些数据在哪里?是属于集团内部还是在哪些地方去取,我们如何跟它建立一些连接。再往后,我们要用多少数据,数据量大小是如何,如何分配一个利益和协作。

所以整个数据流通繁荣的第一步,大家问的不是这个技术是不是非常安全可控,一定的融合,用了什么样的底层算法和技术。这是困扰所有用数方的前置问题,Y的问题,价值的问题,我们只有价值产生的需求需求才产生供给,然后整个的供需关系,整个的数据流通起来才能更加的繁荣。

第四范式是14年立的,我们一开始做了AI+金融,从应用类的场景到整个的营销获客,包括刚才说的反欺诈,然后监管类的一些场景,我们都做了,所以我们对整个金融行业,用金融客户自己的数据,能够做一些什么样的产生业务价值的AI场景很清楚。但是我们扩展到了能源、零售、地产、餐饮等等的各式各样的板块。AI就是整个平台,上面可以承载各行各业的一些业务的应用。

我们有了这些实践经验,包括跟非常多的这种头部企业的合作过程中,我们知道了在不同的企业,不同的行业内,我们用AI的方式,用数据的方式,能够帮他们做一些什么样子的业务场景。这一点也成了今年在数据融合流通大趋势下的非常重要的优势。我们列举了政务里面的场景,包括在零售,金融等等领域,我们首先要回答客户的价值问题,那就是说我在这个行业,在这个场景,AI用数据产业数字化里面的场景,到底是什么?什么样子的场景能够帮助到你的产业,我们在不同的行业会有这样子的行业的场景集市,其实定义了各种纬度的用数据能够提升你业务的价值的场景。对于我们很多客户,其实只是用数据的人,但是不是一个研究技术的人,我们给了他相当于一本现成的菜单,有了这个菜单就更知道,哪些技术,哪些行业场景可以做一些应用。

有了这个场景,有了这个菜单以后,还需要这些菜,菜就是这些数据。这些数据的话,我们是在不同的行业,也会有一个这样子的行业的数据图谱。我点了菜单,我知道我需要吃什么,需要西红柿炒蛋。包括运营商有哪些数据。这个数据的纬度,质量到底是如何。我们有这样子的数据网络的目录。

这两个融合起来,就会变成什么?其实是变成范式非常领先的一个AI数据治理理念,叫做联邦的数据形式。定义是什么东西?定义是业务,AI和IP。我们如何连接不必要的交易,这里面的业务能耗是什么?我需要做一个场景,我需要什么样的数据,需要客户的交易流水,商铺的一些信息等等的这样一些表,数据纬度是我们业务的能耗,我们需要一些AI的号,哪些数据是行为数据,哪些是反馈数据。我们要如何去采集它,它到底在哪一个数据库。就在本行,还是在我的一些合作机构里面有这些数据。

我们会以隐私计算,联邦学习的方式来形成一个数据的融通,最后形成的是一个共有产权的反欺诈的模型,并不是直接的数据流来流去。前面总结一下,我们有了那个菜单,我们有了产业数据图谱,有了这道菜,我们知道某道菜哪里买,然后有了联邦数据形式,就是一个自动的炒菜机器人,我们把业务的场景需求和产业的数据图谱,做一个融合,形成一个联邦的数据形式。解决了一些什么问题,有什么样的业务价值,这个就不需要每一个用数者一个一个讨论的问题,因为已经有先例,有模板,已经有头部企业的实践经验,我们知道有什么样的场景,能够产生什么样的业务价值,这些数据在哪里?数据图谱的所有权在哪里?其他人对这个数据的使用权,某些节点有一些所有权,数据如何去获取和使用。

很多公司在讲隐私计算,数据的融合,数据的流通,更多的是讲技术纬度的事情,但是我们真正的要让这些技术产生一个实际的用途,我们需要的还是什么?还是场景,需要真正的给业务的价值产生一些争议。这样子,我们才会联合去用数据的需求,有了联合用数据的需求,我们才会对联邦学习,隐私计算,MPCTEE等各种流派做隐私计算的技术需求。

我们在讲数据融合的时候,同时后面也出了一个隐私保护的法律,其实讲的是数据安全,公民的个人隐私的数据安全。其实不同的时代,有不同的数据和信息的安全,安全是什么?安全其实是应对的是攻击。打个比方来说,20世纪的40到60年代,是一个战火纷争的年代,那个时候,其实大家的攻击方式是什么?是窃取信息,我把你的信都拿了以后,我知道你的炮弹部署在哪里?司令部在哪里?所以那个时候的安全应对方法是什么?就是整个的密码学蓬勃的发展,因为我要你窃取我的信息也不知道里面是什么,那只是信号并不是信息。到了后面,整个的数据,整个网络发展了以后,攻击方法是什么?用什么方式获益,其实是通过篡改信息,我通过给A转帐10万块钱,我把交椅信息篡改为10万块钱转给B,所以那个时候发展比较多的是验证技术。我能确保这个信息就是来自于A,而且A就是发的这条信息。

到了AI时代的安全又是什么呢?AI时代,有一个特质就是会有越来越多的决策交给AI模型来做的。比如说我们的一些客户,一些金融客户,里面的刚刚说的交易反欺诈,或者授信的模型,到底授信多少额度,是AI模型给出来的判断,不仅是像以前一样,是一个人在后面做拦截,其实AI的模型攻击它,我们就会越来越受益。

攻击AI模型的方式是什么?这里其实我们列举了在其中不同的攻击方式,包括攻击它的梯度的泄露,模型的提取,模型的立项判断等等。总结而言的话,AI攻击的主要目的是两种。一种是盗取数据隐私。另外一种是影响模型的效果,类似于各种企业里面有一种消费类型的企业里面,反弄羊毛的模型,你识别不出来,我通过这种方式来获益。所以攻击的主要目的是获益,其实主要干这两件事,盗取数据的隐私和影响模型的效果。这个是AI时代我们会面临的一些攻击。

我们面临的攻击,比如说第一个,通过梯度的泄露来窃取数据的隐私,我们通过一些梯度信息的还原,可以还原相似的东西。这个中间并没有产生原始数据的交换,假设某一个训练方,联邦学习的参与方是一个具备恶意的想要盗取数据隐私的参与方,就能获得这样的数据隐私。我们其实范式就在研究一些算法,我们叫做PPT算法。

我们在训练的过程中,对数据的梯度来进行一个加密,我们用同样的方法去攻击,看到第三行就是恢复不出来数据的原始样貌了。这个是盗取数据隐私,以及我们如何去防御它的一种方式。

另外一种方式是对抗攻击影响模型效果。大体上怎么做呢?现在的模型会自我学习,自我迭代,学习一些新的样板。假设这些样本不是真实发生的,就是欺诈集团利用数据的特征造出来的样本,把这些带有噪声的,恶意的样本进行了学习了以后,整个模型的效果就会下降。然后我们的做法是什么?产生一个对抗的数据集,让这些噪声的样本即使参入了以后,整体的模型效果也不会大为下降。

现在反欺诈的精准度比人高很多了,现在就是魔高一尺,道高一丈,现在就是用这种方式来扰乱整个AI模型的一些判断,从而让它获益,我们就对抗样本的生成,能够让模型的效果,遇到了这种恶意去破坏它的样本,整个效率也能够保持一定的水准。

所谓的安全是什么?是对抗攻击而言的,攻击的目的,攻击的意图,手段是什么?我们要设计更好的盾,我们要搞清楚的是这个矛是什么,什么是可能攻击的矛,而不是一味去把算法做各式各样的加密,导致计算性能不断的下降。我们也是从整个系统角度考虑问题的,从整个的训练,测试等等上线,然后这个是我们AI安全的整体系统架构。往底下的话,有操作系统,往中间的话,有支持联邦学习,多方安全计算等等的插件。往上的话,我们有各式各样的测试攻击的方案,类似于安全专家最了解的病毒。

我给大家介绍的就是两个点,我们要做数据的融合和流通,最重要的是我们要了解各行各业的业务价值在哪里?场景是什么?场景引导的数据在哪里?那么我们针对了这个痛点,其实有一个联邦数据形式来解决这个问题。

第二个点,现在大家都在呼吁数据安全,AI安全,那么在AI安全的领域里面,我们更需要思考的攻击是什么?谁会从这些攻击里面受益,采用何种手段,我们要推出的是有一整套的攻防系统,通过攻击防御的对抗的手段来提升整个AI系统的安全性,让AI和人类的世界,和人的判断更加的紧密的协作,更加的互信可靠。

本文来源投资界,原文:https://news.pedaily.cn/202110/479714.shtml

【本文为投资界原创,网页转载须在文首注明来源投资界(微信公众号ID:PEdaily2012)及作者名字。微信转载,须在微信原文评论区联系授权。违规转载必究责。】

本文涉及