首页产业 ai 正文

第四范式黄缨宁：用对抗的手段，提升AI系统的安全性

第四范式AIOS总经理黄缨宁发表了《应用场景驱动数据流通，攻防理念护航隐私计算》的主题演讲。

2021-10-21 08:55 · 投资界

2021年10月20日，由成都市科学技术局联合电子科技大学、中国电子学会区块链分会及清科创业等相关单位联合举办“2021数字技术与信息安全创新发展峰会”在成都隆重举行。现场汇集数字经济、区块链领域的投资大咖与优秀企业家同台，直击热点话题，洞悉行业发展方向，捕捉产业变革机遇，共探数字经济产业繁荣之路。

会上，第四范式AIOS总经理黄缨宁发表了《应用场景驱动数据流通，攻防理念护航隐私计算》的主题演讲。

以下为演讲实录，经投资界（ID：pedaily2012）编辑整理：

感谢主办方的邀请，感谢大家还继续坐在这里一起来讨论一下整个的数字经济，包括产业数字化的问题。

今天我们前面的很多分享嘉宾都有讲道，我们如何去融合数据的问题。其实在第四范式的实践理念中，我们发现要把数据用好，其实技术并不是最关键的点，也不是我们客户用数据的人。目前来说最关心最卡脖子的点，其实是从信息化到智能化，到智慧化。这三个点的区别是什么？信息化，我们把很多做过的事情，用数字化的方式存证起来。我们从有纸到无纸，有很多的系统到信息系统，我们做一些独立的决策，把这些留存下来的数据发挥一些应用，然后再到智慧化，所有的数据联合起来形成一个数据的生态，然后更多的更好的发掘一些数据的价值。

今年数据安全法发布了以后，各式各样子如何融合的技术，已经形成了非常好的势头，大家都在说这个技术，都在说我们可以用这个事情来促进数据融合。但是范式作为一个已经成立了七八年的企业服务公司，在我们跟很多的企业沟通过程中，其实技术并不是卡住他们的第一个点。

他们与到我们的时候，会问一些什么样的问题，融合用数？我们可以用这个数，用那个数，用政府的数据，用我们集团的各种子公司的数据融合起来，我对业务有什么样的价值，这些数据加起来，能够做什么样子的场景，这些场景能够让我的业务指标能够提升吗？如果不能提升，做它干嘛。如果我们发现了一个场景，这个融合用数有一些提升，会问这些数据在哪里？是属于集团内部还是在哪些地方去取，我们如何跟它建立一些连接。再往后，我们要用多少数据，数据量大小是如何，如何分配一个利益和协作。

所以整个数据流通繁荣的第一步，大家问的不是这个技术是不是非常安全可控，一定的融合，用了什么样的底层算法和技术。这是困扰所有用数方的前置问题，Y的问题，价值的问题，我们只有价值产生的需求需求才产生供给，然后整个的供需关系，整个的数据流通起来才能更加的繁荣。

第四范式是14年立的，我们一开始做了AI+金融，从应用类的场景到整个的营销获客，包括刚才说的反欺诈，然后监管类的一些场景，我们都做了，所以我们对整个金融行业，用金融客户自己的数据，能够做一些什么样的产生业务价值的AI场景很清楚。但是我们扩展到了能源、零售、地产、餐饮等等的各式各样的板块。AI就是整个平台，上面可以承载各行各业的一些业务的应用。

我们有了这些实践经验，包括跟非常多的这种头部企业的合作过程中，我们知道了在不同的企业，不同的行业内，我们用AI的方式，用数据的方式，能够帮他们做一些什么样子的业务场景。这一点也成了今年在数据融合流通大趋势下的非常重要的优势。我们列举了政务里面的场景，包括在零售，金融等等领域，我们首先要回答客户的价值问题，那就是说我在这个行业，在这个场景，AI用数据产业数字化里面的场景，到底是什么？什么样子的场景能够帮助到你的产业，我们在不同的行业会有这样子的行业的场景集市，其实定义了各种纬度的用数据能够提升你业务的价值的场景。对于我们很多客户，其实只是用数据的人，但是不是一个研究技术的人，我们给了他相当于一本现成的菜单，有了这个菜单就更知道，哪些技术，哪些行业场景可以做一些应用。

有了这个场景，有了这个菜单以后，还需要这些菜，菜就是这些数据。这些数据的话，我们是在不同的行业，也会有一个这样子的行业的数据图谱。我点了菜单，我知道我需要吃什么，需要西红柿炒蛋。包括运营商有哪些数据。这个数据的纬度，质量到底是如何。我们有这样子的数据网络的目录。

这两个融合起来，就会变成什么？其实是变成范式非常领先的一个AI数据治理理念，叫做联邦的数据形式。定义是什么东西？定义是业务，AI和IP。我们如何连接不必要的交易，这里面的业务能耗是什么？我需要做一个场景，我需要什么样的数据，需要客户的交易流水，商铺的一些信息等等的这样一些表，数据纬度是我们业务的能耗，我们需要一些AI的号，哪些数据是行为数据，哪些是反馈数据。我们要如何去采集它，它到底在哪一个数据库。就在本行，还是在我的一些合作机构里面有这些数据。

我们会以隐私计算，联邦学习的方式来形成一个数据的融通，最后形成的是一个共有产权的反欺诈的模型，并不是直接的数据流来流去。前面总结一下，我们有了那个菜单，我们有了产业数据图谱，有了这道菜，我们知道某道菜哪里买，然后有了联邦数据形式，就是一个自动的炒菜机器人，我们把业务的场景需求和产业的数据图谱，做一个融合，形成一个联邦的数据形式。解决了一些什么问题，有什么样的业务价值，这个就不需要每一个用数者一个一个讨论的问题，因为已经有先例，有模板，已经有头部企业的实践经验，我们知道有什么样的场景，能够产生什么样的业务价值，这些数据在哪里？数据图谱的所有权在哪里？其他人对这个数据的使用权，某些节点有一些所有权，数据如何去获取和使用。

很多公司在讲隐私计算，数据的融合，数据的流通，更多的是讲技术纬度的事情，但是我们真正的要让这些技术产生一个实际的用途，我们需要的还是什么？还是场景，需要真正的给业务的价值产生一些争议。这样子，我们才会联合去用数据的需求，有了联合用数据的需求，我们才会对联邦学习，隐私计算，MPCTEE等各种流派做隐私计算的技术需求。

我们在讲数据融合的时候，同时后面也出了一个隐私保护的法律，其实讲的是数据安全，公民的个人隐私的数据安全。其实不同的时代，有不同的数据和信息的安全，安全是什么？安全其实是应对的是攻击。打个比方来说，20世纪的40到60年代，是一个战火纷争的年代，那个时候，其实大家的攻击方式是什么？是窃取信息，我把你的信都拿了以后，我知道你的炮弹部署在哪里？司令部在哪里？所以那个时候的安全应对方法是什么？就是整个的密码学蓬勃的发展，因为我要你窃取我的信息也不知道里面是什么，那只是信号并不是信息。到了后面，整个的数据，整个网络发展了以后，攻击方法是什么？用什么方式获益，其实是通过篡改信息，我通过给A转帐10万块钱，我把交椅信息篡改为10万块钱转给B，所以那个时候发展比较多的是验证技术。我能确保这个信息就是来自于A，而且A就是发的这条信息。

到了AI时代的安全又是什么呢？AI时代，有一个特质就是会有越来越多的决策交给AI模型来做的。比如说我们的一些客户，一些金融客户，里面的刚刚说的交易反欺诈，或者授信的模型，到底授信多少额度，是AI模型给出来的判断，不仅是像以前一样，是一个人在后面做拦截，其实AI的模型攻击它，我们就会越来越受益。

攻击AI模型的方式是什么？这里其实我们列举了在其中不同的攻击方式，包括攻击它的梯度的泄露，模型的提取，模型的立项判断等等。总结而言的话，AI攻击的主要目的是两种。一种是盗取数据隐私。另外一种是影响模型的效果，类似于各种企业里面有一种消费类型的企业里面，反弄羊毛的模型，你识别不出来，我通过这种方式来获益。所以攻击的主要目的是获益，其实主要干这两件事，盗取数据的隐私和影响模型的效果。这个是AI时代我们会面临的一些攻击。

我们面临的攻击，比如说第一个，通过梯度的泄露来窃取数据的隐私，我们通过一些梯度信息的还原，可以还原相似的东西。这个中间并没有产生原始数据的交换，假设某一个训练方，联邦学习的参与方是一个具备恶意的想要盗取数据隐私的参与方，就能获得这样的数据隐私。我们其实范式就在研究一些算法，我们叫做PPT算法。

我们在训练的过程中，对数据的梯度来进行一个加密，我们用同样的方法去攻击，看到第三行就是恢复不出来数据的原始样貌了。这个是盗取数据隐私，以及我们如何去防御它的一种方式。

另外一种方式是对抗攻击影响模型效果。大体上怎么做呢？现在的模型会自我学习，自我迭代，学习一些新的样板。假设这些样本不是真实发生的，就是欺诈集团利用数据的特征造出来的样本，把这些带有噪声的，恶意的样本进行了学习了以后，整个模型的效果就会下降。然后我们的做法是什么？产生一个对抗的数据集，让这些噪声的样本即使参入了以后，整体的模型效果也不会大为下降。

现在反欺诈的精准度比人高很多了，现在就是魔高一尺，道高一丈，现在就是用这种方式来扰乱整个AI模型的一些判断，从而让它获益，我们就对抗样本的生成，能够让模型的效果，遇到了这种恶意去破坏它的样本，整个效率也能够保持一定的水准。

所谓的安全是什么？是对抗攻击而言的，攻击的目的，攻击的意图，手段是什么？我们要设计更好的盾，我们要搞清楚的是这个矛是什么，什么是可能攻击的矛，而不是一味去把算法做各式各样的加密，导致计算性能不断的下降。我们也是从整个系统角度考虑问题的，从整个的训练，测试等等上线，然后这个是我们AI安全的整体系统架构。往底下的话，有操作系统，往中间的话，有支持联邦学习，多方安全计算等等的插件。往上的话，我们有各式各样的测试攻击的方案，类似于安全专家最了解的病毒。

我给大家介绍的就是两个点，我们要做数据的融合和流通，最重要的是我们要了解各行各业的业务价值在哪里？场景是什么？场景引导的数据在哪里？那么我们针对了这个痛点，其实有一个联邦数据形式来解决这个问题。

第二个点，现在大家都在呼吁数据安全，AI安全，那么在AI安全的领域里面，我们更需要思考的攻击是什么？谁会从这些攻击里面受益，采用何种手段，我们要推出的是有一整套的攻防系统，通过攻击防御的对抗的手段来提升整个AI系统的安全性，让AI和人类的世界，和人的判断更加的紧密的协作，更加的互信可靠。

本文来源投资界，原文：https://news.pedaily.cn/202110/479714.shtml

【本文为投资界原创，网页转载须在文首注明来源投资界（微信公众号ID：PEdaily2012）及作者名字。微信转载，须在微信原文评论区联系授权。违规转载必究责。】