前几天,有人发现讯飞的“星火认知大模型”官方体验平台SparkDesk在用户协议中有一条令人不解的规定:
根据娱乐资本论的查询,SparkDesk 的用户体验规则中确实有相关含义的条文。就此,我们一同查询了国内几款已经公测的大模型产品的用户协议、测试规则和隐私条款,发现诸如“用户生成内容属于平台”、“注销大模型服务会同时注销其它服务”、“平台可以收集在公开渠道、社交网络上发现的你的个人信息”等不尽合理的规定还有很多。
所以,我们想在本文中告诉你:
哪些你认为完全合理的AI大模型使用方法,其实是“违反用户协议”的?
你对大模型输入的隐私或机密信息,会被怎样处理?
当你有可能违反了AI大模型的使用条款时,这意味着什么?
一不小心,就违反协议了
3月中旬,百度文心一言开放产品测试,4月7日阿里的“通义千问”启动内测,4月17日昆仑万维“天工”启动内测,4月24日科大讯飞“星火认知大模型”启动内测。
它们都为用户提供了一个相对非常简短的“测试规则”来代替以往冗长的用户协议,例如《文心一言测试规则》,相对的用户也必须完全阅读并同意后才能使用。
一般来说,这些测试规则只讲了三件事:
1.请不要发布违法违规的内容;
2.我们还很不成熟,会有错误,请不要拿生成结果直接用于严肃的场合;
3.请尽量多给我们提供反馈。
然而,讯飞的SparkDesk额外规定了你不能把它生成的东西,甚至包括它的界面,以任何形式公开出去。也就是说,当你在微信群里跟人截图炫耀自己获得内测资格的一瞬间,你已经违反了他们的条款。娱乐资本论在《SparkDesk用户体验规则》中找到了对应的规定原文:
鉴于SparkDesk服务目前处于体验阶段,SparkDesk的有关计算机程序、代码、技术数据、系统及应用软件、数据库、算法、交互界面(包含输入和输出内容)、产品设计、产品发布与规划信息等技术信息或商业信息属于保密信息。
THEN
您知悉并同意,对前述保密信息严格保密!未经允许,您不得将前述保密信息以任何形式(包括截图、打印、软盘、光盘、硬盘、电子邮件、网络、无线通讯等手段)披露、使用或允许他人使用,或者发送至网站、微博、微信群组或朋友圈、自媒体账号等网络环境中。
LAST
若您违反本规则约定的保密义务,我们有权依法追究您的法律责任。
很显然,“交互界面(包含输入和输出内容)”涵盖了我们在使用SparkDesk时,对着它的对话框输入的内容,以及它返回给我们的结果。而往往我们都会用微信截图发给群里的朋友,这是再自然不过的举动了。
而且输入SparkDesk的名字,你就能发现有不少公众号作者,先是在注册时看到了这段禁止截图的话,点完同意以后马上开始截图体验,即使水印带着他的手机号也毫不畏惧。
我们很好奇,这种制定时就应该预见到不可能执行的规定,到底是怎么被放上去的。
我能把自己的小秘密告诉大模型吗?
除了抓取公网信息外,大模型也会保留用户与它的聊天数据用作训练,因此用户的个人信息或企业的商业秘密也有暴露在公众面前的风险。此前,三星电子的半导体部门发生了3起将商业机密输入ChatGPT的事件。
ChatGPT也曾泄露部分ChatGPT Plus订阅者的个人信息,这违反了欧盟的GDPR隐私条款规定。
那么,国产大模型会在协议中说明它们收集用户的哪些信息呢?
与ChatGPT等相同,国产AI大模型都会收集用户与模型的问答历史。如果你对某个回答点了旁边的“赞”或“踩”,这些进一步的反馈信息也在被收集的信息之列。
这种问答数据的收集主要用于优化产品。不过百度文心一言规定,这些信息还可以被百度方面用作商业用途。
《文心一言(测试版)个人信息保护规则》提到:
我们通过技术手段对个人信息进行去标识化处理后,去标识化处理的信息将无法识别主体。请您了解并同意,在此情况下我们有权使用已经去标识化的信息;在不透露您个人信息的前提下,我们有权对参与测试人员数据库进行分析并予以商业化的利用。
当我们展示您的个人信息时,我们会采用包括内容替换、匿名处理方式对您的信息进行脱敏展示,以保护您的信息安全。
实际上,百度已经收集了部分用户使用文心一言生成的“趣味图”,比如“夫妻肺片”“松鼠鳜鱼”这种文不对题的聊天记录,并公开在百度的视频号等宣传渠道中。
用大模型作为心理咨询工具,是人们拿到它之后最喜欢做的其中一件事。用户们把大模型当树洞,把自己的什么见不得人的私事都交给这位赛博神父。
然而,如果大模型的开发商或者新闻媒体将你的心理咨询作为案例而其中又夹杂了太多你自己的个人信息以至于可识别出来的时候,这可能会给你带来新的麻烦。
这种可能性也影响到了将这些大模型的通用版本直接用作心理咨询的用途,不过,以他们为API的商业版本则可能会实现对用户数据的保密,所以希望大家在放飞自我之前好好想想。
我们关注的几款国内大模型,普遍都提到会用“脱敏”方式处理大家的隐私信息,例如“在经过去标识化且无法重新识别特定个人的前提下”等表述。但是总体上讲,平台收集的信息越少越好,这才是对你隐私的*保护。
实际情况是相反的:因为用户都是排队等着获取体验名额,这些大模型产品在审核试用申请时,会倾向于给那些更详细提交自己身份信息的用户。
用户对AI生成的回答可以通过点赞和点踩,反馈满意与否。开发商们也非常希望一些不好的生成例子,是*在平台内部发现和反馈的。然而对开发商而言“遗憾”的是,很多比较奇葩的问题,用户并不是乖乖内部反馈,而是直接发到了小红书、微博等社交网络。
此时,我们发现有模型在隐私政策中提到,万一有必要,它们也会通过社交网络资料知道某个截屏的人是谁:
在法律允许的情况下,我们还会从公用或商用来源获取有关您的信息,包括第三方社交网络服务获取有关您的信息。
用户们把大模型当树洞,把自己的什么见不得人的私事都交给这位赛博神父。用大模型作为心理咨询工具,是人们拿到它之后最喜欢做的事情之一。
然而,如果大模型的开发商或新闻媒体,将你向模型做的心理咨询作为案例,而其中又夹杂了太多你自己的个人信息,以至于可识别出来的时候,这可能会给你带来新的麻烦。
这可能就是为什么某些主攻心理咨询的GPT套壳类应用(有的叫“AI佛祖”什么的)被下架处理。所以希望大家在放飞自我之前好好想想,或者如果看到什么截图出来,千万别承认那是你聊的内容,也行。
正如通义千问的条款所说:
如您拒绝我们收集和处理前述信息,请您谨慎输入文本信息。一旦您参与测试体验,将被视为您已经接受以上条款。
要是我违规了,会有什么处罚?
众所周知,AI生成的内容多年来在各国法律判决中,大多被视为不受到版权保护,也就是任何人都可以拿去使用和修改。各国判例中主要认为,AI不是人,所以不是知识产权的所有者。
很多用户天然的认为,在大模型平台上生成的内容是属于自己的,或者可以随意取用和修改。而我们翻查的各家国产大模型的条款,并非都是这样规定的。
讯飞星火的“保密条款”我们已经见识过了。而昆仑万维天工(条款中自称“奇点”)是不允许用户商业使用所生成的内容,当然这个背后可能也有避免麻烦的考量,毕竟可能数据集本身的版权也很模糊。
“除非奇点另行书面授权,否则,您只能将天工服务用于非商业用途。您承诺不对天工服务任何部分或天工服务之使用或获得,进行复制、拷贝、出售、转售或用于广告或其他商业目的。”
阿里通义千问将属于用户的内容划归给用户。百度文心一言未在这方面作出明确规定,所以你应该可以随意使用它们。
相比之下,OpenAI则体现了对客户的一种温情:它明确将用户生成的内容的所有权利、所有权和利益转让给客户。
此时,问题来了——如果我真的把平台不让商用的生成结果拿去商用了,我会被抓起来吗?
事实上,内测用户积极申请国产大模型的测试资格,当然不全是为了玩。他们产出的内容,肯定想尽量用于自己的工作中,真正实现效率的提升。平台禁止生成内容商用的规定显得不合情理,但考虑到开发商们有可能有将API商用的打算,我们也大致能理解为什么会有这样的规定。
*的问题是,就像秘塔科技:“中国的Grammarly”如何应对GPT时代的“降维打击”秘塔科技的COO王益为之前对娱乐资本论讲的那样,市场上目前没有一种工具能真正检测什么段落是由AI生成的。“如果有一家说,我就针对某一家的大模型专门去训练,或许有一点点可能检测到这一种模型生产的痕迹,但要说能全都检测出市面上这些大模型生成的结果,那是不可能的。”
另外,这些国产大模型为尽量实现可溯源的目标,都采用了在界面添加水印的方法,来保留用户的个人信息。而我们已经发现了有些浏览器插件可以专门清除这些大模型界面上的水印。
效果还挺*的。
最后还有个问题:假如你觉得这些条款里有些“霸王条款”的成分,或者别的原因,使得你想注销账号了,这会很困难吗?
对于讯飞星火和昆仑万维天工而言,这两家的账号或通行证都不会附带某些特别重要的产品或服务,所以是方便的(有些人可能是讯飞听写等的付费用户,或在使用讯飞的API,此时需要特别注意)。
然而,如果你想停用通义千问,这意味着要删除你的阿里云账号;如果你想停用文心一言,这意味着要删除你的百度账号。这两个的麻烦可就大多了。
百度为文心一言用户提供了在不删除账号的前提下,访问、处理和请求消除个人数据的多种方式,个性化的需求可以给他们发邮件来申诉。不过它也提到,清空对话界面上的对话记录,并不等于立即消除这些记录在服务器上的缓存:
当您从我们的服务中删除信息后,我们可能不会立即从备份系统中删除相应的信息,但会在备份更新时删除这些信息。
通义千问的条款指出,“您可以登录账号中心后申请注销账户以删除您的全部信息。”这个账号中心并不在通义千问的界面里,只能在阿里云的控制台找到,这意味着注销账户的意思就是注销你的阿里云账号。
总之,在这些服务能脱离开账号附带的其它业务,允许被单独注销之前,建议你在很介意的情况下,使用自己不太常用的账号来申请注册这些大模型。
让我们把视野看到OpenAI,会发现对于清理用户数据的条款要友好很多,不过我们也发现了一些*美国特色的条款,比如说所谓的“实体名单”
写在最后
当我们追问这些大模型在用户协议里一些“强人所难”的规定时,我们实际上在问的是,平台与用户权利、义务的边界到底在哪儿?
大模型开发商对用户数据收集的范围比较广。这些数据能为大模型改进产品提供依据,但也让用户承担了诸多风险。相应的,它们对自身承担的有限责任划定则十分保守,反复提醒用户,作为一项实验性的功能,大模型不为用户使用后发生的任何问题或损失承担责任。
“没有100%的数据安全”。AI大模型和其它互联网产品一样,在数据传输、存储和处理过程中都会存在潜在的风险。这还没有涉及到像ChatGPT那种根据输入语料而学习的潜在的泄密方式。
虽然开发商自称会对用户信息“脱敏”,用户仍应当定期检查自己在这些平台上的隐私设置,并及时关注平台以小字、弹窗等不确定的形态发布的任何通知。
用户协议是企业常用来和用户缔结契约的方式。在签署了合同的情况下,用户不能以“我没看”“不知情”等理由要求撤销合同。为*限度地保障自身的合法权益与个人信息安全,各位用户们需要仔细阅读用户协议、隐私政策等,再点击那个醒目的“同意并继续”。
尤瓦尔·赫拉利曾在《人类简史》中说:“人是可以为了方便而牺牲部分隐私的”。的确,大模型发展的趋势之一,便是提高人类生活的便捷性,在这个过程中,用户“让渡隐私权”似乎不可避免。
但是,通过仔细阅读那些常被人忽略的协议和条款,我们试图让一些可能不太合理的地方引起大家足够的注意,也由此呼吁平台的进一步改进。
我们也希望各家国产大模型的用户权益保护工作,可以跟模型的研发进度同步,在收集用户信息时能够取舍有度,从长远利益出发,审慎行之。