积灰的吊扇慵懒地转着,十几个肯尼亚人盯着笨重的台式电脑屏幕,不断露出惊讶的神情。
考虑到这里是肯尼亚内罗毕的基贝拉贫民窟,一个过半居民没有工作,连自来水和干净的厕所都难得一见的地方,可能有人会误以为,他们一定是“村里刚通上网”,才会露出这种没见过世面的反应吧?
与想象的不同,实际上,他们在为全球*进、最热门的AI产品ChatGPT工作。这些人被称作数据标注师,正是他们保障了ChatGPT“健康成长”,使其成为一个彬彬有礼、夸夸其谈的聊天AI。
近半个月以来,随着ChatGPT最新版本GPT-4的发布,全球科技公司纷纷跟进,例如英伟达宣布在芯片硬件和云服务领域上全面支持AI的开发,百度发布文心一言,而AI也再次成为全球焦点。
但在光鲜亮丽的社会变革和投资热潮背后,却是一群时薪不到两美元的肯尼亚人来教会AI,何为善恶。
而且这份工作,并不光鲜。
一、“精神污染”
互联网上的言论总是充满着“戾气”,几条恶毒的言论就可以影响一个人的心情。如果有这样一份工作,要求员工每天高强度阅读9个小时的恶意内容,时薪多少能让人接受?
为OpenAI阅读和标记这些内容的肯尼亚人,实得工资约为每小时1.32美元至2美元(约合9~13.7元人民币)。
这些肯尼亚数据标注师的工作内容类似于鉴黄师,但更重口。
为了教会ChatGPT什么内容不该学,数据标注公司Sama从暗网上找来了各种由人性最黑暗面产生的文本和图片,包括但不限于无码的血腥酷刑、反人类的犯罪现场、儿童性虐待和仇恨言论。
一位负责为OpenAI阅读和标记恶意文本的肯尼亚数据标注师表示,他在阅读了一则跨物种猎奇性行为的图片后,反复出现幻觉。“那是一种折磨,即便是在一周后,我还是偶尔会想起那张图片,止不住地犯恶心。”
用中文互联网的流行语来形容,就是“我的脑子不干净了”,或“辣眼睛”。
一张图片的影响已如此之大,但除了图片之外,肯尼亚的数据标注师们每天还需要阅读150至250段文本,长度从大约100个单词到1000多个单词不等。
这些让人心理和生理上不适的内容,不断撕裂着数据标注师的三观,每个人都积攒了大量的精神压力。最终,没人能坚持超过3个月。
因此,雇佣他们的Sama公司在2022年2月终止了为OpenAI提供服务的合同,比计划提前了八个月。
Sama是一家总部位于美国旧金山的公司,长期在肯尼亚、乌干达和印度雇用员工,为谷歌、Meta和微软等硅谷公司提供类似的数据标注业务。Sama将自己定位为一家“有道德的AI公司”,声称已帮助50000多人摆脱贫困。
自称是改善社会生产方式的变革,但AI的源头却从这样令人痛苦的工作开始。剥削贫困国家的廉价劳动力去做最基础的工作,是否会成为AI诞生的“原罪”?
二、离不开人的AI
即便是*进的AI,也仍然离不开人,哪怕这个人来自相对贫困落后的国家。因此,肯尼亚数据标注师们的工作对OpenAI而言至关重要。
事实上,ChatGPT的前身GPT-3,就已经具备了令人印象深刻的语言表达能力和逻辑认知能力。但由于缺乏对于互联网信息的筛选机制,GPT-3也会被充满恶意的信息诱导,输出一些仇恨、暴力、歧视的内容。
在全面推广后,一旦发生类似“AI支持纳粹”这样的公关危机,整个行业都有可能被偏见推上风口浪尖,导致技术进步停滞。
如今,大多数的互联网平台都有着运用AI技术的信息审核机制,从最基础的关键词初筛,到高级的识图和从语言逻辑中判断恶意内容,都离不开AI技术的身影。
想要构建这样能够自我学习和进化的信息审核机制,OpenAI借鉴了Facebook等社交媒体的做法。那便是先收集那些带有血腥、暴力、仇恨言论和性虐待标签的素材,由远在肯尼亚的数据标注师进行人工评级打分,再教给ChatGPT。
经历多轮人工校对后,ChatGPT将建立自己的“善恶观”,在产生恶意言论之前,就将其过滤掉。
现在呈现在世界面前的,这个礼貌、成熟,甚至表现出一定共情能力的GPT-4,可以说是AI见惯了人间百态之后的样子。
OpenAI“诞下”了GPT-4,但雇了一批肯尼亚“保姆”,干着最脏最累的活来“养育”GPT-4。
“ChatGPT和其他语言模型AI令人印象深刻,但他们并不神奇。”人工智能伦理学家安德鲁·斯特雷特表示,因为这些AI仍然依赖于大量人力和数据,其中大部分是未经授权和未经同意使用的,连这个领域最明星的企业OpenAI也没能解决这些严重的基础性问题。
三、为什么是肯尼亚?
对于外界而言,崎岖的山脉、茂密的森林和野生动物丰富的大草原,构成了他们眼中的肯尼亚。
然而在这片不到60万平方公里的国土上,生活着5300万肯尼亚人,其中不少人选择了从事与计算机相关的数字工作。
据2021年肯尼亚媒体《肯尼亚华尔街》的一份报告,肯尼亚成年人口中有超过120万数字工作者。相比于2019年的63.8万人,这一数据有了显著增长。
肯尼亚的数字工作者数量逐年增长。(图源:肯尼亚华尔街)
他们从事线上营销、线上助理、学术写作、软件开发和数据科学等工作。
根据市场分析机构埃森哲的预测,到2025年,数字经济预计将占肯尼亚GDP的9.24%。但这一数字仍远低于世界银行统计的全球平均水平15%。
尽管肯尼亚的互联网普及率不高,贫富差距极大,但还是有一部分人率先享受到了线上工作的便利。
政府对数字经济的推动,极低的工资标准,以及劳动法执行的纰漏,促使肯尼亚成为发达国家的数字外包“工厂”。
就拿数据标注师的工资而言,雇佣美国人的平均月薪约为4374美元(约合3万元人民币),雇佣印度人的平均月薪要1.67万卢比(约合1400元人民币),而雇佣肯尼亚人仅需每月2万肯尼亚先令(折合约1044元人民币)。
美国《时代周刊》曾采访多名承担ChatGPT外包数据标注师的肯尼亚Sama员工,他们都表示并没有收到公司承诺的“全身心保障”福利,比如心理咨询、冥想、护理和游戏等。
但对于工资,他们并未表达出明确的不满,Sama承诺的每月21000~40000肯尼亚先令的工资水平,已经远远高于当地*月薪标准15000先令。为了生计,他们也都不愿透露姓名。
遭受“精神污染”的数据标记师终究还是少数,大多数肯尼亚数据标记师处理着相对正常的内容。对于讨生活的肯尼亚人而言,与其考虑自己是否“被剥削”,还不如接受这份高薪的外包工作。
这也促使科技巨头们打着“帮助当地发展人工智能”的口号,变本加厉地在这些国家攫取廉价劳动力资源。
或许在他们看来,一个工业结构不完整,政局不稳定的贫困非洲国家,仅凭一群学历都不高的员工帮助国际科技巨头们做点外包工作,怎么可能实现所谓“人工智能领域的弯道超车”呢?