首页产业大数据正文

给文心一言做标注，一个月4000元

“如果你把AI看成动物的话，数据标注员的工作大致就相当于准备饲料。”

2023-08-29 10:00 · 品玩油醋

“有多少智能，就有多少人工”。

戏谑的话藏在人工智能背面，目前为止依然成立。刚从大学里走出来的丁洋，前途暂时踩在这后半句上。

丁洋大学时学的轻化工程，毕业后系里同学的去向大多是三班倒的造纸厂，他不想去工厂。今年6月份毕业后，丁洋从回到海口，8月初拿着一本电子版训练题库，两天后成为文心一言的“新手”数据标注员。

海口市秀英区的招商局大厦，文新一言的数据标注员们习惯把这里叫做“基地”。两百多人在这个基地进出，分布于这桩写字楼的其中三层，入职前要签保密协议，进门要刷脸，一人一台电脑，不少电脑还是老板从山西租了运过来的，因为在当地租这些设备熟人不多。

“这电脑买来500块钱都不用，我有次把主机拿去闲鱼上搜——就值60块钱。500块我能装一个比这好得多的。”

丁洋高考时候报的计算机，后来被调剂到了轻化工程，但他感兴趣的不是这个，反而在大学时看了很多计算机和软件工程的东西，这也让他在去年年底很快听说了ChatGPT的出现。

12月，他注册了个ChatGPT账号，然后“能力比较超出我的预知”，他说。

我在基地的工位碰到丁洋的时候，他眼前电脑屏幕上的问题是：“成功人士的标准是什么？”

这可能是某位文心一言用户的真实问题，也可能是凭空生成的一个测试题，但摆到屏幕前了，需要被标注。

标注并不容易。

一个这样的问题下面会有五个文心一言给出的不同回答。数据标注员要看完，然后把每个回答里所有的瑕疵都找出来。

比如回答中的错别字或者“因为”“所以”之类的逻辑词错用，但更多是答非所问，或者某段话里出现了完全没有事实依据的所谓“幻觉”。

他要给这五个答案按回答质量打分，满分5分，一共五档，*1分。3分及以下的回答，丁洋需要把每处错误各自划分到标注系统给出的不同错误类型里。

这复杂的纠错过程是在训练生成合适的奖励模型RM（reward model，也叫偏好模型），打分和排序的动作会让模型进一步与人类的偏好对齐。

这也是ChatGPT的取胜钥匙，OpenAI的论文中曾描述过这个在指令微调（Instruction tuning）过程中让人工智能向人类想法对齐的过程。

在数据标注员的工作之前，需要一些更专业的人员把发散的语料变成具体的问答对，然后像例题一样喂给大模型，后者在大量问答对的数据训练之后得到优化后，开始自己答题。

数据标注员在这一阶段为大模型生成的答案质量从安全性、准确性、相关程度等角度做出评价，这些评价数据进一步训练出一个奖励模型。最终这个奖励模型会代替人工标注的工作。

OpenAI超过300亿美元的估值背后，是大量时薪不到2美元的肯尼亚数据标注劳工，要不然它在去年12月也到不了丁洋面前。

但丁洋并不知道RM或是SFT之类的定义，他说上手前的培训中没有这些过于理论的内容，这里甚至有人不知道自己为之工作的文新一言是什么。但这不要紧，要紧的是把事情做完。

这份早九晚六，做六休一的工作，底薪1800元。一个月下来，如果平均每天能标注够40道题，底薪就拿到了。底薪按完成率算，提成则要把正确率也考虑进去。多来一段时间的“老手”的稳定工作量是一天7、80个，遇到的问题难度也高些。平均下来，一个月可以拿到4000元，如果努力一点，比如每天标注100道题左右的话，一个月可以拿到7000元。

对于丁洋这样刚毕业的学生来说，4000元算是一份起步不低的工作。海口人平均月工资只有3000元出头，甚至10个人里有6个人一个月拿不到3000元。本地有名的后安粉要卖11元，ChatGPT的标注员干一个小时能买一碗。相比之下，粉算贵的。按他的话说，海口人钱赚的不多，但在吃东西上舍得下手。

“股票是最难的，或是汽车”，丁洋说。碰到这方面的问题一道可能就要花20分钟。

“比如会有人问是该买宝马3系还是奔驰C系”，这时候大模型会把关于两款车的80多个参数统统列出来去给用户比较，他就得跟在屁股后头去一一核实每个参数的真实性。

工作半个月也标注了大几百道题了，但他说自己印象里能拿到3分就已经不错，鲜有4分的。

他记得一道拿到4分的题，题目是“林黛玉为什么要打白骨精？”

文心一言没顺着竿爬，反应过来打白骨精的不是林黛玉，然后再介绍了林黛玉和白骨精各自的人物背景。从回答质量的各个维度来看，这都几乎无可挑剔。

我把这个问题提给了Claude 2，它说：“白骨精化身为王熙凤多次羞辱林黛玉,林黛玉对白骨精的戕害感到愤怒。”——幻觉这件事确实够麻烦的。

2020年初，“人工智能训练师”正式成为职业并纳入国家职业分类目录，两年后大模型的浪潮突然在这个目录上划开一个更大的口子。

眼看着人工智能拿走人类的旧工种，然后寄希望于它会创造出新的。就像那个马车被汽车取代，新工业会给马车车夫一个劳动致富新世界的笼统比喻，大把揣着钱找标的的投资人对这个说法买账，也有人不买，比如曾经奠定深度学习基础，现在却忧心忡忡的英国人杰弗里·辛顿。

但眼下最直接的创造就是丁洋这样的大模型数据标注员。

在2022年之前，那个人工智能前沿阵地仍然被驾驭不了自己的自动驾驶所定义的时期，对于数据标注员有一个冷冰冰的比喻：

“如果你把AI看成动物的话，数据标注员的工作大致就相当于准备饲料。”