首页产业 ai 正文

OpenAI发布GPT-4，震撼科技圈

我们创建了GPT-4，这是 OpenAI 努力扩展深度学习的最新里程碑。

2023-03-15 07:40 · 微信公众号：硅星人 VickyXiao

离发布仅仅四个多月，在ChatGPT展现了惊人的实力之后，OpenAI又扔下了一颗核弹：

GPT-4发布了。

在今天的博文中，OpenAI写到：

我们创建了GPT-4，这是 OpenAI 努力扩展深度学习的最新里程碑。GPT-4 是一个大型多模态模型（接受图像和文本输入，提供文本输出），虽然在许多现实世界场景中的能力不如人类，但在各种专业和学术基准上表现出人类水平。

好像和上一代还是差不多？放心，这是OpenAI谦虚了。

在随后YouTube上进行的Live Demo中，OpenAI的总裁和联合创始人Greg Brockman展示了GPT-4的真正实力——总结文章、写代码、报税、写诗……GPT-3.5做不到的，GPT-4轻松拿下。

但这仅仅是表面，GPT再一次进化，虽然可能不是你想的那样。

新的模型：迭代优化

怎么样证明一个人比另外一个人更厉害？考试。

那怎么证明一个AI模型比另外一个更厉害？同样是考试。

OpenAI让GPT-4在参加了许多项人类的通用考试，结果证明，它在许多测试和基准测试中的表现比前一代确实大大提高：

根据他们的测试结果，GPT-4的SAT分数增加了150分，现在能拿到1600分中的1410分；

它能通过模拟律师考试，分数在应试者的前10% 左右，相比之下，GPT-3.5的得分在倒数 10% 左右；

在SAT阅读考试中和SAT数学考试中，GPT-4的成绩都能达到*的排名……

“我们花了6个月的时间使用我们的对抗性测试程序，以及在ChatGPT身上累积的经验教训来迭代调整GPT-4，从而在真实性、可操纵性和拒绝超出设定范围方面取得了有史以来*的结果。”OpenAI称。

“我们的 GPT-4 训练运行（至少对我们而言！）前所未有地稳定，成为*个我们能够提前准确预测其训练性能的大型模型。”

GPT-4还有了一个质的飞跃——可以开始处理图像。

经常使用ChatGPT的人肯定知道，它只能处理文本，但GPT-4开始接受图像作为输入介质。

在OpenAI提供的一个示例中，GPT-4准确地回答了几个网络meme为什么搞笑的问题（虽然解释得并不好笑）。

图源：《纽约时报》

在《纽约时报》提供的案例中，同样可以看出GPT-4可以同时解析文本和图像，这也使它能够解释更复杂的信息。不过，目前图像输入的权限尚未公开，所以目前还没看到更多例子来证明GPT-4在图像方面的处理能力。

在随后举行的Live Demo中，OpenAI也表示，还没有公开提供这部分技术，但已经在和一家名为Be My Eyes的公司进行合作，对方会使用GPT-4来构建服务。

此外，GPT-4已经开始具备一点点的幽默感。它已经可以讲出一些模式化的、质量不咋样的冷笑话——但是，至少它已经开始理解“幽默”这一人类特质。

图源：《纽约时报》

当然，更多的方面，GPT-4的改进是迭代性的。在随意的谈话中，GPT-3.5和GPT-4之间的区别可能很微妙。但是，当任务的复杂性达到足够的阈值时，差异就会出现——GPT-4比GPT-3.5更可靠、更有创意，并且能够处理更细微的指令，可以更准确地解决难题。

比如说，北卡罗来纳大学教堂山分校的医学副教授兼心脏病专家Anil Gehi就向GPT-4描述了他一天前看过的一位患者的病史，包括患者术后出现的并发症被送往医院，描述中包含几个外行人无法识别的医学术语。

当Gehi医生问GPT-4应该如何治疗病人时，GPT-4给了他*的答案。“这正是我们对待病人的方式，”Gehi医生说。当他尝试其他场景时，GPT-4给出了同样令人印象深刻的答案。

当然另外一个好消息是，GPT-4对于英语以外的语种支持也得到了大大的优化。

许多现有的机器学习基准测试都是用英语编写的。为了初步了解GPT-4在其他语言上的能力，OpenAI使用 Azure Translate，将一套涵盖57个主题的1.4万多项选择题的MMLU基准，翻译成了多种语言，然后进行测试。

在测试的26种语言中，有24种语言，GPT-4优于 GPT-3.5和其他大语言模型的英语语言性能。

其中中文达到了80.1%的准确性，而GPT-3.5的英文的准确性为70.1%，也就是说，在这个测试中，GPT-4对于中文的语言理解，已经优于此前ChatGPT对于英文的理解。

Live Demo：报税、写诗、写代码，无所不能

如果说着这些数据、案例，似乎还难以让人直观感受到GPT-4的真正实力，那么OpenAI的总裁和联合创始人Greg Brockman，就亲自在YouTube上进行了一把直播，来实时演示Live Demo中，展示了GPT-4的真正实力——总结文章、写代码、报税、写诗……GPT-3.5做不到的， GPT-4轻松拿下。

Greg Brockman展示了GPT-4的新的使用界面，左侧是系统框，可以规定AI的角色，以及整体的回答原则，中间则是对话框，可以输入具体的对话形态来对具体的内容进行调整、追问或者给出反馈。最右侧是一些参数设置。

在演示中，Brockman就使用使用左侧的“系统”框，让GPT-4相继成为“ChatGPT”、“AI编程助手”、“TaxGPT”，来解决不同的问题。

ChatGPT模式下，GPT-4可以处理超过2.5万字的文本，可以轻松地总结一篇超长文章的核心内容，比如把OpenAI今天发布的这篇讲述GPT-4的雄文总结要点。

甚至还可以像在演示中的那样，以各种奇怪的形式来提炼它——比如，以全是“G字母开头”的单词来总结。

或者要它把这些内容要点写成一首诗。

在“AI编程助手”模式下，还可以让它轻松写代码，生成一个网站，或者更复杂的，写一个基于Discord的机器人，如果出现错误，比如要调用比较新的API而出错，甚至也不需要向它解释，而是把错误代码复制进去，它就会自动纠错，生成新的代码。