AI究竟能提升多少效率？哈佛已揭秘量化结果-编程知识

在工作中使用AI可以带来工作效率的显着的改善。使用AI的被测试者比没有使用AI的被测试者平均多完成了 12.2% 的任务，完成任务的速度提高了 25.1%，并且产生的结果质量提高了 40%。
大型语言模型（LLM）的公开发布引发了人们对人工智能（AI）在各种任务中的应用方式产生了巨大兴趣。在我们与波士顿咨询集团（一家全球管理咨询公司）合作进行的研究中，我们研究了AI对现实、复杂和知识密集型任务的性能影响。这项预先注册的实验涉及了758名顾问，占该公司个体贡献者级别顾问的约7%。在对类似任务建立了性能基线之后，被试随机分配到三个条件之一：没有AI访问权限、GPT-4 AI访问权限或GPT-4 AI访问权限附带有一个提示工程概述。我们认为AI的能力创造了一个“不规则的技术前沿”，在这个前沿上，一些任务可以轻松由AI完成，而其他一些，尽管看似难度相似，但超出了当前AI的能力范围。在AI能力前沿内的18项现实咨询任务中，使用AI的顾问在生产率上明显更高（平均完成任务数量增加了12.2%，任务完成速度增加了25.1%），并且产出质量明显更高（比对照组高出40%以上）。技能分布各个层次的顾问都受益于AI的增强，低于平均性能门槛的顾问的提高了43%，高于平均性能门槛的提高了17%。然而，对于被选择为超出前沿的任务，使用AI的顾问与没有AI的顾问相比，产生正确解决方案的可能性要低19个百分点。此外，我们的分析显示，在人与AI融合的人机一体化光谱上，人类成功使用AI存在两种独特的模式。一组顾问表现为“半人马”，类似于传说中的半马半人生物，他们将解决方案创建活动分割和委托给AI或自己。另一组顾问更像“赛博格”，完全将他们的任务流程与AI集成，并不断与技术互动。

AI确实是一种奇怪的东西。没有人真正了解最先进的大型语言模型，例如GPT-4，其完整能力范围。没有人真正知道如何最好地使用它们，或者它们失败的条件。没有使用说明书。在某些任务上，AI非常强大，而在其他任务上，它会完全或微妙地失败。除非您经常使用AI，否则您将无法知道哪个是哪个。

结果就是我们所谓的“不规则前沿”（Jagged Frontier）的AI。想象一堵城墙，有一些塔楼和城垛伸向乡村，而其他一些则向城堡中心折叠。那堵墙就是AI的能力，距离中心越远，任务越难。墙内的一切都可以由AI完成，墙外对AI来说则较难。问题是这堵墙是看不见的，所以一些在逻辑上可能看起来距离中心相同距离的任务，因此同样困难 - 例如，写一首十四行诗和一首正好50个字的诗 - 实际上位于墙的不同侧。AI在十四行诗方面表现出色，但由于它是以标记而不是词来构思世界，它会一直产生超过或少于50个字的诗。同样，一些意外的任务（如创意生成）对AI来说很容易，而其他一些看似机器容易完成的任务（如基本数学）对大型语言模型来说则是挑战。我要求ChatGPT使用代码解释器为您可视化这一点：

为了测试AI对知识工作的真正影响，我们选取了数百名顾问，并随机决定是否允许他们使用AI。我们让那些被允许使用AI的人访问GPT-4，这是在169个国家免费提供给所有人的模型，也可以通过支付每月20美元给OpenAI来获得。没有特殊的微调或提示，只是通过API使用GPT-4。

然后，我们进行了大量的预测试和调查，以建立基线，并要求顾问为一家虚构的鞋类公司做各种各样的工作，这些工作由BCG团队选择，以准确代表顾问的工作。包括创造性任务（“提出至少10个面向未开发市场或运动的新鞋的创意。”）、分析任务（“基于用户划分鞋类市场。”）、写作和营销任务（“为您的产品起草一份宣传新闻稿。”）以及说服力任务（“起草一份鼓舞员工的备忘录，详细说明您的产品为何能胜过竞争对手。”）。我们甚至与一家鞋类公司的高管核实了这些工作是否真实可行 - 结果是肯定的。考虑到AI，这些任务可能是我们希望在AI能力前沿内的任务。与我们的理论一致，并且正如我们之前讨论的那样，我们发现具有AI访问权限的顾问表现明显更好，无论我们是否首先简要介绍了AI（图中的“概述”组）或没有介绍。这对于每项测量指标都是成立的，包括完成任务所需的时间、总体完成的任务数量（我们给了他们总体时间限制）以及产出的质量。我们使用人工和AI评分员来评估质量，这两者的评分结果是一致的（这本身就是一个有趣的发现）。

我们还发现了另一个有趣的现象，这一效应在其他关于AI的研究中也越来越明显：AI可以提升技能水平。那些在实验开始时得分最低的顾问，在他们使用AI时，他们的表现提高了43%。而顶尖的顾问也获得了提升，但提升幅度较小。从这些结果来看，我认为还不够多的人在考虑当一项技术将所有工作者提升到最高绩效层次时意味着什么。这可能类似于矿工擅长或不擅长挖掘岩石的情况，直到蒸汽铲被发明之前，挖掘能力的差异才不再重要。AI还没有达到那种程度的改变，但技能水平提升将会产生重大影响。

但故事还有更多内容。BCG设计了另一个任务，这个任务经过精心挑选，以确保AI无法得出正确答案。这并不容易。正如我们在论文中所说：“由于AI表现出了出乎意料的能力，很难在这个实验中设计一个超出AI前沿的任务，在这个任务中，高人力资本的人类执行任务将始终胜过AI。”但我们找到了一项任务，利用了AI的盲点，以确保它会对一个问题给出错误但令人信服的答案，而人类能够解决这个问题。事实上，没有AI帮助的情况下，人类顾问在84%的情况下都能正确解决这个问题，但当顾问使用AI时，表现更差 - 只有60-70%的时间能够正确回答。发生了什么事？

在一篇不同于我们共同合作的论文中，Fabrizio Dell’Acqua展示了为什么过度依赖AI可能会适得其反。在一个实验中，他发现，使用高质量AI的招聘人员会变得懒惰、粗心和在自己的判断力上变得不太熟练。他们错过了一些优秀的申请者，并且比使用低质量AI或不使用AI的招聘人员做出了更糟糕的决策。当AI非常出色时，人类没有理由努力工作和专心致志。他们让AI接管，而不是将其用作工具。他将这称为“在驾驶座上入睡”，这可能会损害人类的学习、技能发展和生产力。在我们的实验中，我们也发现那些使用AI的顾问在驾驶座上入睡 - 使用AI的顾问实际上比不允许使用AI的顾问的答案不够准确（但他们在撰写结果方面的表现仍然优于不使用AI的顾问）。如果不知道前沿在哪里，AI的权威性可能会具有欺骗性。

"半人马"和"赛博格"

然而，很多顾问既能够在前沿内部又能够在前沿外部完成任务，获得了AI的好处而没有遇到不利因素。关键似乎在于采用以下两种方法之一：成为半人马或成为赛博格。幸运的是，这不涉及将电子小玩意儿植入到您的身体中，也不会被诅咒成为希腊神话中的半人半马。这两种方法实际上是在导航AI的不规则前沿时整合人与机器工作的两种方法。半人马工作将人和机器之间划清了明确的界限，就像神话中的半人半马有明确的人体躯干和马身之间的分界线一样。半人马有一种战略性的分工，可以在AI和人类任务之间切换，根据每个实体的优势和能力分配责任。当我在使用AI的帮助下进行分析时，我通常会以半人马的方式进行。我会决定使用什么统计技巧，然后让AI处理生成图表。在我们在BCG进行的研究中，半人马会亲自完成他们最擅长的工作，然后将前沿内部的任务交给AI。另一方面，赛博格将机器和人深度整合在一起。赛博格不仅仅是委托任务；他们将自己的工作与AI紧密结合，来回穿越不规则的前沿。他们将任务的一部分交给AI，比如启动一句话，让AI来完成，这样赛博格会发现自己与AI协同工作。这就是我建议用AI来写作的方法，例如。这也是我在论文中生成的两幅插图之一（不规则前沿图像和54行图，都是由ChatGPT构建的，有我的初始指导和引导）。

我们的研究论文以及其他学者的大量优秀工作都表明，无论AI的性质和未来存在哪些哲学和技术争论，它已经成为了我们实际工作方式的强大颠覆者。这不是一个过度宣传的新技术，它将在五年内改变世界，也不需要大量投资和巨大公司的资源 - 它已经在此，现在就在这里。精英顾问用来增强他们工作的工具与每个阅读这篇帖子的人可用的工具完全相同。而顾问使用的工具很快将不如您可用的工具。因为技术前沿不仅是不规则的，还在扩展。我非常有信心，在未来一年内，至少会有两家公司发布比GPT-4更强大的模型。不规则前沿在前进，我们必须做好准备。

即使抛开这种说法可能引起的任何焦虑，还值得注意AI的其他缺点。人们在使用AI时确实可以进入自动驾驶模式，入睡在驾驶座上，未能注意到AI的错误。而且，与其他研究一样，我们还发现，尽管AI的输出质量高于人类，但总体上也有点同质化和相似。这就是为什么赛博格和半人马很重要的原因 - 它们允许人类与AI合作，以产生比人类或AI单独做得更加多样化、更正确和更好的结果。而成为其中之一并不难。只要足够多地使用AI进行工作任务，您将开始看到不规则前沿的轮廓，并开始了解AI在哪些方面出奇的出色......以及它在哪些方面有所不足。在我看来，问题不再是AI是否会重塑工作，而是我们希望它重塑成什么样子。我们可以选择如何使用AI来提高工作的生产力、趣味性和意义。但我们必须尽快作出这些选择，以便我们可以开始积极地以伦理和有价值的方式使用AI，成为赛博格和半人马，而不仅仅是对技术变革的反应。与此同时，不规则前沿在前进。