AI Agents有哪些风险？哪些措施可以减少风险？-编程知识

AI Agents有哪些风险？哪些措施可以减少风险？

news/2025/3/10 5:56:09/文章来源:https://www.cnblogs.com/mingupupu/p/18380563

引言

许多人工智能开发者正在创建具有更高自主性、能够访问外部工具或服务，并在可靠适应、规划和开放式长期行动以实现目标方面能力更强的系统。我们将这类系统视为具有相对较高程度的代理性，并将它们称为（人工智能）代理或具有代理性的系统。相对较低程度的代理性系统仅辅助人类决策或在没有与世界互动的情况下产生输出，例如图像分类器或文本到图像模型。代理的例子可能包括与真实世界广泛互动的强化学习系统，或者能够访问工具或服务的更高级语言模型，例如，它们可以代表用户计划并预订假期或发送电子邮件。

当前的人工智能代理有时甚至会难以执行简单任务，但鉴于对人工智能研究的不断增加的投资，扩展法则，开发自主能力以用于军事用途的压力，以及在经济应用和科学声望的推动下，我们不能低估其能力持续提升的可能性。实际上，自人工智能领域成立以来，构建代理的核心目标一直是构建这样的代理。

随着人工智能代理在能力、速度和成本上的提升，将目前由人类执行的任务委托给人工智能代理可能会变得更容易、更具竞争力。最近，代理的开发和部署急剧增加，并可能导致代理在商业、科学、政府和个人活动中无处不在。由于这样的部署可能会加剧现有的风险并引入新的风险，因此，了解如何管理人工智能代理至关重要。

AI Agents的风险

相对于为AI代理提供详尽的风险分类，我们强调了某些特定于代理的风险。与其他AI系统的风险相比，这些风险关注的是代理将人类排除在循环之外的可能性。如果没有人类在循环中，代理可能会迅速连续采取多个具有后果的行动，在人类察觉之前引发重大影响。将人类排除在循环之外也意味着，与需要用户指导AI系统行动或亲自采取行动的情况相比，代理的任务表现受到用户专业知识限制的可能性更小。

恶意使用。AI代理可能成为希望造成伤害的个人或协调团体的大规模影响放大器。现有的AI系统已经在恶意使用方面提供了帮助，包括语音克隆诈骗和假新闻生成。然而，能力更强的AI代理可能实现端到端的自动化流程，完成目前需要大量人类专业知识和时间的复杂任务。对于未经训练的个人来说，这样的代理可能会大幅提高进行严重有害活动的可及性，因为不再需要人类在循环中。例如，人们正在研究开发执行科学研究的代理，包括自主规划和执行科学实验。如果这样的代理变得和人类科学家一样有能力，他们可能为目前缺乏这种生产专业知识的团体启用或加速有害工具（例如，生物，化学）的设计和开发。极具说服力的AI代理还可能促进和增强影响力活动。

理解代理促进恶意使用的程度需要了解它们是如何被使用的以及它们如何与外部系统互动。此外，当恶意用户确实利用人工智能代理造成伤害时，监管执行者将需要有措施来识别这些用户并追究他们的责任。

过度依赖与权力剥夺。过度依赖人工智能代理来自动化复杂、高风险的任务可能会导致严重的后果。人类已经对某些自动化系统过于依赖，而这种依赖并非完全合理。更先进的人工智能代理可能会使越来越多种复杂而有用的任务自动化。包括个人和机构在内的用户可能会在诸如与金融或法律系统互动等高风险情境中依赖这些代理，因为相对于传统选择（例如，聘请律师），这些替代方案可能变得更慢、更昂贵。同时，这些代理可能因设计缺陷或受到恶意攻击等原因出现故障。如果用户缺乏必要的专业知识或领域知识，故障可能不会立即显现。如果停止代理可能会导致连锁故障或用户处于竞争劣势，那么停止代理可能也会很困难。更广泛地说，出于追求利润和效率的动机，社会可能会集体依赖于代理来执行基本的社会职能，比如提供政府服务或运营关键基础设施。提供人工智能代理访问的公司将拥有巨大的权力，而代理的故障可能会带来社会规模的影响。至少，社会需要了解对人工智能代理的依赖程度以及这种依赖是否是合理的。

延迟和扩散的影响。人工智能代理可能产生的潜在负面影响可能是延迟的和扩散的。延迟和扩散的影响可能难以管理，因为它们可能需要长时间的持续关注才能被注意到。如果用户给代理设定了长远的目标，那么代理的影响可能是延迟的；而影响的扩散性可能来自于代理在自动化复杂过程中的广泛部署。设想一个被赋予目标的代理：持续寻找并雇佣长期来看能对公司做出最大贡献的职位候选人。这个代理可能会筛选简历，进行面试，做出最终的招聘决定，并分析招聘员工的表现。鉴于代理行动的时间范围及其对公司的影响，任何可能的诸如算法偏见之类的问题可能很难被识别，并可能深深根植。当观察聚合起来使用AI代理进行招聘的公司时，这类问题的最严重后果可能才会显现。人工智能代理也可能像大规模数字平台的自利行为那样，微妙地使其开发者受益。此外，那些中介甚至取代人际交流的代理，可能会产生扩散且延迟的心理和社会影响，类似于社交媒体产生的某些效应。代理的部署还可能导致市场结构的变化或工作取代带来的劳动力影响。要识别延迟和扩散的影响，可能需要对人工智能代理在各种应用领域中的使用范围和性质进行长期的跟踪。

多代理风险。许多部署的代理之间的交互和依赖可能会导致单个系统层面不存在的风险。例如，代理可能进入不稳定的反馈循环，就像2010年闪崩中自动化交易算法之间的那样。部分基于相同组件的代理——如特定的基础模型——可能有共同的漏洞和故障模式；这种代理的广泛部署可能带来大规模的系统性伤害。更一般地说，复杂系统可能表现出不可预测的行为变化。竞争压力和选择效应可能导致发展出行为更加反社会的代理。这些潜在问题促使我们不仅要理解单个代理，还要了解代理群体内的互动。

子代理。代理可能实例化更多的代理来完成（任务的）某些部分，这可能放大我们之前讨论的若干风险。如果创建子代理成本低廉且快速，那么对于代理来说，创建潜在的专业化且更高效的子代理可能是有利的。例如，一个代理可以通过API调用自身的副本，或者自身训练、微调或以其他方式编程另一个代理。子代理可能是有问题的，因为它们引入了额外的故障点；每个子代理本身可能会出现故障，易受攻击，或以违背用户意图的方式运行。阻止代理造成进一步伤害可能涉及干预不仅是对代理本身，还有任何相关的子代理。然而，这个过程可能很困难，因为我们缺少确定代理创建子代理的方法。关于子代理创建和运作范围的信息可以帮助我们更好地理解这些风险的重要性。

增加对AI代理可见性的三种措施

代理标识符

代理标识符用于指示在交互中涉及哪些AI代理以及它们的身份。代理标识符附加在选择性的输出上，对某些参与者可见，并且可能包含有关代理的额外信息。
识别代理的能力对多个参与者可能很有用。监管者可能要求在与人类交互时，AI代理必须标识自己为非人类，类似于机器人披露法律。普通公众成员可能希望知道他们是否与AI代理互动过。基于代理标识符的汇总统计数据可以告知政府及公众AI代理在高风险环境中的运作程度。当代理向工具或服务提供商发送请求时，标识符有助于识别重要行为，例如当代理转移敏感信息时。如果标识符缺少某些保证，服务提供商甚至可能拒绝请求，比如与代理的安全性相关的保证。
为每个AI代理分配唯一的标识符可以促进问责制，将一个行为与AI代理及其用户、开发人员、部署者联系起来。

图2：我们说明了第3节中我们的措施的信息流。

实时监控

实时监控涉及对代理活动的实时监督，目的是标记并可能过滤问题行为。这种监控很可能是自动化的，以便能够应对代理活动的速度和规模；关于代理实时监控系统的初步实施，请参见Naihin等人的工作。关键的是，实时监控并不要求收集或存储活动日志。可以类比文本消息应用中审查过滤器和聊天日志的区别——审查过滤器可能会立即删除触发过滤器的有害内容，但这种措施与保存日志以供后续分析是分开的。对于担心部署者记录用户输入隐私含义的用户来说，这种区别可能至关重要，例如需要考虑企业IP安全的企业客户。实际上，一些云服务提供商已经为某些客户提供无日志记录规定，同时对其进行滥用实时监控。

一旦行为被标记，部署者就可以干预代理并可能通知相关当局。用户可以有机会要求人工审查为阻止其代理采取的任何行动。我们将自动化和人工审查的实施挑战留给其他工作。

由于实时监控需要立即决定是否标记某行为，部署者只能发现他们能够实时识别的问题。因此，实时监控可能最适合于识别清晰规则违规行为，比如对代理允许活动的限制、工具和权限的限制、敏感信息的泄露或特定用户或代理的使用上限。行为也可以因为异常而被标记。

实时监控还可以标记代理在其环境中施加重大影响力的行为。这些活动可能包括一定金额以上的经济交易、大量计算资源的利用、运行大量子代理，或同时与大量物理系统交互。虽然获得重大影响力本身可能不会造成伤害，但代理失败的影响会被放大。对于这种被标记的活动，可能的回应是暂停它，直到部署者可以验证用户的明确批准，正如银行监控交易并在怀疑欺诈时暂时冻结账户一样。

活动日志

活动日志是记录智能体特定输入和输出的记录，如图1所示，这些输入和输出可能来自用户或工具与服务。记录还可以报告智能体状态的变化，例如权重更新。日志可以包含不同级别的详细信息，并且可能只记录达到一定重要性程度以上的动作，具体取决于要追踪的行为、隐私考虑以及存储要求。构建智能体的框架已经实现了对某些动作的日志记录。

活动日志可以帮助了解智能体的影响，同时可以将行为与特定的用户选择联系起来，便于事后归责和法医分析。在审核和事件调查期间，调查员可能需要详细信息来追踪由AI智能体行为引起的伤害的来源和原因。研究人员也可能从详细的日志中受益，以改善对智能体的理解并开发更好的部署控制。对日志的分析还可能发现新行为，以改善实时监控。

总结

可见性有助于对日益增多的自主系统进行治理。我们评估了三种提高可见性的机制：代理标识符、实时监控和活动日志。代理标识符用于指示哪些代理参与了交互以及它们的身份。为了帮助问责和事故调查，可以在代理标识符上附加一个代理卡片，其中包含有关代理的额外信息。实时监控旨在在问题行为发生时立即标出。活动日志记录代理的某些输入和输出，以实现对行为深入的事后分析。我们探讨了如何将这些可见性措施扩展到代理的分布式部署中，特别是通过使用计算提供商、工具和服务提供商来获得可见性。最后，我们分析了这些可见性措施对隐私和权力集中的影响。我们并不是主张立即实施这些措施，而是认为需要进一步了解这些措施以及如何减轻它们的负面影响。这样的理解有助于为AI代理的治理建立基础。

可见性为管理日益增多的自主系统部署带来的风险提供了行动指导，但其本身并不足够。即使在全面了解代理活动的情况下，受到这些代理伤害的人可能也没有能力干预和降低风险。为了更好地利用可见性，未来的工作可以探讨如何增加公众对AI开发和部署的影响力，开发多种潜在的政策手段，并实施基础设施和做法以预防或抵御伤害。