前言:随着AI技术的发展,AI行业从AI代理转向了‘AI辅助人类工作模式’。虽然AI代理在演示中很有潜力,但在实际使用时,它的准确性和可靠性远低于人类,限制了它的应用。相反,‘AI辅助人类工作模式’通过将复杂任务拆分成小步骤,帮助人类更高效地完成工作,推动了数据整理和推理能力的提升。这一转变反映了企业越来越注重如何通过利用AI来实际解决问题,应对快速变化的技术和不断增长的业务挑战。
我们正处于一个阶梯之上,从大型语言模型的引入,到具备类人数字交互的 AI 代理的出现。但……
……在商业应用方面出现了转变,焦点已从 AI 代理转向了代理式工作流/数据综合。 为什么焦点(暂时)远离了 AI 代理?
像 Salesforce 和 Service 这样的公司曾大力转向 AI 代理,但 AI 代理的严峻现实是,技术在准确性方面尚未达到应有的水平。
如果撇开营销炒作以及 AI 代理的优秀原型和演示来看,它们的准确性尚不足以用于生产环境。
Claude AI 代理计算机接口(ACI) 的性能仅为人类表现的 14%。
下方的图表来自 TheAgentFactory,展示了 AI 代理在成本、步骤和成功率方面的位置。请注意,成功率大约为 20%。
这些数据是当前情况的真实写照。
随着最近 OpenAI Operator 的发布,计算机使用和 Web 浏览的准确率达到了 30% 至 50%,但仍然低于人类 70% 以上的能力。
此外,还有有趣的研究表明,具备 Web 浏览能力的 AI 代理容易受到恶意弹出窗口的攻击。
AI 代理想要像人类一样执行任务有两条路径:一是通过 Web 浏览器(如 Webvoyager、OpenAI Operator 等);二是通过操作系统的完整 GUI(如 Anthropic)。
这些方法将 GUI 作为 AI 代理的 API 进行使用。
最初的方法是使用单独的 API,但由于开发每个 API 集成的开销过大,这种方式并不现实。而且,许多商业应用根本没有 API 可用。
为何聚焦代理式工作流 所有人都同意现代知识型工作已经崩坏,各种报告给出了不同的数据。其中一份报告指出,员工有 30% 的时间花在搜索信息上。
知识型工作者在回答复杂问题时面临挑战,他们需要从不同的文档中综合信息。
代理式工作流(如下图所示)能够进行推理,并将复杂任务分解为更简单的子任务,再将这些任务以链式结构串联执行。
通过执行这些任务序列,可以引入可观测性、可检查性和可发现性等元素。
数据的综合将变得越来越重要。代理式工作流就是一个例子,它能够为知识型工作者综合工作数据和资源,提供一个统一的答案。
语言模型提供商正在摆脱仅提供模型的局限,而是向用户体验扩展。ChatGPT 的深度研究(Deep Research)并不是一个新模型,而是在 ChatGPT 内部新增的代理式能力,能够在互联网上进行多步研究,以解决复杂任务。它在几十分钟内完成的任务,通常需要人类花费数小时。
这也是一个很好的例子,展示了如何综合不同来源的数据来回答用户的问题。
我觉得这是 LlamaIndex 提出的“代理式 RAG”理念,即在某个特定时间点,为“唯一的受众”综合数据将变得至关重要。
在未来几个月,个人代理式工作流、信息综合,以及所谓的桌面编排(desktop orchestration)将成为重点关注方向。
推理与问题解决
现代 AI 模型正日益将推理作为核心功能,使其能够通过将复杂问题拆解为可管理的部分来解决问题。
这一转变基于一种创新方法,即将问题分解为更小的子集,使模型能够系统地处理每个部分。
通过将推理视为内部机制,这些模型能够模拟人类的思维过程,增强其提供准确、细致响应的能力。
这种分解策略不仅提高了问题解决的效率,还增强了对推理过程的透明度。
结果是,用户可以获得更具可解释性的输出,缩小了高级计算与可理解决策之间的差距。
最初,用户需要在提示词中加入推理特性,指导模型如何进行推理,并拆解复杂或复合任务。同时,通过少样本示例(few-shot approach)来引导模型模仿。
**总结 **
组织必须将关注点从固定在某些特定工具或趋势上转移——例如,曾自称为 RAG 公司、提示工程(Prompt Engineering)游乐场等,而应优先解决现实世界的商业挑战。
世界正以前所未有的速度向前发展,几乎每天都有新技术涌现,每种技术都宣称能够颠覆行业。
但真正衡量创新的标准,不是掌握最新技术,而是如何应用这些进步来创造实际价值。
无论是改善客户体验、优化运营,还是解决社会需求,核心问题始终是:我们如何利用技术提供有意义的解决方案?
通过这种思维方式,企业能够让自己具备面向未来的能力,并确保在不断变化的浪潮中保持竞争力。