在2023年3月,一个名为AutoGPT的框架项目引发了一场AI Agent热潮。这个项目利用大型语言模型,将大任务拆分成小任务,并使用工具完成它们。这种技术将大语言模型处理语言、创造内容和逻辑推理的能力扩展到了应用场景中,还加入了感知和行动技术,因此,能从头到尾解决一个简单的问题。
这个项目引起了国外大公司、国内创业者、投资者们的极大关注,大家开始积极开发AI Agent的框架、平台或具体应用。去年11月,OpenAI又推出一系列的GPTs,然后,国内才有不少公司才开始根据各自能力布局应用层、平台层、开发层和运营层等方向,来增加下一波生态下的壁垒性。
然而,任何行业都存在信息差,我周围有很多人,之前并没有关注该赛道,爆发后才觉得有必要了解下,但现在市场上各种信息泛滥,让人眼花缭乱,就带来不少困扰。他们不太清楚Agent是什么?为什么很重要,未来发展怎样?借此机会,分享一些信息,希望帮你初步了解这个概念。
那么,什么是AI Agent呢?简单来说,就是一个由AI技术加持的代理人,它变得更聪明了,可以感知周围的环境,并且能够独立地思考和行动。你有没有用过对话式的大模型(LLM),比如:文心一言、Kimi Chat、或者智谱AI?AI Agent和对话式模型区别在于,你不用一直告诉它要做什么,只要给它一个目标,就能想办法自动帮你完成。
所以,大模型(LLM)要很多各种各样的数据,数据帮助它,学习的和人一样具备交流、学习、思考和推理的能力。不过,它并不完美,时常出现一些奇怪的想法,或者受到环境影响;这时,就能用基于大模型开发的AI Agent进一步细化问题。
举个例子:如果你生病了,以前对它说:“我不舒服”,它只会告诉你去医院看看,多注意防护。如果更聪明的AI Agent,做法会不一样。它能检测你的体温和其他健康指标,结合网上的信息,分析之后告诉你:“你可能发烧了。”接下来,还能帮你自动写好请假条。如果你说:“帮我在钉钉上发给领导”,它立刻就能搞定。要是家里布洛芬不够了,它甚至可以把药加入购物车,你确认后付款,很快药就能送到家。这就是AI Agent的聪明之处。
那么,它的工作原理是什么呢?主要有四部分:
感知是第一步。AI通过传感器、摄像头、麦克风这些外部设备来感知周围的世界。比如你说:“我不舒服”,这句话就可以通过麦克风被捕捉到。
信息处理,像把一个通用的大模型和很多专业的知识库结合起来。比如:健康数据和家里的药物存量,你告诉它这些信息,它就能帮你保存并做出决策。
写请假条、在线购买药品,这些都是系统根据它的决策来完成的具体工作。完成之后,系统会告诉你结果。
一个完整的智能体(Agent),好比人类和周围环境互动的过程,它由两部分组成:一部分是智能体自己,另一部分是它所在的环境。
智能体像生活在物理世界中的人类,而物理世界是人类的外部环境,智能体感知周围的环境,理解环境中隐藏的信息,再结合自己的记忆、对世界的了解来做计划、做决定和采取行动一样;行动又会影响环境,产生新的反馈。
人类根据反馈再次做出决策,从而形成一个不断循环的过程。你看,这个过程像不像马克思主义的“实践论”?有个目标后,从认识开始,实践得出理论知识,再把知识应用回实践中去。
这就是AI Agent神奇之处。不过,由于大模型本身能力还在不断发展中,智能体形态、应用场景也就更晚一些,所以,看似短短一年内,探索了多种实现智能体的方式,但大部分还处在概念验证、产品演示阶段,常见问题也相对明显。
随着人工智能(AI)技术的快速发展,Agent(智能代理)这一概念逐渐走进了公众的视野,并在各个行业中掀起了一股热潮。从智能家居的语音助手,到电商平台的智能推荐,再到企业内部的自动化办公,Agent的身影无处不在。那么,我们该如何看待Agent的爆火呢?本文将从多个角度进行探讨。
一、Agent的定义与发展历程
Agent,又称智能代理,是指能代表用户或其他程序,以一定程度上的自主能力,完成信息收集、处理、分析或提供建议等任务的软件实体。Agent技术的发展可以追溯到上世纪80年代,当时主要被应用于分布式计算和专家系统等领域。随着AI技术的不断进步,Agent的功能和应用场景也得到了极大的扩展。
二、Agent爆火的原因
- 技术进步推动
近年来,深度学习、自然语言处理、计算机视觉等AI技术的飞速发展,为Agent提供了强大的技术支持。这些技术使得Agent能够更加准确地理解用户意图,提供更加智能的服务。 - 市场需求增长
随着消费者对个性化、便捷化服务的需求不断增长,Agent作为能够满足这些需求的重要工具,自然受到了市场的青睐。同时,企业也意识到Agent在提高工作效率、降低成本方面的巨大潜力,纷纷加大投入。 - 政策支持与引导
各国政府纷纷出台政策支持AI技术的发展,其中也包括了Agent技术的研发和应用。政策的支持和引导为Agent的发展提供了良好的环境。
三、Agent的应用场景
- 智能家居领域:通过语音助手等Agent设备,用户可以方便地控制家中的灯光、空调、电视等设备,实现智能化生活。例如,当用户说“我要睡觉了”,Agent可以自动调整卧室的灯光、温度和音乐,为用户创造一个舒适的睡眠环境。
- 电商领域:Agent可以根据用户的浏览历史、购买记录等信息,为用户提供个性化的商品推荐和购物建议。这不仅可以提高用户的购物体验,还可以增加电商平台的销售额。
- 虚拟房产展示:利用AI Agent和虚拟现实(VR)技术,用户可以在家中通过沉浸式体验来参观远程的房产。这种方式不仅节省了时间,还能为用户提供更加直观的房产了解。
- 智能客服与支持:通过自然语言处理和机器学习技术,AI Agent可以自动回答用户的咨询,处理订单问题和退货请求。这大大提高了客户服务的效率,降低了企业的人力成本。
- 医疗保健领域:AI Agent可以帮助医生诊断疾病、分析病理切片和制定治疗方案。此外,它们还可以协助护士进行病人监护和记录病历,提高医疗保健的效率和质量。
- 金融服务领域:AI Agent可以帮助银行和保险公司进行风险评估、信用评级和欺诈检测。通过大数据分析和机器学习算法,AI Agent能够更准确地评估客户的风险水平,为金融机构提供更可靠的决策支持。
- 制造业领域:AI Agent可以帮助工厂自动化生产线进行实时监控、故障诊断和预测性维护。这不仅可以提高生产线的运行效率,还可以降低设备的维修成本。
四、Agent技术的挑战与问题
- 数据安全与隐私保护
Agent在提供服务的过程中需要收集和处理大量用户数据,这涉及到数据安全和隐私保护的问题。如何确保用户数据的安全和隐私不被泄露,是Agent技术面临的重要挑战之一。 - 技术标准与互操作性
目前,不同厂商开发的Agent产品往往存在技术标准不统一、互操作性差的问题。这导致了用户在使用不同品牌的Agent产品时需要进行繁琐的设置和切换,影响了用户体验。 - 智能程度与人性化设计
虽然Agent技术已经取得了很大的进步,但在某些场景下仍然难以满足用户的期望。例如,在情感交流、复杂问题解答等方面,Agent的智能程度还有待提高。同时,人性化设计也是Agent技术需要关注的重要方面。
五、使用体验
前段时间,我使用百度的百度灵境矩阵平台创建了两个智能体:
味探AI智能美食探索助手 旅行助手AI智能规划行程
实际使用起来的效果并不理想。
所以,许多平台厂商、研究机构、创业公司推出各种单一智能体、多组合智能体、以及机器人自动化(RPA)等框架项目,但从实际调研和行业反馈看,还要迭代。
不过,这个框架的总体思路,可以用一个公式概括:
Agent = LLM(大型语言模型)+ Planning(规划)+ Feedback(反馈)+ Tool use(工具使用)。
当我们做规划时,不仅只看当前情况,还会考虑记忆、过去的经验,以前的反思和总结。而现在以ChatGPT和其他为首的国内大模型,更像一个固定不变的知识库,它不能直接和环境互动,虽然它们可以进行逻辑推理、基本规划,但不能感知周边的一切,来进行自主反馈。
在我看来,智能体能通过各种方式获取反馈。如果我们把和对话的ChatGPT视为一个智能体,那么,通过文本框输入的回复就是给它的反馈,这种互动后,它能调整自己的回答,而不是一次次再教育,更进一步地,智能体可以使用外部工具来增强它的功能,解决更复杂的问题。
例如:
它可以用天气API来获取天气预报,如果没有工具,智能体还能学习适应环境变化的策略,来应对挑战。所以,一个完整AI智能体应该能够主动和环境互动。而大型语言模型是它潜在能力的核心,未来发展方向,是创建一个从头到尾的系统,这将依靠它有效地使用周围的工具,来实现更广泛的应用。
目前市面有很多agent搭建工具,发展速度真的很快,所以,从实际情况来看,首先需要做的是丰富通用和特定场景的工作流程。这意味着,要创建一些标准的流程,这样不同的情况下都能用。其次深入地学习和积累专业知识。