LLM Agent | 记忆模块 + 交流模块，让 agent 合作完成复杂任务-编程知识

LLM Agent | 记忆模块 + 交流模块，让 agent 合作完成复杂任务

news/2025/3/10 16:25:32/文章来源:https://www.cnblogs.com/moonout/p/18762943

论文标题：Building Cooperative Embodied Agents Modularly with Large Language Models (ICLR 2024)
最初发表时间：2023.07
arxiv：https://arxiv.org/abs/2307.02485
GitHub：https://github.com/UMass-Embodied-AGI/Co-LLM-Agents
ICLR 2024 poster。

01 main idea
02 agent 架构：由 5 个模块组成
03 每个模块分别怎样工作，内部维护什么信息，使用什么 prompt
04 微调过程

← 返回目录

01 main idea

主要贡献：在没有 full observation 的多 agent 合作环境中，通过互相交流，让 LLM agent 进行合作。
关键技术：为每个 LLM agent 维护了执行模块、通信模块、记忆模块等，让 agent 可以
- 记住目前的环境状态；
- 通过 planning 得知自己下一步应该做什么；
- 通过预定义的 prompt 与队友们高效交流，分工完成任务。

02 agent 架构：由 5 个模块组成

感知模块：处理摄像头画面，识别物体并构建环境地图
- 输入：RGB-D 图像。
- 方法：用训练好的 Mask-RCNN 识别物体，构建 3D 语义地图。
- 维护：实时更新的物体位置 / 状态信息。
记忆模块：【使用 LLM】存储三类信息：
- 语义记忆（当前环境 / 任务状态）。
- 情景记忆（行动 / 对话历史）。
- 程序记忆（动作执行代码）。
通信模块：【使用 LLM】生成自然语言消息。
规划模块：【使用 LLM】制定行动计划。
执行模块：将计划转化为具体动作。
- 使用神秘 low-level 控制器，用 A* 之类的算法。

03 每个模块分别怎样工作，内部维护什么信息，使用什么 prompt

各模块工作原理：

记忆模块：维护
- 语义记忆 semantic memory：
```
{"地图": 房间布局 + 物体位置,"任务进度": 已完成的子目标,"自身状态": 位置 / 手持物品,"队友状态": 最后观测到的队友信息
}
```
- 情景记忆 episode memory：保存最近 50 条行动记录和对话记录。
- 程序记忆 procedural memory：记忆如何执行一个相对 high-level 的指令的步骤 / policy。

通信模块的 prompt：

指令头：当前任务说明
目标：需要完成的子目标列表
状态：语义记忆的文本化描述
历史：最近 5 次行动和 3 轮对话
结尾：要求生成简明有用的消息

示例输入："发现厨房有3个苹果，队友拿着空容器，建议对方来收集"。

规划模块的 prompt：

当前状态
可选行动列表（如：探索A房间/拿取B物品/发送消息）
要求：用思维链分析最优选择

输出：高层行动计划（如："优先搜索未探索的卧室"）。

04 微调过程

数据收集：基于 GPT-4 在模拟环境中执行任务，记录 3,000 条成功轨迹。
处理：人工筛选出 500 条高效沟通 / 决策的优质样本。
训练：
- 模型：LLAMA-2-13B。
- 方法：LoRA（Low-rank adaptation）微调，占显存小。
- 耗时：单张 A100 显卡训练 6 小时。
效果：微调后的 LLAMA 在运输任务中的效率提升 40%，接近 GPT-4 水平。

← 返回目录

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.hqwc.cn/news/896862.html

如若内容造成侵权/违法违规/事实不符，请联系编程知识网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！

004TypeScript开发实战

项目搭建规范一、代码规范 1.1集成editorconfig配置 EditorConfig 有助于为不同 IDE 编辑器上处理同一项目的多个开发人员维护一致的编码风格。 # http://editorconfig.org root = true [*] # 表示所有文件适用 charset = utf-8 # 设置文件字符集为 utf-8 indent_style = spac…

源代码解读开启线程HandlerThread首先是run方法跑起来，run方法里主要做两件事情，一个是创建Looper，一个是循环Looperpublic class HandlerThread extends Thread {@Overridepublic void run() {Looper.prepare(); //创建LoopermLooper = Looper.myLooper(); // 然后获取Lo…

方法的声明和调用

方法：静态方法和实例方法，静态方法和类名绑定，实例方法可以进行实例化调用方法属于类成员，不能独立与之外，在声明的时候必须在类里面进行方法的声明方法的声明和调用：方法调用的格式与方法声明时的格式必须相同，构造器：

自动化解决CertJava安全编码在网络安全开发中的应用

CERT是指软件工程研究所（Software Engineering Institute）发布的Java安全编码标准，主要目的是帮助开发者避免常见的安全漏洞，从而推出 CERT Java Coding Standard（JAVA安全编码标准）。近十年来,在计算机系统中考虑安全性已经是一个严肃的问题。过去十年的网络的爆炸性…

【DeepSeek+dify+Ollama打造私有化RAG 01】

本地部署DeepSeek-RI打造自己的私有知识库一、本地部署需要借助Ollama，Ollama是一个开源框架，专为在本地机器上便捷部署和运行大模型语言模型LLLM而设计官网:https://ollama.com/ 1、安装ollama 官网下载后，直接就可以进行安装，安装后再终端输入：olllama2、本地部署Dee…

网易邮箱如何用大数据任务调度实现海量邮件数据处理？Apache DolphinScheduler用户交流会上来揭秘！

一定不要错过这场精彩的线上用户交流会！在这里，你将有机会深入了解网易邮箱关于Apache DolphinScheduler平台的实际应用案例，汲取大厂的前沿实践经验。你是否对大数据领域的前沿应用充满好奇？网易邮箱作为互联网大厂网易的重要业务线，在大数据应用方面有着诸多值得借鉴的实…

信创国产系统对国产芯片产业的推动作用

信创国产系统与国产芯片产业紧密相连，二者的协同发展对于我国信息技术产业的自主可控和安全稳定具有至关重要的意义。信创国产系统的崛起，正以一种前所未有的力量推动着国产芯片产业不断向前迈进，在提升产业竞争力、保障国家信息安全等方面发挥着不可忽视的作用。创造市场需…

Apache DolphinScheduler项目2月份进展总结

各位热爱DolphinScheduler的小伙伴们，今年2月份的社区月报如期而至，更新了DolphinScheduler项目和社区在本月的重大进展，请查收！ DolphinScheduler月度Merge Stars 感谢以下小伙伴在2025年2月期间为Apache DolphinScheduler社区做的精彩贡献（排名不分先后）：@ruanwenjun,…

信创国产系统实施后的效果评估与改进方法

信创国产系统的实施是推动信息技术自主创新、保障国家信息安全的重要举措。随着信创国产系统在各个领域的广泛应用，对其实施后的效果进行科学评估并持续改进显得尤为关键。这不仅关系到系统能否稳定、高效运行，更关乎企业和国家在数字化转型过程中的战略布局与发展。通过合理…

3.10 lambda算法

1.1 表达式（expression）（可以把两个表达式写在一起组成一个新的表达式）包含：变量（单个字母/多个字母）；括号（表示是一个整体）；λ和.描述函数（函数由λ和变量开头，然后是一个.，然后是表达式），λ没有特殊的含义，只是说函数由此开始，在λ后面，.前面的字母成为变…

pfastq-dump 软件的安装以及测试

pfastq-dump 软件的安装以及测试 001、官网：https://github.com/inutano/pfastq-dump002、下载最新版wget -c https://github.com/inutano/pfastq-dump/archive/refs/tags/v0.1.6.tar.gztar -xzvf pfastq-dump-0.1.6.tar.gzcd pfastq-dump-0.1.6/bin/chmod +x pfastq-dump 00…