大模型论文精选||多智能体微调:通过多样推理链实现自我提升

news/2025/3/10 21:07:34/文章来源:https://www.cnblogs.com/tunancbq/p/18687778

多智能体微调是一种实现自我提升的补充方法,它将微调应用于语言模型的多智能体群体。一组均基于相同基础模型的语言模型,通过模型间的多智能体交互生成的数据,分别对各个模型进行更新,实现独立的专业化。通过在不同的数据集上训练每个模型,这种方法能够让各个模型实现专业化,并使整个模型集合更加多样化。

方法

多智能体微调概述

该方法包含两个部分:

  1. 使用多智能体辩论方法构建用于训练模型的微调数据集。
  2. 引入多智能体微调,即通过在各自生成的数据上对每个大语言模型(LLM)进行微调,使其实现专业化。

多智能体辩论

多智能体辩论涉及一系列由N个语言模型智能体参与的过程,这些智能体可以是同一模型的特定副本或微调版本,每个智能体的任务都是针对给定问题生成一个回答。在生成初始回答后,智能体之间会展开一轮辩论。每个智能体需要根据自己之前的回答以及其他智能体的总结回答构建一个新的回答。最终结果由最后一轮辩论的输出进行多数投票决定 。

在生成数据上微调模型

给定一组自然语言输入$D_{task} = {x_i}$,使用具有N个智能体和M轮辩论的多智能体辩论方法,为$D_{task}$中的每个输入生成回答。对于每个$x_i$,最终预测输出$\hat{y}_i$通过最后一轮辩论的多数投票获得。这用于构建一个“ground truth”数据集${(x_i, \hat{y}_i)}$ 。在单个LLM模型设置中,然后在与给定输入$x_i$匹配$\hat{y}_i$的生成回答$y_i$集合上对模型进行微调。

虽然最终辩论结果$\hat{y}_i$是准确的,但它们在风格和方法上往往相似。因此,多次捕获${(x_i, \hat{y}_i)}$对的数据集用于多轮微调,通常会导致自我提升性能达到瓶颈。

有人提出创建不同的数据集来微调不同的模型。一组模型被训练为生成智能体,另一组被训练为评判智能体。生成模型对输入问题生成初始回答,而评判模型评估所有生成智能体的输出,然后选择或生成最有效的回答。

生成智能体$AG_n$由N个生成模型构建而成,这些模型会对给定输入$x$生成一个回答。对于每个智能体,选择其与最终辩论结果$\hat{y}$匹配的输出$y_n$,并构建输入 - 输出对$(x, y_n)$ 。为智能体$AG_n$生成的结果数据集是$D_n^G = {(x, y_n)}$。这种方法为所有N个智能体生成了一组微调数据集${D_1^G, · · ·, D_NG}$。每个数据集包含不同的输出,使得回答能够实现专业化和多样化。每个生成模型使用相应的数据集进行微调,以获得N个相应的微调智能体${\hat{A}_G1,···,\hat{A}_G^N}$ 。

评判智能体$AC_n$由评判模型构建而成,它们评估所有生成智能体的输出,然后选择或合成最佳回答。在多智能体辩论设置中,每个智能体在最后一轮辩论中的输出表示为$y_{M,n}$,其中M表示辩论轮数。识别出与最终辩论结果$\hat{y}$一致的输出$y_{M,n}$。这些一致的输出,连同之前的回答,然后用于构建输入 - 输出对$(x, (y_{1,n},..., y_{M,n}))$,以微调评判模型。

为了增强模型纠正辩论早期生成的错误答案的能力,对$y_{1,n}$与$\hat{y}$不同但$y_{M,n}$与$\hat{y}$匹配的对的子集进行采样,并构建一个数据集$D_C^- = {(x,(y_{1,n},…,y_{M,n}))|y_{1,n} \neq \hat{y},y_{M,n} = \hat{y}}$ 。这表明答案在辩论结束时被成功纠正。另一个数据集$D_C^+ = {(x,(y_{1,n},…,y_{M,n}))|y_{1,n} = \hat{y},y_{M,n} = \hat{y}}$,其中$y_{1,n}$和$y_{M,n}$都与$\hat{y}$匹配,展示了智能体在整个辩论过程中保持正确答案的能力。将这两个数据集组合起来,为每个评判模型创建一个全面的微调数据集,以构建更新后的评判智能体$AC_n$ 。

微调后的生成智能体${\hat{A}_G^1, · · ·, \hat{A}_GN}$和评判智能体${\hat{A}_C1, · · ·, \hat{A}_C^N}$用于通过多智能体辩论为下一次迭代收集数据集。

推理

在推理时,在微调后的智能体之间进行多智能体辩论。每个单独的生成智能体参与辩论的第一轮,随后每个单独的评判智能体参与后续轮次。每个智能体在每轮辩论中都会参考所有其他智能体的回答并生成一个新的回答。总结其他智能体的回答有助于消除冗余信息,同时保留最重要的细节,从而进一步提高性能。最终结果由最后一轮辩论的回答进行多数投票决定。

实验

所提方法与基线方法的定量结果

所提出的多智能体微调方法在所有测试的数据集和语言模型上均优于所有基线方法。

该方法比迭代自训练基线(STaR)表现更好,尽管STaR使用了真实标签和多次微调迭代,而所提方法在初始比较中仅使用了单次微调迭代。

与单智能体基线相比,多数投票、多智能体辩论和微调都有助于提高性能。

多智能体微调在多轮微调中提高了推理性能。

所提多智能体微调方法的多次迭代进一步提高了性能,而单智能体微调性能在达到饱和后会下降,这表明出现了过拟合。

多样性

多样性得以保留,并且可以在微调迭代过程中得到改善。

多智能体微调方法在迭代过程中保持或提高了回答的多样性,而单智能体微调则降低了多样性。

论文

https://arxiv.org/abs/2501.05707

Multiagent Finetuning: Self Improvement with Diverse Reasoning Chains 2501.05707

LLM架构专栏文章

1. LLM大模型架构专栏|| 从NLP基础谈起
2.LLM大模型架构专栏|| 自然语言处理(NLP)之建模
3. LLM大模型架构之词嵌入(Part1)
4. LLM大模型架构之词嵌入(Part2)
5. LLM大模型架构之词嵌入(Part3)
6. LLM架构从基础到精通之循环神经网络(RNN)
7. LLM架构从基础到精通之LSTM
8. LLM架构从基础到精通之门控循环单元(GRUs)
9. 20000字的注意力机制讲解,全网最全
10. 深入探究编码器 - 解码器架构:从RNN到Transformer的自然语言处理模型
11. 2w8000字深度解析从RNN到Transformer:构建NLP应用的架构演进之路
欢迎关注公众号 柏企科技圈柏企阅文 如果您有任何问题或建议,欢迎在评论区留言交流!

本文由mdnice多平台发布

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/873694.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

LWIP UDP使用

MCU: 小华HC32F4A0 板子没有合适的接口作为串口输出了,调试有点困难,想了个办法把lwip的UDP重定向到fputc函数 代码参考:https://www.cnblogs.com/54zorb/p/9609021.html UDP相关代码 /********************************* UDP测试 ************************************/ /*…

大模型论文精选|| 多 LLM 文本摘要:创新方法与卓越成果

多LLM文本摘要:创新方法与卓越成果 论文 https://arxiv.org/abs/2412.1多LLM文本摘要:创新方法与卓越成果论文 https://arxiv.org/abs/2412.15487 Multi-LLM Text Summarization 2412.15487 多LLM摘要框架在每一轮对话中有两个至关重要的步骤:生成和评估。根据使用的是多LLM…

国产化板卡设计原理图:2018-基于双FT-M6678 DSP的3U VPX的信号处理平台

基于双FT-M6678 DSP的3U VPX的信号处理平台一、板卡概述该板卡是由我公司自主研发的基于3U VPX架构的信号处理板,该处理板包含2片 FT-M6678 DSP芯片,1片 Spartan-3系列XC3S200AN配置芯片,两片DSP分别有1路RapidIO x4连接至VPX背板,两片DSP之间通过Hyperlink x4和SGMII互联。…

国产化板卡设计原理图:2288-基于FMC接口的JFM7K325T PCIeX4 3U VPX接口卡

基于FMC接口的JFM7K325T PCIeX4 3U VPX接口卡 一、板卡概述 标准VPX 3U板卡, 基于JFM7K325T 芯片,pin_to_pin兼容FPGAXC7K410T-2FFG900 ,支持PCIeX8、64bit DDR3容量2GByte,HPC的FMC连接器,板卡支持各种接口输入,软件支持windows,Linux驱动。可应用于高性能计算,频域算…

vue template 转 jsx 写法及TS类型应用

vue 的响应式数据 + jsx 开发体验简直不要太好,心智负担确实小,简直完爆 react(纯属个人暴论),不足的地方就是生态了,这点确实比不过 react。 本文更侧重于 TS 类型的写法,毕竟初次接触 vue jsx 时,实在对其 TS 类型声明很不顺手。要说 vue 模板语法哪些 API 不能在 js…

团队任务分配与高效执行应该如何做?从这些方面合理调配

本文聚焦团队任务分配与高效执行,深度剖析团队协作中任务分配不合理、沟通协作障碍、目标不明确、缺乏有效监督反馈等痛难点,阐述团队协作的必要性,进而给出合理分配任务、加强沟通协作等解决方法,还推荐了相关工具,为提升团队效能提供指引 。一、团队协作的痛难点 (一)…

2025.1.23

今天正式开始YOLOv8的相关学习。 YOLOv8的架构设计主要体现在以下几个方面:1. 改进的特征提取网络    YOLOv8在特征提取网络方面进行了显著改进,采用了更深、更宽的网络结构,以提高对复杂场景的处理能力。CSPNet(Cross Stage Partial Network):    CSPNet的引入有…

Android平台从上到下,无需ROOT/解锁/刷机,应用级拦截框架的最后一环,SVC系统调用拦截。

Android平台从上到下,无需ROOT/解锁/刷机,应用级拦截框架的最后一环,SVC系统调用拦截。Android平台从上到下,无需ROOT/解锁/刷机,应用级拦截框架的最后一环 —— SVC系统调用拦截。☞ Github: https://www.github.com/iofomo/abyss ☜ 由于我们虚拟化产品的需求,需要支持…

Seq 日志: .NET 应用程序中集成与快速入门

Seq 是一个功能强大且易于使用的日志服务器,特别适合用于集中管理和可视化 .NET 应用程序的日志。它支持结构化日志记录,提供实时查询和分析功能,帮助开发者快速定位和解决问题。 安装和配置 SeqWindows 部署: 可以从 Seq 下载页面:https://datalust.co/download 获取最新…

折腾笔记[11]-使用rust进行直接法视觉里程计估计

使用rust实现了一个完整的直接法视觉里程计系统,能够通过比较两幅图像中的像素强度来估计相机的运动。它通过单层和多层的优化策略,结合图像金字塔和并行计算,提高了位姿估计的精度和效率。最终,代码输出了优化后的相机位姿变换矩阵,并可视化了投影点的位置。摘要 使用rus…

5 链路层

5 链路层 5.1 概述 节点(node):运行链路层协议的设备(主机、路由器、交换机、WiFi接入点) 链路(link):沿着通信路径连接相邻节点的通信信道 数据链路层(data link layer):将数据报封装在链路层帧(frame)中通过通信链路从一个节点传输到另一个节点 链路层提供的服务…

【动态规划】01背包专题

01背包在恰好等于的情况下求最小物品数 MELON的难题每个物品(石头)的价值w[i]就是其自己的个数,为1 体积题目已给出。 状态定义:f[i][j]表示在前i个物品中选,且体积总和恰好等于j需要的物品个数的最小值 初始化: f[i][0] = 0 , 1 <= i <= n f[0][j] = INF, 1 <=…