AI医院:大语言模型在多智能体医疗交互模拟器中的表现如何?

news/2025/2/2 23:08:55/文章来源:https://www.cnblogs.com/shiyanhe/p/18692251

近年来,人工智能(AI)技术,尤其是大语言模型(LLMs),在医学领域取得了显著进展。这些模型在静态医疗问答任务中表现优异,甚至在某些情况下能够媲美人类专家。然而,医学诊断并非单一静态的任务,而是一个动态、复杂的过程,涉及多轮互动和信息收集。

为了更全面地评估LLMs在动态医疗场景中的能力,来自华中科技大学、阿里巴巴、复旦大学的研究人员在第31届国际计算语言学会议(ACL Anthology)上发表了一篇题为《AI Hospital: Benchmarking Large Language Models in a Multi-agent Medical Interaction Simulator》的论文,提出了AI医院——一个由多智能体组成的交互式医疗模拟器。

image

背景:医学诊断中的动态交互挑战

在真实的临床诊断中,医生与患者之间的互动通常是动态的、迭代的。医生需要通过多轮对话,逐步收集患者的症状信息,推荐合适的检查,并根据检查结果做出诊断和治疗决策。这种动态过程与静态医学问答任务有着本质的区别:后者假设所有患者信息在开始时就已完全提供,而前者则要求医生主动提问、整合信息,并在不确定性中进行决策。

尽管LLMs(如GPT-4)在静态医学问答任务中的表现令人印象深刻,但其在动态诊断场景中的能力仍不明确。为了解决这一问题,研究人员提出了AI医院框架,旨在模拟真实的医疗交互过程,并评估LLMs在动态场景中的表现。

AI医院框架:多智能体模拟器

AI医院是一个由多智能体组成的框架,模拟了医生、患者和检查员之间的互动。该框架的设计目标是尽可能贴近现实中的临床诊断流程,同时为评估LLMs的动态交互能力提供一个可控的环境。

image

1. 角色设置

AI医院中的角色分为三类:

  • 医生代理:由大语言模型(LLMs)驱动,负责与患者互动、推荐检查并最终生成诊断报告。
  • 患者代理:一个非玩家角色(NPC),负责提供患者的主观信息(如症状和病史)。
  • 检查员代理:另一个NPC,负责提供医疗检查结果(如实验室检测或影像检查)。

这种角色分配方式与现实临床场景高度一致:医生需要通过与患者的互动收集主观信息,并通过检查员获取客观数据。

2. 数据集与任务设计

为了构建AI医院的模拟环境,研究人员从中国的医疗网站收集了506份高质量的中文病历。这些病历涵盖了12个医学专科和48个亚专科,涉及多种疾病、症状和检查项目。每份病历被分为以下三个部分:

  • 主观信息:患者描述的症状和病史。
  • 客观信息:检查结果和其他辅助数据。
  • 诊断与治疗过程:医生的诊断结论和治疗方案。

在AI医院中,医生代理需要通过多轮对话与患者和检查员互动,最终生成包含以下五部分的诊断报告:

  1. 患者症状;
  2. 医疗检查;
  3. 诊断结果;
  4. 诊断依据;
  5. 治疗计划。

3. 多视角医学评估(MVME)基准

研究人员提出了多视角医学评估(MVME)基准,用于量化LLMs在AI医院中的表现。MVME基准从以下三个关键维度评估医生代理的能力:

  1. 症状收集:医生是否能够通过互动收集到足够的症状信息。
  2. 检查推荐:医生是否能够推荐合适的检查项目。
  3. 诊断与治疗:医生是否能够根据收集到的信息做出准确的诊断和治疗计划。

评估方法包括三种:基于链接的自动评估、基于GPT-4的模型评估以及人类专家评估。

实验结果与分析

研究人员在AI医院框架中测试了多种大语言模型,包括GPT-3.5、GPT-4、Wenxin-4、QwenMax、Baichuan 13B、HuatuoGPT-II等。实验结果揭示了LLMs在动态医疗交互中的优势与局限性。

1. 动态诊断的表现

尽管LLMs在静态医学问答任务中表现优异,但在动态诊断场景中的表现显著下降。例如,即使是性能最好的GPT-4,其在动态诊断中的表现也仅达到静态诊断的50%。这表明,当前LLMs在动态信息收集和临床决策方面存在明显不足。

2. 影响诊断性能的因素

通过线性回归分析,研究人员发现患者信息的完整性与诊断质量之间存在显著正相关。这表明,LLMs在动态交互中难以有效提问以获取完整的患者信息,进而影响诊断准确性。此外,不同模型的表现差异显著,参数较少的模型在动态诊断中的表现较弱。

3. 科室间的性能差异

在不同医学专科中的表现差异也提供了重要见解。例如,大多数模型在外科和耳鼻喉科的表现优于其他科室,而在儿科中的表现较差。这表明,不同医学专科的复杂性对LLMs的表现有显著影响。

4. 协作机制的作用

为了提升诊断准确性,研究人员引入了一种协作机制,允许多个LLMs独立诊断同一病例并通过讨论达成共识。实验表明,协作机制能够在一定程度上提高诊断质量,但仍未能弥合动态诊断与静态诊断之间的差距。

讨论与未来展望

AI医院框架的意义
AI医院为评估LLMs在动态医疗交互中的能力提供了一个创新的平台,不仅可以用于模型性能的测试,还可以为医学教育和AI辅助诊断工具的开发提供支持。通过生成高质量的医疗对话数据,AI医院有潜力进一步推动医疗AI的发展。

当前LLMs的局限性
尽管LLMs在静态医学问答任务中表现出色,但其在动态诊断中的不足仍然显著。具体表现为:

  1. 信息收集能力不足:难以主动提问以获取完整的患者信息。
  2. 检查推荐不准确:推荐的检查项目往往不够全面或与诊断需求不匹配。
  3. 诊断决策不可靠:即使获得了完整信息,诊断准确性仍低于预期。

未来研究方向
未来的研究应重点解决以下问题:

  • 改进动态信息收集能力:通过更好的提示设计和训练方法,提升LLMs的主动提问能力。
  • 多模态信息整合:探索LLMs在整合文本、图像和其他医疗数据方面的潜力。
  • 跨文化和多语言适应性:扩展数据集的多样性,确保模型能够适应不同文化背景和语言环境。
  • 伦理与偏见问题:开发透明且公平的AI系统,确保其在临床应用中的可靠性和公正性。

结论

AI医院框架为评估LLMs在动态医疗交互中的能力提供了一个全新的视角。尽管当前的LLMs在静态任务中表现优异,但在动态场景中仍面临显著挑战。通过进一步优化模型的动态交互能力,AI有望在未来的医疗诊断中扮演更重要的角色,为医疗行业带来更多创新和突破。

参考

Fan, Zhihao, Lai Wei, Jialong Tang, Wei Chen, Wang Siyuan, Zhongyu Wei, and Fei Huang. "Ai hospital: Benchmarking large language models in a multi-agent medical interaction simulator." In Proceedings of the 31st International Conference on Computational Linguistics, pp. 10183-10213. 2025.

image

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/878135.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

万字综述|一文掌握大语言模型在生物信息学中的应用

随着大语言模型(LLMs)技术的飞速发展,其在自然语言处理(NLP)领域的成功应用逐渐扩展到了生物信息学领域。生物信息学作为一个跨学科的领域,涉及基因组学、蛋白质组学、药物发现等多个方向,LLMs的引入为这些领域带来了新的研究工具和方法。 2025年1月,佐治亚大学Tianmin…

自主做前端页面小工程07

通过使用elementui和js部分代码实现 其重点在于导航栏与弹窗和数据的回显与数据只可预览,基本完成 这是补发昨天学习记录

自主做前端小工程08

今天学习记录,完成部门经理页面,主要是分vue中的变量,创建了更多对话框页面和表单

【邮件安全】近期常见的钓鱼邮件(202412期)

# 钓鱼邮件样本 本期主要分享自2024年12月至今几种典型的钓鱼邮件样本。年关将至,大家要擦亮眼睛,谨防受骗! 带附件类钓鱼上图是一封带有html附件的钓鱼邮件,html附件中包含钓鱼页面。一旦用户打开html文件,可能会非法收集用户个人信息或引导用户输入账号密码等敏感信息。…

CTF-web过年加更

一、菜狗杯的无一幸免看代码可以发现$arr[]=1(在数组中追加一个数且赋值为1,永久为真),想要饶过它就需要让数组溢出(最大int数) int范围为32位:2的31次方-1=2147483647;64位:2的63次方-1=9,223,372,036,854,775,807 在顶部传入参数0=(以上2个看情况选)即可拿到flag二…

python 项目工程化开发

虚拟环境工具 安装poetry pip install -U peotry上述方式不行时 (Invoke-WebRequest -Uri https://install.python-poetry.org -UseBasicParsing).Content | python加入环境变量初始化项目 安装cookiecutter pip install -U cookiecutter初始化项目 cd workspace cookiecutter …

Java-GUI编程-五子棋游戏

java-gui编程-五子棋小游戏 文件目录如下: 棋盘背景图如下: 运行效果如下: FiveChess类代码: package com.gui.fivechess;public class FiveChess { //主类,运行该类即可启动游戏 public static void main(String[] args) { FiveChessFrame ff = new FiveChe…

【模拟电子技术】18-多级放大电路的构成与动态分析

【模拟电子技术】18-多级放大电路的构成与动态分析 单极放大电路往往不能满足我们的需求,比如有一个电压型的信号源,其内阻还不能忽略,输出端要求输出稳定的电压,要求设计尽可能放大的放大电路。 即Ri大,R0小例如这样就可以实现,接下来看直接耦合放大电路的“进化”图(a…

AvaloniaUI 的甘特图组件.

https://github.com/xiejiang2014/XieJiang.Gantt.Avalonia Gantt chart component for AvaloniaUI(UNDER CONSTRUCTION).

快速入门 DeepSeek-R1 大模型

国内最新的神级人工智能模型已经正式发布,没错,它就是备受瞩目的DeepSeek-R1大模型。今天,我们将对DeepSeek进行一个简单的了解,并探索如何快速使用和部署这个强大的工具。值得一提的是,DeepSeek已经开源,您可以随意下载和使用它。 DeepSeek的官方网站地址如下:https://…

CompletableFuture 超时功能有大坑!使用不当直接生产事故!

CompletableFuture 超时功能有大坑!使用不当直接生产事故! 本文未经允许禁止转载! 上一篇文章《如何实现超时功能(以CompletableFuture为例)》中我们讨论了 CompletableFuture 超时功能的具体实现,从整体实现来说,JDK21前的版本有着内存泄露的bug,不过很少对实际生产有影…

2024.2.2 鲜花

P2305 [NOI2014] 购票aLIEz 決めつけばかり 自惚れを着たチープな hokori で 音荒げても 棚に隠した哀れな 恥に濡れた鏡の中 都合の傷だけひけらかして 手軽な強さで勝取る術を どれだけ磨いでも気はやつれる ふらついた思想通りだ 愛-same-CRIER 愛撫-save-LIAR Eid-聖-Risin…