细粒度分析:AI是如何一步步审视你的健康记录的?

细粒度分析:AI是如何一步步审视你的健康记录的?

    • 提出背景
    • AS-LLM 整体框架
    • 关联分析

 


提出背景

论文:https://arxiv.org/pdf/2403.01002.pdf

代码:https://github.com/microsoft/attribute-structuring/

 

临床总结在医疗领域有特定的含义,它通常是指医生对患者在医院治疗过程中的全面记录,包括诊断、治疗、患者反应和治疗结果等。

是对患者住院期间发生的一系列医疗活动的总结描述,一般在患者出院时提供给患者和家属,用于传达治疗过程、结果及后续的护理指导。

医生们通常很忙,他们需要快速理解病人的医疗记录。

自动将这些记录总结成简短的摘要可以节省时间,但是要确保这些摘要既准确又有用,评估它们是个挑战。

问题:我们如何确保这些自动生成的医疗摘要既详细又准确,同时又不需要太多人工检查?

解决方案:我们提出使用大型语言模型来帮助评估摘要,通过一种称为属性结构化(AS)的方法。

  1. 属性结构化:就是将总结评估分解成几个小步骤,每一步只关注摘要的一部分信息。

    想象一下,就像你用清单来检查东西是否齐全一样。

  2. 提示评分:我们不是直接让语言模型给出整体评分,而是让它看看摘要里的每个重点信息是否和参考摘要相匹配,然后分别给分。

  3. 使用临床本体:我们有一个医学上的参考清单,列出了一个好的摘要应该包含的所有关键点,这样评分就更有目标,更可信。

就是我们用一个分步骤的方法来评估摘要,这样就更容易确保每部分都是正确的,而不是一股脑儿地试图评估整个摘要的好坏。

这种方法让评估更准确,也便于之后检查和理解评分的依据。

传统方法

  • 假设我们有一个完整的医疗记录摘要,我们让一个医生阅读它,并给出一个整体评价,比如从1到10分评估它的准确性和完整性。
  • 医生需要一次性考虑所有的信息,这可能会错过一些细节,因为有些错误可能会在大量信息中被忽视。
  • 如果摘要很长,这个过程可能非常耗时,并且最后给出的分数可能不容易解释,因为它基于整体印象。

属性结构化方法

  • 我们有同样的医疗记录摘要,但这次我们不是让医生整体评估。
  • 相反,我们使用一个大型语言模型,根据预先定义的医疗术语列表(我们的本体)来检查摘要。
  • 每一个术语(如“入院诊断”,“治疗过程”等)都会被单独比较和评分,以确保摘要中的信息与原始记录匹配。
  • 这个方法让我们可以对每一部分的准确性进行精细的评估。
  • 例如,如果原始记录中提到“病人有高血压”的历史,但摘要中漏掉了这一点,这个细节就会在这个评估步骤中被发现并记录下来。

在属性结构化方法中,我们得到的是一系列详细的评分,而不是一个总分。

这些评分让我们明确知道哪些方面做得好,哪些方面需要改进。

这种方法的优势在于它为每个关键点提供了明确的评估和可追踪的证据,从而在详细程度和透明度上超越了传统的评估方法。

AS-LLM 整体框架

在这里插入图片描述

这个框架通过使用人类给出的本体来提取摘要中的属性,然后对这些属性进行单独评分。

框架分为以下步骤:

  1. 本体(Ontology):列出了评估时考虑的各种临床属性,例如“入院诊断”、“出院时主要诊断”、“病情史”、“重要的体格检查结果”等。

  2. 结构化(Structuring):使用LLM和上述本体结构化地从“真实摘要”和“测试摘要”中提取对应的属性。

  3. 相似性评分(Similarity scoring):对从两个摘要中提取的每对属性进行评分,以确定它们之间的相似性。

    例如,“Difficulty breathing” (呼吸困难)这一属性在两个摘要中都被提及,因此LLM对它们的相似性进行评分。

  4. 平均分(Average score):通过对每对属性评分的相加并计算平均值,得出一个总体的评估分数。

    在这个例子中,平均得分是4.4分。

图中还显示了一些具体属性的对比,如真实摘要中的“Follow-up issues identified”属性中提到了“High cholesterol”(高胆固醇),而测试摘要中提到了“Increased cholesterol”(胆固醇增高)。

这些细节有助于LLM为这对属性打分,并计入总体评估中。

通过组合这些子解法,属性结构化(AS)方法提供了一种精细、可解释、并与人类评价者高度一致的方式来评估自动生成的临床出院总结的质量。

在这里插入图片描述

实验结果:

  • AS改进了与人工注释相符的程度,特别是GPT-4在皮尔逊和斯皮尔曼相关系数上与人类评分的一致性接近了人类注释者之间的平均一致性。
  • 不同的LLM(如GPT-4和GPT-3.5)在AS评估框架下的性能不同,其中GPT-4表现最佳。

关联分析

属性结构化(Attribute Structuring, AS)这种设计思路在很多方面与计算机科学和信息检索领域的索引和查询处理相似。

  • 逐个分析和打分临床摘要中的关键医疗信息

在这些领域中,大量的信息需要被组织、索引并有效地查询。

属性结构化通过将信息细分为更小的、可管理的单元(即属性),与索引结构在数据库中对数据进行分解和优化检索的方法有共通之处。

多题一解的特征:

  • 需要从大量数据中提取关键信息。
  • 信息需要按照一定的结构或标准来组织。
  • 要求对信息进行定量评估和比较。
  • 对于信息的理解和分析需要透明和可解释。

共用解法名字:

  • 该解法可以称为“模块化评估”或“细粒度评估”。

使用这种解法的题目:

  • 任何需要从复杂或非结构化数据中提取关键信息进行比较和评估的情况。
  • 当需要在多个不同的系统或模型间进行性能比较时。
  • 如果要确保评估的过程是可解释的,并且可以明确每一部分对最终结果的贡献。

在临床总结的评估中,这种方法特别有用,因为它可以详细地分析和评价每一个临床属性,确保生成的摘要是全面和准确的。

这种细粒度的方法也便于后续的审查和改进,因为每个属性的评分都是透明的,可以追溯。

为什么研究者使用不同LLM评分,也不使用机器学习算法(如决策树、SVM等)?

  • 准确性:SVM可能在某些结构化的属性评估上比GPT-4更准确,特别是当属性与特定的诊断代码或治疗结果有直接关联时。
  • 一致性:SVM可能不如LLMs能够捕捉到语言的微妙差异,可能导致与人类注释者的一致性降低。
  • 解释性:LLMs可以提供基于自然语言的解释,而SVM的决策边界和支持向量不那么直观,可能需要额外的步骤来解释评分原因。
  • 可复制性:使用SVM可能降低模型的可复制性,因为它通常需要手动选择和调整特征,而LLMs可以自动处理大量的自然语言数据。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/536752.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

论文阅读——Vision Transformer with Deformable Attention

Vision Transformer with Deformable Attention 多头自注意力公式化为: 第l层transformer模块公式化为: 在Transformer模型中简单地实现DCN是一个non-trivial的问题。在DCN中,特征图上的每个元素都单独学习其偏移,其中HWC特征图上…

Windows Server 各版本搭建 Web 服务器实现访问本地 Web 网站(03~19)

一、Windows Server 2003 点击左下角开始➡管理工具➡管理您的服务器,点击添加或删除角色 点击下一步 选择自定义,点击下一步 选择应用程序服务器,点击下一步 不勾选,点击下一步 这里提示插入磁盘,咱们提前下载好 IIS…

iOS 判断触摸位置是否在图片的透明区域

装扮功能系列: Swift 使用UIScrollerView 实现装扮功能(基础)Swift 使用UIScrollerView 实现装扮功能(拓展)iOS 判断触摸位置是否在图片的透明区域 背景 在装扮功能中,一般都是长按使道具进入编辑状态&…

关于 c++ 中字符的 U 限定

文章目录 关于c中字符的U限定 <2023-08-23 周三> 关于c中字符的U限定 今天早上还在查找char s Ua;这种c的语法是什么意思&#xff1f;下午就看到了这篇文章&#xff1a;“This Is How To Use std::u32string In C Software”&#xff1a;

迁移学习怎么用

如果想实现一个计算机视觉应用&#xff0c;而不想从零开始训练权重&#xff0c;比方从随机初始化开始训练&#xff0c;更快的方式是下载已经训练好权重的网络结构&#xff0c;把这个作为预训练&#xff0c;迁移到你感兴趣的新任务上。ImageNet、PASCAL等等数据库已经公开在线。…

Python笔记(四)—— Python函数

4.1 函数的初体验 函数 函数&#xff1a;是组织好的&#xff0c;可重复使用的&#xff0c;用来实现特定功能的代码段 name "itheima" length len(name) print(length) 运行结果&#xff1a; 思考&#xff1a;为什么随时都可以使用len()统计长度 因为&#xff…

mysql不能远程连接的解决办法

问题: 安装完mysql之后,在本机可以正常使用,但是通过其它电脑不能远程连接. 解决方案: 在安装mysql的电脑上,登录mysql, 执行权限 GRANT ALL PRIVILEGES ON *.* TO root"%" IDENTIFIED BY "password"; 刷新权限 flush privileges;

toJSONString空值被忽略解决办法 toJSONString过程中时间格式丢失问题解决办法

toJSONString空值被忽略解决办法 原代码&#xff1a; GcGarbageBuildingDO data gcGarbageBuildingService.get(id); result.putAll(JSON.parseObject(JSON.toJSONString(data), Map.class));查询出来的data中部分字段值为null&#xff0c;在toJSONString的过程中会把null值…

CVE-2019-5782:kArgumentsLengthType 设置偏小导致优化阶段可以错误的去除 CheckBound 节点

文章目录 环境搭建漏洞分析笔者初分析笔者再分析漏洞触发源码分析 漏洞利用总结 环境搭建 sudo apt install pythongit reset --hard b474b3102bd4a95eafcdb68e0e44656046132bc9 export DEPOT_TOOLS_UPDATE0 gclient sync -D// debug version tools/dev/v8gen.py x64.debug ni…

docker常用操作-docker私有仓库的搭建(Harbor),并将本地镜像推送至远程仓库中。

1、docker-compose安装&#xff0c;下载docker-compose的最新版本 第一步&#xff1a;创建docker-compose空白存放文件vi /usr/local/bin/docker-compose 第二步&#xff1a;使用curl命令在线下载&#xff0c;并制定写入路径 curl -L "https://github.com/docker/compos…

移动端研发技术的进化历程

移动端研发技术 移动端研发技术主要分为原生开发和跨平台开发。本章主要介绍一下移动开发技术的过去、当下和未来&#xff0c;一步一步介绍移动技术的进化历程。 原生开发 原生应用程序是指某一个移动平台&#xff08;比如iOS或Android&#xff09;所特有的应用&#xff0c;使…

MFC 添加MFC类方法

1、打开工程目录的"类视图" 2、工程名右键添加"MFC类" 3、填写"类名"并选择“基类”CDialog&#xff0c;对话框ID填写添加好的对话框ID