60、郑州大学附属肿瘤医院 :用于预测胃癌患者术后生存的深度学习模型的开发和验证[同学,我们的人生应当是旷野]

馒头老师要说的话:

我近期看了一下北京的脑机公司,大概是我之前对这一行业太过于乐观,北京的BCI公司和研究所,比上海、深圳、杭州甚至是重庆都要少,门槛也要高很多。也有我自己的原因,有时站的太高,看得太远,反而忽视了BCI的发展进度和同学们的学习程度,这些公司对于同学们还是有难度的,这像古人说的:‘何不食肉糜?’,这种现象也发生在我和其他所谓的专家身上,好比专家质问外卖小哥:‘送外卖时可以把家里的宝马X5租出去开出租,可以把家里150平的房子也出租嘛,这部都是收入’,还好我及时省身。

但同学们,你们还年轻,年轻就有无限的可能,你们生机勃勃,这个世界是我们的,但终究是属于你们的,我们来看一下使用ML和DL技术处理各个病例数据的赛道吧,这也是目前我和北京某国重实验室老师带的国自然项目的赛道。

本文由郑州大学附属肿瘤医院肿瘤内科,河南肿瘤医院,郑州大学附属肿瘤医院DRGs(诊断相关组)办公室病务科,郑州大学第三附属医院放射科,河南中医药大学人民医院转化医学研究中心,共同在2024年发表于BMC Public Health IF:4.7\JCR:Q1

Abstract:

深度学习(DL)是机器学习(ML)的一种特殊形式,在预测各种疾病的生存方面很有价值。其在现实世界胃癌(GC)患者中的临床适用性尚未得到广泛验证。

方法采用来自监测、流行病学和最终结果(SEER)数据库的11414例胃癌患者和来自中国数据集的2846例患者的联合队列。通过在SEER数据库上的训练集和测试集对DL模型、传统ML模型和美国癌症联合委员会(AJCC)阶段模型进行内部验证,然后在中文数据集上进行外部验证。

利用接收机工作特性曲线、决策曲线和校准曲线下的面积来评估算法的性能。

结果DL模型在术后1年、3年和5年的曲线下面积(AUC)方面表现优异,优于其他ML模型和AJCC阶段模型,SEER数据集的AUC分别为0.77、0.80和0.82,中文数据集的AUC分别为0.77、0.76和0.75。此外,决策曲线分析显示DL模型在3年的净收益大于其他ML模型和AJCC阶段模型,并且3年的校准图表明ML与外部验证时的实际观测值之间具有良好的一致性。

在这里我说一下:

SEER胃癌公开数据可类比于我们的BCI-2A数据,该数据在此病例数据中广泛应用,用到的验证模型的评价指标是生存概率Kaplan-Meier法以及死亡概率(风险概率)COX比例风险回归,也就是我们建立的模型,除了要得到患者最终的生存率,还要预测到1年、3年、5年之后的术后患者的生存和死亡概率,至于K-M、COX都可以通过python实现来画图。

Background:

背景这里也说一下,引用原文:

胃癌(Gastric cancer, GC)是常见的恶性肿瘤之一,手术切除仍是早期胃癌治疗的唯一选择,也是胃癌的主要治疗方法[1]。即使胃癌患者行根治性手术,影响其生存和病情进展的因素仍有很多,包括临床因素和病理因素,如分期、组织学类型、浸润深度、淋巴结及远处转移等[2-5]。因此,准确预测术后生存率对患者和医疗机构都至关重要。胃癌是一种异质性、多因素的疾病,多因素的多变性和胃癌的复杂性使得治疗和生存预测极其困难[6]。目前,临床医生通常根据美国癌症联合委员会(American Joint Committee on Cancer, AJCC)分期结合自身医疗经验来评估患者的生存,忽略了其他影响生存因素的作用[7]。分期系统在指导胃癌治疗决策方面应用广泛,效果显著。然而,它没有考虑到性别、年龄、肿瘤大小、组织病理类型等各种因素,这些因素都会显著影响生存预后。此外,传统的生存分析方法,如Cox回归,在生存分析中遇到了局限性,包括对比例风险的要求和连续变量线性的假设。这些约束可能会限制它们在复杂场景中的适用性。然而,基于深度学习的预测模型代表了一个重大的进步,因为它们有效地解决了这些问题。它们可以处理非比例风险,并为变量和结果之间的非线性关系建模,使它们在不同临床环境下的生存预测更加通用和准确。

机器学习(Machine learning, ML)擅长从高维、复杂的数据中获取信息,自动学习并以监督或无监督的方式进行预测,在疾病预测中发挥着重要作用[8]。与AJCC分期模型相比,ML预测模型可能更适合临床环境,指导临床决策。据我们所知,目前还缺乏一些临床因素与胃癌患者术后预后之间关系的有效预测模型。深度学习(DL)是一种特殊的机器学习模型,它包含多个神经网络,可以处理更复杂的信息。与传统的多任务逻辑回归和随机森林模型相比,深度学习方法具有许多优点。首先,深度学习可以从大型数据集中学习复杂的模式和表示,与传统的ML算法相比,其性能优越。其次,深度学习算法可以有效地扩展大量数据。第三,深度学习模型具有自动学习和提取相关信息的能力来自原始数据的特征。最后,深度学习模型可以利用大型数据集上的预训练模型,从而实现迁移学习。这种方法能够将现有的知识从一个领域应用到另一个领域,即使有有限的标记数据,从而减少了对大量训练数据的需求。一些研究在外科肿瘤研究中使用DL模型进行分析[9-11]。

然而,(话锋一转,敲黑板!这里我B站视屏也给大家说如何写论文了)这些研究大多集中在诊断应用上,如放射图像的自动量化、数字组织病理学图像解释或生物标志物分析[12-15]。据我们所知,在外科肿瘤学中,特别是在GC领域,利用DL模型进行预后预测的已发表研究有限。因此,基于dl的生存分析有助于预测胃癌术后的生存。

美国国家癌症研究所(National Cancer Institute)建立的监测、流行病学和最终结果(SEER)数据库是一个全面的癌症登记处,拥有完善且定期更新的数据,提供了关于患者临床特征、治疗和生存数据的丰富信息[16]。本研究旨在从SEER数据库中提取胃癌术后患者的信息,利用DL算法构建胃癌生存预测模型,并利用实际胃癌患者的信息评价构建模型的准确性,分析胃癌生存概率的影响因素及5年生存状况,为胃癌的临床治疗和预后提供决策支持。

Methods:

介绍了SEER数据:

SEER数据库收集了来自18个癌症登记处的癌症发病率和生存率信息,覆盖了大约27.8%的美国人口。本研究还纳入了2016年至2020年间在郑州大学附属肿瘤医院、河南省肿瘤医院诊断为胃癌的患者,形成了一个中国数据集。本研究中涉及人类参与者的所有程序均遵循机构和/或国家研究委员会制定的伦理标准,以及1964年赫尔辛基宣言及其后续修订或同等伦理标准。由于本研究为回顾性研究,不需要患者的知情同意。

介绍了ML方法:

Multi-task logistic regression (MTLR)

Random Survival Forests (RSF) 

 DeepSurv 

本研究采用了多种机器学习算法。我们对生存分析模型实施了两个阶段的验证过程。最初,我们使用SEER数据库进行内部验证,其中数据随机分为两部分:60%用于模型训练,40%用于验证。这种划分使我们能够在相同的数据集内开发和随后评估模型。我们采用网格搜索方法结合c指数来选择生存分析模型的参数。该方法需要探索一组预定义的参数组合,在训练数据集上训练模型,然后使用C-index在内部验证数据集上评估其性能。该过程系统地确定了通过有效地对生存时间排序来提高模型预测准确性的最佳参数。网格搜索的结果在补充资料中提供。为了进行外部验证,我们使用了来自中国的独立数据集,使我们能够评估模型在不同患者群体中的表现。这种全面的方法确保了我们的模型在不同临床背景下的全面评估[17]。本研究中测试的ML算法包括DL、MTLR和RF。将这些ML模型的准确性与TNM阶段进行比较。为了评估模型的性能,计算了各种指标,包括接收器工作特性曲线下的面积[18]。曲线下面积(AUC)是一种不受特定阈值影响的性能度量,它提供了对模型性能的全面评估。

AUC的取值范围为0.5 ~ 1.0,其中0.5代表随机概率,1.0代表完美分类(也使用了AUC评价model)此外,通过目视检查校准图来评估模型的校准,将预测结果与观察结果进行比较。采用决策曲线分析计算各预测模型的临床净收益。

净效益衡量的是使用模型预测来指导决策所获得的优势。采用这些策略的净收益与依赖基于预后的干预的模型进行了比较,这意味着基于预测风险超过特定阈值的干预。

Result:

这是在中国数据和SEER数据上的总体的预测对比,随着X轴的延申,患者生存率从1开始下降到0.4

对SEER数据术后患者的K-M曲线分析,从A到I依次取不同的特征数列进行预测,分别为性别、年龄、分级、种族、T分期、N分期、M分期、放疗、化疗的5年预测结果

在这里:

测试集中,3年生存预测的准确性高于1年、5年生存预测的准确性。1年生存预测概率高于实际概率,5年生存预测概率低于实际概率。造成这种现象的原因有以下几点:

(1)肿瘤患者1年的死亡率相对较低,5年的死亡率相对较高,这使得模型识别更加困难。

(2)训练集的准确率高而验证集的准确率低,可能是由于训练集和验证集中患者的遗传背景、种族、治疗方式的差异造成的。

在后续的研究中可以考虑迁移学习等方法来提高验证集的准确性。

中国数据集中胃癌患者总生存率的Kaplan-Meier生存分析。(A):按性别的5年总生存率比较。(B):按年龄分组的5年总生存率比较。(C):不同分级的5年总生存率比较。(D):不同种族患者5年总生存率比较。(E):不同T分期的5年总生存率比较。(F):不同N分期的5年总生存率比较。(G):不同M分期的5年总生存率比较。(H):放疗患者5年总生存率比较。(1):化疗患者5年总生存期比较

Conclusions:

我们首次使用SEER和中国人口数据库的数据构建了基于dl的模型,并对其进行了内部和外部验证,以预测胃癌术后患者的预后。我们的研究结果表明,基于dl的模型可以准确预测胃癌术后患者的生存率。

本文是噱头是把DL技术首次用到SEER中,发了个1区的文章,对于SEER数据是个csv文件,共计20多列特征数据,也很好分析处理,感觉对于这个数据ML初学者也能处理了,大家也可以关注该赛道,多多出论文!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/670624.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【智能算法】PID搜索算法(PSA)原理及实现

目录 1.背景2.算法原理2.1算法思想2.2算法过程 3.结果展示4.参考文献5.代码获取 1.背景 2023年,Y Gao受到PID控制理论启发,提出了PID搜索算法(PID-based Search Algorithm, PSA)。 2.算法原理 2.1算法思想 PID算法是控制领域的…

16_Scala面向对象编程_函数

文章目录 1.声明Scala函数2.访问伴生对象3.空对象直接用的方法4.构造对象--通过object获取单例对象--直接new--scala独有apply()方式--scala有参构造--scala构造方法两大类使用辅构造如下上述代码主构造为辅助构造方法甚至可以多个多个辅助构造形参内容不能重不使用辅助构造和使…

数据结构——链表专题1

文章目录 一、移除链表元素二、反转链表三、合并两个有序链表四、链表的中间节点五、环形链表的约瑟夫问题六、分割链表 一、移除链表元素 原题链接:移除链表元素 一个解法是遍历原链表,将与val相等的结点抛弃,链接后一个结点 另一个解法是…

2010-2022年上市公司彭博ESG披露评分、分项得分数据

2010-2022年上市公司彭博ESG披露评分、分项得分数据 1、时间:2010-2022年 2、来源:Bloomberg ESG 指数 3、指标:股票代码、股票简称、年份、ESG披露评分、环境披露评分、社会信息披露评分、治理披露评分 4、范围:上市公司 5、…

详解xml-java语言

1.XML在线学习手册 XML 教程 2.XML可以做什么 1.给两个程序之间进行数据通信。现在用的最多的是JSON。 2.给服务器做配置文件。 3.存储复杂的数据关系。 4.还可以充当小型的数据库。 3.书写格式 <?xml version"1.0" encoding"UTF-8" ?> <…

Ansible 自动化运维工具 - 了解和模块应用

目录 一. Ansible 的相关知识 1.1 Ansible 工具的简介 1.2 Ansible的四大组件 1.3 运维自动化工具 1.4 Ansible 和其它自动化运维工具对比 1.5 Ansible 的优缺点 二. Ansible 环境安装部署 2.1 管理端安装 ansible 2.2 配置主机清单 三. ansible 命令行模块 3.1 comm…

JavaScript中Math函数与舍入

立方根 console.log(Math.sqrt(25)); //数学方式25平方根 console.log(25 ** (1 / 2)); //25的0.5次方 console.log(8 ** (1 / 3)); //8的1/3次方计算最大最小值 console.log(Math.max(1, 5, 88, 22, 132)); //返回最大值 console.log(Math.max(1, 5, 88, 22, 132)); //…

[Flutter]创建一个私有包并使用

在Flutter中创建一个自己的私有组件&#xff08;通常称为包或库&#xff09;&#xff0c;并通过Dart的包管理工具pub进行使用。 一、创建一个新的Flutter包 1.使用命令行创建 使用Flutter命令行工具来创建一个新的包&#xff1a; $ flutter create --templatepackage my_pri…

为什么很多人不推荐你用JWT?

为什么很多人不推荐你用JWT? 如果你经常看一些网上的带你做项目的教程&#xff0c;你就会发现 有很多的项目都用到了JWT。那么他到底安全吗&#xff1f;为什么那么多人不推荐你去使用。这个文章将会从全方面的带你了解JWT 以及他的优缺点。 什么是JWT? 这个是他的官网JSON…

React + 项目(从基础到实战) -- 第11期

目标 问卷编辑器的开发 设计UI - 拆分布局 水平垂直居中 画布 y方向滚动 自定义问卷组件 后端 返回组件数据 //获取单个问卷信息{url: /api/question/:id,method: get,response: () > {return {errno: 0,data: {id: Random.id(),title: Random.ctitle(),componentList:[//…

测试用例执行的结果pass_fail_block_skip

pass fail block skip 测试用例的执行结果通常包括以下几个方面&#xff1a; 1. **测试结果状态**&#xff1a;通常分为“通过”、“失败”、“阻塞”和“跳过”等状态。 - **通过**&#xff1a;测试用例执行完毕&#xff0c;预期结果与实际结果一致。 - **失败**&am…

【AI】深度学习框架的期望与现实 机器学习编译尚未兑现其早期的一些承诺……

深度学习框架的期望与现实 机器学习编译尚未兑现其早期的一些承诺…… 来自&#xff1a;Axelera AI 资深软件工程师 Matthew Barrett 原帖是linkedin帖子&#xff1a; https://linkedin.com/posts/matthew-barrett-a49929177_i-think-its-fair-to-say-that-ml-compilation-ac…