【论文阅读笔记】A Recent Survey of Vision Transformers for Medical Image Segmentation

Khan A, Rauf Z, Khan A R, et al. A Recent Survey of Vision Transformers for Medical Image Segmentation[J]. arXiv preprint arXiv:2312.00634, 2023.

【论文概述】

本文是关于医学图像分割中视觉变换器(Vision Transformers,ViTs)的最新综述。文中详细回顾了ViTs及其与卷积神经网络(CNNs)结合形成的混合视觉Transformers(Hybrid Vision Transformers,HVTs)在医学图像分割方面的最新进展。文中讨论了这些技术如何通过模拟图像中的长距离关系来提高诊断、治疗计划和疾病监测的准确性。同时,还探讨了这些方法在不同医学图像模态(如CT、MRI、X射线等)中的实际应用,以及它们面临的挑战和未来的发展方向。

本文中规中矩,对涉及到的方法只是简单陈列,并没有细致的优缺点探讨,可以作为寻找对应方向论文的一个参考,笔记中对涉及到的方法根据之前读文经历进行简单的优缺点归纳。

【本文模型的分类方法】

  1. 本文首先对基于ViT的医学图像分割方法进行了全面综述,将其分为两大类:基于ViT的方法(ViT-based methods)和混合视觉Transformers的方法(HVT-based methods)。
  2. 对于基于ViT的方法,进一步将其细分为以下四类:
  • ViT在编码器(encoder)中的应用。

  • ViT在解码器(decoder)中的应用。

  • ViT在编码器-解码器之间(in between encoder-decoder)的应用。

  • 编码器和解码器都采用基于ViT的架构(both the encoder and decoder are ViT-based architectures)。

    3.对于混合视觉Transformers(HVT)的方法,提出了一个分类法:

  • 基于编码器的集成(encoder-based integration)。

  • 基于解码器的集成(decoder-based integration)。

【医学图像分割存在的一些挑战】

1.在医学图像中的对象内发现的尺寸范围很广

2.结构轮廓的模糊性,加上它们的不同纹理变化和复杂形状,这很容易产生不准确的结果

3.当将感兴趣的对象与背景隔离时,低强度对比度带来的挑战

4.没有足够的训练数据集

【4.1 ViT-based Medical Image Segmentation Approaches】

这一部分从四个方面探讨了ViTs在医学图像分割中的应用,包括ViT在编码器(Encoder)、解码器(Decoder)、编码器-解码器中的应用,以及ViT在编码器和解码器之间的应用。以下是对这些部分的总结:

  1. ViT in Encoder

    image-20231218083803640
    • 优点:通过在编码器中使用ViT,模型能有效捕获全局信息和多尺度特征,从而增强特征提取能力。
    • 代表模型:例如UNETR(UNet Transformer),利用ViT作为编码器来有效捕获输入体积的多尺度全球信息。
    • 缺点:可能会增加模型的计算复杂性和训练难度。
  2. ViT in Decoder

    image-20231218083930090
    • 优点:将ViT应用于解码器可以提高预测边界精度,并区分背景和兴趣对象。
    • 代表模型:如ConvTransSeg,采用CNN编码器和基于ViT的解码器。
    • 缺点:解码阶段的全局信息处理可能不如编码阶段有效。
  3. ViT in both Encoder-Decoder

    image-20231218084202901
    • 优点:在编码器和解码器都使用ViT的架构能全面利用ViT的长距离关注机制。
    • 代表模型:例如Swin-Unet和、nnFormer、MISSFormer、TransDeepLab,这些模型在编码器和解码器中都使用ViT结构,以捕获图像的全局和局部特征。
    • 缺点:这种方法可能导致更高的计算成本和更复杂的模型结构。
  4. ViT in between Encoder-Decoder

    image-20231218084439447
    • 优点:此方法通过在编码器和解码器之间引入ViT,可以在局部和全局特征之间建立更有效的连接。
    • 代表模型:例如ATTransUNet和DCA(Dual Cross-Attention)、ViT-V-Net,它们在编码器和解码器之间使用ViT,以改善特征融合和上下文建模。
    • 缺点:可能需要更复杂的训练策略来优化特征融合。

【4.2. Hybrid ViT-Based Medical Image Segmentation Approaches】

探讨了混合视觉Transformers(Hybrid Vision Transformers, HVTs)在医学图像分割中的应用。这些方法结合了卷积神经网络(CNNs)和视觉变换器(ViTs)的优势,以提高分割性能。以下是对这一部分内容的总结,包括三个主要方面:

  1. Hybrid ViT in Encoder

    image-20231218084947421
    • 优点:通过在编码器中结合HVT,模型能够同时捕获全局和局部特征,提高特征表示的丰富性。
    • 代表模型:例如TransUNet,结合了ViT的全局感知能力和U-Net的局部特征提取能力;TransBTS,结合了ViT和3D CNN,用于处理3D医学体积数据。
    • 缺点:混合模型可能会增加模型复杂度,需要更多的计算资源。
  2. Hybrid ViT in Decoder

    image-20231218085028808
    • 优点:在解码器中应用HVT可以提高分割边界的准确性,特别是在处理复杂的医学图像时。
    • 代表模型:例如UNetFormer,结合了3D Swin Transformer和CNN,以及基于变换器的解码器。
    • 缺点:这种方法可能导致解码阶段的计算负担加重。
  3. Hybrid ViT in both Encoder-Decoder

    image-20231218085135604
    • 优点:在编码器和解码器中都使用HVT可以充分利用ViT和CNN的优势,实现全面的特征提取和细节捕获。
    • 代表模型:例如MaxViT-UNet、SwinBTS,利用3D Swin Transformer和卷积操作来学习局部和全局级别的特征。
    • 缺点:这种结构可能导致模型过于复杂,难以训练和优化。

【5. ViT-based Medical Image Segmentation Applications】

作者详细讨论了基于视觉Transformers(Vision Transformers, ViTs)的医学图像分割应用,覆盖了从CT图像到X射线图像的多种医学成像方式。以下是对这一部分内容的概括总结:

  1. CT图像(CT Images)
    • 应用了ViT的方法能有效地处理CT图像,提高了病灶检测的准确性。
    • 代表模型:如TransBTS,利用ViT与3D CNN相结合,以处理3D CT数据。
  2. 病理学图像(Histopathological Images)
    • 在病理学图像分析中,ViT有助于细胞结构的精准分割和识别。
    • 代表模型:如TransPath,它将ViT与传统的CNN技术结合,以提高细胞和组织的分割效果。
  3. 显微镜图像(Microscopy Images)
    • ViT在处理显微镜图像时展现了提高分割准确性的潜力,特别是在复杂的细胞结构分割方面。
    • 代表模型:例如使用ViT的各种混合方法,它们结合CNN的局部特征识别能力和ViT的全局信息处理能力。
  4. MRI图像(MRI Images)
    • ViT在MRI图像分割中特别有效,能够处理复杂的脑部结构。
    • 代表模型:如Swin UNETR和TransBTS,它们在处理脑肿瘤分割等高复杂度任务中表现出色。
  5. 超声图像(Ultrasound Images)
    • ViT在超声图像分割中有助于提高边界检测的准确性,特别是在不规则形状的肿瘤识别方面。
    • 代表模型:例如结合ViT和CNN技术的混合模型,用于提高超声图像中特定组织或病变的识别能力。
  6. X射线图像(X-Ray Images)
    • ViT在X射线图像分割中表现出对细节的高敏感性,特别是在骨骼和其他硬组织的分割方面。
    • 代表模型:如结合CNN和ViT的模型,用于提高诸如肺部疾病识别和骨折检测的准确性。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/283604.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

windows 安装jenkins

下载jenkins 官方下载地址:Jenkins 的安装和设置 清华源下载地址:https://mirrors.tuna.tsinghua.edu.cn/jenkins/windows-stable/ 最新支持java8的版本时2.346.1版本,在清华源中找不到,在官网中没找到windows的下载历史&#xff…

隆道姚锐:数字技术赋能企业采购和供应链管理

12月15日,“2023龙江数实融合发展大会”在黑龙江省哈尔滨市举办,北京隆道网络科技有限公司总裁助理姚锐出席本次会议的“数字生物医药创新发展论坛”,并分享以数字技术赋能企业采购和供应链管理的实践经验。 本届大会以“聚数智力量 创万物互…

Web前端-HTML(简介)

文章目录 1. HTML1.1概述1.2 HTML骨架标签1.3 HTML元素标签及分类1.4 HTML标签关系 2. 代码开发工具&#xff08;书写代码&#xff09;3. 文档类型<!DOCTYPE>4. 页面语言lang5. 字符集 1. HTML 1.1概述 HTML 指的是超文本标记语言 (Hyper Text Markup Language)&#x…

代码随想录算法训练营第二十天 |654.最大二叉树 、 617.合并二叉树 、700.二叉搜索树中的搜索 、 98.验证二叉搜索树

今天学习内容&#xff1a;654.最大二叉树 、 617.合并二叉树 、700.二叉搜索树中的搜索 、 98.验证二叉搜索树 讲解&#xff1a;代码随想录 654.最大二叉树 力扣&#xff08;LeetCode&#xff09;官网 - 全球极客挚爱的技术成长平台 最大二叉树的构建过程如上&#xff0c;图…

国产or进口?台阶仪为何要选择国产

在微观轮廓测量领域&#xff0c;选择一款合适的台阶仪对于获得精准的测量结果至关重要。随着科技的不断发展&#xff0c;台阶仪市场上涌现了许多国产和进口产品&#xff0c;消费者在选择时可能会面临一些疑虑。 什么是台阶仪 台阶仪是一种超精密接触式微观轮廓测量仪&#xf…

终于知道灵活自助分析的BI报表是怎么做的了

不知道是不是临近年底要做年终分析报告的原因&#xff0c;最近很多小伙伴都来咨询BI报表怎么做的问题。其实BI报表还真的只需点击、拖拉拽就能完成。接下来就来简单地说几个做BI报表都需要注意的事项。 BI报表制作流程&#xff1a; 1、连接数据源&#xff0c;奥威BI大数据分析…

【洛谷算法题】P1424-小鱼的航程(改进版)【入门2分支结构】Java题解

&#x1f468;‍&#x1f4bb;博客主页&#xff1a;花无缺 欢迎 点赞&#x1f44d; 收藏⭐ 留言&#x1f4dd; 加关注✅! 本文由 花无缺 原创 收录于专栏 【洛谷算法题】 文章目录 【洛谷算法题】P1424-小鱼的航程&#xff08;改进版&#xff09;【入门2分支结构】&#x1f30f…

MYSQL练题笔记-高级字符串函数 / 正则表达式 / 子句-简单3题

这个系列先写了三题&#xff0c;比较简单写在一起。 1.修复表中的名字相关的表和题目如下 看题目就知道是有关字符串函数的&#xff0c;于是在书里查询相关的函数&#xff0c;如下图&#xff0c;但是没有完全对口的函数&#xff0c;所以我还是去百度了。 然后发现结合上面的4个…

Video anomaly detection with spatio-temporal dissociation 论文阅读

Video anomaly detection with spatio-temporal dissociation 摘要1.介绍2.相关工作3. Methods3.1. Overview3.2. Spatial autoencoder3.3. Motion autoencoder3.4. Variance attention module3.5. Clustering3.6. The training objective function 4. Experiments5. Conclusio…

使用C/C++实现DNS协议栈

使用C/C实现DNS协议栈 DNS&#xff0c;全称域名系统(Domain Name System)&#xff0c;是用于将域名转换为IP地址的分布式数据库系统。实现一个完整的DNS协议栈是一个相对复杂的任务&#xff0c;但本文将为您提供一个简化的概述和实际的案例&#xff0c;以帮助您入门。 1. 基…

ASF-YOLO:一种基于注意尺度序列融合的细胞实例分割YOLO模型

摘要 我们提出了一种基于注意力尺度序列融合的You Only Look Once&#xff08;YOLO&#xff09;框架&#xff08;ASF-YOLO&#xff09;&#xff0c;该框架结合了空间和尺度特征&#xff0c;用于准确快速的细胞实例分割。在YOLO分割框架的基础上&#xff0c;我们采用尺度序列特…

MindOpt工具是如何做到配套使用的?请看此篇

Mindopt 介绍 MindOpt是阿里巴巴达摩院决策职能实验室研发的专注于优化领域&#xff0c;提供智能优化解决方案的品牌。主要的目标是帮助客户通过先进的优化算法和技术&#xff0c;实现业务流程的最佳化&#xff0c;提升效率&#xff0c;降低成本&#xff0c;并最大化业务价值。…