基于Transformer的医学图像分类研究

医学图像分类目前面临的挑战

  1. 医学图像分类需要研究人员同时具备医学图像分析和数字图像的知识背景。
  2. 由于图像尺度、数据格式和数据类别分布的影响,现有的模型方法,如传统的机器学习的识别方法和基于深度卷积神经网络的方法,取得的识别准确度和泛化性是有限的。
  3. 实际场景中,由于医学图像数据的标记成本问题和病例医学图像采集问题,能够获得的有标签医学图像数据是有限的。

现有的医学图像分类方法

  1. 基于统计的分类。分为有监督和无监督两种方式。有监督的统计分类方式通常会将数据划分成训练集和测试集,然后来预测数据的类别标签。常见的概率算法(有监督):最近邻算法、贝叶斯算法;无监督则通过特征分布来区分数据的类别:K均值聚类和模糊聚类算法。
  2. 基于规则的分类。根据设定的一系列规则对特征向量进行分析,后续的过程根据任务的属性设置相应的决策。
  3. 支持向量机。核心思想是寻找给定两个类别之间的最优分离边界。SVM不仅可以用于线性分类场景,还可以在核函数的基础上进行非线性的分类

基于神经网络的分类模式是目前主流的医学图像分类方式,它也可以分为有监督和无监督两种方式。
  1. 有监督的情况下,训练神经网络使得它为每个输入数据分配一个类别标签,然后通过神经网络的预测输出和实际标签之间的误差(即损失函数)来调整神经网络的参数。
  2. 在无监督的情况下,训练样本并不需要有明确的标签信息,神经网络主要探究数据的底层结构和类别实例之间的关联性,根据样本的相似度或不相似度将其划分为一个个簇。

卷积神经网络在医学成像分类过程中的使用方式:

  1. 直接进行训练;
  2. 迁移学习或者微调;
  3. 特征提取器(深度卷积神经网络会移除分类层,将卷积层的输出作为输入图像的特征表示)

卷积神经网络结构

残差网络

模型网络的层数过少会导致训练误差变大,然而不断增加网络层数在可能会带来模型效果的提升的同时也会导致在训练过程过程中网络梯度消失或爆炸的问题。这是因为当网络过深时,由于反向传播过程中导数不断连乘,网络参数的梯度在这过程中会逐渐趋于零或者无穷大,导致网络参数无法进行有效更新。

64通道卷积神经网络

64通道卷积神经网络由四个卷积模块组成,每个卷积模块都包含了一个卷积层、一个批归一化层和一个激活层。此外,对于前两个卷积模块,它们还包含一个额外的2*2最大池化层。卷积层对应的卷积核大小为3*3,通道数为64,卷积核在特征图上的滑动步长为1.

批归一化层在这里的目的是为了对每一批处理的数据进行约束,在一定程度上减少了模型在训练过程中发生过拟合的风险,增强模型的泛化能力。

激活层则是为模型引入非线性元素,同时对于模型参数反向传播时出现梯度消失和爆炸现象起着一定的缓解作用。前两个卷积模块包含的最大池化层主要的作用是对特征图进行下采样。

Transformer

整体结构

编码器由N个相同的编码层组成,每个编码层包含两个子层,分别是多头自注意力层和一个简单全连接前馈网络。同时两个子层之间采用了跳跃连接的方式,并在每个子层之后采用归一化层

每个层对应的输出为:LayerNorm(x+SubLayer(x)),其中SubLayer(x)表示子层。

对于解码器,由N个相同解码层组成。解码层由三个子层组成,解码层比编码层多一个多头自注意力子层。增加的多头自注意力层主要用来执行输出的注意力捕获,这三个子层也采用了跳跃连接的方式进行组织。

多头自注意力模块

多头注意力模块包含多个自注意力模块,它们在通道维度进行拼接,以建模输入序列中不同元素之间的关系

自注意力模块的softmax对应的计算复杂度是关于输入序列长度的平方,因此在输入序列长度过大时会消耗较大的计算资源。

位置编码

由于 Transformer 结构中不包含卷积和递归结构,所以为了使得模型能够利用输入序列的顺序信息,需要引入位置编码来表示元素在序列中的相对位置。位置编码的维度和输入以及输出的嵌入向量一致,所以可以直接相加作为编码器和解码器的输入。

视觉Transformer

ViT首先将输入图像进行转变成一组切片序列,然后将其输入到标准的Transformer的编码器中进行处理,以实现不同的下游任务。

自动化机器学习

自动化机器学习任务的组成包括机器学习算法的选取、结合、以及参数化处理过程。
自动化机器学习方法主要由两个部分组成:一个是搜索空间模型,另一个是遍历搜索空间的优化器

自动化机器学习的目标是在学习工具上构建一个高级别的控制器,用来找到合适的特征、模型以及算法的参数配置。

自动化特征工程的目标是构建一个提升后续模块表现的特征集。

特征金字塔Transformer模型

为了便于理解医学图像分类任务的主要目标,首先建立一个医学图像分类任务的定义。对于给定大小 H × W 且通道数为 C 的输入图像 x R H × W × C ,在MedMNIST 中 H = W = 28 并且 C = 1 3 ,医学图像分类的目标是准确识别图像在对应数据集中的种类 y。
\hat{y}=G(x)
其中, \hat{y}指的是类别预测输出。

模型组件

深度残差网络和Vision Transformer,两个组件分别对应了特征提取和特征建模能力。

Res-Net-18主要由八个基本块组成,每两个基本块组成一个基本层(basic layer)。一般来说,浅层网络主要提取比较泛化的特征信息,而深层网络则可以提取到输入图像更具有特征的特征信息。

Vision Transformer组件则是将一张图像处理成相同尺寸的多个切片,然后被输入到Transformer中。给定一张图像x\in R^{H\times W\times C},它经过变换后成为一系列展平的切片x_{p} \in R^{N\times(P^{2}C)},其中,(P,P)表示每个切片的大小。

一张图像通常首先会被输入到一个卷积神经网络中提取特征,然后模型根据输出的特征图进行分类。神经网络的不同层具备不同的特征信息,但是目前大多数模型都是基于深层特征进行预测。

 整体模型

模型将ResNet-18中的基本层作为特征提取器,将获取的CNN特征图展平为一个线性序列。

模型可以充分使用深度神经网络中低层、中层以及高层的特征输出来进行预测。使用基本层作为特征提取器能够取得比直接使用Vision Transformer更好的效果。

对于ResNet的四个基本层,可以使用符号 B1, B2, B3, B4 来进行表示,同时每个基本层都被看作一个特征提取器

B_{i}=g(B_{i-1})+f(g(B_{i-1})),i=2,3,4

x为输入特征,f表示基本块的一系列运算操作,g表示残差连接,并且g(.)=.+f(.)。各层的输出可以被建模为通过不同尺度来观察输入图像。

多尺度融合决策

对于四个不同层的输出,选取前三个尺度的特征图(B1,B2,B3)并将其输入到三个浅层的ViT中。对于最后一个尺度的特征图输出(B4),它被保留在ResNet-18的原始路径中。

对于Transformer路径部分,首先将输入{b_{i}\in B_{i}\mid i=1,2,3}变换成一系列展平的2D切片,每块切片的大小都为1*1,之后利用可训练的线性投影将矢量化切片映射到一个D维的嵌入空间中。同时,为每个切片添加位置嵌入来保持切片在原图中的位置信息。

Transformer的编码器主要包含两个组件:多头自注意力结构和多层感知机(MLP)模块。通过编码器的处理后,可以获取激活函数a,其处理过程

 对于ResNet原路径部分,最后一层的特征图被输入进一个池化层和一个线性层。最后一层对应的激活向量a_{4}=F_{linear}(F_{pool}b4),b_{4}\in B_{4},接着将四个激活向量进行拼接,并且将最终的预测通过一个softmax或sigmoid函数进行处理。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/577924.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

车道线检测_Canny算子边缘检测_1

Canny算子边缘检测(原理) Canny算子边缘检测是一种经典的图像处理算法,由John F. Canny于1986年提出,用于精确、可靠地检测数字图像中的边缘特征。该算法设计时考虑了三个关键目标:低错误率(即尽可能多地检…

2核2G3M轻量应用服务器价格3.8元/月、50元1年、296元3年

京东云2核2G3M服务器价格3.8元/月、50元一年、296元3年,配置2C2G-40G SSD系统盘-3M带宽-200G月流量 华北-北京,京东云优惠活动 yunfuwuqiba.com/go/jd 活动链接打开如下图: 京东云2核2G3M服务器价格 京东云:轻量云主机CPU内存&…

【01-20】计算机网络基础知识(非常详细)从零基础入门到精通,看完这一篇就够了

【01-20】计算机网络基础知识(非常详细)从零基础入门到精通,看完这一篇就够了 以下是本文参考的资料 欢迎大家查收原版 本版本仅作个人笔记使用1、OSI 的七层模型分别是?各自的功能是什么?2、说一下一次完整的HTTP请求…

【爬虫开发】爬虫从0到1全知识md笔记第2篇:requests模块,知识点:【附代码文档】

爬虫开发从0到1全知识教程完整教程(附代码资料)主要内容讲述:爬虫课程概要,爬虫基础爬虫概述,,http协议复习。requests模块,requests模块1. requests模块介绍,2. response响应对象,3. requests模块发送请求,4. request…

财富池指标--通达信顾比均线实战指标免费源码

顾比均线是由两组均线构成,短期组为3、5、8、10、12、15。长期组为:30、35、40、45、50、60。顾比均线由澳大利亚的投资家戴若-顾比先生发明,因此叫顾比线。 顾比均线可以广泛运用于股票、期货和外汇交易中,只要是能运用K线图的投…

<QT基础(3)>QLineEdit使用笔记

LineEdit 这次要用的是两个功能:初始化展示参数值,修改参数值。 初始化 将l_num的默认值显示 ui.lineEdit->setText(QString::number(l_num));信号 textChanged() 文本发生改变textEdited() 文本编辑信号cursorPositionChanged()光标发…

KVM:尝试安装windows2008

最终目的是在lxd部署windows2008镜像 WindowsServer2008镜像: cn_windows_server_2008_r2_standard_enterprise_datacenter_and_web_with_sp1_x64_dvd_617598.iso 镜像参考链接: https://discussion.scottibyte.com/t/migrate-a-hyper-v-windows-vir…

【娱乐】战双帕弥什游戏笔记攻略

文章目录 Part.I IntroductionChap.I Information Part.II 新手攻略Chap.I 角色和武器挑选Chap.II 新手意识推荐 Part.II 阵容搭配Chap.I 一拖二Chap.II 毕业队 Reference Part.I Introduction 2019年12月5日全平台公测。 偶然间入坑战双,玩了几天,觉得…

Codeforces Round 937 (Div. 4)

目录 A. Stair, Peak, or Neither? B. Upscaling C. Clock Conversion D. Product of Binary Decimals E. Nearly Shortest Repeating Substring F. 0, 1, 2, Tree! G. Shuffling Songs A. Stair, Peak, or Neither? 直接按照题意模拟即可 void solve(){int a,b,c; c…

YOLOv9改进策略 : C2f改进 | 引入YOLOv8 C2f结构

💡💡💡本文改进内容:应订阅者需求,如何将YOLOv8 C2f结构引入到YOLOv9 💡💡💡C2f层是一种特殊的卷积层,用于将不同尺度的特征图融合在一起,以提高目标检测的准…

真心建议今年拿下软考证书,再不冲就晚了!

随着国家计算机与软件技术的发展,每年报名参加计算机软件资格考试(简称:软考)的人越来越多。 据工信部新闻发布会消息:2023年有超500万人都在考软考,报名人数较2020年直翻10倍。 据悉,国内持软…

leetcode216组合总和III

本题思考: 对于输入样例k3,n9 输出里面为什么只有 [[1,2,6],[1,3,5],[2,3,4]]而没有下图所示的重复情况出现呢? 当时代码写错了,思考许久不得解,后面经过仔细对比代码之后发现是我的代码出现了逻辑错误,而正是这一关键…