【计算机视觉 | 图像分割】arxiv 计算机视觉关于图像分割的学术速递(7 月 13 日论文合集)

文章目录

  • 一、分割|语义相关(7篇)
    • 1.1 Correlation-Aware Mutual Learning for Semi-supervised Medical Image Segmentation
    • 1.2 RFENet: Towards Reciprocal Feature Evolution for Glass Segmentation
    • 1.3 Sem-CS: Semantic CLIPStyler for Text-Based Image Style Transfer
    • 1.4 Rectifying Noisy Labels with Sequential Prior: Multi-Scale Temporal Feature Affinity Learning for Robust Video Segmentation
    • 1.5 OG: Equip vision occupancy with instance segmentation and visual grounding
    • 1.6 SITTA: A Semantic Image-Text Alignment for Image Captioning
    • 1.7 3D Medical Image Segmentation based on multi-scale MPU-Net

一、分割|语义相关(7篇)

1.1 Correlation-Aware Mutual Learning for Semi-supervised Medical Image Segmentation

基于相关感知互学习的半监督医学图像分割

https://arxiv.org/abs/2307.06312

在这里插入图片描述
半监督学习在医学图像分割中越来越受欢迎,因为它能够利用大量未标记的数据来提取额外的信息。然而,大多数现有的半监督分割方法只专注于从未标记数据中提取信息,而忽略了标记数据进一步提高模型性能的潜力。在本文中,我们提出了一个新的相关感知相互学习(CAML)框架,利用标记的数据来指导从未标记的数据中提取信息。我们的方法是基于一个相互学习的策略,其中包括两个模块:交叉样本相互注意模块(CMA)和全相关一致性模块(OCC)。CMA模块在一组样本之间建立密集的交叉样本相关性,使得标签先验知识能够转移到未标记的数据。OCC模块构造未标记数据集和标记数据集之间的全相关性,并通过约束每个子模型的全相关矩阵一致来正则化对偶模型。心房分割挑战数据集的实验表明,我们提出的方法优于国家的最先进的方法,突出了我们的框架在医学图像分割任务的有效性。代码、预先训练的权重和数据是公开可用的。

1.2 RFENet: Towards Reciprocal Feature Evolution for Glass Segmentation

RFENet:面向玻璃分割的互易特征进化

https://arxiv.org/abs/2307.06099

在这里插入图片描述
类玻璃物体广泛存在于日常生活中,但对于大多数现有方法来说,仍然难以分割。透明性使其很难从背景中区分出来,而微小的分离边界进一步阻碍了它们精确轮廓的获取。在本文中,通过揭示语义和边界学习的关键协同进化需求,我们提出了一个选择性相互进化(SME)模块,使他们之间的互惠特征学习。然后,利用全球形状上下文,我们提出了一个结构注意细化(SAR)模块进行细粒度的特征细化边界周围的那些模糊点。最后,为了进一步利用多尺度表示,我们将上述两个模块集成到一个级联结构中,然后引入一个互惠特征进化网络(RFENet)进行有效的玻璃状物体分割。大量的实验表明,我们的RFENet达到国家的最先进的性能在三个流行的公共数据集。

1.3 Sem-CS: Semantic CLIPStyler for Text-Based Image Style Transfer

基于文本的图像风格转换语义CLIPStyler

https://arxiv.org/abs/2307.05934

在这里插入图片描述
CLIPStyler演示了仅使用样式文本描述(而不需要参考样式图像)与真实纹理的图像样式转换。然而,由于在突出对象和背景对象上的样式溢出(内容不匹配)或过度样式化,样式传递输出中的对象的基础语义丢失。为了解决这个问题,我们提出了语义CLIPStyler(Sem-CS),执行语义风格转移。Sem-CS首先将内容图像分割成显著对象和非显著对象,然后基于给定的风格文本描述来传递艺术风格。使用全局前景损失(对于显著对象)和全局背景损失(对于非显著对象)来实现语义风格转移。我们的实证结果,包括DISTS,NIMA和用户研究分数,表明我们提出的框架产生了优异的定性和定量性能。我们的代码可在www.example.com上获得github.com/chandagrover/sem-cs。

1.4 Rectifying Noisy Labels with Sequential Prior: Multi-Scale Temporal Feature Affinity Learning for Robust Video Segmentation

基于序贯先验的噪声标签校正:多尺度时间特征亲和性学习用于视频分割

https://arxiv.org/abs/2307.05898

在这里插入图片描述
医学图像分割中不可避免地存在噪声标记问题,导致严重的性能下降。以前的分割方法的噪声标签的问题,只利用一个单一的图像,而利用图像之间的相关性的潜力被忽视。特别是对于视频分割,相邻帧包含丰富的上下文信息,有利于认知噪声标签。基于这两个见解,我们提出了一个多尺度时间特征亲和学习(MS-TFAL)框架来解决噪声标记的医疗视频分割问题。首先,我们认为视频的顺序先验是有效的参考,即,来自相邻帧的像素级特征对于同一类在距离上接近,否则在距离上远。因此,时间特征亲和学习(TFAL)被设计为通过评估两个相邻帧中的像素之间的亲和度来指示可能的噪声标签。我们还注意到,噪声分布在视频、图像和像素级别上表现出相当大的变化。通过这种方式,我们引入了多尺度监督(MSS),通过重新加权和细化样本,从三个不同的角度来监督网络。这种设计使网络能够以从粗到细的方式集中于干净的样本。合成和现实世界的标签噪声的实验表明,我们的方法优于最近的国家的最先进的强大的分割方法。代码可在www.example.com获得https://github.com/BeileiCui/MS-TFAL。

1.5 OG: Equip vision occupancy with instance segmentation and visual grounding

OG:为视觉占有率配备实例分割和视觉基础

https://arxiv.org/abs/2307.05873

在这里插入图片描述
占用预测任务集中在每个体素的几何和语义标签的推断,这是一个重要的感知任务。然而,它仍然是一个语义分割任务,没有区分各种实例。此外,虽然一些现有的作品,如开放词汇占用(OVO),已经解决了开放词汇检测的问题,视觉接地在占用还没有得到解决,以我们的知识。为了解决上述两个限制,本文提出了占用接地(OG),一种新的方法,配备香草占用实例分割能力,并可以操作视觉接地体素的方式与接地SAM的帮助下。我们的方法的关键是(1)用于实例聚类的亲和场预测和(2)用于对齐2D实例掩码和3D占用实例的关联策略。已经进行了大量的实验,其可视化结果和分析如下所示。我们的代码将很快公开发布。

1.6 SITTA: A Semantic Image-Text Alignment for Image Captioning

SITTA:一种面向图像字幕的语义图文对齐方法

https://arxiv.org/abs/2307.05591

在这里插入图片描述
对图像的文本和语义理解对于生成正确的字幕至关重要。的理解需要检测的对象,它们之间的关系建模,评估的语义场景,最后,在语言空间中表示提取的知识。为了实现丰富的语言能力,同时确保良好的图像语言映射,预训练的语言模型(LM)的条件下,预训练的多模态(图像-文本)模型,允许图像输入。这需要将多模态模型的图像表示与生成LM的语言表示对齐。然而,不清楚如何最好地将由多模态模型的视觉编码器检测到的语义传递到LM。我们引入了两种新的方法来构建一个线性映射,成功地传递两个预训练模型的嵌入空间之间的语义。第一种方法将多模态语言编码器的嵌入空间与预训练LM的嵌入空间对齐,通过令牌对应关系。后者利用由图像-文本对组成的额外数据来构建直接从视觉到语言空间的映射。使用我们的语义映射,我们解锁图像字幕LM没有访问梯度信息。通过使用不同的数据源,我们在MS-COCO和Flickr 30 k数据集上实现了强大的字幕性能。即使在有限的数据面前,我们的方法部分超过了其他zero-shot甚至微调竞争对手的性能。我们的消融研究表明,即使在规模仅为250 M参数的LM可以生成体面的字幕,采用我们的语义映射。我们的方法使图像字幕更容易获得的机构与有限的计算资源。

1.7 3D Medical Image Segmentation based on multi-scale MPU-Net

基于多尺度MPU网络的三维医学图像分割

https://arxiv.org/abs/2307.05799

在这里插入图片描述
癌症的高治愈率与医生诊断和治疗的准确性密不可分,因此,在医疗行业的许多应用中,能够完成高精度肿瘤分割的模型已成为必需品。它能有效降低误诊率,同时大大减轻临床医生的负担。然而,由于3D体积器官的不规则立体结构,全自动目标器官分割是有问题的。作为这类实际应用的基本模型,U-Net表现出色。它可以学习某些全局和局部特征,但仍然缺乏在多尺度上把握空间长程关系和上下文信息的能力。本文提出了一个肿瘤分割模型MPU-Net患者体积CT图像,这是受Transformer的启发与全局注意机制。通过将图像序列化与位置注意模块相结合,该模型试图理解更深层次的上下文依赖关系并实现精确定位。解码器的每一层还配备了多尺度模块和交叉注意机制。在不同层次的特征提取和集成的能力得到了增强,在这项研究中开发的混合损失函数可以更好地利用高分辨率的特征信息。此外,建议的架构在肝脏肿瘤分割挑战2017(LiTS 2017)数据集上进行了测试和评估。与基准模型U-Net相比,MPU-Net显示了良好的分割效果。最佳模型分割结果的骰子、准确度、精确度、特异性、IOU和MCC指标分别为92.17%、99.08%、91.91%、99.52%、85.91%和91.74%。各方面的突出指标说明了该框架在自动医学图像分割中的卓越性能。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/21083.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Django_静态资源配置和ajax(九)

目录 一、静态资源配置 二、AJAX ajax作用 使用ajax 1、环境配置 2、创建html模板文件 3、编写视图函数并添加路由 4、运行django开发服务器进行验证 源码等资料获取方法 一、静态资源配置 静态资源的相关配置都在项目目录下的 settings.py 文件中进行配置。配置参数如…

MySQL主从复制

文章目录 介绍配置——前置条件配置——主库配置——从库测试读写分离案例背景Sharding-JDBC介绍入门案例 介绍 MySQL主从复制是一个异步的复制过程,底层是基于MySQL数据库自带的二进制日志功能。就是一台或多台MySQL数据库(slave,即从库&…

23数字图像置乱技术(matlab程序)

1.简述 一、引言 所谓“置乱”,就是将图像的信息次序打乱,a像素移动到b像素位置上,b像素移动到c像素位置上,……,使其变换成杂乱无章难以辨认的图片。数字图像置乱技术属于加密技术,是指发送发借助数学或者…

6.EFLFK(EFLK+kafka)

文章目录 EFLFK(EFLKkafka)zookeeper概述Zookeeper 特点数据结构和工作场景选举机制(重要)总结部署Zookeeper kafka为什么用消息队列(MQ)中间件使用消息队列的好处消息队列模式消息队列总结:kafka概述Kafka特性Kafka架…

怎样优雅地增删查改(六):按任意字段关键字查询

文章目录 实现应用测试 实现 定义按任意字段关键字查询过滤器(IKeywordOrientedFilter)接口,查询实体列表Dto若实现该接口,将筛选指定的目标字段(TargetFields)包含指定的关键字(Keyword&#…

基于springboot的地铁轨道交通运营系统

博主主页:猫头鹰源码 博主简介:Java领域优质创作者、CSDN博客专家、公司架构师、全网粉丝5万、专注Java技术领域和毕业设计项目实战 主要内容:毕业设计(Javaweb项目|小程序等)、简历模板、学习资料、面试题库、技术咨询 文末联系获取 项目介绍…

推荐Selenium 自动化测试实战

你将获得 深入 Selenium 源码、原理、封装、技巧; unittest、pytest、DDT、POM 迭代测试方法; 大型项目分布式测试解决方案; Jenkins 持续集成和交付。 演示地址:www.runruncode.com/portal/article/index/id/19451/cid/85.html 课…

Java设计模式-责任链(Chain of Responsibility)模式

介绍 Java责任链(Chain of Responsibility)设计模式是指很多处理对象构成一个链,链中前一个对象指向后一个对象。请求在链中传递,一个请求可以被一个或者多个对象处理。调用方(即客户端)不知道请求会被链中…

Node连接Mongodb数据库

1.初始化 npm init 2.安装mongoose npm i mongoose 3.导入mongoose const mongooserequire("mongoose") 4.连接mongodb服务 mongoose.connect("mongodb://127.0.0.1:27017/user") 说明:mongodb是协议,user是数据库,如果没有会自动创…

【计算机视觉 | 目标检测】arxiv 计算机视觉关于目标检测的学术速递(7 月 13 日论文合集)

文章目录 一、检测相关(8篇)1.1 Exposing the Fake: Effective Diffusion-Generated Images Detection1.2 Large Class Separation is not what you need for Relational Reasoning-based OOD Detection1.3 Visualization for Multivariate Gaussian Anomaly Detection in Imag…

matlab学习指南(1):matlab初步入门详细介绍

🌅*🔹** φ(゜▽゜*)♪ **🔹*🌅 欢迎来到馒头侠的博客,该类目主要讲数学建模的知识,大家一起学习,联系最后的横幅! 喜欢的朋友可以关注下,私信下次更新不迷路&#xff0…

开源预训练框架 MMPRETRAIN官方文档(概览、环境安装与验证、基础用户指南)

MMPretrain是全新升级的开源预训练框架。它已着手提供多个强大的预训练骨干网并支持不同的预训练策略。MMPretrain 源自著名的开源项目 MMClassification 和MMSelfSup,并开发了许多令人兴奋的新功能。目前,预训练阶段对于视觉识别至关重要。凭借丰富而强…