文章目录
- 一、检测相关(5篇)
- 1.1 Contextual Affinity Distillation for Image Anomaly Detection
- 1.2 Noise-to-Norm Reconstruction for Industrial Anomaly Detection and Localization
- 1.3 MMNet: Multi-Collaboration and Multi-Supervision Network for Sequential Deepfake Detection
- 1.4 GIT: Detecting Uncertainty, Out-Of-Distribution and Adversarial Samples using Gradients and Invariance Transformations
- 1.5 Anomaly detection in image or latent space of patch-based auto-encoders for industrial image analysis
- 二、分割|语义相关(7篇)
- 2.1 Probabilistic and Semantic Descriptions of Image Manifolds and Their Applications
- 2.2 Towards accurate instance segmentation in large-scale LiDAR point clouds
- 2.3 Semi-supervised Domain Adaptive Medical Image Segmentation through Consistency Regularized Disentangled Contrastive Learning
- 2.4 Spherical Feature Pyramid Networks For Semantic Segmentation
- 2.5 GNEP Based Dynamic Segmentation and Motion Estimation for Neuromorphic Imaging
- 2.6 Topology-Aware Loss for Aorta and Great Vessel Segmentation in Computed Tomography Images
- 2.7 Self-supervised learning via inter-modal reconstruction and feature projection networks for label-efficient 3D-to-2D segmentation
一、检测相关(5篇)
1.1 Contextual Affinity Distillation for Image Anomaly Detection
用于图像异常检测的上下文亲和度提取
https://arxiv.org/abs/2307.03101
以往的无监督工业异常检测工作主要集中在局部结构异常,如裂纹和颜色污染。虽然在这种异常上实现了显着的高检测性能,但它们面临着违反远程依赖性的逻辑异常,例如放置在错误位置的正常对象。在本文中,基于以前的知识蒸馏工程,我们建议使用两个学生(本地和全球),以更好地模仿教师的行为。在以往的研究中,局部学生主要关注结构异常检测,而全局学生则关注逻辑异常。为了进一步鼓励全球学生的学习,以捕捉远程依赖关系,我们设计的全球上下文压缩块(GCCB),并提出了一个上下文的亲和力损失的学生训练和异常评分。实验结果表明,该方法不需要繁琐的训练技术,并取得了新的国家的最先进的性能MVTec LOCO AD数据集。
1.2 Noise-to-Norm Reconstruction for Industrial Anomaly Detection and Localization
用于工业异常检测和定位的信噪比重建
https://arxiv.org/abs/2307.02836
异常检测有着广泛的应用,在工业质量检测中尤为重要。目前,许多表现最好的异常检测模型依赖于特征嵌入方法。然而,这些方法在对象位置变化较大的数据集上表现不佳。基于重建的方法使用重建误差来检测异常,而不考虑样本之间的位置差异。在这项研究中,提出了一种基于重建的方法,使用噪声到规范的范例,它避免了不变性的异常区域的重建。我们的重建网络是基于M-网,并采用多尺度融合和剩余注意力模块,使端到端的异常检测和定位。实验结果表明,该方法能有效地将异常区域重构为正常模式,实现准确的异常检测和定位。在MPDD和VisA数据集上,我们提出的方法比最新的方法取得了更有竞争力的结果,并在MPDD数据集上建立了一个新的最先进的标准。
1.3 MMNet: Multi-Collaboration and Multi-Supervision Network for Sequential Deepfake Detection
MMNet:多协作、多监控的序列深伪检测网络
https://arxiv.org/abs/2307.02733
先进的操纵技术为犯罪分子提供了制造社会恐慌或通过产生欺骗性媒体(如伪造的人脸图像)获取非法利润的机会。作为回应,已经提出了各种深度伪造检测方法来评估图像的真实性。序列深度伪造检测是深度伪造检测的扩展,旨在识别具有正确序列的伪造面部区域以进行恢复。然而,由于空间和顺序操作的不同组合,伪造的人脸图像表现出严重影响检测性能的实质性差异。此外,伪造图像的恢复需要操纵模型的知识来实现逆变换,这是难以确定的,因为相关技术通常被攻击者隐藏。为了解决这些问题,我们提出了多协作和多监督网络(MMNet),处理各种空间尺度和顺序排列伪造的人脸图像,并实现恢复,而不需要相应的操作方法的知识。此外,现有的评估指标只考虑检测精度在一个单一的推断步骤,没有考虑的匹配程度与地面真理在连续多个步骤。为了克服这一限制,我们提出了一种新的评价指标,称为完整序列匹配(CSM),它认为在多个推断步骤的检测精度,反映了检测整体伪造序列的能力。在几个典型数据集上的实验表明,MMNet具有最佳的检测性能和独立恢复性能。
1.4 GIT: Detecting Uncertainty, Out-Of-Distribution and Adversarial Samples using Gradients and Invariance Transformations
GIT:使用梯度和不变性变换检测不确定性、非分布和对抗性样本
https://arxiv.org/abs/2307.02672
深度神经网络倾向于做出过度自信的预测,并且通常需要额外的错误分类检测器,特别是对于安全关键型应用。现有的检测方法通常只关注对抗性攻击或分布外的样本作为错误预测的原因。然而,泛化错误的发生是由于各种原因,往往与学习相关的不变性差。因此,我们提出了GIT,一个整体的方法,结合使用梯度信息和不变性变换的泛化错误的检测。不变性变换被设计成将错误分类的样本移回神经网络的泛化区域,而梯度信息测量初始预测与使用变换后的样本的神经网络的相应固有计算之间的矛盾。我们的实验表明,GIT的优越性能相比,国家的最先进的各种网络架构,问题设置和扰动类型。
1.5 Anomaly detection in image or latent space of patch-based auto-encoders for industrial image analysis
用于工业图像分析的基于块的自动编码器的图像或潜在空间的异常检测
https://arxiv.org/abs/2307.02495
我们研究了几种方法,用于检测彩色图像中的异常,构建基于补丁的自动编码器。我们比较了三种类型的方法的基础上,第一,原始图像和重建之间的错误,第二,在潜空间中的正常图像分布的支持估计,第三,在originalimage和重建图像的恢复版本之间的错误的性能。这些方法进行评估的工业图像数据库MVTecAD和两个竞争的国家的最先进的方法相比。
二、分割|语义相关(7篇)
2.1 Probabilistic and Semantic Descriptions of Image Manifolds and Their Applications
图像流形的概率和语义描述及其应用
https://arxiv.org/abs/2307.02881
本文首先描述的方法估计概率密度函数的图像,反映了观察,这些数据通常被限制在有限的区域的高维图像空间-不是每一个模式的像素是一个图像。通常说图像位于高维空间中的低维流形上。然而,尽管图像可能位于这种低维流形上,但并非流形上的所有点都具有相等的图像概率。图像是不均匀分布在流形上,我们的任务是设计方法来模拟这种分布的概率分布。在追求这一目标的过程中,我们考虑了在AI和计算机视觉社区中流行的生成模型。为了我们的目的,生成/概率模型应该具有以下属性:1)样本生成:应该可以根据建模的密度函数从该分布中采样,以及2)概率计算:给定来自感兴趣的数据集的先前未见过的样本,应当能够计算样本的概率,至少达到归一化常数。为此,我们研究使用的方法,如正常化的流量和扩散模型。然后,我们表明,这种概率描述可以用来构建防御对抗性攻击。除了在密度方面描述的流形,我们还考虑如何语义解释可以用来描述点的流形。为此,我们考虑一个新兴的语言框架,它利用变分编码器产生一个解开表示点,驻留在一个给定的流形。流形上的点之间的轨迹,然后可以描述在不断发展的语义描述。
2.2 Towards accurate instance segmentation in large-scale LiDAR point clouds
大比例尺激光雷达点云中的精确实例分割
https://arxiv.org/abs/2307.02877
全景分割是语义分割和实例分割的组合:将3D点云中的点分配给语义类别,并将它们划分为不同的对象实例。它在户外场景理解方面有许多明显的应用,从城市测绘到森林管理。现有的方法努力分割附近的实例相同的语义类别,如相邻的街道设施或相邻的树木,这限制了它们的可用性的库存或管理类型的应用程序,依赖于对象实例。本研究探讨了与将点聚类为对象实例有关的全景分割流水线的步骤,其目标是缓解该瓶颈。我们发现,一个精心设计的聚类策略,利用多种类型的学习点嵌入,显着提高实例分割。NPM3D城市移动地图数据集和FOR实例森林数据集上的实验证明了该策略的有效性和通用性。
2.3 Semi-supervised Domain Adaptive Medical Image Segmentation through Consistency Regularized Disentangled Contrastive Learning
基于一致性正则化解缠对比学习的半监督领域自适应医学图像分割
https://arxiv.org/abs/2307.02798
虽然无监督域自适应(UDA)是一个很有前途的方向,以减轻域转移,他们不符合他们的监督同行。在这项工作中,我们调查了相对较少探索的半监督域自适应(SSDA)的医学图像分割,其中访问一些标记的目标样本可以大大提高自适应性能。具体而言,我们提出了一个两阶段的培训过程。首先,编码器是预先训练的自学习范式,使用一种新的域内容解开对比学习(CL)以及像素级的特征一致性约束。建议的CL强制编码器学习歧视性的内容特定的,但域不变的语义在全球范围内从源和目标图像,而一致性正则化强制挖掘本地像素级信息,保持空间敏感性。该预训练的编码器连同解码器一起被进一步微调用于下游任务(即,像素级分割)。此外,我们的实验验证,我们提出的方法可以很容易地扩展为UDA设置,增加了所提出的策略的优越性。两个域自适应图像分割任务的评估后,我们提出的方法优于SoTA方法,无论是在SSDA和UDA设置。代码可在www.example.com上获得https://github.com/hritam-98/GFDA-disentangled
2.4 Spherical Feature Pyramid Networks For Semantic Segmentation
用于语义分割的球形特征金字塔网络
https://arxiv.org/abs/2307.02658
球形数据的语义分割是机器学习中的一个具有挑战性的问题,因为传统的平面方法需要将球形图像投影到欧几里得平面。在根本不同的拓扑上表示信号会引入影响网络性能的边缘和失真。最近,基于图形的方法已经绕过了这些挑战,通过在球形网格上表示信号来实现显着的改进。目前的球形分割方法仅使用UNet架构的变体,这意味着更成功的平面架构尚未开发。受特征金字塔网络(FPNs)在平面图像分割中的成功启发,我们利用基于图的球形CNN的金字塔层次结构来设计球形FPNs。我们的球形FPN模型表现出一致的改进球形UNets,同时使用更少的参数。在斯坦福大学的2D-3D-S数据集上,我们的模型实现了最先进的性能,mIOU为48.75,比之前最好的球形CNN提高了3.75个IoU点。
2.5 GNEP Based Dynamic Segmentation and Motion Estimation for Neuromorphic Imaging
基于GNEP的神经形态成像动态分割和运动估计
https://arxiv.org/abs/2307.02595
本文探讨了基于事件的相机在图像分割和运动估计领域的应用。这些相机提供了一个突破性的技术,通过捕捉视觉信息作为一个连续的异步事件流,从传统的基于帧的图像采集。我们引入了一个广义纳什均衡为基础的框架,利用来自事件流的时间和空间信息进行分割和速度估计。为了建立理论基础,我们推导出一个存在的标准,并提出了一个多层次的优化方法计算平衡。通过一系列的实验表明这种方法的有效性。
2.6 Topology-Aware Loss for Aorta and Great Vessel Segmentation in Computed Tomography Images
CT图像中大动脉和大血管的拓扑感知丢失与分割
https://arxiv.org/abs/2307.03137
当用标准损失函数训练分割网络时,没有明确地强加于学习图像的全局不变量,例如对象的形状和多个对象之间的几何形状。另一方面,将这样的不变量合并到网络训练中可以帮助提高各种分割任务的性能,当它们是要分割的对象的固有特性时。一个示例是计算机断层摄影(CT)图像中的主动脉和大血管的分割,其中血管由于人体解剖结构而在身体中以特定几何形状被发现,并且它们在2D CT图像上大多看起来像圆形对象。本文通过引入一个新的拓扑感知损失函数来解决这个问题,该函数通过持久同源性来惩罚地面实况和预测之间的拓扑差异。从以前建议的分割网络设计,其中应用阈值过滤的预测图的似然函数和地面实况的贝蒂数,本文提出应用Vietoris-Rips过滤获得地面实况和预测图的持久性图,并计算与相应的持久性图之间的Wasserstein距离的不相似性。该过滤的使用具有同时对形状和几何形状建模的优点,这在应用阈值过滤时可能不会发生。我们的实验4327 CT图像的24个科目显示,所提出的拓扑意识的损失函数导致更好的结果比它的同行,表明这种使用的有效性。
2.7 Self-supervised learning via inter-modal reconstruction and feature projection networks for label-efficient 3D-to-2D segmentation
基于模式间重建和特征投影网络的自监督学习用于标签高效的3D到2D分割
https://arxiv.org/abs/2307.03008
深度学习已经成为自动化某些医学图像分割任务的重要工具,大大减轻了医学专家的工作量。这些任务中的一些需要在输入维度的子集上执行分割,最常见的情况是3D到2D。然而,现有方法的性能受到可用的标记数据的量的强烈制约,因为目前没有数据有效的方法,例如,迁移学习,已经在这些任务中得到验证。在这项工作中,我们提出了一种新的卷积神经网络(CNN)和自监督学习(SSL)的标签高效的3D到2D分割方法。CNN由通过新颖的3D到2D块连接的3D编码器和2D解码器组成。SSL方法包括重建具有不同维度的模态的图像对。该方法已在两项具有临床相关性的任务中得到验证:光学相干断层扫描中地图样萎缩和网状假性玻璃疣的正面分割。不同数据集的结果表明,所提出的CNN显著提高了最新技术水平的情况下,标记数据有限的场景中的Dice得分高达8%。此外,建议的SSL方法允许进一步提高这种性能高达23%,我们表明,无论网络架构的SSL是有益的。