【AI视野·今日CV 计算机视觉论文速览第299期】Mon, 29 Jan 2024-编程知识

AI视野·今日CS.CV 计算机视觉论文速览
Mon, 29 Jan 2024
Totally 55 papers
👉上期速览✈更多精彩请移步主页

在这里插入图片描述

Daily Computer Vision Papers

Annotated Hands for Generative Models
Authors Yue Yang, Atith N Gandhi, Greg Turk
GAN 和扩散模型等生成模型已经展示了令人印象深刻的图像生成能力。尽管取得了这些成功，但这些系统在用手创建图像方面却表现得令人惊讶。我们提出了一种新颖的生成模型训练框架，可以大大提高此类系统创建手部图像的能力。我们的方法是通过三个附加通道来增强训练图像，这些通道为图像中的手提供注释。这些注释提供了额外的结构，可以引导生成模型生成更高质量的手部图像。我们在两种不同的生成模型（生成对抗网络和扩散模型）上演示了这种方法。我们在新的手部图像合成数据集和包含手部的真实照片上展示了我们的方法。

From GPT-4 to Gemini and Beyond: Assessing the Landscape of MLLMs on Generalizability, Trustworthiness and Causality through Four Modalities
Authors Chaochao Lu, Chen Qian, Guodong Zheng, Hongxing Fan, Hongzhi Gao, Jie Zhang, Jing Shao, Jingyi Deng, Jinlan Fu, Kexin Huang, Kunchang Li, Lijun Li, Limin Wang, Lu Sheng, Meiqi Chen, Ming Zhang, Qibing Ren, Sirui Chen, Tao Gui, Wanli Ouyang, Yali Wang, Yan Teng, Yaru Wang, Yi Wang, Yinan He, Yingchun Wang, Yixu Wang, Yongting Zhang, Yu Qiao, Yujiong Shen, Yurong Mou, Yuxi Chen, Zaibin Zhang, Zhelun Shi, Zhenfei Yin, Zhipin Wang
多模态大语言模型 MLLM 在针对多模态内容生成合理响应方面表现出了令人印象深刻的能力。然而，尽管已经部署了最强大的 OpenAI 的 GPT 4 和 Google 的 Gemini，但最近基于 MLLM 的应用程序的性能与广大公众的期望之间仍然存在很大差距。本文致力于通过对文本、代码、图像和视频四种模式的最新专有和开源 MLLM 的普遍性、可信度和因果推理能力进行定性研究，增强对差距的理解，最终旨在提高 MLLM 的透明度。我们相信这些特性是定义 MLLM 在支持各种下游应用方面的可靠性的几个代表性因素。具体来说，我们评估了闭源 GPT 4 和 Gemini 以及 6 个开源 LLM 和 MLLM。总的来说，我们评估了 230 个手动设计的案例，然后将定性结果总结为 12 个分数，即 4 种模式乘以 3 个属性。

Deep learning-based approach for tomato classification in complex scenes
Authors Mikael A. Mousse, Bethel C. A. R. K. Atohoun, Cina Motamed
追踪成熟的西红柿既耗时又费力。人工智能技术与计算机视觉技术相结合，可以帮助用户优化监测植物成熟状态的过程。为此，我们提出了一种基于复杂场景下深度学习的番茄成熟监测方法。目的是检测成熟的西红柿并及时收获。提议的方法分两部分被拒绝。首先，将场景图像传输到预处理层。此过程允许检测包含西红柿的图像的感兴趣区域。然后，这些图像用作成熟度检测层的输入。该层基于深度神经网络学习算法，将提供给它的番茄缩略图分为以下五类之一：绿色、脆性、粉红色、淡红色、成熟红色。这些实验基于从互联网上收集的图像，这些图像是通过使用番茄状态在英语、德语、法语和西班牙语等多种语言中进行搜索而收集的。

Unrecognizable Yet Identifiable: Image Distortion with Preserved Embeddings
Authors Dmytro Zakharov, Oleksandr Kuznetsov, Emanuele Frontoni
在安全应用领域，生物识别系统发挥着至关重要的作用，但在开发生物识别系统时经常遇到隐私和安全方面的挑战。最基本的挑战之一在于避免将生物识别信息直接存储在存储器中，但仍能实现相当高的准确性。为了解决这个问题，我们为人工智能和工程领域做出了贡献。我们引入了一种创新的图像失真技术，可以有效地使人眼无法识别面部图像，同时通过神经网络模型保持其可识别性。从理论角度来看，我们通过检查图像失真的最大程度来探索最先进的生物识别神经网络的可靠性，这使得预测的身份保持不变。另一方面，应用该技术展示了平衡生物识别系统中的安全性、精度和性能的工程挑战的实用解决方案。通过对广泛使用的数据集进行实验，我们评估了我们的方法在保留人工智能特征表示和相对于传统指标的扭曲方面的有效性。

Learning Neural Radiance Fields of Forest Structure for Scalable and Fine Monitoring
Authors Juan Castorena
这项工作利用神经辐射场和遥感进行林业应用。在这里，我们展示了神经辐射场为改进森林监测中现有遥感方法提供了广泛的可能性。我们提出的实验证明了它们的潜力：1 表达森林 3D 结构的精细特征，2 融合可用的遥感模式，3 改进 3D 结构导出的森林指标。

BackdoorBench: A Comprehensive Benchmark and Analysis of Backdoor Learning
Authors Baoyuan Wu, Hongrui Chen, Mingda Zhang, Zihao Zhu, Shaokui Wei, Danni Yuan, Mingli Zhu, Ruotong Wang, Li Liu, Chao Shen
作为研究深度神经网络漏洞DNN的新兴重要课题，后门学习近年来引起了越来越多的兴趣，许多开创性的后门攻击和防御算法正在相继或同时开发，处于快速军备竞赛的状态。然而，主要由于设置的多样性，以及现有工作的实施和再现性的困难，缺乏统一和规范的后门学习基准，导致不公平的比较，以及不可靠的结论，例如误导、有偏见甚至错误的结论。因此，很难评估该文献当前的进展并设计未来的发展路线。为了缓解这种困境，我们建立了一个名为 BackdoorBench 的综合后门学习基准。我们的基准为研究界做出了三项宝贵的贡献。 1 我们提供最先进的 SOTA 后门学习算法的集成实现，目前包括 16 种攻击算法和 27 种防御算法，基于可扩展的模块化代码库。 2 我们基于 4 个模型和 4 个数据集，对 12 种攻击、16 种防御、5 种中毒率进行了综合评估，总共 11,492 对评估。 3 基于上述评估，我们通过 18 个有用的分析工具从 8 个角度进行了丰富的分析，并提供了一些关于后门学习的启发性见解。我们希望我们的努力能够为后门学习奠定坚实的基础，方便研究人员研究现有算法，开发更多创新算法，探索后门学习的内在机制。

Masked Pre-trained Model Enables Universal Zero-shot Denoiser
Authors Xiaoxiao Ma, Zhixiang Wei, Yi Jin, Pengyang Ling, Tianle Liu, Ben Wang, Junkang Dai, Huaian Chen, Enhong Chen
在这项工作中，我们观察到该模型使用掩蔽策略在大量普通图像上进行训练，自然地嵌入了有关自然图像的分布知识，从而自发地获得了强图像去噪的潜在潜力。基于这一观察，我们提出了一种新颖的零样本去噪范例，即 Masked Pre train then Iterative fill MPI 。 MPI 使用掩蔽来预训练模型，并对其进行微调，以对单个图像进行去噪，从而实现看不见的噪声退化。具体而言，所提出的 MPI 包括两个关键程序： 1 掩码预训练涉及使用随机掩码在多个自然图像上训练模型以收集可概括的表示，从而允许在不同的噪声退化甚至不同图像类型中进行实际应用。 2 迭代填充旨在有效融合预先训练的去噪知识。与预训练类似但不同的是，保留随机掩蔽以弥补差距，但为了提高效率，仅组装掩蔽覆盖的预测部分，从而在有限的迭代次数内实现高质量的去噪。跨各种噪声场景的综合实验强调了所提出的 MPI 相对于以前的方法的显着进步，并且推理时间显着减少。

DAM: Diffusion Activation Maximization for 3D Global Explanations
Authors Hanxiao Tan
近年来，点云模型的性能得到了快速提升。然而，由于相关可解释性研究的数量有限，这些黑盒模型的不可靠性和不透明性可能会在危及人类生命的应用中带来潜在风险，例如：自动驾驶或医疗保健。这项工作提出了一种基于 DDPM 的点云全局可解释性方法 DAM，该方法利用点扩散变换器 PDT（一种新颖的点对称模型）和双分类器指导来生成高质量的全局解释。此外，还提出了一种适用于 DAM 的路径梯度积分方法，该方法不仅提供了点云类别显着性图的全局概述，而且还揭示了解释的属性在生成过程中如何变化。大量的实验表明，我们的方法在可感知性、代表性和多样性方面优于现有方法，并且生成时间显着减少。

PARSAC: Accelerating Robust Multi-Model Fitting with Parallel Sample Consensus
Authors Florian Kluger, Bodo Rosenhahn
我们提出了一种实时方法，用于从噪声数据中鲁棒地估计几何模型的多个实例。消失点、平面单应性或基本矩阵等几何模型对于 3D 场景分析至关重要。以前的方法以迭代方式发现不同的模型实例，从而限制了它们通过并行计算加速的潜力。相比之下，我们的方法独立且并行地检测所有模型实例。神经网络通过预测多组样本和内点权重，将输入数据分割成代表潜在模型实例的簇。使用预测的权重，我们以类似 RANSAC 的方式分别确定每个潜在实例的模型参数。我们通过特定于任务的损失函数来训练神经网络，即我们不需要输入数据的真实分割。由于单应性和基本矩阵拟合的合适训练数据很少，我们另外提供了两个新的合成数据集。

MPTQ-ViT:Mixed-PrecisionPost-TrainingQuantizationforVisionTransformer
Authors Yu Shan Tai, An Yeu Andy Wu
虽然视觉转换器 ViT 在计算机视觉任务中显示出巨大潜力，但其密集的计算和内存需求给实际应用带来了挑战。现有的训练后量化方法利用值重新分配或专门的量化器来解决 ViT 中的非正态分布。然而，如果不考虑激活的不对称性并依赖于手工设置，这些方法通常很难在低位量化下保持性能。为了克服这些挑战，我们引入了带有偏置项 SQ b 的 SmoothQuant，以缓解不对称问题并减少钳位损耗。我们还引入了最佳缩放因子比率搜索 OPT m，以通过数据依赖机制自动确定量化参数。为了进一步增强可压缩性，我们结合了上述技术，并提出了一种用于视觉变换器 MPTQ ViT 的混合精度训练后量化框架。我们开发了贪婪混合精度量化 Greedy MP，以考虑模型性能和可压缩性来分配逐层位宽。我们在 ViT、DeiT 和 Swin 上的实验表明，与 ImageNet 数据集上的 SOTA 相比，准确性有了显着提高。

Implicit Neural Representation for Physics-driven Actuated Soft Bodies
Authors Lingchen Yang, Byungsoo Kim, Gaspard Zoss, Baran G zc , Markus Gross, Barbara Solenthaler
主动软体可以通过引起变形的内部驱动机制影响其形状。与最近的工作类似，本文利用可微分、准静态和基于物理的模拟层来优化由神经网络参数化的驱动信号。我们的主要贡献是通过定义一个函数来控制主动软体的通用隐式公式，该函数能够实现从材料空间中的空间点到驱动值的连续映射。这一特性使我们能够捕获信号的主频率，使该方法与离散化无关并具有广泛的适用性。我们将隐式模型扩展到下颌运动学的特定情况下的面部动画，并表明我们可以可靠地再现用高质量捕获系统捕获的面部表情。

Memory-Inspired Temporal Prompt Interaction for Text-Image Classification
Authors Xinyao Yu, Hao Sun, Ziwei Niu, Rui Qin, Zhenjia Bai, Yen Wei Chen, Lanfen Lin
近年来，大规模预训练多模态模型 LMM 普遍出现，以整合视觉和语言模态，在各种自然语言处理和计算机视觉任务中取得了相当大的成功。然而，LMM 规模的不断增长导致了为下游任务微调这些模型的巨大计算成本。因此，研究了基于提示的交互策略，以更有效地调整模式。在这种背景下，我们提出了一种受人类记忆策略启发的基于提示的新型多模态交互策略，即记忆启发时间提示交互 MITP 。我们提出的方法涉及两个阶段，如人类记忆策略中的获取阶段以及巩固和激活阶段。我们利用中间层上的时间提示来模拟获取阶段，利用基于相似性的提示交互来模拟记忆巩固，并采用提示生成策略来模拟记忆激活。我们论文的主要优点是我们在中间层上交互提示向量，以利用模态之间充分的信息交换，并压缩可训练参数和内存使用。

Adaptive Point Transformer
Authors Alessandro Baiocchi, Indro Spinelli, Alessandro Nicolosi, Simone Scardapane
最近 3D 数据采集的激增刺激了用于点云处理的几何深度学习模型的发展，而 Transformer 在自然语言处理方面取得的巨大成功也推动了这一发展。虽然点云变换器 PT 最近取得了令人印象深刻的成果，但它们相对于点云大小的二次缩放对现实世界的应用程序提出了重大的可扩展性挑战。为了解决这个问题，我们提出了自适应点云转换器 AdaPT，这是一种通过自适应令牌选择机制增强的标准 PT 模型。 AdaPT 在推理过程中动态减少标记数量，从而实现大型点云的高效处理。此外，我们引入了一种预算机制，可以在推理时灵活调整模型的计算成本，而无需重新训练或微调单独的模型。我们对点云分类任务的广泛实验评估表明，与标准 PT 相比，AdaPT 显着降低了计算复杂性，同时保持了有竞争力的准确性。

Multi-modality action recognition based on dual feature shift in vehicle cabin monitoring
Authors Dan Lin, Philip Hann Yung Lee, Yiming Li, Ruoyu Wang, Kim Hui Yap, Bingbing Li, You Shing Ngim
驾驶员动作识别 DAR 在车厢监控系统中至关重要。在现实应用中，车厢内通常配备不同模式的摄像头。然而，车舱内 DAR 任务的多模态融合策略却很少被研究。在本文中，我们提出了一种基于双特征转换的新颖而有效的多模态驾驶员动作识别方法，称为DFS。 DFS 首先通过执行模态特征交互来集成跨模态的互补特征。同时，DFS 通过时间帧之间的特征移位来实现单模态内的邻近特征传播。为了学习常见模式并提高模型效率，DFS 在多种模态之间共享特征提取阶段。已经进行了大量的实验来验证所提出的 DFS 模型在 Drive Act 数据集上的有效性。

Text Image Inpainting via Global Structure-Guided Diffusion Models
Authors Shipeng Zhu, Pengfei Fang, Chenjie Zhu, Zuoyan Zhao, Qiang Xu, Hui Xue
现实世界的文本可能会因环境或人为因素引起的腐蚀问题而损坏，这阻碍了文本完整风格的保存，例如纹理和结构。这些腐蚀问题，例如涂鸦标志和不完整的签名，给理解文本带来了困难，从而给下游应用（例如场景文本识别和签名识别）带来了重大挑战。值得注意的是，当前的修复技术通常无法充分解决这个问题，并且难以恢复准确的文本图像以及合理且一致的样式。本文将其表述为文本图像修复的开放问题，旨在建立一个基准来促进其研究。在此过程中，我们建立了两个特定的文本修复数据集，分别包含场景文本图像和手写文本图像。其中每一个都包含根据现实生活和合成数据集修改的图像，具有成对的原始图像、损坏的图像和其他辅助信息。在数据集之上，我们进一步开发了一种新颖的神经框架，全局结构引导扩散模型 GSDM，作为潜在的解决方案。利用文本的全局结构作为先验，所提出的 GSDM 开发了一种有效的扩散模型来恢复干净的文本。我们的方法的有效性通过彻底的实证研究得到了证明，包括识别精度和图像质量的大幅提高。这些发现不仅凸显了我们方法的有效性，而且强调了其增强更广泛的文本图像理解和处理领域的潜力。

TIP-Editor: An Accurate 3D Editor Following Both Text-Prompts And Image-Prompts
Authors Jingyu Zhuang, Di Kang, Yan Pei Cao, Guanbin Li, Liang Lin, Ying Shan
文本驱动的 3D 场景编辑因其便利性和用户友好性而受到广泛关注。然而，由于文本描述的固有局限性，现有方法仍然缺乏对编辑结果的指定外观和位置的精确控制。为此，我们提出了一个 3D 场景编辑框架 TIPEditor，它接受文本和图像提示以及用于指定编辑区域的 3D 边界框。通过图片提示，用户可以方便地指定目标内容的详细外观样式，与文字描述相辅相成，实现外观的精确控制。具体来说，TIP Editor 采用逐步 2D 个性化策略来更好地学习现有场景和参考图像的表示，其中提出定位损失以鼓励边界框指定的正确对象放置。此外，TIPEditor 使用明确且灵活的 3D 高斯泼溅作为 3D 表示，以方便本地编辑，同时保持背景不变。

PL-FSCIL: Harnessing the Power of Prompts for Few-Shot Class-Incremental Learning
Authors Songsong Tian, Lusi Li, Weijun Li, Hang Ran, Li Li, Xin Ning
Few Shot 类增量学习 FSCIL 旨在使深度神经网络能够从少量标记样本中增量学习新任务，而不会忘记以前学习过的任务，从而密切模仿人类的学习模式。在本文中，我们提出了一种名为 Prompt Learning for FSCIL PL FSCIL 的新颖方法，该方法利用提示的力量结合预先训练的 Vision Transformer ViT 模型来有效解决 FSCIL 的挑战。我们的工作开创了在 FSCIL 中使用视觉提示的先河，其特点是非常简单。 PL FSCIL 由两个不同的提示组成：域提示和 FSCIL 提示。两者都是通过将自身嵌入到 ViT 模型的注意力层来增强模型的向量。具体来说，Domain Prompt 帮助 ViT 模型适应新的数据域。任务特定的 FSCIL 提示与原型分类器相结合，增强了模型有效处理 FSCIL 任务的能力。我们在 CIFAR 100 和 CUB 200 等广泛使用的基准数据集上验证了 PL FSCIL 的功效。结果展示了具有竞争力的性能，强调了其在高质量数据往往稀缺的现实世界应用中的巨大潜力。

Deep Variational Privacy Funnel: General Modeling with Applications in Face Recognition
Authors Behrooz Razeghi, Parsa Rahimi, S bastien Marcel
在本研究中，我们利用信息论隐私漏斗 PF 模型来开发一种使用端到端训练框架来保护隐私的表示学习方法。我们严格解决混淆和实用性之间的权衡。两者都是通过对数损失来量化的，这种度量也被认为是自我信息损失。这一探索加深了信息论隐私和表示学习之间的相互作用，为判别模型和生成模型的数据保护机制提供了实质性见解。重要的是，我们将我们的模型应用于最先进的人脸识别系统。

Study of the gOMP Algorithm for Recovery of Compressed Sensed Hyperspectral Images
Authors Jon Alvarez Justo, Milica Orlandic
高光谱成像 HSI 广泛应用于遥感等领域，但由于 HS 图像包含大量光谱带，且可用数据带宽有限，因此通过通信数据链路传输 HS 图像变得具有挑战性。实际应用。压缩感知通过对每个空间像素的光谱带进行随机二次采样来减少图像，然后使用在特定变换域中施加稀疏性的恢复算法对所有频带进行图像重建。由于图像像素并不是严格稀疏的，因此这项工作研究了压缩之前的数据稀疏预处理阶段，以确保像素的稀疏性。将稀疏图像压缩2.5倍，然后使用广义正交匹配追踪算法gOMP进行恢复，该算法具有精度高、计算量低、收敛速度快的特点。实验在五幅传统高光谱图像中进行，研究了不同稀疏化级别对未压缩图像和恢复图像质量的影响。

SimpleEgo: Predicting Probabilistic Body Pose from Egocentric Cameras
Authors Hanz Cuevas Velasquez, Charlie Hewitt, Sadegh Aliakbarian, Tadas Baltru aitis
我们的工作解决了头戴式设备 HMD 上的朝下摄像头进行以自我为中心的人体姿势估计的问题。这提出了一个具有挑战性的场景，因为身体的某些部分经常落在图像之外或被遮挡。以前的解决方案通过使用鱼眼相机镜头捕获更广阔的视野来最大限度地减少这个问题，但这些可能会带来硬件设计问题。他们还预测每个关节的 2D 热图，并将其提升到 3D 空间以处理自遮挡，但这需要大型网络架构，而这在资源有限的 HMD 上部署是不切实际的。我们根据传统直线相机镜头拍摄的图像来预测姿势。这解决了硬件设计问题，但意味着身体部位经常脱离框架。因此，我们直接对参数化身体模型的表示为矩阵费舍尔分布的概率关节旋转进行回归。这使我们能够量化姿势的不确定性并解释框架外或闭塞的关节。这也消除了计算 2D 热图的需要，并允许需要更少计算的简化 DNN 架构。鉴于缺乏使用直线相机镜头的以自我为中心的数据集，我们引入了 SynthEgo 数据集，这是一个包含 60K 立体图像的合成数据集，其中包含高度多样性的姿势、形状、服装和肤色。我们的方法在这种具有挑战性的配置中实现了最先进的结果，将每个关节的平均位置误差整体减少了 23 个，下半身的平均位置误差减少了 58 个。我们的架构的参数也减少了八倍，运行速度是当前最先进技术的两倍。

Spatial Transcriptomics Analysis of Zero-shot Gene Expression Prediction
Authors Yan Yang, Md Zakir Hossain, Xuesong Li, Shafin Rahman, Eric Stone
空间转录组学 ST 捕获不同区域（即组织玻片的窗口）内的基因表达。应用于模型 ST 的传统监督学习框架仅限于从幻灯片图像窗口预测训练期间看到的基因类型的表达，无法泛化到看不见的基因类型。为了克服这一限制，我们提出了一种语义引导网络 SGN，这是一种开创性的零样本框架，用于从幻灯片图像窗口预测基因表达。考虑到基因类型可以通过功能和表型来描述，我们根据其功能和表型动态地将基因类型嵌入到向量中，并利用该向量将幻灯片图像窗口投影到特征空间中的基因表达，从而对未见过的基因类型进行零样本表达预测基因类型。通过预先训练的大语言模型法学硕士精心设计的提示来查询基因类型功能和表型。

A Comparative Study of Compressive Sensing Algorithms for Hyperspectral Imaging Reconstruction
Authors Jon Alvarez Justo, Daniela Lupu, Milica Orlandic, Ion Necoara, Tor Arne Johansen
高光谱成像包含过多的数据，因此给数据处理、存储和传输带来了重大挑战。压缩感知作为一种压缩大量数据的技术已被用于高光谱成像领域。这项工作致力于恢复 2.5 倍压缩的高光谱图像。除了贪婪的 gOMP BIHT CoSaMP 恢复算法之外，还对凸 FISTA ADMM 的精度和性能进行了比较研究。

VJT: A Video Transformer on Joint Tasks of Deblurring, Low-light Enhancement and Denoising
Authors Yuxiang Hui, Yang Liu, Yaofang Liu, Fan Jia, Jinshan Pan, Raymond Chan, Tieyong Zeng
视频恢复任务旨在从低质量观察中恢复高质量视频。这包含各种重要的子任务，例如视频去噪、去模糊和低光增强，因为视频经常面临不同类型的退化，例如模糊、低光和噪声。更糟糕的是，在极端环境中拍摄视频时，这些退化可能会同时发生。如果想要同时删除这些伪影，这会带来重大挑战。在本文中，据我们所知，我们第一个提出了一种有效的端到端视频变换器方法，用于视频去模糊、低光增强和去噪的联合任务。这项工作构建了一种新颖的多层变压器，其中每一层使用不同级别的降级视频作为目标来有效地学习视频的特征。此外，我们精心设计了一种新的分层特征融合方案，以增量学习视频特征，并通过合适的自适应加权方案加速训练过程。我们还提供了新的Multiscene Lowlight Blur Noise MLBN数据集，该数据集是根据基于RealBlur数据集和YouTube视频的联合任务的特点生成的，以尽可能模拟真实场景。

Personality Perception in Human Videos Altered by Motion Transfer Networks
Authors Ayda Yurto lu, Sinan Sonlu, Yal m Do an, U ur G d kbay
数字角色的成功个性刻画可以改善沟通和沉浸感。当前的研究重点是通过使用启发式规则或数据驱动模型修改动画来表达个性。虽然研究表明动作风格对表面个性有很大影响，但外表的作用也同样重要。这项工作分析了运动和外观对运动传输网络改变的短视频感知个性的影响。我们通过用户研究来标记会议视频剪辑中的人物，以确定最能代表五因素模型的高、中和低特征的样本。我们使用薄板样条运动模型修改这些视频，利用选定的样本作为源和驱动输入。我们按照五个不同的案例来研究运动和外表对人格感知的影响。

Sketch and Refine: Towards Fast and Accurate Lane Detection
Authors Chao Chen, Jie Liu, Chang Zhou, Jie Tang, Gangshan Wu
车道检测是确定道路上车道的精确位置和形状。尽管当前方法做出了努力，但由于现实世界场景的复杂性，这仍然是一项具有挑战性的任务。现有的方法，无论是基于提案的还是基于关键点的，都难以有效且高效地描绘车道。基于提案的方法通过以简化的自上而下的方式区分和回归提案集合来检测车道，但在车道表示方面缺乏足够的灵活性。另一方面，基于关键点的方法从局部描述符灵活地构造车道，这通常需要复杂的后处理。在本文中，我们提出了一种 Sketch 和 Refine 范例，它利用了基于关键点和基于提案的方法的优点。其动机是车道的局部方向在语义上简单且清晰。在草图阶段，可以通过快速卷积层轻松估计关键点的局部方向。然后我们可以相应地建立一组具有中等精度的车道建议。在细化阶段，我们通过新颖的车道段关联模块 LSAM 进一步优化这些建议，该模块允许自适应车道段调整。最后但并非最不重要的一点是，我们提出多级特征集成，以更有效地丰富车道特征表示。基于所提出的 Sketch 和 Refine 范例，我们提出了一种快速而有效的车道检测器，称为 SRLane。实验表明，我们的 SRLane 可以以 278 FPS 的速度运行，同时产生 78.9 的 F1 分数。

3D Reconstruction and New View Synthesis of Indoor Environments based on a Dual Neural Radiance Field
Authors Zhenyu Bao, Guibiao Liao, Zhongyuan Zhao, Kanglin Liu, Qing Li, Guoping Qiu
同时实现室内环境的 3D 重建和新视图合成具有广泛的应用，但在技术上非常具有挑战性。基于隐式神经函数的最先进方法可以实现出色的 3D 重建结果，但它们在新视图合成上的性能可能无法令人满意。神经辐射场 NeRF 令人兴奋的发展彻底改变了新的视图合成，然而，基于 NeRF 的模型可能无法重建干净的几何表面。我们开发了双神经辐射场 Du NeRF，以同时实现高质量的几何重建和视图渲染。 Du NeRF 包含两个几何场，一个源自 SDF 场以促进几何重建，另一个源自密度场以促进新视图合成。 Du NeRF 的创新特点之一是它将一个与视图无关的分量与密度场解耦，并将其作为标签来监督 SDF 场的学习过程。这减少了形状辐射的模糊性，并使几何和颜色在学习过程中相互受益。

pLitterStreet: Street Level Plastic Litter Detection and Mapping
Authors Sriram Reddy Mandhati, N. Lakmal Deshapriya, Chatura Lavanga Mendis, Kavinda Gunasekara, Frank Yrle, Angsana Chaksan, Sujit Sanjeev
塑料污染是一个严重的环境问题，检测和监测塑料垃圾对于减轻其影响至关重要。本文介绍了绘制街道垃圾图的方法，主要关注塑料垃圾和垃圾桶的位置。我们的方法涉及采用深度学习技术，从安装在车辆上的摄像头拍摄的街道图像中识别垃圾和垃圾桶。随后，我们利用热图直观地表示整个城市垃圾和垃圾桶的分布。此外，我们还提供了有关创建开源数据集 pLitterStreet 的详细信息，该数据集是在我们的方法中开发和使用的。该数据集包含 13,000 多张从车载摄像头收集的完整注释图像，并包括边界框标签。为了评估我们数据集的有效性，我们测试了四种众所周知的最先进的目标检测算法 Faster R CNN、RetinaNet、YOLOv3 和 YOLOv5，实现了 40 以上的平均精度 AP。虽然结果显示的是平均指标，但我们的实验证明了使用车载摄像头进行塑料垃圾测绘的可靠性。 pLitterStreet 还可以成为研究人员和从业者开发和进一步改进现有机器学习模型的宝贵资源，用于检测和绘制城市环境中的塑料垃圾。

A Survey on Video Prediction: From Deterministic to Generative Approaches
Authors Ruibo Ming, Zhewei Huang, Zhuoxuan Ju, Jianming Hu, Lihui Peng, Shuchang Zhou
视频预测是计算机视觉中的一项基本任务，旨在使模型能够基于现有视频内容生成未来帧的序列。这项任务已在各个领域获得了广泛的应用。在本文中，我们全面调查了该领域的历史和当代作品，涵盖最广泛使用的数据集和算法。我们的调查仔细审视了计算机视觉领域内视频预测的挑战和不断发展的前景。我们提出了一种以视频预测算法的随机性为中心的新颖分类法。

Mitigating Feature Gap for Adversarial Robustness by Feature Disentanglement
Authors Nuoyan Zhou, Dawei Zhou, Decheng Liu, Xinbo Gao, Nannan Wang
深度神经网络很容易受到对抗性样本的影响。对抗性微调方法旨在通过以对抗性训练的方式微调自然预训练的模型来增强对抗性的鲁棒性。然而，我们发现对抗样本的一些潜在特征被对抗扰动所混淆，并导致自然样本和对抗样本的最后一个隐藏层的特征之间的差距意外增大。为了解决这个问题，我们提出了一种基于解缠结的方法来显式建模并进一步消除导致特征差距的潜在特征。具体来说，我们引入了一个特征解缠器，将潜在特征从对抗样本的特征中分离出来，从而通过消除潜在特征来提高鲁棒性。此外，我们将预训练模型中的特征与微调模型中对抗样本的特征进行对齐，以进一步受益于自然样本的特征而不会混淆。

SSR: SAM is a Strong Regularizer for domain adaptive semantic segmentation
Authors Yanqi Ge, Ye Huang, Wen Li, Lixin Duan
我们引入了 SSR，它在训练过程中利用 SAM 分段作为强大的正则化器，以大大增强图像编码器处理各种域的鲁棒性。具体来说，考虑到 SAM 是通过互联网上的大量图像进行预训练的，这些图像涵盖了不同的领域，与传统的 ImageNet 预训练相比，SAM 提取的特征编码对特定领域的依赖性明显较小图像编码器。同时，ImageNet 预训练图像编码器仍然是语义分割任务的成熟骨干选择，特别是当 SAM 与类别无关时。因此，我们的 SSR 提供了简单而高效的设计。它使用ImageNet预训练的图像编码器作为主干，每个阶段的中间特征（即MiT B5中有4个阶段）在训练期间通过SAM进行正则化。

Multi-model learning by sequential reading of untrimmed videos for action recognition
Authors Kodai Kamiya, Toru Tamaki
我们提出了一种通过从未修剪的视频中顺序提取视频剪辑来聚合多个模型来学习视频的新方法。该方法通过将剪辑依次馈送到多个模型来减少剪辑之间的相关性，并通过联邦学习同步这些模型。

From Blurry to Brilliant Detection: YOLOv5-Based Aerial Object Detection with Super Resolution
Authors Ragib Amin Nihal, Benjamin Yen, Katsutoshi Itoyama, Kazuhiro Nakadai
随着无人机和卫星技术的广泛使用，对航空图像中精确物体检测的需求激增。传统的物体检测模型是在偏向于大型物体的数据集上进行训练的，很难在小型、密集集群物体普遍存在的空中场景中发挥最佳性能。为了应对这一挑战，我们提出了一种创新方法，将超分辨率和经过调整的轻量级 YOLOv5 架构相结合。我们使用一系列数据集（包括 VisDrone 2023、SeaDroneSee、VEDAI 和 NWPU VHR 10）来评估我们模型的性能。我们的 Super Resolved YOLOv5 架构具有 Transformer 编码器块，允许模型捕获全局上下文和上下文信息，从而改善检测结果，特别是在高密度、遮挡条件下。这种轻量级模型不仅提高了准确性，而且确保了资源的高效利用，使其非常适合实时应用程序。我们的实验结果证明了该模型在检测小型且密集集群的对象方面具有卓越的性能，强调了数据集选择和架构适应对于这一特定任务的重要性。特别是，该方法在 VisDrone 上实现了 52.5 mAP，超过了之前的顶级工作。

Super Efficient Neural Network for Compression Artifacts Reduction and Super Resolution
Authors Wen Ma, Qiuwen Lou, Arman Kazemi, Julian Faraone, Tariq Afzal
用户传输视频时，视频质量可能会因互联网速度有限而受到影响。当比特率降低以匹配可用带宽时，压缩伪影开始出现。现有算法要么专注于消除相同视频分辨率下的压缩伪影，要么专注于提高视频分辨率但不消除伪影。默认情况下，仅限超分辨率的方法会放大伪影以及细节。我们提出了一种基于 CNN 的轻量级卷积神经网络算法，通过增强特征提取层和设计自定义训练数据集，同时执行伪影减少和超分辨率 ARSR。该神经网络的输出针对使用可变比特率 VBR 编码以低比特率压缩的测试流进行评估。

Towards Lifelong Scene Graph Generation with Knowledge-ware In-context Prompt Learning
Authors Tao He, Tongtong Wu, Dongyang Zhang, Guiduo Duan, Ke Qin, Yuan Fang Li
场景图生成 SGG 致力于预测图像中对象对之间的视觉关系。传统上，流行的 SGG 方法假设 SGG 是一次性学习过程。每当出现新的关系时，这种传统的范式可能需要对所有先前观察到的样本进行重复训练，从而减轻忘记先前获得的知识的风险。这项工作旨在解决一系列先验关系预测中固有的陷阱。受预训练语言模型中上下文学习取得的成就的激励，我们的方法使模型具有预测关系并不断获取新知识而不会屈服于灾难性遗忘的能力。为了实现这一目标，我们引入了一种新颖且实用的场景图生成框架，即终身场景图生成 LSGG，其中谓词等任务以流式方式展开。在此框架中，模型仅限于对当前任务进行排他性训练，除了有限数量的样本外，无法访问以前遇到的训练数据，但模型的任务是推断迄今为止遇到的所有谓词。严格的实验证明了我们提出的方法在 LSGG 的背景下在各种指标上优于最先进的 SGG 模型。此外，在两个主流基准数据集 VG 和 Open Image v6 上的大量实验表明，我们提出的模型在持续学习和常规设置方面优于许多竞争性 SGG 模型。

CNA-TTA: Clean and Noisy Region Aware Feature Learning within Clusters for Online-Offline Test-Time Adaptation
Authors Hyeonwoo Cho, Chanmin Park, Jinyoung Kim, Won Hwa Kim
当训练源和测试目标数据的分布出现分歧时，就会发生域转移。测试时间自适应 TTA 解决了域转移问题，旨在在只有训练有素的源模型和未标记的目标数据可用的情况下，将源域上经过训练的模型采用到目标域。在这种情况下，处理目标域中的错误标签至关重要，因为它们会对模型性能产生负面影响。为了解决这个问题，我们建议利用聚类结构，即源模型制定的目标域中每个聚类内的干净区域和嘈杂区域。给定目标样本的初始聚类，我们首先将聚类划分为基于聚类原型（即每个聚类的质心）定义的干净区域和噪声区域。由于这些区域具有完全不同的真实伪标签分布，因此我们对干净区域和噪声区域采用不同的训练策略，我们选择性地在干净区域中使用干净伪标签训练目标，而我们引入代表干净和噪声之间中间特征的混合输入区域以增加集群的紧凑性。

Recognizing Multiple Ingredients in Food Images Using a Single-Ingredient Classification Model
Authors Kun Fu, Ying Dai
由于不同烹饪和切割方法下食材的空间布局和形状变化各异，识别食物图像面临着独特的挑战。这项研究引入了一种先进的方法来识别从食物图像中分割的成分。该方法使用定位和滑动窗口技术来定位成分的候选区域。然后，使用在单一成分图像数据集上训练的基于 CNN 卷积神经网络的单一成分分类模型将这些区域分配到成分类别中。为了解决多成分识别中处理速度的挑战，提出了一种新的模型剪枝方法，以提高分类模型的效率。随后，通过结合两种新颖算法的决策方案实现多成分识别。单一成分图像数据集是根据《New Food Ingredients List FOODS 2021》一书设计的，包含 110 个不同类别的 9982 张图像，强调成分形状的多样性。此外，还开发了多成分图像数据集来严格评估我们方法的性能。实验结果验证了我们方法的有效性，特别强调了其识别多种成分的能力的提高。

TIFu: Tri-directional Implicit Function for High-Fidelity 3D Character Reconstruction
Authors Byoungsung Lim, Seong Whan Lee
基于隐函数的方法的最新进展在从单个 RGB 图像重建 3D 人体方面显示出了有希望的结果。然而，这些方法不足以扩展到更一般的情况，通常会生成拖动或断开的身体部位，特别是对于动画角色。我们认为这些限制源于现有点级 3D 形状表示的使用，缺乏整体 3D 上下文理解。基于体素的重建方法更适合一次捕获整个 3D 空间，但是，由于它们占用过多的内存，这些方法对于高分辨率重建来说并不实用。为了解决这些挑战，我们引入了三向隐式函数 TIFu，它是一种向量级表示，与体素表示相比，它提高了全局 3D 一致性，同时显着减少了内存使用量。我们还引入了一种新算法，通过沿三个正交轴聚合向量，以任意分辨率进行 3D 重建，解决了向量固定维度回归的固有问题。我们的方法在我们自行管理的角色数据集和基准 3D 人体数据集中都实现了最先进的性能。

Revisiting Active Learning in the Era of Vision Foundation Models
Authors Sanket Rajan Gupte, Josiah Aklilu, Jeffrey J. Nirschl, Serena Yeung Levy
基础视觉或视觉语言模型在大量未标记或噪声数据上进行训练，并学习鲁棒的表示，这些表示可以在不同的任务中实现令人印象深刻的零或很少的镜头性能。鉴于这些特性，它们非常适合主动学习 AL，其目标是最大化标记效率，但基础模型的全部潜力尚未在 AL 背景下得到探索，特别是在低预算制度下。在这项工作中，我们评估基础模型如何影响有效 AL 的三个关键组成部分，即 1 初始标记池选择，2 确保多样化采样，3 代表性采样和不确定性采样之间的权衡。我们系统地研究了基础模型 DINOv2、OpenCLIP 的稳健表示如何挑战主动学习中的现有发现。我们的观察结果为一种新的简单而优雅的 AL 策略的原则性构建提供了依据，该策略可以平衡通过 dropout 估计的不确定性与样本多样性。我们在许多具有挑战性的图像分类基准上广泛测试了我们的策略，包括自然图像以及 AL 文献中研究相对较少的域外生物医学图像。

RPNR: Robust-Perception Neural Reshading
Authors Fouad Afiouni, Mohamad Fakih, Joey Sleiman
增强现实 AR 应用需要以与周围环境一致的方式将所需对象插入到摄像机捕获的场景中。常见的 AR 应用程序需要插入具有已知属性和形状的预定义 3D 对象。这简化了问题，因为它简化为通过了解周围的光源来提取该场景中的对象的照明模型。然而，我们通常无法获得有关对象属性的信息，尤其是当我们偏离单个源图像时。我们的方法仅使用这两个图像以与目标环境一致的方式渲染此类源片段。我们的管道使用基于 U Net 架构的 Deep Image Prior DIP 网络作为主要渲染器，以及用于应用所需损失的强大特征提取网络。我们的方法不需要任何对标记数据，也不需要对数据集进行广泛的训练。

Neighbor-Aware Calibration of Segmentation Networks with Penalty-Based Constraints
Authors Balamurali Murugesan, Sukesh Adiga Vasudeva, Bingyuan Liu, Herv Lombaert, Ismail Ben Ayed, Jose Dolz
确保深度神经网络的可靠置信度分数对于关键决策系统至关重要，特别是在医疗保健等现实世界领域。最近关于校准深度分割网络的文献取得了实质性进展。然而，这些方法受到分类任务进步的强烈启发，因此它们的不确定性通常是通过利用单个像素的信息来建模的，而忽略了感兴趣对象的局部结构。事实上，只有最近的空间变化标签平滑 SVLS 方法通过使用离散空间高斯核软化像素标签分配来考虑跨类的像素空间关系。在这项工作中，我们首先提出 SVLS 的约束优化视角，并证明它对周围像素的软类比例强制执行隐式约束。此外，我们的分析表明，SVLS 缺乏平衡约束贡献与主要目标的机制，可能会阻碍优化过程。基于这些观察，我们提出了 NACL Neighbor Aware CaLibration，这是一种基于对 logit 值的等式约束的原则性且简单的解决方案，它能够显式地控制强制约束和惩罚权重，从而提供更大的灵活性。对各种众所周知的分割基准的综合实验证明了所提出方法的卓越校准性能，而不影响其判别能力。

CloudTracks: A Dataset for Localizing Ship Tracks in Satellite Images of Clouds
Authors Muhammad Ahmed Chaudhry, Lyna Kim, Jeremy Irvin, Yuzu Ido, Sonia Chu, Jared Thomas Isobe, Andrew Y. Ng, Duncan Watson Parris
云通过影响行星反照率在全球温度调节中发挥着重要作用。人为排放的气溶胶可以改变云的反照率，但这种影响的程度及其对温度变化的影响仍然不确定。由船舶气溶胶排放引起的人为云（通常称为船舶轨迹）提供了与相邻云区域不同的这种效应的可见表现，因此可以作为研究人为云的有用沙箱。然而，缺乏大规模的船舶轨迹数据使得很难推断它们对云形成的一般影响。为了开发大规模定位船舶轨迹的自动化方法，我们提出了 CloudTracks，这是一个包含 3,560 张卫星图像的数据集，这些图像标记有超过 12,000 个船舶轨迹实例注释。我们在数据集上训练语义分割和实例分割模型基线，发现我们的最佳模型大大优于之前的船舶轨迹定位技术水平（IoU 61.29 vs. 48.65）。我们还发现，最好的实例分割模型能够比之前最先进的 1.64 与 4.99 MAE 更准确地识别每个图像中的船舶轨迹数量。然而，我们发现最好的模型难以准确定位和计算船舶轨迹，因此我们相信 CloudTracks 将激发新颖的机器学习方法，以更好地检测卫星图像中拉长和重叠的特征。

Transforming gradient-based techniques into interpretable methods
Authors Caroline Mazini Rodrigues LRDE, LIGM , Nicolas Boutry LRDE , Laurent Najman LIGM
通过 xAI 技术对卷积神经网络 CNN 的解释常常会给解释带来挑战。输入特征（尤其是从图像中提取的像素）固有的复杂性会产生复杂的相关性。以 Integrated Gradients IG 为代表的基于梯度的方法有效地证明了这些特征的重要性。然而，将这些解释转换为图像常常会产生相当大的噪音。目前，我们引入 GAD 梯度人工距离作为基于梯度的技术的支持框架。其主要目标是通过建立阶级之间的区别来强调有影响力的地区。 GAD 的本质是限制可视化过程中的分析范围，从而减少图像噪声。

Machine learning-based analysis of glioma tissue sections: a review
Authors Jan Philipp Redlich, Friedrich Feuerhake, Joachim Weis, Nadine S. Schaadt, Sarah Teuber Hanselmann, Christoph Buck, Sabine Luttmann, Andrea Eberle, Stefan Nikolin, Arno Appenzeller, Andreas Portmann, Andr Homeyer
近年来，神经胶质瘤的诊断变得越来越复杂。使用现代机器学习技术对神经胶质瘤组织进行组织学评估为支持诊断和结果预测提供了新的机会。为了概述当前的研究状况，本综述审查了 70 项公开的研究，这些研究涉及基于机器学习的染色人类神经胶质瘤组织切片的分析，涵盖子分型 16 70 、分级 23 70 、分子标记预测 13 70 的诊断任务，和生存预测 27 70 。所有研究均在方法学方面以及临床适用性方面进行了审查。研究发现，当前研究的重点是评估成人型弥漫性胶质瘤的苏木精和伊红染色的组织切片。大多数研究 49 70 都是基于癌症基因组图谱 TCGA 中公开的胶质母细胞瘤和低级别胶质瘤数据集，只有少数研究单独使用其他数据集 10 70 或除了 TCGA 数据集 11 70 之外。当前的方法主要依靠卷积神经网络 53 70 以 20 倍放大倍率 30 70 分析组织。一个新的研究领域是临床数据、组学数据或磁共振成像的整合 27 70 。到目前为止，基于机器学习的方法已经取得了有希望的结果，但尚未应用于实际的临床环境。

Conserve-Update-Revise to Cure Generalization and Robustness Trade-off in Adversarial Training
Authors Shruthi Gowda, Bahram Zonooz, Elahe Arani
对抗性训练提高了神经网络对抗对抗性攻击的鲁棒性，尽管是以牺牲标准泛化和鲁棒泛化之间的权衡为代价的。为了揭示驱动这一现象的根本因素，我们研究了神经网络在从标准环境过渡到对抗环境期间的逐层学习能力。我们的实证研究结果表明，有选择地更新特定层同时保留其他层可以显着增强网络的学习能力。因此，我们提出了 CURE，一种新颖的训练框架，它利用梯度突出标准来执行权重的选择性保存、更新和修订。重要的是，CURE 的设计与数据集和架构无关，确保其在各种场景中的适用性。它有效地解决了记忆和过度拟合问题，从而增强了鲁棒性和泛化性之间的权衡，此外，这种训练方法还有助于减轻鲁棒性过度拟合。

Understanding Domain Generalization: A Noise Robustness Perspective
Authors Rui Qiao, Bryan Kian Hsiang Low
尽管领域泛化 DG 的机器学习算法发展迅速，但没有明确的经验证据表明现有的 DG 算法在标准基准上优于经典的经验风险最小化 ERM。为了更好地理解这一现象，我们从标签噪声的角度研究了 DG 算法相对于 ERM 是否有优势。具体来说，我们的有限样本分析表明，标签噪声加剧了 ERM 的虚假相关性的影响，从而破坏了泛化能力。相反，我们说明即使存在虚假相关性，DG 算法在有限样本训练期间也表现出隐式标签噪声鲁棒性。这种理想的特性有助于减轻虚假相关性并提高合成实验中的泛化能力。然而，对现实世界基准数据集的其他综合实验表明，与 ERM 相比，标签噪声鲁棒性并不一定能转化为更好的性能。

The Machine Vision Iceberg Explained: Advancing Dynamic Testing by Considering Holistic Environmental Circumstances
Authors Hubert Padusinski, Thilo Braun, Christian Steinhauser, Lennart Ries, Eric Sax
当前的机器视觉测试是否正在走向冰山？这项工作深入研究了机器视觉 MV 测试的前景，这在高度自动驾驶 HAD 系统中是非常需要的。利用走向冰山的隐喻概念，我们讨论了当前测试策略中隐藏的潜在缺陷。我们强调迫切需要更深入地了解如何处理开发过程中 MV 的不透明功能。忽视这些因素可能会导致生命损失。我们的主要贡献是层次模型，我们称之为粒度等级。该模型鼓励对 MV 预期运行环境的多尺度深度进行精细探索。该模型旨在提供可能影响 MV 功能的所有实体的整体概述，范围从对象属性等单个实体的关系到整个环境场景。我们的模型的应用提供了对特定领域中的实体及其关系的结构化探索，并分配被测 MV 的结果以构建实体关系图。通过图中关系的聚类模式，一般 MV 缺陷是有争议的。

Topology-Aware Exploration of Energy-Based Models Equilibrium: Toric QC-LDPC Codes and Hyperbolic MET QC-LDPC Codes
Authors Vasiliy Usatyuk, Denis Sapozhnikov, Sergey Egorov
本文提出了一种在 ISING 哈密顿量遇到不规则网格上分布不均匀的电荷时实现平衡的方法。我们的方法采用 Multi Edge QC LDPC 码和玻尔兹曼机，包括对系统进行维度扩展、用循环代替电荷以及通过循环移位表示距离。这导致电荷系统到空间的系统映射，将不规则网格转变为均匀配置，适用于环面和圆形双曲面拓扑。本文涵盖了与 QC LDPC 码、Multi Edge QC LDPC 码和玻尔兹曼机相关的基本定义和符号。它探讨了用于评估配分函数的图概率模型代码中的边缘化问题，包括精确和近似估计技术。为玻尔兹曼机在环双曲面和圆双曲面下达到平衡态提供了严格的证明，为我们的方法的应用铺平了道路。我们的方法的实际应用在有限几何 QC LDPC 代码中进行了研究，特别是在材料科学中。本文进一步探讨了其在自然语言处理 Transformer 深度神经网络领域的有效性，研究了广义重复累加码、空间耦合和笼图 QC LDPC 码。

Additional Look into GAN-based Augmentation for Deep Learning COVID-19 Image Classification
Authors Oleksandr Fedoruk, Konrad Klimaszewski, Aleksander Ogonowski, Micha Kruk
训练数据的可用性是医学成像深度学习应用的主要限制之一。数据增强是解决这个问题的流行方法。一种新方法是基于机器学习的增强，特别是生成对抗网络 GAN 的使用。在这种情况下，GAN 会生成与原始数据集相似的图像，从而使整体训练数据量更大，从而导致训练网络的性能更好。 GAN 模型由两个网络组成，即生成器和鉴别器，它们在反馈环路中互连，从而创建竞争环境。这项工作是之前研究的延续，我们在有限的 COVID 19 胸部 X 射线图像数据集上训练了 Nvidia 的 StyleGAN2 ADA。在本文中，我们研究了基于 GAN 的增强性能对数据集大小的依赖性，重点关注小样本。考虑两个数据集，一个数据集每类 1000 个图像，总共 4000 个图像，第二个数据集每类 500 个图像，总共 2000 个图像。我们使用这两个集合训练 StyleGAN2 ADA，然后在验证生成图像的质量后，我们使用经过训练的 GAN 作为多类分类问题的增强方法之一。我们通过采用基于迁移学习的 COVID 19 胸部 X 射线图像分类，将基于 GAN 的增强方法与两种不同方法（经典增强和完全不增强）的质量进行比较。使用不同的分类质量指标对结果进行量化，并与文献结果进行比较。研究发现，在中型和大型数据集的情况下，基于 GAN 的增强方法与经典增强方法相当，但在较小的数据集的情况下表现不佳。

CaRiNG: Learning Temporal Causal Representation under Non-Invertible Generation Process
Authors Guangyi Chen, Yifan Shen, Zhenhao Chen, Xiangchen Song, Yuewen Sun, Weiran Yao, Xiao Liu, Kun Zhang
识别序列数据中潜在的时间延迟潜在因果过程对于掌握时间动态和进行下游推理至关重要。虽然最近的一些方法可以稳健地识别这些潜在因果变量，但它们依赖于对从潜在变量到观测数据的可逆生成过程的严格假设。然而，在包含信息丢失的现实应用中，这些假设通常很难满足。例如，视觉感知过程将 3D 空间转换为 2D 图像，或者视觉暂留现象将历史数据纳入当前感知。为了应对这一挑战，我们建立了一种可识别性理论，即使它们来自非线性和不可逆的混合，也可以恢复独立的潜在成分。以这一理论为基础，我们提出了一种原则方法 CariNG，来学习具有可识别性保证的不可逆生成时间数据的因果表示。具体来说，我们利用时间上下文来恢复丢失的潜在信息，并应用我们理论中的条件来指导训练过程。通过对合成数据集进行的实验，我们验证了我们的 CariNG 方法能够可靠地识别因果过程，即使生成过程是不可逆的。

MResT: Multi-Resolution Sensing for Real-Time Control with Vision-Language Models
Authors Saumya Saxena, Mohit Sharma, Oliver Kroemer
利用不同空间和时间分辨率的传感方式可以提高机器人操作任务的性能。多空间分辨率传感提供在不同空间尺度捕获的分层信息，并实现粗略和精确的运动。同时多时间分辨率传感使代理能够表现出高反应性和实时控制。在这项工作中，我们提出了一个框架，MResT 多分辨率转换器，用于学习可泛化的语言条件多任务策略，该策略利用不同空间和时间分辨率的传感，使用不同容量的网络来有效地执行精确和反应性任务的实时控制。我们利用现成的预训练视觉语言模型来操作低频全局特征以及小型非预训练模型来适应高频局部反馈。通过在粗略、精确和动态操作任务 3 个领域的广泛实验，我们表明我们的方法比最近的多任务基线平均显着提高了 2 倍。

Unveiling the Unseen: Identifiable Clusters in Trained Depthwise Convolutional Kernels
Authors Zahra Babaiee, Peyman M. Kiasari, Daniela Rus, Radu Grosu
深度可分离卷积神经网络 DS CNN 的最新进展带来了新颖的架构，其性能在可观的可扩展性和准确性方面超越了经典 CNN。本文揭示了 DS CNN 架构的另一个显着特性，即所有层中训练有素的深度卷积核中都出现了可辨别和可解释的模式。通过对数百万个不同大小和不同模型的经过训练的过滤器进行广泛分析，我们采用带有自动编码器的无监督聚类来对这些过滤器进行分类。令人惊讶的是，这些模式汇聚成几个主要簇，每个簇都类似于高斯 DoG 函数及其一阶和二阶导数的差异。值得注意的是，我们能够分别对来自最先进的 ConvNextV2 和 ConvNeXt 模型的超过 95 和 90 个滤波器进行分类。这一发现不仅仅是一种技术好奇心，它呼应了神经科学家长期以来为哺乳动物视觉系统提出的基础模型。因此，我们的结果加深了我们对经过训练的 DS CNN 的新兴特性的理解，并在人工视觉处理系统和生物视觉处理系统之间架起了一座桥梁。

ICASSP 2024 Speech Signal Improvement Challenge
Authors Nicolae Catalin Ristea, Ando Saabas, Ross Cutler, Babak Naderi, Sebastian Braun, Solomiya Branets
ICASSP 2024 语音信号改善大挑战赛旨在促进改善通信系统语音信号质量领域的研究。这是我们在上一届 ICASSP 2023 年大挑战赛取得成功的基础上发起的第二次挑战。我们通过引入数据集合成器来增强竞争，使所有参赛团队能够从更高的基线开始，这是我们扩展的 P.804 测试的客观指标，2023 测试集的成绩单，并且我们添加了单词准确性 WAcc 作为指标。

No Longer Trending on Artstation: Prompt Analysis of Generative AI Art
Authors Jon McCormack, Maria Teresa Llano, Stephen James Krol, Nina Rajcic
使用生成式人工智能生成图像正在迅速成为视觉媒体的主要新来源，在过去几年中，使用稳定扩散和中途传播等扩散模型创建了数十亿张人工智能生成的图像。在本文中，我们收集并分析了超过 300 万条提示及其生成的图像。使用自然语言处理、主题分析和可视化方法，我们的目标是共同了解人们如何使用文本提示、这些系统对艺术家的影响，以及更广泛地对他们所倡导的视觉文化的影响。我们的研究表明，提示主要关注表面美学、强化文化规范、流行的传统表征和意象。

Fuzzy Logic-Based System for Brain Tumour Detection and Classification
Authors NVSL Narasimham, Keshav Kumar K
脑肿瘤 BT 极其危险且难以治疗。目前，医生必须手动检查图像并手动标记肿瘤区域来诊断 BT，这个过程既耗时又容易出错。最近，专家提出了早期检测 BT 的自动化方法。这些方法的准确性差和预测结果高度错误导致他们开始研究。在本研究中，我们提出了一种基于模糊逻辑的系统来对 BT 进行分类。这项研究使用了 253 个磁共振成像 MRI 大脑图像的数据集，其中包括肿瘤和健康图像。首先对图像进行预处理。之后，我们提取肿瘤大小和图像全局阈值等特征。使用分水岭和区域生长方法来计算肿瘤大小。之后，模糊系统接收这两个特征作为输入。准确度、F1 分数、精确度和召回率用于通过采用两种大小确定方法来评估模糊结果。通过区域增长方法发现的输入变量大小和全局阈值，模糊系统优于分水岭方法。这项研究的意义在于它有可能通过提供更准确、更高效的自动分类系统来彻底改变脑肿瘤的诊断。通过减少人为干预并提供可靠的结果，这种方法可以帮助医疗专业人员做出及时、准确的决策，从而改善患者的治疗结果并有可能挽救生命。

Chinese Abs From Machine Translation

Papers from arxiv.org

更多精彩请移步主页

pic from pexels.com