【源头活水】顶刊解读!IEEE T-PAMI (CCF-A,IF 23.6)2024年46卷第一期 [3]

“问渠那得清如许,为有源头活水来”,通过前沿领域知识的学习,从其他研究领域得到启发,对研究问题的本质有更清晰的认识和理解,是自我提高的不竭源泉。为此,我们特别精选论文阅读笔记,开辟“源头活水”专栏,帮助你广泛而深入的阅读科研文献,敬请关注!

Volume 46, Number 1, January 2024,46卷第一期,第三部分21-30

图神经网络、分布外泛化、虚假关联性消除

21. S. Fan, X. Wang, C. Shi, P. Cui and B. Wang, "Generalizing Graph Neural Networks on Out-of-Distribution Graphs," in IEEE Transactions on Pattern Analysis and Machine Intelligence, vol. 46, no. 1, pp. 322-337, Jan. 2024, 

doi: 10.1109/TPAMI.2023.3321097. 

关键词:图神经网络、分布外泛化、虚假关联性消除

https://ieeexplore.ieee.org/document/10268633/

图神经网络(GNN)的提出没有考虑到训练图和测试图之间的不可知分布变化,从而导致 GNN 在分布外(OOD)环境中的泛化能力退化。造成这种退化的根本原因是,大多数 GNN 都是基于 I.I.D 假设开发的。在这种情况下,GNN 往往会利用训练集中存在的细微统计相关性进行预测,即使这种相关性是虚假的。这种学习机制继承了机器学习方法的共同特点。然而,这种虚假相关性可能会在现实测试环境中发生变化,导致 GNN 失效。因此,消除虚假相关性的影响对稳定的 GNN 模型至关重要。为此,本文论证了子图级单元之间存在的虚假相关性,并从因果视角分析了 GNN 的退化。基于因果视图分析,我们提出了稳定 GNN 的一般因果表示框架,称为 StableGNN。该框架的主要思想是首先从原始图数据中提取高层表征,然后借助因果推理的区分能力帮助模型摆脱虚假相关性。特别是,为了提取有意义的高层表征,我们利用可微分图结构池化层,以端到端的方式提取基于子图的表征。此外,受因果推理中混杂因素平衡技术的启发,基于学习到的高层表征,我们提出了一种因果变量区分正则器,通过学习一组样本权重来纠正有偏差的训练分布。因此,GNN 将更专注于区分性子结构和标签之间的真实联系。我们在具有不同分布偏移度的合成数据集和八个真实世界的 OOD 图数据集上进行了广泛的实验。实验结果很好地验证了所提出的 StableGNN 模型不仅优于目前的SOTA方法,而且为增强现有的 GNN 提供了一个灵活的框架。此外,可解释性实验还验证了 StableGNN 可以利用因果结构进行预测。

5b0709c63601fd6ad61de589bd397217.png

大规模神经渲染、视角合成

22. G. Wang, J. Zhang, K. Zhang, R. Huang and L. Fang, "GiganticNVS: Gigapixel Large-Scale Neural Rendering With Implicit Meta-Deformed Manifold," in IEEE Transactions on Pattern Analysis and Machine Intelligence, vol. 46, no. 1, pp. 338-353, Jan. 2024, doi: 10.1109/TPAMI.2023.3323069.

关键词:大规模神经渲染、视角合成、视角一致的隐式表达场、元变形流形

https://ieeexplore.ieee.org/document/10274871

高性能感知技术的飞速发展为大尺度场景的千兆像素级成像/摄像提供了可能,然而千兆像素(Gigapixel )图像中的丰富细节却很少在三维重建解决方案中得到重视。要缩小感知能力与重建能力之间的差距,就必须在利用千兆像素图像提供的高分辨率细节的同时,应对大尺度场景带来的大基线挑战。本文介绍了用于千兆像素大规模新视角合成(novel view synthesis,NVS)的 GiganticNVS。现有的 NVS 方法存在过度模糊的问题,无法充分利用图像的分辨率,原因在于它们无法恢复可信真实的潜在几何机构,并且依赖于密集的观测数据来精确地对辐射进行插值。我们的主要见解是,具有视图一致性的隐式表达场对于从大基线观测中合成高保真细节至关重要。有鉴于此,我们提出了元变形流形(meta-deformed manifold),其中元是指局部定义的表面流形,其几何形状和外观被嵌入到高维潜空间中。从技术上讲,元可以通过 MLP(即隐式表示)解码为神经场。利用这种新颖的表示方法,可以通过特征度量变形有效地实现多视角几何对应,并且可以纯粹在表面上学习反射场。实验结果证明,不仅在包含大基线角度复杂真实场景的标准数据集上,而且在具有挑战性的千兆像素级超大规模基准上,所提出的方法在定量和定性上都优于最先进的方法。

f34aeba420afa1ec6f7e9d955d960a0b.png

对抗攻击、隐空间特征分析

23. Y. Yu, X. Gao and C. -Z. Xu, "LAFIT: Efficient and Reliable Evaluation of Adversarial Defenses With Latent Features," in IEEE Transactions on Pattern Analysis and Machine Intelligence, vol. 46, no. 1, pp. 354-369, Jan. 2024, 

doi: 10.1109/TPAMI.2023.3323698. 

关键词:对抗攻击、隐空间特征分析

https://ieeexplore.ieee.org/document/10285432

深度卷积神经网络(CNN)可以通过在输入中添加人类无法察觉的微小扰动,轻松导致CNN不正确的输出。这使它们很容易受到对抗性攻击,给深度学习系统带来了巨大的安全风险,也给如何使 CNN 抵御此类攻击带来了巨大挑战。因此,人们提出了大量防御策略来提高 CNN 的鲁棒性。然而,当前的攻击方法可能无法准确或有效地评估防御模型的鲁棒性。因此,我们在本文中提出了一种统一的 ℓp 白盒攻击策略--LAFIT,以在梯度下降步骤中利用防御者的潜在特征,并进一步采用一种新的损失函数来归一化对数,以克服基于浮点的梯度掩蔽。我们的研究表明,它不仅效率更高,而且在对各种防御机制进行检验时,它的对抗能力也强于目前最先进的技术。这表明,对抗性攻击/防御可能取决于防御者隐藏组件的有效利用,鲁棒性评估不应再全面地看待模型。

a76922d6910ac3df2fb058a43116910c.png

底层视觉、计算成像、低光照图像去噪

24. H. Feng, L. Wang, Y. Wang, H. Fan and H. Huang, "Learnability Enhancement for Low-Light Raw Image Denoising: A Data Perspective," in IEEE Transactions on Pattern Analysis and Machine Intelligence, vol. 46, no. 1, pp. 370-387, Jan. 2024, 

doi: 10.1109/TPAMI.2023.3301502.

关键词:底层视觉、计算成像、低光照图像去噪

https://ieeexplore.ieee.org/document/10207751

低光照原始图像去噪是计算摄影中的一项重要任务,基于学习的方法已成为主流解决方案。基于学习的方法的标准范式是学习配对真实数据之间的映射,即低照度噪声图像和干净图像之间的映射。然而,有限的数据量、复杂的噪声模型和数据质量一般构成了配对真实数据之间数据映射的可学习性瓶颈,限制了基于学习的方法的性能。为了突破这一瓶颈,我们引入了一种可学习性增强策略,根据噪声建模对配对真实数据进行改造,从而实现低照度原始图像的去噪。我们的可学习性增强策略整合了三种高效方法:镜头噪声增强(SNA)、暗影校正(DSC)和开发的图像采集协议。具体来说,SNA 通过增加配对真实数据的数据量来提高数据映射的精度,DSC 通过降低噪声复杂度来提高数据映射的精度,而开发的图像采集协议则通过提高配对真实数据的数据质量来提高数据映射的可靠性。同时,基于所开发的图像采集协议,我们建立了一个用于低照度原始图像去噪的新数据集。在公共数据集和我们的数据集上进行的实验证明了可学习性增强策略的优越性。

f7587f6689f00e6afde7b630a4138c13.png

d22d87cd1bec7f1c1ac00bac92f8789b.png

图神经网络、面向节点的图谱滤波

25. S. Zheng, Z. Zhu, Z. Liu, Y. Li and Y. Zhao, "Node-Oriented Spectral Filtering for Graph Neural Networks," in IEEE Transactions on Pattern Analysis and Machine Intelligence, vol. 46, no. 1, pp. 388-402, Jan. 2024, 

doi: 10.1109/TPAMI.2023.3324937. 

关键词:图神经网络、面向节点的图谱滤波

https://ieeexplore.ieee.org/document/10286416

图神经网络(GNN)在处理同质图数据时表现出色,而在处理非同质图数据时,由于 GNN 固有的低通滤波特性,其表现则逊色得多。一般来说,由于现实世界中的图往往是多种子图模式的复杂混合物,因此像目前大多数工作那样从全局角度学习通用的图谱滤波器,在适应局部模式的变化方面可能仍然存在很大困难。在对局部模式进行理论分析的基础上,我们对现有的图谱滤波方法进行了反思,提出了面向节点的图神经网络图谱滤波方法(Node-oriented spectral F iltering for G raph N eural N etwork,即 NFGNN)。通过估计每个节点的面向节点的图谱滤波器,NFGNN 能够通过广义平移算子精确定位局部节点,从而自适应地判别局部同质性模式的变化。同时,重参数化的利用为面向节点的图谱滤波器的学习带来了全局一致性和局部敏感性之间的良好权衡。此外,我们还从理论上分析了 NFGNN 的定位特性,证明了自适应滤波后的信号仍定位在相应节点周围。广泛的实验结果表明,所提出的 NFGNN 实现了更优越的性能。

aa537f7759f70bf80dbba12e49644473.png

纹理识别、多基元和属性关系建模

26. W. Zhai, Y. Cao, J. Zhang, H. Xie, D. Tao and Z. -J. Zha, "On Exploring Multiplicity of Primitives and Attributes for Texture Recognition in the Wild," in IEEE Transactions on Pattern Analysis and Machine Intelligence, vol. 46, no. 1, pp. 403-420, Jan. 2024, doi: 10.1109/TPAMI.2023.3325230.

关键词:纹理识别、多基元和属性关系建模

https://ieeexplore.ieee.org/document/10286884

纹理识别是一项具有挑战性的视觉任务,因为在不同的空间环境下,可以从纹理图像中感知多种基元或属性。现有的方法主要建立在 CNN 的基础上,采用无序聚合的丰富局部描述符来捕捉空间布局的不变性。然而,这些方法忽略了由基元组织的固有结构关系和由属性描述的语义概念,而这正是纹理表示的关键线索。在本文中,我们提出了一种新颖的多基元和属性感知网络(MPAP),通过在多分支统一框架中模拟自下而上的结构和自上而下的属性关系来提取特征。首先提出了一个自下而上的过程,利用结构依赖性和空间顺序信息来捕捉各种基元结构的内在关系。然后,引入一个自上而下的过程,通过在相邻分支之间转移属性相关特征来模拟多个属性的潜在关系。此外,还设计了一个增强模块,以弥合高层属性和低层结构特征之间的差距。MPAP 可以通过自下而上和自上而下的联合过程,以相互促进的方式学习表示。在六个具有挑战性的纹理数据集上的实验结果表明,MPAP 在准确性、鲁棒性和效率方面都优于最先进的方法。

引文:本文作者之一陶大程教授于中国科学技术大学取得学士学位,香港中文大学取得硕士学位,英国伦敦大学取得博士学位。毕业后,先后在香港理工大学、新加坡南洋理工大学,澳大利亚悉尼科技大学、悉尼大学等地任教。曾任京东探索研究院院长。陶大程教授在权威杂志和重要会议上发表了200余篇论文;并多次获得最佳论文奖项,包括IEEE ICDM 2007 年度最佳理论/算法论文奖第二名、IEEE ICDM 2013 年度最佳学生论文奖、2014 IEEE ICDM 10年最大影响力论文奖和IEEE信号处理协会2017年度最佳论文奖。陶大程教授于2015、2020年两度荣获澳大利亚尤里卡奖、2015年荣获悉尼科技大学校长奖章、2018年荣获IEEE ICDM研究贡献奖、2021年荣获IEEE CS Society Edward J McCluskey技术成就奖。由于其在人工智能领域的研究贡献,他先后当选IEEE/AAAS/ACM Fellow、欧洲科学院(Academia European)外籍院士、以及澳大利亚科学院院士。

0b0b527a7ec0e4b71c216ccb4d85cc05.png

a0d8203a0c4c04ff3b9478bdf54db07c.png

点线排列中的极小值问题

27. T. Duff, K. Kohn, A. Leykin and T. Pajdla, "PLMP – Point-Line Minimal Problems in Complete Multi-View Visibility," in IEEE Transactions on Pattern Analysis and Machine Intelligence, vol. 46, no. 1, pp. 421-435, Jan. 2024, doi: 10.1109/TPAMI.2023.3324728.

关键词:点线排列中的极小值问题

https://ieeexplore.ieee.org/document/10286103

在这篇论文中,研究者通过透视相机观察到的点线一般排列,提出了所有极小值问题的完整分类,其中透视相机是经过校准的。研究者证明,对于超过 6 个相机、5 个点和 6 条线的情况,其总共只有 30 个极小值问题,不存在其它情况。研究者展示了一系列检测极小值的测试,它们从对自由度进行计数开始,并结束于对代表性样本的完全符号化与数值化的验证。对于所发现的所有极小值问题,研究者展示了它们的代数「程度」,即解的数量,这一指标度量了极小值问题的固有难度。此外,这种代数程度还展示了问题的难度如何随视图的增加而增长。重要的是,一些新的极小值问题有非常小的代数程度,因此它们在图像匹配和三维重建上能得到很好的应用。

引文:本文会议版本,为发表在ICCV2019的同名文章,获得ICCV 2019 最佳学生论文奖。

  • 论文地址:

    http://openaccess.thecvf.com/content_ICCV_2019/papers/Duff_PLMP_-_Point-Line_Minimal_Problems_in_Complete_Multi-View_Visibility_ICCV_2019_paper.pdf

  • 实现地址:

    https://github.com/timduff35/PLMP

40b86791078e101a8d6531c1a9f092b2.png

ca73f0b37c4bc80edfff4008887014e0.png

有损图像压缩、量化感知的VAE结构

28. Z. Duan, M. Lu, J. Ma, Y. Huang, Z. Ma and F. Zhu, "QARV: Quantization-Aware ResNet VAE for Lossy Image Compression," in IEEE Transactions on Pattern Analysis and Machine Intelligence, vol. 46, no. 1, pp. 436-450, Jan. 2024, 

doi: 10.1109/TPAMI.2023.3322904.

关键词:有损图像压缩、量化感知的VAE结构

https://ieeexplore.ieee.org/document/10274142

本文主要研究有损图像压缩问题,这是图像处理和信息论中涉及许多实际应用的一个基本问题。首先回顾变分自编码器(vae)的框架,这是一类强大的生成概率模型,与有损压缩有很深的联系。基于VAE,本文提出了一种新的有损图像压缩方案,称为量化感知的ResNet VAE (QARV)。该方法集成了一个层次化的VAE架构,该架构集成了测试时量化和量化感知训练,否则就不可能进行高效的熵编码。此外,设计了专门用于快速解码的QARV神经网络结构,并提出了一种适用于变速率压缩的自适应归一化操作。实验结果表明,QARV实现了可变码率压缩和高速解码,并且比现有的基线方法具有更好的信息率失真性能。

c16d3d3567a70b24c7bd57b1e863c602.png

医学图像分割、双流超分辨、语义学习

29. Z. Qiu, Y. Hu, X. Chen, D. Zeng, Q. Hu and J. Liu, "Rethinking Dual-Stream Super-Resolution Semantic Learning in Medical Image Segmentation," in IEEE Transactions on Pattern Analysis and Machine Intelligence, vol. 46, no. 1, pp. 451-464, Jan. 2024, doi: 10.1109/TPAMI.2023.3322735.

关键词:医学图像分割、双流超分辨、语义学习

https://ieeexplore.ieee.org/document/10274145

图像分割是医学图像分析的基本任务,神经网络的发展提高了图像分割的精度。然而,现有实现高分辨率性能的算法需要高分辨率输入,导致巨大的计算开销,限制了其在医疗领域的适用性。一些研究提出了将超分辨率任务作为辅助的双流学习框架。本文重新思考了这些框架,发现任务之间的特征相似性不足以约束医学领域中的血管或病变分割,因为它们在图像中所占比例很小。为了解决这个问题,我们提出了一个双流共享特征DS2F (Dual-Stream Shared Feature)框架,包括一个共享特征提取模块(Shared Feature Extraction Module, SFEM)。具体来说,我们提出了多尺度交叉门(MSCG),利用多尺度特征作为SFEM的一个新例子。然后,定义代理任务和代理损失,使特征聚焦于目标,基于任务之间有限的共享特征集有助于提高性能的假设。在三个不同场景的六个公开数据集上进行了广泛的实验,以验证所提出框架的有效性。此外,进行了各种消融研究来证明我们的DS2F的意义。

c7adad5478784bde08ed0c4509d00dbd.png

f1b08b216761875fcc2eac7a64ede241.png

批归一化的有效性讨论

30. H. Peng, Y. Yu and S. Yu, "Re-Thinking the Effectiveness of Batch Normalization and Beyond," in IEEE Transactions on Pattern Analysis and Machine Intelligence, vol. 46, no. 1, pp. 465-478, Jan. 2024, doi: 10.1109/TPAMI.2023.3319005.

关键词:批归一化的有效性讨论

https://ieeexplore.ieee.org/document/10262355

批归一化(BN)在许多现代深度神经网络中被默认使用,因为它可以有效地加速训练收敛和提高推理性能。最近的研究表明,BN的有效性是由于损失和梯度的Lipschitzness,而不是内部协变量偏移的减少。然而,Lipschitzness是否足以解释BN的有效性以及普通BN是否还有进一步改进的空间仍然存在问题。为了回答这些问题,本文首先证明了当随机梯度下降(SGD)应用于优化一般的非凸问题时,有三种效果有助于更快更好地收敛:(i)降低梯度Lipschitz常数,(ii)降低随机梯度平方的期望,以及(iii)降低随机梯度的方差。本文证明,仅使用ReLU的vanilla BN可以诱导上述三种效应,而不是Lipschitzness,但使用其他非线性,如Sigmoid, Tanh和SELU, vanilla BN将导致收敛性能下降。为了改进普通BN,本文提出了一种新的归一化方法,称为完全批量归一化(complete batch normalization, CBN),根据理论改变归一化的放置位置并修改普通BN的结构。已证明,无论使用何种非线性激活,CBN都可以引起上述三种效果。在基准数据集CIFAR10、CIFAR100和ILSVRC2012上的大量实验验证了CBN比普通BN训练收敛更快,训练损失收敛到更小的局部最小值。此外,CBN有助于具有多个非线性激活(Sigmoid, Tanh, ReLU, SELU和Swish)的网络稳定地取得更高的测试精度。具体而言,得益于CBN, Sigmoid、Tanh和SELU网络的分类精度分别平均提高了15.0%、4.5%和4.0%以上,甚至可以与ReLU网络的性能相媲美。

ba93d7d4839d81b66790c7dd39fe4b4d.png

63f7515172a600914cff18c058e4c9b3.png

 
本文目的在于学术交流,并不代表本公众号赞同其观点或对其内容真实性负责,版权归原作者所有,如有侵权请告知删除。收藏,分享、在看,给个三连击呗!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/585731.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

上位机图像处理和嵌入式模块部署(qmacviusal边缘宽度测量)

【 声明:版权所有,欢迎转载,请勿用于商业用途。 联系信箱:feixiaoxing 163.com】 前面有一篇文章,我们了解了测量标定是怎么做的。即,我们需要提前知道测量的方向,灰度的方向,实际的…

如何选择最佳AVR微控制器:综合性能、功耗、封装及生态支持全方位考量

AVR 微控制器的定义 AVR 微控制器是由Atmel公司(现已被Microchip Technology收购)开发的一种基于 Reduced Instruction Set Computing (RISC) 架构的8位微控制器系列。其名称“AVR”来源于其最初的设计理念——Audio Video Recorder,尽管后来…

springboot实战---7.springboot制作Docker镜像

🎈个人主页:靓仔很忙i 💻B 站主页:👉B站👈 🎉欢迎 👍点赞✍评论⭐收藏 🤗收录专栏:SpringBoot 🤝希望本文对您有所裨益,如有不足之处&…

MySQL常见故障案例与优化介绍

前言 MySQL故障排查的意义在于及时识别并解决数据库系统中的问题,确保数据的完整性和可靠性;而性能优化则旨在提高数据库系统的效率和响应速度,从而提升用户体验和系统整体性能。这两方面的工作都对于保证数据库系统稳定运行、提升业务效率和…

数据结构——数组

数组定义: 在计算机科学中,数组是由一组元素(值或变量)组成的数据结构,每个元素有至少一个索引或键来标识。 因为数组内的元素是连续存储的,所以数组中元素的地址,可以通过其索引计算出来。 性…

latex学习笔记

一 安装latex(vscodetexlive) 安装latex学习链接: 【超详细】最好用LaTex环境安装配置手把手教学!!(支持双向搜索,附赠所需安装包及竞赛模板)_哔哩哔哩_bilibilihttps://www.bilib…

NoSQL之 Redis配置

目录 关系数据库与非关系型数据库 关系型数据库: ●非关系型数据库 关系型数据库和非关系型数据库区别: (1)数据存储方式不同 (2)扩展方式不同 对事务性的支持不同 非关系型数据库产生背景 Redis简介…

6000000IOPS!FASS×kunpeng920全新突破

实测数据详见下文 网络环境 前端和后端网均采用100GE网络,管理网采用1Gbps以太网。 前端网和后端网通过不同网段隔离,与管理网物理隔离。 软硬件配置 存储端配置: 客户端配置: 软件配置: 存储集群配置: …

30分钟了解所有引擎组件,132个Unity 游戏引擎组件速通!【收藏 == 学会】

前言 🎬【全网首发】 | 30分钟了解所有组件,132个Unity 游戏引擎组件速通!一、Mesh 网格1.Mesh Filter2.Mesh Renderer3.Skinned Mesh Renderer4.Text Mesh5.TextMeshPro-Text 二、Effects 特效组件1.Particle System2.Visual Effect3.Trail …

算法题->有效的三角形个数C语言和JAVA版本双指针解法

有效的三角形个数C语言和JAVA版本双指针解法 力扣链接:https://leetcode.cn/problems/valid-triangle-number/description/ 题目描述: 题意:给你一个数组,通过数组中的三个值进行组成有效三角形,最后返回有效三角形个数 例子: 由例子可知,不同下标的一个值和相同两个值组成…

【C++杂货铺】详解list容器

目录 🌈前言🌈 📁 介绍 📁 使用 📂 构造 📂 迭代器iterator 📂 capacity 📂 modifiers 📂 迭代器失效 📁 模拟实现 📂 迭代器的实现 &#x…

基于springboot实现房屋租赁管理系统项目【项目源码+论文说明】计算机毕业设计

基于springboot实现房屋租赁系统演示 摘要 房屋是人类生活栖息的重要场所,随着城市中的流动人口的增多,人们对房屋租赁需求越来越高,为满足用户查询房屋、预约看房、房屋租赁的需求,特开发了本基于Spring Boot的房屋租赁系统。 …