多层记忆增强外观-运动对齐框架用于视频异常检测 论文阅读

MULTI-LEVEL MEMORY-AUGMENTED APPEARANCE-MOTION CORRESPONDENCE FRAMEWORK FOR VIDEO ANOMALY DETECTION 论文阅读

  • 摘要
  • 1.介绍
  • 2.方法
    • 2.1外观和运动对其建模
    • 2.2.记忆引导抑制模块
    • 2.3. Training Loss
    • 2.4. Anomaly Detection
  • 3.实验与结果
  • 4.结论

论文标题:MULTI-LEVEL MEMORY-AUGMENTED APPEARANCE-MOTION CORRESPONDENCE FRAMEWORK FOR VIDEO ANOMALY DETECTION

文章信息:
在这里插入图片描述
发表于:ICME 2023(CCF B类会议)
原文链接:https://arxiv.org/abs/2303.05116
源代码:无

摘要

基于AutoEncoder的帧预测在无监督视频异常检测中发挥着重要作用。理想情况下,在正常数据上训练的模型可以产生更大的异常预测误差。然而,外观和运动信息之间的相关性没有得到充分利用,这使得模型缺乏对正常模式的理解。此外,由于深度AutoEncoder不可控制的可推广性,这些模型不能很好地工作。为了解决这些问题,
我们提出了一个多级记忆增强外观运动对应框架。通过外观-运动语义对齐和语义替换训练,探索外观和运动之间潜在的对应关系。
此外,我们还引入了一种内存引导抑制模块,该模块利用与正常原型特征的差异来抑制跳跃连接引起的重建容量,实现了正常数据的良好重建和异常数据的不良重建之间的折衷。
实验结果表明,我们的框架优于最先进的方法,在UCSD Ped2、中大大道和ShanghaiTech数据集上实现了99.6%、93.8%和76.3%的AUC。

1.介绍

本文共享如下:

  • 提出了一个多级记忆增强的外观-运动对齐框架,该框架使用正常和异常数据之间的外观和运动语义一致的相关性间隙来发现异常。
  • 介绍了一种多尺度记忆引导抑制模块,它实现了对正常数据的良好重建和对异常数据的较差重建之间的折衷。
  • 在三个基准数据集上的大量实验表明,所提出的框架优于最先进的方法。

2.方法

如图1(a)所示,所提出的多级记忆增强外观运动对应框架由三部分组成:双流编码器、解码器和多尺度记忆引导抑制模块(MGSM)。我们将视频帧剪辑和相应的光流输入到双流编码器中。
外观自动编码器 E φ E_φ Eφ用于学习外观特征,运动自动编码器 E θ E_θ Eθ用于学习运动特征。
所提出的外观-运动语义对齐损失作用于瓶颈编码层的外观和运动特征,并且我们将运动特征而不是外观特征馈送到解码器 E φ E_φ Eφ中,以预测未来帧,其中建立了外观和运动信息之间的关系。同时,所提出的MGSM利用了多个编码层的多尺度下采样特征,在抑制异常数据的同时,加强了对正常数据的预测。以下小节详细介绍了所有组件。
在这里插入图片描述

2.1外观和运动对其建模

在这里插入图片描述
如上图所示:外观编码器输入t个帧,用于预测第t+1帧,外观编码器 E φ E_φ Eφ得到的输出为 f a f_a fa,运动编码器输入对应的t张光流图,外观编码器 E θ E_θ Eθ得到的输出为 f m f_m fm。为了让外观和运动对其,作者最小化了 f a f_a fa f m f_m fm的余弦距离(目的应该是更好的结合外观和运动的信息),如公式(1)所示:
在这里插入图片描述
此外,为了对外观和运动信号具有共同行为语义的显式关系进行建模,作者将外观特征 f a f_a fa替换为运动特征 f m f_m fm到解码器 D φ D_φ Dφ中,以预测未来的帧。由于只有前景物体的运动信息在形式上,这将减轻复杂背景的副作用,也直接建立外观和运动之间的互补关系。

2.2.记忆引导抑制模块

所提出的MGSM的体系结构如图1(b)所示。MGSM被训练来学习和压缩多个原型,这些原型存储整个训练集的正态性。我们用MGSM装备编码器E和解码器 D φ D_φ Dφ之间的所有跳跃连接。MGSM使用输入编码特征和存储的正常原型之间的相似性来计算抑制器,该抑制器抑制对应编码特征的表示。它避免了学习从输入到输出的身份映射,这将使正常和异常不可分割。
在这里插入图片描述
具体而言,给定连续的帧作为输入,编码器 E φ E_φ Eφ生成一组特征图{ f 1 f_1 f1 f 2 f_2 f2,…, f L − 1 f_{L−1} fL1},其中L是下采样尺度的数量。对于每个大小为 H i × W i × C i H^i × W^i × C^i Hi×Wi×Ci的特征图 f i f_i fi,我们将其展平为一个向量,并用作记忆库的查询 q k q^k qk。对于记忆库,我们遵循[3]的方法进行实现。每个记忆库是一个可学习的矩阵 M ∈ R N × D M ∈ R^{N×D} MRN×D,由包含固定维度D的N个记忆项组成,用于在训练期间记录原型正常模式。M的第j行向量是一个记忆项 m j ∈ R D ( j ∈ 1 , 2 , . . . , N ) m_j ∈ R^D(j ∈ {1, 2, ..., N}) mjRDj1,2,...,N。类似于[3, 8],通过计算查询 q k q^k qk与每个项 m j m_j mj之间的相似性,来解决记忆化的正常性,具体表现为计算基于这种相似性的注意权重w,如公式(2)所示:
在这里插入图片描述
基于注意权重 w ∈ R 1 × N w∈R^{1×N} wR1×N,得到了一个抑制器λ。不是在以前的工作中对存储器项进行线性组合,而是通过跳过连接直接用于解码器的新特征 q ^ k \widehat{q}^k q k由公式(3)重新计算:
在这里插入图片描述
其中σ表示ReLU激活函数,max返回输入注意力权重w中的最大值,norm表示批量归一化。MGSM通过抑制编码特征的表示而不是重新生成它们来实现可控的重建能力,缓解了由于高度依赖于存储器大小而导致的不稳定的VAD性能。

2.3. Training Loss

像素损失:
在这里插入图片描述
图像梯度损失(其中i、j表示视频帧的空间索引):
在这里插入图片描述
外观运动对齐损失(理解为外观和运动的相似性,越小越好):
在这里插入图片描述
记忆模块的紧凑和分离损失:

  • 紧凑损失:
    在这里插入图片描述
  • 分离损失:
    在这里插入图片描述
    其中 m 1 i m^i_1 m1i m 2 i m^i_2 m2i表示与查询 q i q^i qi最接近的第一和第二存储器项。

最后总的损失函数如下:
在这里插入图片描述
其中, λ i n t λ_{int} λint λ g d λ_{gd} λgd λ a l i g n λ_{align} λalign λ c o m p λ_{comp} λcomp λ d i v e r λ_{diver} λdiver是平衡超参数,W是模型的参数, λ m o d e l λ_{model} λmodel是控制模型复杂性的正则化超参数。

2.4. Anomaly Detection

在测试阶段,异常评分由两部分组成:
(1) 未来帧预测误差
S p = ∣ ∣ I ^ − I ∣ ∣ 2 2 S_p=||\widehat{I} - I||_2^2 Sp=∣∣I I22
(2) 外观与运动特征的不一致
在这里插入图片描述
然后,通过使用加权策略将这两部分融合,得到最终的异常分数,具体如下:
在这里插入图片描述
其中, u p u_p up δ p δ_p δp u f u_f uf δ f δ_f δf表示所有正常训练样本的预测误差的均值和标准差,以及外观和运动特征之间的不一致性。 w p w_p wp w f w_f wf表示两个分数的权重。

3.实验与结果

作者的网络结构图如下:
在这里插入图片描述

实验结果(在3个常见的视频异常检测数据集中:):
在这里插入图片描述

4.结论

在本文中,提出了一种用于视频异常检测的多级记忆增强外观运动对应框架。
通过所提出的外观-运动语义对齐丢失和预测的语义替换,显式地对外观和异常分数之间的相关性进行了建模。
同时,所提出的MGSM不仅实现了正常数据的良好重建和异常数据的较差重建之间的折衷,而且克服了复杂场景中性能下降的问题。
在三个基准数据集上的大量实验结果表明,方法比最先进的方法性能更好。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/283051.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【每日一题】【12.17】746.使用最小花费爬楼梯

🔥博客主页: A_SHOWY🎥系列专栏:力扣刷题总结录 数据结构 云计算 数字图像处理 力扣每日一题_ 1.题目链接 746. 使用最小花费爬楼梯https://leetcode.cn/problems/min-cost-climbing-stairs/ 2.题目详情 今天的每日一题又…

数据库交付运维高级工程师-腾讯云TDSQL

数据库交付运维高级工程师-腾讯云TDSQL上机指导,付费指导,暂定99

LV.13 D5 uboot概述及SD卡启动盘制作 学习笔记

一、uboot概述 1.1 开发板启动过程 开发板上电后首先运行SOC内部iROM中固化的代码(BL0),这段代码先对基本的软硬件环境(时钟等...)进行初始化,然后再检测拨码开关位置获取启动方式,然后再将对应存储器中的uboot搬移到内存,然后跳…

配电房环境监测模块

配电房环境监测模块是一个智能系统,依托电易云-智慧电力物联网平台,旨在实时监控配电房内部的环境参数,以确保配电设备的正常运行。该模块包括以下功能: 温度监测:对配电房内的温度进行实时监测,防止因温度…

电子电器架构( E/E) 演化 —— 高速 大算力

电子电器架构( E/E) 演化 —— 高速 & 大算力 我是穿拖鞋的汉子,魔都中坚持长期主义的汽车电子工程师。 老规矩,分享一段喜欢的文字,避免自己成为高知识低文化的工程师: 屏蔽力是信息过载时代一个人的特殊竞争力,任何消耗你的人和事,多看一眼都是你的不对。非必要…

vue3的大致使用

<template><div class"login_wrap"><div class"form_wrap"> <!-- 账号输入--> <el-form ref"formRef" :model"user" class"demo-dynamic" > <!--prop要跟属性名称对应-->…

人工智能强化学习:智能体自我进化的探索与挑战

导言 人工智能强化学习作为一种模仿人类学习方式的技术&#xff0c;近年来在机器学习领域取得了令人瞩目的进展。强化学习作为一种通过智能体与环境的交互学习的技术&#xff0c;与其他模型的融合不仅可以提升学习效果&#xff0c;还能在更广泛的领域中实现智能体的决策。本文将…

2.初始化Server、Common工程

1.初始化项目结构 1.1 工程依赖关系 1.2 根pom.xml <?xml version"1.0" encoding"UTF-8"?><project xmlns"http://maven.apache.org/POM/4.0.0" xmlns:xsi"http://www.w3.org/2001/XMLSchema-instance"xsi:schemaLocation…

电子元器件-MOS管

MOS管 工作原理NMOS选型封装VgsthRdsonCgs 工作原理 链接: 另类方式讲解晶体管 MOS管的全称&#xff1a; 当给栅极高电平时&#xff0c;这个MOS就会导通&#xff0c;给低电平时就会截止 MOS的构造 纯净的硅是不到点的&#xff0c;因为硅原子的最外层是8个电子&#xff0c;…

紫光FPGA DDR3 IP使用和注意事项(axi4协议)

紫光DDR3 IP使用 对于紫光ddr3 IP核的使用需要注意事情。 阅读ddr ip手册&#xff1a; 1、注意&#xff1a;对于写地址通道&#xff0c;axi_awvalid要一直拉高&#xff0c;axi_awready才会拉高。使用的芯片型号时PG2L100H-6FBG676&#xff0c;不同的型号IP核接口和axi的握手协…

Ubuntu18.04安装ffmpeg

前言 从本章开始我们将要学习嵌入式音视频的学习了 &#xff0c;使用的瑞芯微的开发板 &#x1f3ac; 个人主页&#xff1a;ChenPi &#x1f43b;推荐专栏1: 《C_ChenPi的博客-CSDN博客》✨✨✨ &#x1f525; 推荐专栏2: 《Linux C应用编程&#xff08;概念类&#xff09;_C…

Android hilt使用

一&#xff0c;添加依赖库 添加依赖库app build.gradle.kts implementation("com.google.dagger:hilt-android:2.49")annotationProcessor("com.google.dagger:hilt-android:2.49")annotationProcessor("com.google.dagger:hilt-compiler:2.49"…