【ICCV2023】MMVP:基于运动矩阵的视频预测

 

目录

导读

本文方法

步骤1:空间特征提取

步骤2:运动矩阵的构造和预测

步骤3:未来帧的合成和解码

实验

实验结果

消融实验

结论


论文链接:https://openaccess.thecvf.com/content/ICCV2023/html/Zhong_MMVP_Motion-Matrix-Based_Video_Prediction_ICCV_2023_paper.html

代码:https://github.com/Kay1794/MMVP-motion-matrix-based-video-prediction

引用:Zhong Y, Liang L, Zharkov I, et al. MMVP: Motion-Matrix-based Video Prediction[C]//Proceedings of the IEEE/CVF International Conference on Computer Vision. 2023: 4273-4283.

图片

 

导读

本文讨论了视频预测领域的一个核心挑战,即在图像帧中推测对象的未来运动同时保持它们在各帧之间外观的一致性。为了解决这一问题,作者引入了一种端到端可训练的两流视频预测框架,称为“Motion-Matrix-based Video Prediction”(MMVP)。

与以往的方法不同,以往的方法通常在相同的模块内处理运动预测和外观维护,MMVP通过构建外观无关的运动矩阵来解耦运动和外观信息。这些运动矩阵表示输入帧中每对特征块的时间相似性,它们是MMVP中运动预测模块的唯一输入。这种设计提高了视频预测的准确性和效率,并降低了模型大小。

广泛的实验证明,MMVP在公共数据集上的表现优于最先进的方法,性能提升显著(在PSNR上提高了约1 dB,例如 UCF Sports数据集),而模型大小却显著减小(相当于84%或更小的模型尺寸)。

本文方法

图片

 

给定一个视频序列

图片

,其中 It 表示第t帧,通常是RGB格式。MMVP估计未来的T‘帧,即

图片

 

与已知的帧集相比,我们将估计的帧集表示为:

图片

 

该框架的训练仅由均方误差(MSE)损失来监督。MMVP 包括以下三个步骤:

  • 空间特征提取

  • 运动矩阵的构造和预测

  • 未来帧的合成和解码

步骤1:空间特征提取

空间特征提取涉及到MMVP框架的两个组成部分:图像编码器滤波器块

MMVP中的图像编码器 Ω 分别对从输入数据序列到相应特征的每个 Ii 进行编码。滤波器块Θ随后处理 fi,滤波器块的任务是滤除 fi 的运动不相关特征,以供后续的运动矩阵构建使用:

图片

 

我们使用一个具有残差的卷积网络(RRDBs)[44]来实现图像编码器,使用一个两层卷积网络来实现滤波器块。

步骤2:运动矩阵的构造和预测

MMVP基于特征对

图片

为每两个连续帧生成一组运动矩阵

图片

,这是通过计算每对特征块的余弦相似度来构建的。矩阵

图片

在位置

图片

的元素表示为:

图片

 

给定

图片

,矩阵预测函数

图片

预测未来的矩阵

图片

 

不同于预测连续帧之间的运动矩阵,这里预测了从最后观察到的帧

图片

到每个未来帧

图片

, 的运动矩阵,如下所示:

图片

 

这个设计旨在减少特征合成过程中的累积误差,并通过表格 3 中的长期预测设置得到验证。

图片

 

步骤3:未来帧的合成和解码

这一步骤通过使用观察到的信息和运动矩阵生成未来帧的信息。这一过程可以表示为:

图片

 

与仅使用最后观察到的帧的信息不同,我们使用所有观察到的信息进行未来合成,并通过重复矩阵乘法来减小较早帧的权重。公式中的 X 代表过去帧的观察信息。这些信息可以是图像编码器不同尺度的输出特征

图片

,也可以是观察到的帧

图片

 

由于运动矩阵是从某个尺度的图像特征构建的,因此矩阵与某些特征之间可能存在不兼容性。为了实现运动矩阵与观察到的特征(任何尺度)或图像之间的矩阵乘法,作者借用了来自[39]的像素解缩。像素解缩操作将特征或图像重新整形成与运动矩阵相同的尺度,以进行矩阵乘法。然后,将矩阵乘法的结果重新整形为特征或图像的原始尺度。如图4,这整个过程涉及很少的信息损失。根据表格 6 的研究,我们可以看出多尺度特征合成设计通常在系统中使用更多尺度的特征时能够获得更好的性能。

解码过程采用了UNet的解码器结构,结合了RRDB块来实现MMVP的图像解码器。这一设计允许来自所有尺度的图像特征以及原始图像的合成特征对最终的输出做出贡献。在框架训练中,使用均方误差(MSE)损失来进行监督。

图片

 

实验

数据集设置:

图片

 

实验结果

与SOTA的比较

图片

 

图片

 

图片

 

预测的运动矩阵可视化结果:

图片

 

UCF Sports 数据集的定性结果:

图片

 

消融实验

图片

 

图片

 

结论

本文提出的基于运动矩阵的视频预测框架(MMVP)是一个端到端可训练的双流管道。MMVP使用运动矩阵来表示与外观无关的运动模式。作为MMVP中运动预测模块的唯一输入,运动矩阵描述了特征块之间的多对多关系,无需训练额外的模块;通过矩阵乘法直观地组合了未来特征与多尺度图像特征,有助于运动预测更加集中,有效地减少了外观上的信息损失。通过广泛的实验证明,MMVP在模型大小和性能方面均优于现有的最先进方法。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/293764.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

音箱芯片系统案例分析

近年来,音箱市场需求日益增长,其轻便、时尚的外观和无线连接的便捷性深受消费者喜爱。音箱的电路图主要由以下几个部分组成:音频功放芯片 前置信号处理 运算放大器 稳压电源芯片 电平指示 音频功放芯片:D2668,D2025,D8227,D4520…

手机怎么下载python并安装,如何在手机上下载python

大家好,小编来为大家解答以下问题,如何在手机上下载python 3.7版本,手机怎么下载python并安装,现在让我们一起来看看吧! 如何在手机上下载python 应用市场内搜索下载下载Python在您开始之前,在你的计算机将…

Android应用-flutter使用Positioned将控件定位到底部中间

文章目录 场景描述示例解释 场景描述 要将Positioned定位到屏幕底部中间的位置,你可以使用MediaQuery来获取屏幕的高度,然后设置Positioned的bottom属性和left或right属性,一般我们left和right都会设置一个值让控制置于合适的位置&#xff0…

openGauss学习笔记-169 openGauss 数据库运维-备份与恢复-导入数据-更新表中数据-使用DML命令更新表

文章目录 openGauss学习笔记-169 openGauss 数据库运维-备份与恢复-导入数据-更新表中数据-使用DML命令更新表169.1 操作步骤 openGauss学习笔记-169 openGauss 数据库运维-备份与恢复-导入数据-更新表中数据-使用DML命令更新表 openGauss支持标准的数据库操作语言&#xff08…

基于YOLOv8深度学习的智能玉米害虫检测识别系统【python源码+Pyqt5界面+数据集+训练代码】目标检测、深度学习实战

《博主简介》 小伙伴们好,我是阿旭。专注于人工智能、AIGC、python、计算机视觉相关分享研究。 ✌更多学习资源,可关注公-仲-hao:【阿旭算法与机器学习】,共同学习交流~ 👍感谢小伙伴们点赞、关注! 《------往期经典推…

一文弄懂kubernetes之Service

目录 ServiceService工作流程kube-proxyuserspaceiptablesIPVS EndpointsService负载分发策略Service属性Service定义多端口Service外部服务ServiceHeadless Services Service 在 kubernetes 中,Pod 是有生命周期的,如果 Pod 重启 IP 很有可能会发生变化…

MATLAB - 读取双摆上的 IMU 数据

系列文章目录 前言 本示例展示了如何从安装在双摆杆上的两个 IMU 传感器生成惯性测量单元 (IMU) 读数。双摆使用 Simscape Multibody™ 进行建模。有关使用 Simscape Multibody™ 构建简易摆的分步示例,请参阅简易摆建模(Simscape Multibody&#xff09…

Unity中Shader矩阵变换的几何体现

文章目录 前言一、点 的 向量表达形式 和 矩阵表达形式1、点 的 向量表达形式2、点 的 矩阵表达形式 二、使用二维旋转矩阵来旋转P点三、怎么求坐标系旋转后 P 点在新坐标系中的坐标1、我们求出 B 坐标系的基向量在 A 坐标系下的矩阵2、求 B 坐标系的基向量在 A 坐标系下的矩阵…

祝贺!我的同事丁宇获“2023 年度云原生产业领军人物”荣誉称号

云布道师 日前,在云原生产业大会上, 中国信息通信研究院授予我的同事丁宇 “2023 年度云原生产业领军人物”荣誉称号, 以表彰其在云原生产业上的突出贡献与创新引领。 组委会在评语中写到: “他开创性的打造全链路压测技术&…

NLP论文阅读记录 - 2022 sota | 校准序列似然改善条件语言生成

文章目录 前言0、论文摘要一、Introduction1.1目标问题1.2相关的尝试1.3本文贡献 二.相关工作强化学习方法两阶段重新排名方法具有序列级损失的多任务学习 三.本文方法3.1 相似度函数3.2 校准损失3.3正则化损失3.4 候选解码方法 四 实验效果4.1数据集4.2 对比模型4.3实施细节4.…

服务熔断(Hystrix)

服务雪崩 多个微服务之间调用的时候,假设微服务A调用微服务B和微服务C,微服务B和微服务C又调用其他的微服务,这就是所谓的“扇出”,如果扇出的链路上某个微服务的调用响应时间过长,或者不可用,对微服务A的…

B041-SSM集成_拦截器

目录 SSM整合简介整合步骤先准备spring环境核心配置文件 Spring整合Mybatis准备数据库和表Spring管理数据库连接属性文件Spring管理连接池实体类、mapper接口和映射文件Spring管理SqlSessionFactorySpring管理Mapper接口Spring管理Servive层 Spring整合SpringMVC准备web.xml准备…