【VL tracking】Towards Unified Token Learning for Vision-Language Tracking

在这里插入图片描述

不知道什么原因学校认证账号进不去,下载不了最新的PDF

在这里插入图片描述
广西师范大学 | 国科大 | 厦大
代码开源

zhihu指路👉【VL tracking】MMTrack阅读

问题

一方面,传统的VL tracking方法需要昂贵的先验知识。例如,一些tracker是专门用于bounding box的,它们使用区域建议网络(基于锚点的机制)和ROI池化来生成跨模态融合和对齐的建议实例。

另一方面,在多任务学习中,寻找一个有利于vision-language理解的训练目标是困难的。例如,将各种损失函数用于某个特定的模块或任务中,如果一个模型想要有效地学习所有类型任务的特征,调整会是困难的并且泛化能力有限。

为了简化VL tracking建模,本文提出一种概念简单但有效的VL多模态跟踪pipeline,称作MMTrack

Contributions

  • 本文将视觉语言跟踪重新定义为一项token生成任务,并提出了一个新颖的pipeline,从统一建模的角度释放视觉语言多模态学习的潜力。
  • 整个方法简单灵活,将语言和边界框统一作为多线索的token输入。它避免了冗余的子任务学习和优化目标,并且只使用交叉熵作为统一的训练目标。
  • 本文提出的方法在4个VL基准测试上实现了最先进的跟踪结果,表明该方法可以成为VL Tracking新的baseline。

方法

讨论与基于序列的工作的不同之处

pix2seq采用语言建模的方式解决了目标检测任务,取得了较好的结果。受其理念启发,作者为跟踪社区贡献了一种新颖的VL多模态跟踪模型,工作区别在以下几个方面:

  1. pix2seq是为目标检测而设计的,而作者创造性地将其扩展到了VL跟踪任务的多模态建模,并为文本视频理解设计了一个多模态编码器。这超出了原方法单模态的限制。
  2. pix2seq从边界框、类别和噪声数据中创建长序列。相比之下,作者通过仅依赖于边界框和文本信息来简化序列构建策略,避免使用类别和其他噪声策略。因此通过防止长而复杂的序列,本文提出的方法减少了训练负荷,更好地适应了VL跟踪任务。

SeqTrack与本文研究相似,但区别在以下几个方面:

  1. SeqTrack是专门针对涉及视觉模态的纯视觉跟踪任务而设计的,在处理多模态数据输入方面缺乏灵活性。相比之下,视觉语言跟踪结合了高级语义信息来解决边界框的模糊性,从而在实际应用中实现了更灵活、鲁棒和准确的跟踪。
  2. 标记序列构建策略不同。尽管SeqTrack和我们的工作都使用了短标记序列的构建策略,但我们减少了量化桶(quantization bins)的数量,并考虑了将语言标记纳入其中。这种增加的措施提高了在复杂场景中目标定位的鲁棒性。

具体方法

在这里插入图片描述
本文提出的MMTrack框架如上图,包含两个输入:图像对和语言描述。首先,通过文本编码器和视觉编码器分别来提取这两种类型输入的特征。为了提高计算效率,作者使用两个线性层,将两类特征的通道维度从C降到d。然后,将语言和视觉特征喂到多模态编码器中进行统一的VL表征学习,因为通过融合操作形成统一表示是实现多模态学习的关键。
为了构建条件查询,作者将文本嵌入和边界框进行分词(tokenize),生成多个一维标记序列,然后将它们连接起来得到条件查询。接下来,将条件查询和VL表示输入到多模态解码器中。按照 自回归

的方式,条件查询学习从VL表示中生成带有边界框信息的目标序列。

最后,作者设计了一个简单的与任务无关(task-agnostic)的序列头部,可以直接预测最终的跟踪结果。

a. 跨模态编码器

在这里插入图片描述

b.跨模态解码器

在这里插入图片描述在这里插入图片描述在这种模式下,不同模态可以通过encoder-decoder架构在MMTrack中传播。多模态编码器负责更新VL表示,而多模态解码器以自回归方式预测离散坐标标记。我们可以看到,整个pipeline简单而灵活。

c. 条件查询

在这里插入图片描述
x ~ = r o u n d ( x i s × K ) y ~ = r o u n d ( y i s × K ) \tilde{x}=round(\frac{x_i}{s}\times K) \ \tilde{y}=round(\frac{y_i}{s}\times K) x~=round(sxi×K) y~=round(syi×K)

d.不依赖特定任务的序列预测器

在这里插入图片描述

如上图所示,本文提出一个task-agnostic序列预测器,生成一个属性序列来描述目标实例。具体而言,在多模态解码器的顶部添加了三个连续的线性层,以进一步学习坐标token。预测头输出坐标token序列的概率,其中前4个最大分数的索引代表当前帧的目标定位。By doing so, 模型能够摆脱传统分类器的引导,降低预测头的设计复杂度。

效果

在这里插入图片描述表中数据红色是最优结果蓝色次优

可视化:复杂场景下的效果

在这里插入图片描述

与其他VL trackers的定性比较结果

在这里插入图片描述

failure case

在这里插入图片描述

无关结论

【多阅读多思考,有想法立刻写】相近领域或方向中,对最新方法的迁移和借鉴,比如单模态->多模态,检测->跟踪。

【绝对充分的实验】

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/97199.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

3.2.0 终极预告!云原生支持新增 Spark on k8S 支持

视频贡献者 | 王维饶 视频制作者 | 聂同学 编辑整理 | Debra Chen Apache DolphinScheduler 3.2.0 版本将发布,为了让大家提前了解到此版本更新的主要内容,我们已经制作了几期视频和内容做了大致介绍,包括《重磅预告!Apache Dol…

安防视频监控/视频集中存储/云存储平台EasyCVR平台无法播放HLS协议该如何解决?

视频云存储/安防监控EasyCVR视频汇聚平台基于云边端智能协同,支持海量视频的轻量化接入与汇聚、转码与处理、全网智能分发、视频集中存储等。音视频流媒体视频平台EasyCVR拓展性强,视频能力丰富,具体可实现视频监控直播、视频轮播、视频录像、…

100天精通Python(可视化篇)——第99天:Pyecharts绘制多种炫酷K线图参数说明+代码实战

文章目录 专栏导读一、K线图介绍1. 说明2. 应用场景 二、配置说明三、K线图实战1. 普通k线图2. 添加辅助线3. k线图鼠标缩放4. 添加数据缩放滑块5. K线周期图表 书籍推荐 专栏导读 🔥🔥本文已收录于《100天精通Python从入门到就业》:本专栏专…

MyBatis中至关重要的关系映射----全方面介绍

目录 一 对于映射的概念 1.1 三种关系映射 1.2 resultType与resultMap的区别 resultType: resultMap: 二,一对一关联查询 2.1 嵌套结果集编写 2.2 案例演示 三,一对多关联查询 3.1 嵌套结果集编写 3.3 案例演示 四&…

排序之插入排序

文章目录 前言一、直接插入排序1、基本思想2、直接插入排序的代码实现3、直接插入排序总结 二、希尔排序1、希尔排序基本思想2、希尔排序的代码实现3、希尔排序时间复杂度 前言 排序:所谓排序,就是使一串记录,按照其中的某个或某些关键字的大…

Java应用CPU占用过高故障排除

一、背景 最近测试反馈测试环境接口偶现有访问超时,然后APP提示是网络失败,看了一下测试环境的应用完全没啥问题,一直以为是网络问题。 今天测试有反馈了,赶紧看了一下测试服务器,这次终于有症状了,CPU直…

mp代码生成插件

mp代码生成插件 1.下载下面的插件 2.连接测试 3.生成代码的配置 4.生成代码 红色的是刚刚生成的。 我觉得不如官方的那个好用,唯一的好处就是勾选的选项能够看的懂得。

【Linux】文件缓冲区

目录 一、缓冲区图解二、自定义实现文件操作函数三、强制刷新内核缓冲区(fsync) 提到文件缓冲区这个概念我们好像并不陌生,但是我们对于这个概念好像又是模糊的存在脑海中,之间我们在介绍c语言文件操作已经简单的提过这个概念&…

设计模式之建造者模式与原型模式

目录 建造者模式 简介 使用场景 优缺点 模式结构 实现 原型模式 简介 应用场景 优缺点 模式结构 实现 建造者模式 简介 将复杂对象的构建与表示进行分离,使得同样的构建过程可以创建不同的表示。是一个将复杂的对象分解为多个简单的对象,然…

医疗小程序:让服务更高效,用户体验更优化

随着移动互联网的快速发展,小程序已经成为了一个热门的开发方向。医疗健康类小程序也不例外,拥有广泛的市场需求和前景。本文将为你提供一份完整的医疗健康类小程序开发攻略,帮助你快速开发上线一个专业成熟的小程序商城。 一、选择合适的小程…

官方发布:Mac 版 Visual Studio IDE将于明年 8 月 31 日停止支持

近日,微软官方宣布:适用于 Mac 平台的 Visual Studio 集成开发环境(IDE)已经启动 "退休" 进程。Visual Studio for Mac 17.6 将继续支持 12 个月,持续到 2024 年 8 月 31 日。 微软表示在未来的 1 年内将重…

Altium显示/隐藏白色网络

在Altium软件中,相同网络的单元如果没有连接,会在PCB中出现白色的线,如下图所示。 这些白色的细线用于提示我们还有哪些网络没有布线。 如果我们不想要出现这种线,可以进行如下设置 View > Connections > Hide All 如…