多媒体领域顶会ACM MM 2023 获奖论文一览

ACM 国际多媒体会议是计算机科学领域中多媒体领域的顶级会议,属于CCF A类。今年的ACM MM 2023 已于2023年10月29日至11月2日在加拿大渥太华举行。

ACM MM会议专注于推动多媒体研究和应用,其研究领域广泛涉及触觉、视频、VR/AR、音频、语音、音乐、传感器和社交数据等多个新兴领域。该会议的热门研究方向包括大规模图像视频分析、社会媒体研究、多模态人机交互、计算视觉、计算图像等等。想发paper的同学们冲起。

我这次帮大家整理了今年ACM MM 2023的获奖论文,并且做了简单的介绍,原文及源码需要的同学看文末

最佳论文奖

CATR: Combinatorial-Dependence Audio-Queried Transformer for Audio-Visual Video Segmentation

标题:CATR:面向音视频分割的组合依赖音频查询Transformer

作者:Kexin Li, Zongxin Yang, Lei Chen, Yi Yang, Jun Xiao

简述:音视频分割(AVVS)旨在生成图像帧内产生声音的对象的像素级映射,并确保该映射准确地遵循给定的音频。现有方法存在两个限制:1)它们分别处理视频时间特征和音视频交互特征,忽略了组合音频和视频的内在时空依赖性;2)它们在解码阶段不充分引入音频约束和对象级信息,导致分割结果不符合音频指令。为了解决这些问题,本文提出了一种解耦的音视频转换器,从各自的时间和空间维度中结合音频和视频特征,捕捉它们的组合依赖性。

最佳学生论文奖

Cal-SFDA: Source-Free Domain-adaptive Semantic Segmentation with Differentiable Expected Calibration Error

标题:Cal-SFDA:基于可微期望校准误差的无源域自适应语义分割

作者:Zixin Wang, Yadan Luo, Zhi Chen, Sen Wang, Zi Huang

简述:本文提出了一种名为Cal-SFDA的新型标定引导的无源领域自适应语义分割框架。该框架的核心思想是估计分割预测的期望校准误差(ECE),作为模型对未标记目标领域的泛化能力的强指示器。反过来,估计的ECE分数有助于模型训练和公平选择源训练和目标适应阶段。在源域上的模型预训练期间,作者通过利用LogSumExp技巧并使用ECE分数来选择最好的源检查点来进行适应,确保了ECE目标的可微性。

荣誉提名奖

RefineTAD: Learning Proposal-free Refinement for Temporal Action Detection

标题:refinetad:用于时间动作检测的无学习建议细化

作者:Yue Feng, Zhengye Zhang, Rong Quan, Limin Wang, Jie Qin

简述:本文提出了一种无提议细化方法RefineTAD,用于时间动作检测任务中精细边界定位。该方法通过提出多级细化模块和偏移聚焦策略来逐步改进预测结果,从而在三个具有挑战性的数据集上显著提高了最先进的时间动作检测方法的性能。

创新创意奖

Semantics2Hands: Transferring Hand Motion Semantics between Avatars

标题:Semantics2Hands:在化身之间传递手部动作语义

作者:Zijie Ye, Jia Jia, Junliang Xing

简述:本文提出了一种名为Anatomy-based Semantic Matrix (ASM)的新颖方法,用于在多个化身之间传输手势语义。该方法通过将手势语义编码到ASM中,并使用基于解剖学的语义重构网络(ASRN)来获得源ASM到目标手关节旋转的映射函数,从而实现精确的手势重定向。作者在Mixamo和InterHand2.6M数据集上使用半监督学习策略训练了ASRN,并在域内和跨领域的手势重定向任务中进行了评估。

开源奖

Emotion Recognition ToolKit (ERTK): Standardising Tools For Emotion Recognition Research

标题:情感识别工具包(ERTK):标准化情感识别研究的工具

作者:Aaron Keesing, Yun Sing Koh, Vithya Yogarajan,Michael Witbrock

简述:本文介绍了一种Python库:情感识别工具包(ERTK),用于情感识别。ERTK包括处理情感数据集的脚本、特征提取器的标准接口以及使用声明性配置文件定义实验的框架。ERTK是模块化和可扩展的,可以轻松地集成其他模型和处理器。当前版本的ERTK主要关注情感语音,但可以轻松扩展到其他模态,这是未来的计划。

最佳演示奖

Open-RoadAtlas: Leveraging VLMs for Road Condition Survey with Real-Time Mobile Auditing

标题:Open-RoadAtlas:利用VLMs进行道路状况调查和实时移动审计

作者:Djamahl Etchegaray, Yadan Luo, Zachary FitzChance,Anthony Southon, Jinjiang Zhong

简述:道路测量对于地方政府有效管理道路网络至关重要,但目前的方法存在成本高、耗时且不准确的问题。本文提出了一种自动测量平台,支持杂草、缺陷和资产监控,并利用视觉语言模型提高灵活性。对于特定领域的类别,如路面裂缝和坑洞,该平台通过训练检测器并使用VLMs来减少误报。该系统通过移动应用程序使管理人员直接参与,实现捕捉、上传、实时监控和开放词汇检测等功能。

关注下方《学姐带你玩AI》🚀🚀🚀

回复“ACMMM”领取全部获奖论文及源码

码字不易,欢迎大家点赞评论收藏!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/188327.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

解析 Python requests 库 POST 请求中的参数顺序问题

在这篇文章中,我们将探讨一个用户在使用Python的requests库进行POST请求时遇到的问题,即参数顺序的不一致。用户通过Fiddler进行网络抓包,发现请求体中的参数顺序与他设置的顺序不符。我们将深入了解POST请求的工作原理,并提供解决…

Mysql超详细安装配置教程(保姆级)

目录 一、下载Mysql 二、安装Mysql 三、配置Mysql 四、连接Mysql 五、部分疑难问题 一、下载Mysql 从官网下载MySQL,这里我选用的是Mysql8.0.34版本 二、安装Mysql 下载完成后直接双击进行安装,打开后的页面如下所示: “Developer Defa…

echarts双轴刻度线y轴刻度线对齐

splitNumber属性主要用于设置坐标轴分割的段数。例如,在类目轴(category)中,可以通过设置splitNumber属性来控制坐标轴被分割成的段数。需要注意的是,这个分割段数只是一个预估值,最终实际显示的段数会在这…

C#调用C++ dll教程

文章目录 一、创建C dll项目二、C#程序员调用C dll三、C与C#数据类型对应基本数据类型对应表C指针类型与C#类型 在使用C#开发客户端时,有时需要调用C dll,本篇博客来介绍C#程序如何调用C dll。 一、创建C dll项目 首先使用VS2022创建C dll项目&#xf…

【MySQL】聚合函数:汇总、分组数据

文章目录 学习目标MAX()、MIN()、AVG()、SUM()、COUNT()COUNT(*) 得到所有记录条目DISTINCT去重练习1(使用UNION , SUM, BETEEN AND)GROUP BY子句练习2(使用sum,group by, join on, …

一文带你了解docker技术

什么是Docker Docker是一种虚拟技术,诞生于2013年,是dotCloud公司研发的开源项目,因为docker这个公司后来改名docker inc,docker的目标是实现轻量级的操作系统虚拟化解决方案。通俗点说,我们想在一台机器上运行多个系…

redis集群-主从复制

目录 一、主从复制概念二、单机安装Redis2.1、安装 Redis 需要的软件 gcc 和 tcl2.2、上传Redis压缩包2.3、编辑 redis.conf 文件2.4、执行安装 Redis 命令2.5、注意防火墙配置 三、主从复制 - 环境搭建3.1、配置一个 master 节点,两个 slave 节点3.2、配置 redis63…

数据结构-哈希表(C语言)

哈希表的概念 哈希表就是: “将记录的存储位置与它的关键字之间建立一个对应关系,使每个关键字和一个唯一的存储位置对 应。” 哈希表又称:“散列法”、“杂凑法”、“关键字:地址法”。 哈希表思想 基本思想是在关键字和存…

kibana8.10.4简单使用

1.创建discovery里的日志项目 点击stack management 选择kibana里的数据视图,右上角创建数据视图,输入名称。索引范围。例子 example-* ,匹配以example-开头的所有index。 然后点击 保存数据视图到kibana, 2.Kibana多用户创建及角色权限控…

R语言绘制精美图形 | 火山图 | 学习笔记

一边学习,一边总结,一边分享! 教程图形 前言 最近的事情较多,教程更新实在是跟不上,主要原因是自己没有太多时间来学习和整理相关的内容。一般在下半年基本都是非常忙,所有一个人的精力和时间有限&#x…

springMvc中的拦截器【巩固】

先实现下想要的拦截器功能 package com.hmdp.utils;import com.hmdp.entity.User; import org.springframework.web.servlet.HandlerInterceptor;import javax.servlet.http.HttpServletRequest; import javax.servlet.http.HttpServletResponse; import javax.servlet.http.Ht…

AVL树的底层实现

文章目录 什么是AVL树?平衡因子Node节点插入新节点插入较高左子树的左侧新节点插入较高左子树的右侧新节点插入较高右子树的左侧新节点插入较高右子树的右侧 验证是否为平衡树二叉树的高度AVL的性能 什么是AVL树? AVL树又称平衡二叉搜索树,相…