多媒体领域顶会ACM MM 2023 闭幕,获奖论文一览!

多媒体领域顶会

国际多媒体会议(The 31th ACM International Conference on Multimedia,ACM MM)于2023年10月28日至11月3日在加拿大渥太华举行,该会议是计算机图形学与多媒体领域顶级会议,被中国计算机学会列为A类会议。

ACM MM 研究内容广泛,涵盖图像、视频、语音、文本等内容的分析、检索、编码、通信、交互、隐私保护等众多主题。

在今天这个多媒体数据爆炸式产生的时代,相关技术的创新引起了企业和学术界越来越多的关注,ACM MM 2023 共收到3072篇有效投稿(相比去年激增24%),接收论文902篇。

趋动云的众多客户正在从事相关技术研究与业务创新,本文将带领大家一览ACM MM 上的获奖论文(项目)。

获奖论文(项目)一览

最佳论文奖

CATR: Combinatorial-Dependence Audio-Queried Transformer for Audio-Visual Video Segmentation
  • 论文链接:https://arxiv.org/abs/2309.09709

  • 开源地址:https://github.com/aspirinone/CATR.github.io

  • 作者单位:Zhejiang University;Finvolution Group;

研究领域:最佳论文研究内容为Audio-visual video segmentation ,旨在生成图像内产生声音的对象的像素级掩码标注,不仅如此还要将声音与发出声音的对象关联起来,比如在视频中识别和分割唱歌的人。

方法创新:提出的方法 CATR 采用编码器-解码器结构。

  1. 在编码过程中,合并音频和视频特征,并捕获它们的时空依赖关系。

  2. 设计了一个基于块的门控方法,以此平衡多个编码器块的贡献。

  3. 在解码过程中,引入音频约束查询,利用音频特征来提取对象级信息,引导目标对象的分割,确保解码后的掩码与声音保持一致。

结果:作者使用两种骨干网络在三个数据集上的实验证明该方法性能达到了 SOTA 。作者称代码将开源,期待类似新技术能催生更多创新应用。

荣誉提名奖

RefineTAD: Learning Proposal-free Refinement for Temporal Action Detection
  • 论文链接:https://dl.acm.org/doi/pdf/10.1145/3581783.3611872

  • 作者单位:Nanjing University of Aeronautics and Astronautics;Nanjing University

研究领域:时间动作检测(TAD),旨在定位视频中动作的起始帧和结束帧。

方法创新:提出了一种更具普适性和易用性的定位优化框架,将定位细化过程与传统动作检测方法进行解耦,在每个时间点生成多尺度的定位细化信息;同时提出一种偏移聚焦策略,以由粗到精的方式逐步增强模型的检测效果。

结果:在三个具有挑战性的数据集上进行了广泛的实验,结果表明 RefineTAD 能在保持较低计算开销的情况下显著提升动作边界定位的精度。

最佳学生论文奖

Cal-SFDA: Source-Free Domain-adaptive Semantic Segmentation with Differentiable Expected Calibration Error
  • 论文链接:https://arxiv.org/abs/2308.03003

  • 作者单位:The University of Queensland

研究内容:语义分割在图像视频理解任务中具有基础的作用,这篇论文关注的是域自适应语义分割(domain adaptive semantic segmentation)问题,涉及到将一个域中训练的语义分割模型应用到另一个域中,在进行域适应时不依赖于源域的数据。

创新方法:研究者在这个背景下提出了一种 "Cal-SFDA" 框架,借助源端和目标端的模型校准,有效地解决了无源域语义分割域适应的难题。

结果:在两个广泛使用的合成数据到真实数据的语义分割迁移实验中,该文提出的新方法均取得了显著的性能提升。

勇敢创新奖

Semantics2Hands: Transferring Hand Motion Semantics between Avatars
  • 论文链接:https://arxiv.org/abs/2308.05920

  • 开源地址:https://github.com/abcyzj/Semantics2Hands

  • 作者单位:Tsinghua University;Tsinghua University Beijing National Research Center for Information Science and Technology

研究内容:在动画制作和人机交互中,保持虚拟人物的手部动作语义前提下进行手部动作迁移。

创新方法:研究者引入了一种新的基于解剖学的语义矩阵(Anatomy-based Semantic Matrix,ASM),用于编码手部动作的语义信息。基于此的语义重建网络实现从源ASM到目标手部关节旋转的映射函数。作者使用半监督学习策略来训练该模型。

结果:在同域和不同域的数据实验中,新方法在维护手部动作语义的同时,均可以有效地实现虚拟人物模型之间的手部动作迁移,提高了用户体验。作者已将代码开源。

开源奖

Emotion Recognition ToolKit (ERTK): Standardising Tools For Emotion Recognition Research
  • 论文链接:https://dl.acm.org/doi/pdf/10.1145/3581783.3613459

  • 开源地址:https://github.com/Strong-AI-Lab/emotion

  • 作者单位:University of Auckland

开源奖颁发给了ERTK,这是一个基于语音数据,用于情感识别的 Python 库。其包括完善的数据集处理脚本、特征提取器的标准接口以及使用配置文件定义实验的框架,具有模块化和可扩展性的特点。

开发者可以很方便使用这个库进行语音情感识别,还可以很方便地将其引入自己的开发项目或者接入其他平台。

最佳演示奖

Open-RoadAtlas: Leveraging VLMs for Road Condition Survey with Real-Time Mobile Auditing
  • 论文链接:https://dl.acm.org/doi/pdf/10.1145/3581783.3612668

  • 作者单位:The University of Queensland;

最佳演示奖颁发给了一个道路检测管理系统应用Open-RoadAtlas,比较有意思的是,它不是一套常规的仅基于视觉的道路缺陷检测系统,由于结合了最新的视觉语言模型VLM,还可以通过拒绝VLM识别的兴趣区域之外的预测来减少假阳性。

趋动云助力多媒体领域科研创新

趋动云作为领先的算力服务商,帮助多媒体领域研究者和开发者创新,具有多种优势。

算力灵活,成本可控。用户可按需使用GPU算力,避免高昂的设备采购费用。

可扩展的存储方案。在模型训练和测试中,多媒体数据是天然的大数据,扩展的存储方案允许客户根据自己需要存储和使用数据。

种类众多的数据集和AI模型资源。趋动云平台内置近千个涵盖不同领域的数据集和模型数据,用户一键选择即可使用,比如大小几十G的COCO数据集、ChatGLB模型数据,帮助从事相关研究的用户节省大量时间。

总之,趋动云作为一家GPU云服务商,为多媒体领域研究者提供了强大的工具和资源,帮助他们加速研究进程、优化模型性能,以取得更大的研究成果!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/298906.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

[SWPUCTF 2021 新生赛]hardrce

[SWPUCTF 2021 新生赛]hardrce wp 参考博客&#xff1a;https://www.cnblogs.com/bkofyZ/p/17644820.html 代码审计 题目的代码如下&#xff1a; <?php header("Content-Type:text/html;charsetutf-8"); error_reporting(0); highlight_file(__FILE__); if(is…

Python 爬虫之下载视频(五)

爬取第三方网站视频 文章目录 爬取第三方网站视频前言一、基本情况二、基本思路三、代码编写四、注意事项&#xff08;ffmpeg&#xff09;总结 前言 国内主流的视频平台有点难。。。就暂且记录一些三方视频平台的爬取吧。比如下面这个&#xff1a; 一、基本情况 这次爬取的方…

PSoc62™开发板之按键控制LED

实验目的 使用板子上的用户自定义按键控制LED亮灭&#xff0c;当按键按下时LED亮起来&#xff0c;不按下则不亮 电路图 按键电路 板子有两组按键&#xff0c;分别是系统复位按键和用户自定义按键&#xff0c;这里我们选择控制用户自定义按键&#xff0c;可以看到MCU_USER_B…

学习 Web 开发

学习 Web 开发 | MDN (mozilla.org)https://developer.mozilla.org/zh-CN/docs/Learn 从零开始学习 Web 开发极具挑战性&#xff0c;该教程将为你提供详细的资料&#xff0c;手把手帮助你轻松愉快地学习。无论你是正在学习 Web 开发的学生&#xff08;自学或参与课程&…

基于 Webpack 插件体系的 Mock 服务

背景 在软件研发流程中&#xff0c;对于前后端分离的架构体系而言&#xff0c;为了能够更快速、高效的实现功能的开发&#xff0c;研发团队通常来说会在产品原型阶段对前后端联调的数据接口进行结构设计及约定&#xff0c;进而可以分别同步进行对应功能的实现&#xff0c;提升研…

ctf web赛道基础 万字笔记

一、SQL注入&#xff08;mysql&#xff09;&#xff1a; 基本语法 判断列数 order by 3 查询所有数据库&#xff1a; select group_concat(schema_name) from information_schema.schemata 查询当前数据库的所有表&#xff1a; select group_concat(table_name) from informa…

数字人直播系统源码开发:实现电商必备的一键生成真人直播卖货

随着互联网技术的不断演进和电子商务的蓬勃发展&#xff0c;直播电商成为了一种新兴的销售模式。然而&#xff0c;传统的直播方式存在着一些问题&#xff0c;比如主播的时间和精力有限&#xff0c;无法满足大量商品的销售需求。为了解决这个问题&#xff0c;数字人直播系统应运…

【计算机四级(网络工程师)笔记】操作系统运行机制

目录 一、中央处理器&#xff08;CPU&#xff09; 1.1CPU的状态 1.2指令分类 二、寄存器 2.1寄存器分类 2.2程序状态字&#xff08;PSW&#xff09; 三、系统调用 3.1系统调用与一般过程调用的区别 3.2系统调用的分类 四、中断与异常 4.1中断 4.2异常 &#x1f308;嗨&#xff…

华为OD机试 - 学生方阵 - 矩阵(Java 2023 B卷 200分)

目录 专栏导读一、题目描述二、输入描述三、输出描述1、输入2、输出 四、解题思路1、题目解析2、解体思路 五、Java算法源码再重新读一遍题目&#xff0c;看看能否优化一下~ 六、效果展示1、输入2、输出3、说明 华为OD机试 2023B卷题库疯狂收录中&#xff0c;刷题点这里 专栏导…

GPU性能实时监测的实用工具

大家好,我是爱编程的喵喵。双985硕士毕业,现担任全栈工程师一职,热衷于将数据思维应用到工作与生活中。从事机器学习以及相关的前后端开发工作。曾在阿里云、科大讯飞、CCF等比赛获得多次Top名次。现为CSDN博客专家、人工智能领域优质创作者。喜欢通过博客创作的方式对所学的…

DataProcess-VOC数据图像和标签一起进行Resize

VOC数据图像和标签一起进行Resize 参加检测比赛的时候&#xff0c;很多时候工业原始数据尺度都比较大&#xff0c;如果对数据不提前进行处理&#xff0c;会导致数据在加载进内存时花费大量的时间&#xff0c;所以在执行训练程序之前需要将图像提前进行预处理。对于目标检测的数…

《Nature》预测 2024 科技大事:GPT-5预计明年发布等

《Nature》杂志近日盘点了 2024 年值得关注的科学事件&#xff0c;包括 GPT-5 与新一代 AlphaFold、超算 Jupiter、探索月球任务、生产「超级蚊子」、朝向星辰大海、试验下一代新冠疫苗、照亮暗物质、意识之辩第二回合、应对气候变化。 今年以来&#xff0c;以 ChatGPT 为代表…