中文读唇总动员:CNVSRC 2023 研讨会圆满落幕

12月9日晚,NCMMSC-CNVSRC 2023 学术研讨会在苏州召开的第十八届全国人机语音通讯学术会议(NCMMSC 2023)举办,会上公布了本次视觉语音识别竞赛 CNVSRC 2023 的最终结果,并举行颁奖仪式。

本次竞赛由 NCMMSC 2023组委会发起,由清华大学、北京邮电大学、海天瑞声、语音之家联合主办。竞赛的核心目的是验证当前视觉语音识别(或称唇语识别)技术在大词表连续识别场景下的性能。

本次竞赛共吸引了85支海内外队伍参赛。历经近三个月的角逐,来自西工大ASLP-理想汽车、内蒙古大学、红西瓜半导体、成者科技、北京邮电大学、同花顺等单位的参赛队伍获得佳绩。详细赛事结果及报告视频将公布在竞赛官网,敬请关注:http://cnceleb.org/competition

各任务及赛道的排名如下:

清华大学王东老师主持技术交流会,海天瑞声副总经理、COO 李科和语音之家创始人&CEO卜辉共同为四个竞赛任务的队伍颁奖,清华大学陈琛同学分享了基线系统与技术报告。

图片

清华大学王东老师主持技术交流会

图片

海天瑞声副总经理、COO 李科介绍海天瑞声并主持颁奖

图片

语音之家创始人&CEO卜辉主持颁奖

图片

清华大学陈琛同学分享基线系统与技术报告

图片

西工大ASLP-理想汽车、内蒙古大学、红西瓜半导体、北京邮电大学 团队代表领奖

图片

西工大ASLP-理想汽车团队代表分享

图片

红西瓜半导体团队代表分享

图片

北京邮电大学团队代表分享

图片

同花顺团队代表线上分享

图片

‍参会人员合影

图片

CNVSRC 2023 组委会成员和其他工作人员

图片

视觉语音识别

视觉语音识别,也称唇语识别,是一项通过口唇动作来推断发音内容的技术。该技术在公共安全、助老助残、视频验真等领域具有重要应用。当前,唇语识别的研究方兴未艾,虽然在独立词、短语等识别上取得了长足进展,但在大词表连续识别方面仍面临巨大挑战。特别是对于中文而言,由于缺乏相应的数据资源,该领域的研究进展受到了限制。为此,清华大学在2023年发布了CN-CVS数据集[1],成为首个大规模的中文视觉语音识别数据库,为进一步推动大词表连续视觉语音识别 (LVCVSR) 提供了可能。关于CN-CVS数据集的更多信息,可访问数据库官网 http://cnceleb.org。

本次竞赛中许多参赛队伍在唇语识别任务上实现了系统性能的显著提升,其中最佳成绩相较于基线系统实现了超过20%的相对性能提升。参赛者们在唇语识别系统的各个组成部分中都提出了令人耳目一新的创新方案,为进一步推进中文大词表连续视觉语音识别的研究提供了新思路、新方法。

[1] C. Chen, D. Wang, T.F. Zheng, CN-CVS: A Mandarin Audio-Visual Dataset for Large Vocabulary Continuous Visual to Speech Synthesis, ICASSP, 2023.

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/265859.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【C知道】帮我答疑解惑:java的entity字段是map,如何映射到数据库

目录 一、问题场景描述 二、跟【C知道】第一次沟通 (1)我问 (2)他答 (3)我说 三、跟【C知道】第二次沟通 (1)我问 (2)他答 (3&#xff0…

大厂外包干了2个月,技术明显进步了...

先说一下自己的情况,大专生,19年通过校招进入湖南某软件公司,干了接近4年的功能测试,今年8月份,感觉自己不能够在这样下去了,长时间呆在一个舒适的环境会让一个人堕落!而我已经在一个企业干了四年的功能测试…

实现加盐加密方法以及MappedByteBuffer,RandomAccess

目录 自己实现 Spring Security MappedByteBuffer RandomAccess 加盐加密的实现 自己实现 传统MD5可通过彩虹表暴力破解, 加盐加密算法是一种常用的密码保护方法,它将一个随机字符串(盐)添加到原始密码中,然后再进…

四十四、Redis的数据持久化(RDB、AOF)

目录 一、定义 二、RDB 1、默认方案: 2、bgsave方案: 3、bgsave的基本流程: 4、RDB会在什么时候执行?save 60 1000代表什么含义? 5、RDB的缺点: 三、AOF 1、定义: 2、流程:…

C++——继承

目录: 继承的概念及定义 面向对象的三个基本特征:封装、继承、多态。在前面的讲解中封装已经用的很多了,那么接下来的两篇文章就来介绍一下继承和多态。 继承的概念 继承(inheritance)机制是面向对象程序设计使代码可以复用的最重要的手段&am…

虾皮选品:如何在虾皮平台上进行选品以提高销售额和利润

在虾皮(Shopee)平台上进行选品时,可以遵循以下策略和技巧,以便找到有潜力的产品并提高销售额。 先给大家推荐一款shopee知虾数据运营工具 知虾免费体验地址(复制浏览器打开):d.ddqbt.com/JU5o …

Python开发常用的库汇总,附官网链接

文章目录 前言环境管理包管理包仓库分发构建工具交互式解析器文件日期和时间文本处理特殊文本格式处理自然语言处理文档配置命令行工具下载器图像处理OCR音频Video地理位置HTTP数据库数据库驱动ORMWeb 框架权限CMS电子商务RESTful API验证模板引擎队列搜索动态消息资源管理缓存…

Rust 学习

Rust 官网:https://www.rust-lang.org/zh-CN/ 1、Rust 简介 Rust 是一门注重安全(safety)、速度(speed)和并发(concurrency)的现代系统编程语言。Rust 通过内存安全来实现以上目标,但…

FFmpeg的AVcodecParser

文章目录 结构体操作函数支持的AVCodecParser 这个模块是AVCodec中的子模块,专门用来提前解析码流的元数据,为后面的解码做准备,这一点对cuda-NVdec非常明显,英伟达解码器的元数据解析是放在CPU上的,所以就非常依赖这个…

git提交代码报错Git: husky > pre-commit

目录 git提交代码报错原因解决方法(三种)1、第一种2、第二种3、第三种 git提交代码报错原因 这个问题是因为当你在终端输入git commit -m “XXX”,提交代码的时候,pre-commit(客户端)钩子,它会在Git键入提交信息前运行做代码风格检查。如果代…

Linux下安装MySQL 5.6

1、下载二进制安装文件 使用wget下载MySQL 5.6.35二进制安装文件并存放在/root目录下。 wget https://downloads.mysql.com/archives/get/p/23/file/mysql-5.6.35-linux-glibc2.5-x86_64.tar.gz ll mysql-5.6.35-linux-glibc2.5-x86_64.tar.gz 2、创建mysql用户 先创建mysql…

微信社群机器人开发

简要描述: 删除朋友圈 请求URL: http://域名地址/deleteSns 请求方式: POST 请求头Headers: Content-Type:application/jsonAuthorization:login接口返回 参数: 参数名必选类型说明wId…