巴别塔再现?高质量端到端数据助力Meta推出AI模型SeamlessM4T

追求卓越与无限的精神一直流淌在人类的基因里。圣经中有故事:在古代,人们说着同一种语言,决定建造一座高耸入云,塔顶能触及天堂的塔,被称为巴别塔,以彰显人类的力量和创造力。然而上帝看到人类的意图,并认为这个塔的建造是人们的傲慢和自大的表现。上帝让人类的语言变得不同,使他们无法相互理解。这导致了混乱和分裂,无法继续合作建造塔。语言不通让人类的沟通变得低效和困难。近日,Meta推出AI模型SeamlessM4T,该模型可翻译和转录近百种语言,似乎将破除因语言不同而导致的沟通障碍。可谓是人类构建“巴别塔”的又一次尝试。

 

Meta 表示,SeamlessM4T可以在近 100 种语言之间进行文本到语音的翻译,并支持 36 种语言的完全语音到语音翻译,而此前要想实现类似的操作只能在单独的 AI 模型中分别进行翻译。这项技术相比于传统的文本翻译,最大的价值和挑战,在于可以直接对人类的语音进行端到端的翻译,从一种语言的语音直接翻译到另一种语言。这就可以使得人和人直接通话,不再需要复杂的中间模块来转换。

支持SeamlessM4T的模型进行语音到语音翻译需要大量高质量端到端数据。而数据资源稀缺也是端到端语音翻译方法最大的挑战之一。更具体地来说,是因为语音翻译数据集构建流程复杂、成本高:在获取授权音频的前提下进行对应的转写和翻译。接着需要对音频、转写和翻译进行切分,最后还要对齐以及过滤以获得有效的数据。

晴数智慧布局对话式AI数据集多年,关注到大模型带来了大规模的对话式场景落地,在3年前开始规划语音翻译数据集产品设计。高质量的语音翻译数据集成为基础能力制约的关键。晴数智慧并设计生产了各个语言(方言)的端到端翻译数据集:MagicData-CLAM-E2E数据集。今天,当所有的AIoT设备和人类对话的时候,我们可以基于这样的高质量语音翻译数据集,完成多语言间的自然转换。通天巴别塔的道路即在脚下。

晴数智慧MagicData-CLAM-E2E数据集样例展示:

上海话-中文普通话

WAV

TRANSCRIPTION

姑娘,吾敬侬是条汉子!

TRANSLATION

妹子,我敬你是条汉子!

广式粤语-中文普通话

WAV

TRANSCRIPTION

我手机坏咗,唔可以上网啦,第日啦瞓啦

TRANSLATION

我手机坏了,不能上网了,来日吧,睡了

英语-中文 (MDT2019S004)

WAV

TRANSCRIPTION

It is on a two-hectare farm in southern California.

TRANSLATION

它位于加利福尼亚南部的一个占地两公顷的农场上。

西班牙语-中文 (MDT2018S021)

WAV

TRANSCRIPTION

Mi abuelo llegó a ganar un café a las cartas.

TRANSLATION

我的祖父甚至在牌桌上赢了一杯咖啡。

晴数智慧希望能通过高质量MagicData-CLAM系列数据集帮助更多企业科研机构用高效、低成本地构筑高性能端到端语音翻译模型,打造AI时代的巴别塔。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/82418.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

MyBatis的核心技术掌握,简单易懂(上)

目录 一.MyBatis中的动态SQL 二.MyBatis中的模糊查询 1. # 符号 2. $ 符号 ---问题 ---所以大家知道 # 和 $ 在MyBatis中的模糊查询中的区别了嘛?? 三.MyBatis 中的结果映射 1. resultType: 2. resultMap: ---问题 ---…

基于spring boot校园疫情信息管理系统/疫情管理系统

摘要 随着计算机技术,网络技术的迅猛发展,Internet 的不断普及,网络在各个领域里发挥了越来越重要的作用。特别是随着近年人民生活水平不断提高,校园疫情信息管理系统给学校带来了更大的帮助。 由于当前疫情防控形势复杂&#xff…

数据库——事务,事务隔离级别

文章目录 什么是事务?事务的特性(ACID)并发事务带来的问题事务隔离级别实际情况演示脏读(读未提交)避免脏读(读已提交)不可重复读可重复读防止幻读(可串行化) 什么是事务? 事务是逻辑上的一组操作,要么都执行,要么都不执行。 事务最经典也经常被拿出…

python3对接godaddy API,实现自动更改域名解析(DDNS)

python3对接godaddy API,实现自动更改域名解析(DDNS) 文章开始前,先解释下如下问题: ①什么是域名解析? 域名解析一般是指通过一个域名指向IP地址(A解析),然后我们访问…

【Linux】权限

欢迎来到Cefler的博客😁 🕌博客主页:那个传说中的man的主页 🏠个人专栏:题目解析 🌎推荐文章:题目大解析3 目录 👉🏻shell命令解释器👉🏻Linux用户…

【腾讯云Cloud Studio实战训练营】React 快速构建点餐页面+Python 拼图小游戏

文章目录 一、腾讯云 Cloud Studio 概述1.1 腾讯云 Cloud Studio 简介1.2 腾讯云 Cloud Studio 功能特点1.3 腾讯云 Cloud Studio 产品优势 二、Cloud Studio界面功能介绍2.1 注册登录2.1.1 新注册用户有免费的3000分钟体验 2.2 界面功能介绍2.2.1 空间模板2.2.2 开发空间关闭空…

07-微信小程序-注册页面-模块化

07-微信小程序-注册页面 文章目录 注册页面使用 Page 构造器注册页面参数Object初始数据案例代码 生命周期回调函数组件事件处理函数setData()案例代码 生命周期模块化 注册页面 对于小程序中的每个页面,都需要在页面对应的 js 文件中进行注册,指定页面…

RISC-V中国峰会 | 256核服务器高调亮相,谁与争锋?

8月23日,第三届RISC-V中国峰会(RISC-V Summit China 2023)在北京香格里拉饭店正式开幕,来自世界各地的行业精英汇聚一堂,为RISC-V生态系统建言献策,凝心聚力! 中国工程院院士倪光南、RISC-V国际…

扩散模型实战(六):Diffusers DDPM初探

推荐阅读列表: 扩散模型实战(一):基本原理介绍 扩散模型实战(二):扩散模型的发展 扩散模型实战(三):扩散模型的应用 扩散模型实战(四&#xf…

Embedding 向量生成GPT数据使用相关

如果使用python3.6的版本,使用pycharm创建工程,那么默认会使用 docx包,这样运行程序会爆异常,突然想起以前请教的一个大神,想当 初,这个问题困扰了我 两天时间,在此记录一下: pytho…

实验八 网卡驱动移植

【实验目的】 掌握 Linux 内核配置的基本方法,完成对网卡驱动、NFS 等相关功能的配置 【实验环境】 ubuntu 14.04 发行版FS4412 实验平台交叉编译工具:arm-none-linux-gnueabi- 【注意事项】 实验步骤中以“$”开头的命令表示在 ubuntu 环境下执行&…

PMP如何备考?学习方式这里有

预习阶段:强烈建议跟着习课视频学习(自己看书真的很难看懂),初步了解PMBOK,有个大致印象; 精讲阶段:这个时候就需要静下心来深入了解各个知识模块,不仅是看PMBOK,还要尽…