Dubformer 获 360 万美元融资,情感迁移技术革新 AI 配音;全球首款宠物智能手机亮相:可定位、AI 实时通话丨日报

news/2025/3/6 19:56:09/文章来源:https://www.cnblogs.com/Agora/p/18753056

 

 

开发者朋友们大家好:

 

这里是 「RTE 开发者日报」 ,每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE(Real-Time Engagement) 领域内「有话题的 技术 」、「有亮点的 产品 」、「有思考的 文章 」、「有态度的 观点 」、「有看点的 活动 」,但内容仅代表编辑的个人观点,欢迎大家留言、跟帖、讨论。

 

本期编辑:@qqq、@鲍勃

01 有话题的技术

1、智谱推出首个能生成汉字的开源文生图模型

 

 

昨日,智谱正式宣布其首个支持生成汉字的开源文生图模型「CogView4」。据悉,CogView4 在 DPG-Bench 基准测试中的综合评分排名第一,在开源文生图模型中达到 SOTA,也是首个遵循 Apache 2.0 协议的图像生成模型。

 

具体来看,CogView4 在 DPG-Bench(用于评估文本到图像生成模型基准测试)中综合评分排名第一。官方介绍,CogView4 具备较强的复杂语义对齐和指令跟随能力,支持中英双语提示词输入,擅长理解和遵循中文提示词;能够生成在给定范围内的任意分辨率图像,同时具备较强的文字生成能力。最新的 CogView4-0304 版本现已开源,并将于 3 月 13 日上线智谱清言官网。(@APPSO)

 

2、播客平台 Podcastle 推出 AI 文本转语音模型:提供 450 种语音

 

 

在快速发展的播客领域,Podcastle 平台近日宣布推出其全新的 AI 文本转语音模型 Asyncflow v1.0。这个新模型不仅为用户提供了超过 450 种不同的 AI 语音,还向开发者开放了 API 接口,以便于他们将这一文本转语音功能直接集成到自己的应用程序中。

 

Podcastle 的创始人 Arto Yeritsyan 表示,公司一直希望能开发一个文本转语音模型,但由于过去高昂的训练成本和数据需求,这一愿望一直未能实现。然而,随着近年来大型语言模型技术的进步,Podcastle 终于在去年取得了突破,能够在不需要大量数据的情况下,构建出高质量的语音模型。Yeritsyan 补充道,Podcastle 的研发得到了去年 1350 万美元的 A 轮融资的支持,这为其技术创新提供了重要保障。

 

在价格方面,Podcastle 的文本转语音服务定价为每 500 分钟约 40 美元,相比之下,竞争对手 ElevenLabs 则收取 99 美元。除了文本转语音模型外,Podcastle 的语音克隆功能也得到了升级,训练过程由之前的需朗读 70 句不同句子,缩短至现在仅需几秒的录音。新过程利用了 Podcastle 去年推出的 Magic Dust AI 技术,显著提高了音频录制质量。

 

 

在实际测试中,尽管新生成的语音听起来稍显机器人,但仍能较好地模仿说话者的语调。Podcastle 表示,随着时间推移,该功能将不断改进,用户也可以通过不同的录音样本训练出不同的声音效果。

 

Yeritsyan 指出,除了成本优势外,将音频、视频、播客和 AI 驱动的叙述工具整合到一个重新设计的网站中,也将使 Podcastle 在竞争中脱颖而出。他提到,虽然大多数用户仍主要使用 Podcastle 进行音频内容创作,但视频制作的需求也在逐渐上升。(@AIbase 基地)

 

3、Dubformer 获 360 万美元融资,情感迁移技术革新 AI 配音

 

近日,人工智能配音初创公司 Dubformer 成功获得 360 万美元种子轮融资,致力于解决 AI 配音中情感传递的关键挑战。这笔由 Almaz Capital 领投、s16vc 和 FinSight 参与的投资,将推动公司进一步发展其创新技术。

 

Dubformer 与传统 AI 配音方案不同,率先采用情感转移技术,不仅复制声音,更捕捉原始表演的语调、节奏和情感细微差别。公司创始人兼 CEO Anton Dvorkovich 强调:「我们不仅重现声音,还捕捉表演的精髓。」

 

视频本地化市场价值 70 亿美元,年复合增长率达 16%。Dubformer 的技术旨在为媒体公司提供创新解决方案,在降低成本的同时提高配音质量。

 

Dubformer 的 AI 配音技术已获得业界认可。在机器翻译领域最负盛名的比赛之一 WMT2024 上,Dubformer 在语音翻译中名列前茅,并在多种语言的总体排名中名列前茅,超越了 Google Translate、DeepL 和 ChatGPT 等主要参与者。

 

据悉,Dubformer 由机器翻译专家 Anton Dvorkovich 于 2023 年 9 月创立,过去六个月保持 50%的月环比增长率,为美国和欧洲的 200 多家客户提供服务,包括派拉蒙等知名公司。Dubformer 提供面向内容创作者、本地化公司和广播公司的 AI 配音解决方案,支持 130 多种语言。Dubformer 致力于改变内容的本地化方式,通过情感传输技术,使 AI 配音更自然、更具情感共鸣。(@AIbase 基地)

02、有亮点的产品

1、全球首款宠物智能手机亮相:支持定位、AI 实时通话

 

3 月 4 日,在 2025 年世界移动通信大会(MWC 2025)上,uCloudlink 发布了全球首款宠物智能手机——PetPhone。

 

这款创新产品旨在通过科技手段加强宠物与主人之间的互动,为宠物主人提供更便捷、安全的宠物管理解决方案。

 

PetPhone 具备多项先进功能,包括支持宠物与主人之间的实时互动,增强情感联系。支持 AI 实时呼叫,全球安全定位,全天候活动追踪等生命体征分析。

 

此外,PetPhone 还配备了云端 SIM 卡,拥有长达 5 天的续航能力和 IP67 级防尘防水性能,重量仅为 37 克,极大提升了户外使用的便捷性和实用性。(@快科技)

 

2、毛绒宠物 Fuzzoo:专为 Z 世代女性设计的口袋 AI

 

Robopoet 今日在世界移动通信大会(MWC)上发布专为 Z 世代女性设计的口袋 AI 毛绒宠物 Fuzzoo。该产品将于 2025 年 5 月上线 Kickstarter,同步在国内开启预售,首批支持中英文。

 

Fuzzoo 使用自研多模态情感模型 Multi-modal Emotional Model(MEM),长期记忆及自学习能力支持产品能在与用户交互的过程中形成不同「性格」。Robopoet 成立于 2024 年,专注于打造 AI 情感陪伴机器人,团队成员来自小鹏、字节、华为、大疆等科技大厂。(@极客公园)

03、有态度的观点

1、 OpenAI 首席研究官:公司同样重视模型效率优化

 

 

近日,OpenAI 首席研究官 Mark Chen 接受专访,详细解读了 GPT-4.5,同时也分享了 OpenAI 的内部信息。在谈到与 DeepSeek 等竞争对手的差异时,Chen 表示,OpenAI 同样重视模型效率优化。Chen 透露,OpenAI 在推理堆栈上做了很多工作,也很重视以低成本服务用户,并且其表示,自从推出 GPT-4 以来,成本已经下降了好几个数量级。

 

谈及从 GPT-4 到 GPT-4.5 发布间隔较长的原因,Chen 解释道,这主要是因为 OpenAI 在过去一年半到两年里大力专注于开发推理范式。其分析道,OpenAI 现在有两个不同的扩展轴,一个是无监督学习,GPT-4.5 是这个轴上的最新实验;另一个是推理。对于外界关注的命名问题,Mark Chen 表示,GPT-4.5 符合公司对「可预测扩展范式」的命名规律。同时他还暗示,未来的 GPT-5 可能会是「许多成果的集大成」。(@APPSO)

 

 

更多 Voice Agent 学习笔记:

 

多模态 AI 怎么玩?这里有 18 个脑洞

 

AI 重塑宗教体验,语音 Agent 能否成为突破点?

 

对话 TalktoApps 创始人:Voice AI 提高了我五倍的生产力,语音输入是人机交互的未来

 

2024,语音 AI 元年;2025,Voice Agent 即将爆发丨年度报告发布

 

对话谷歌 Project Astra 研究主管:打造通用 AI 助理,主动视频交互和全双工对话是未来重点

 

这家语音 AI 公司新融资 2700 万美元,并预测了 2025 年语音技术趋势

 

语音即入口:AI 语音交互如何重塑下一代智能应用

 

Gemini 2.0 来了,这些 Voice Agent 开发者早已开始探索……

 

写在最后:

 

我们欢迎更多的小伙伴参与 「RTE 开发者日报」 内容的共创,感兴趣的朋友请通过开发者社区或公众号留言联系,记得报暗号「共创」。

 

对于任何反馈(包括但不限于内容上、形式上)我们不胜感激、并有小惊喜回馈,例如你希望从日报中看到哪些内容;自己推荐的信源、项目、话题、活动等;或者列举几个你喜欢看、平时常看的内容渠道;内容排版或呈现形式上有哪些可以改进的地方等。

 

 

素材来源官方媒体/网络新闻

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/894072.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

[编程笔记] ant-design中ProLayout组件左侧菜单数据刷新问题

最近在做1个React项目,用的ant-design,由于以前没有学过React,最近几个月属于边学边干的状态了(0基础直接上手可还行)很坑的一个bug,setProcessedRoutes([processedRoutes]) 的时候,左侧菜单没有自动更新,问了下AI,在多个结果中,用setProcessedRoutes([...processedR…

三菱机器人示教器跳屏故障分析维修

跳屏故障原因分析三菱机器人示教器跳屏故障可能由以下原因导致: 电源故障:电源不稳定或电源线接触不良可能引起跳屏。信号干扰:工作环境中的电磁干扰,如大功率电器或高压线,可能导致跳屏。软件问题:示教器软件故障或版本不兼容可能导致跳屏。硬件故障:显示屏本身故障、排…

『Python底层原理』--异步机制(async/await)

在现代编程中,并发是提高程序效率的关键技术之一,它允许程序同时执行多个任务,充分利用系统资源。 本文将深入探讨 Python 中的async/await机制,从并发编程基础讲起,逐步剖析其工作原理和实现方式。 1. 并发编程基础 计算机程序的执行方式主要有两种:顺序执行和并发执行。…

bbox.exe WriteUp

WriteUp 题目信息 名称:bbox.exe 分类:Reverse 描述:找到程序的flag题目链接: https://pan.baidu.com/s/1u8bGbKcUF6_gLaw63L3jyA?pwd=h8r5 提取码: h8r5解题思路 首先用DIE分析文件的结构,发现这是一个无壳的32位程序。于是直接用32位IDA打开该文件进行反汇编,得到如下情…

Deepseek-R1模型部署

一、每个客户端需要单独配置API版 前置条件: 1、英伟达的显卡 2、安装Ollama工具 3、Deepseek模型 4、Chatbox 部署Deepseek模型后使用Chatbox设置模型API即可使用缺点:需要在每台客户端都需要输入API,需要安装Chatbox软件 二、一次性配置API版本 前置条件: 1、英伟达的显卡…

学习理论:单阶段代理损失的(H, R) - 一致界证明

我们在上一篇博客中介绍了弃权学习的基本概念和方法,其中包括了针对多分类问题的单阶段预测器-拒绝器弃权损失L_{abst}。设l为在标签Y上定义的0-1多分类损失的代理损失,则我们可以在此基础上进一步定义弃权代理损失L。在上一篇博客中,我们还提到了单阶段代理损失满足的(H, R…

element组件学习

vite.config.js点击查看代码 import { fileURLToPath, URL } from node:urlimport { defineConfig } from vite import vue from @vitejs/plugin-vue import vueDevTools from vite-plugin-vue-devtools import AutoImport from unplugin-auto-import/vite import Components f…

SpringCloud学习-熟悉docker

前言:本人练习使用的是阿里云服务器,配置为:一:配置docker镜像加速 由于docker自带的镜像仓库地址速度很慢,甚至国内访问不了,所以需要做下镜像加速设置: # 创建目录 mkdir -p /etc/docker# 复制内容 tee /etc/docker/daemon.json <<-EOF {"registry-mirrors…

IntelliJ IDEA 激活码,免费不收费

IntelliJ IDEA 2020、2021、2022、2023、2024 通用激活,免费激活码,激活码实时更新IntelliJ IDEA 2020、2021、2022、2023、2024通用激活,激活码实时更新 激活码获取方式:扫描关注公众号,回复:激活码 【激活码会即时更新,过期后请重新获取】分享不易,赠人玫瑰,手有余香…

c语言实验1

一、实验目的会使用C语言程序开发环境(vs2010/devc++等),能熟练、正确使用它们编写、编译、运行、调试C程序 知道C程序结构和编码规范,能正确使用 能正确、熟练使用C语言输入输出函数: scanf() , printf() , getchar() , putchar() 能灵活、组合使用基本数据类型、运算符和…

双列集合

介绍双列集合中,每次添加元素添加一对(2个)数值 每对元素之间是一一对应的 最顶层为Map,有三个实现类,如下图双列集合特点 双列集合一次需要存一对数据,分别为键和值 键不能重复,值可以重复 键和值是一一对应的,每一个键只能找到自己对应的值 键+值这个整体 我们称之为…

单列集合

介绍 集合分为两种,一种是单列集合,一种是双列集合单列集合中 List系列集合添加元素是有序,可重复,有索引的 set系列集合添加元素是无序,不可重复,无索引的Collection是单列集合的祖宗接口,所以全部的单列集合都可以使用它的方法Collection基本方法 add方法,添加元素 …