Dubformer 获 360 万美元融资，情感迁移技术革新 AI 配音；全球首款宠物智能手机亮相：可定位、AI 实时通话丨日报-编程知识

Dubformer 获 360 万美元融资，情感迁移技术革新 AI 配音；全球首款宠物智能手机亮相：可定位、AI 实时通话丨日报

news/2025/3/6 19:56:09/文章来源:https://www.cnblogs.com/Agora/p/18753056

开发者朋友们大家好：

这里是 「RTE 开发者日报」 ，每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE（Real-Time Engagement）领域内「有话题的技术」、「有亮点的产品」、「有思考的文章」、「有态度的观点」、「有看点的活动」，但内容仅代表编辑的个人观点，欢迎大家留言、跟帖、讨论。

本期编辑：@qqq、@鲍勃

01 有话题的技术

1、智谱推出首个能生成汉字的开源文生图模型

昨日，智谱正式宣布其首个支持生成汉字的开源文生图模型「CogView4」。据悉，CogView4 在 DPG-Bench 基准测试中的综合评分排名第一，在开源文生图模型中达到 SOTA，也是首个遵循 Apache 2.0 协议的图像生成模型。

具体来看，CogView4 在 DPG-Bench（用于评估文本到图像生成模型基准测试）中综合评分排名第一。官方介绍，CogView4 具备较强的复杂语义对齐和指令跟随能力，支持中英双语提示词输入，擅长理解和遵循中文提示词；能够生成在给定范围内的任意分辨率图像，同时具备较强的文字生成能力。最新的 CogView4-0304 版本现已开源，并将于 3 月 13 日上线智谱清言官网。(@APPSO)

2、播客平台 Podcastle 推出 AI 文本转语音模型：提供 450 种语音

在快速发展的播客领域，Podcastle 平台近日宣布推出其全新的 AI 文本转语音模型 Asyncflow v1.0。这个新模型不仅为用户提供了超过 450 种不同的 AI 语音，还向开发者开放了 API 接口，以便于他们将这一文本转语音功能直接集成到自己的应用程序中。

Podcastle 的创始人 Arto Yeritsyan 表示，公司一直希望能开发一个文本转语音模型，但由于过去高昂的训练成本和数据需求，这一愿望一直未能实现。然而，随着近年来大型语言模型技术的进步，Podcastle 终于在去年取得了突破，能够在不需要大量数据的情况下，构建出高质量的语音模型。Yeritsyan 补充道，Podcastle 的研发得到了去年 1350 万美元的 A 轮融资的支持，这为其技术创新提供了重要保障。

在价格方面，Podcastle 的文本转语音服务定价为每 500 分钟约 40 美元，相比之下，竞争对手 ElevenLabs 则收取 99 美元。除了文本转语音模型外，Podcastle 的语音克隆功能也得到了升级，训练过程由之前的需朗读 70 句不同句子，缩短至现在仅需几秒的录音。新过程利用了 Podcastle 去年推出的 Magic Dust AI 技术，显著提高了音频录制质量。

在实际测试中，尽管新生成的语音听起来稍显机器人，但仍能较好地模仿说话者的语调。Podcastle 表示，随着时间推移，该功能将不断改进，用户也可以通过不同的录音样本训练出不同的声音效果。

Yeritsyan 指出，除了成本优势外，将音频、视频、播客和 AI 驱动的叙述工具整合到一个重新设计的网站中，也将使 Podcastle 在竞争中脱颖而出。他提到，虽然大多数用户仍主要使用 Podcastle 进行音频内容创作，但视频制作的需求也在逐渐上升。（@AIbase 基地）

3、Dubformer 获 360 万美元融资，情感迁移技术革新 AI 配音

近日，人工智能配音初创公司 Dubformer 成功获得 360 万美元种子轮融资，致力于解决 AI 配音中情感传递的关键挑战。这笔由 Almaz Capital 领投、s16vc 和 FinSight 参与的投资，将推动公司进一步发展其创新技术。

Dubformer 与传统 AI 配音方案不同，率先采用情感转移技术，不仅复制声音，更捕捉原始表演的语调、节奏和情感细微差别。公司创始人兼 CEO Anton Dvorkovich 强调：「我们不仅重现声音，还捕捉表演的精髓。」

视频本地化市场价值 70 亿美元，年复合增长率达 16%。Dubformer 的技术旨在为媒体公司提供创新解决方案，在降低成本的同时提高配音质量。

Dubformer 的 AI 配音技术已获得业界认可。在机器翻译领域最负盛名的比赛之一 WMT2024 上，Dubformer 在语音翻译中名列前茅，并在多种语言的总体排名中名列前茅，超越了 Google Translate、DeepL 和 ChatGPT 等主要参与者。

据悉，Dubformer 由机器翻译专家 Anton Dvorkovich 于 2023 年 9 月创立，过去六个月保持 50%的月环比增长率，为美国和欧洲的 200 多家客户提供服务，包括派拉蒙等知名公司。Dubformer 提供面向内容创作者、本地化公司和广播公司的 AI 配音解决方案，支持 130 多种语言。Dubformer 致力于改变内容的本地化方式，通过情感传输技术，使 AI 配音更自然、更具情感共鸣。（@AIbase 基地）

02、有亮点的产品

1、全球首款宠物智能手机亮相：支持定位、AI 实时通话

3 月 4 日，在 2025 年世界移动通信大会（MWC 2025）上，uCloudlink 发布了全球首款宠物智能手机——PetPhone。

这款创新产品旨在通过科技手段加强宠物与主人之间的互动，为宠物主人提供更便捷、安全的宠物管理解决方案。

PetPhone 具备多项先进功能，包括支持宠物与主人之间的实时互动，增强情感联系。支持 AI 实时呼叫，全球安全定位，全天候活动追踪等生命体征分析。

此外，PetPhone 还配备了云端 SIM 卡，拥有长达 5 天的续航能力和 IP67 级防尘防水性能，重量仅为 37 克，极大提升了户外使用的便捷性和实用性。（@快科技）

2、毛绒宠物 Fuzzoo：专为 Z 世代女性设计的口袋 AI

Robopoet 今日在世界移动通信大会（MWC）上发布专为 Z 世代女性设计的口袋 AI 毛绒宠物 Fuzzoo。该产品将于 2025 年 5 月上线 Kickstarter，同步在国内开启预售，首批支持中英文。

Fuzzoo 使用自研多模态情感模型 Multi-modal Emotional Model（MEM），长期记忆及自学习能力支持产品能在与用户交互的过程中形成不同「性格」。Robopoet 成立于 2024 年，专注于打造 AI 情感陪伴机器人，团队成员来自小鹏、字节、华为、大疆等科技大厂。（@极客公园）

03、有态度的观点

1、 OpenAI 首席研究官：公司同样重视模型效率优化

近日，OpenAI 首席研究官 Mark Chen 接受专访，详细解读了 GPT-4.5，同时也分享了 OpenAI 的内部信息。在谈到与 DeepSeek 等竞争对手的差异时，Chen 表示，OpenAI 同样重视模型效率优化。Chen 透露，OpenAI 在推理堆栈上做了很多工作，也很重视以低成本服务用户，并且其表示，自从推出 GPT-4 以来，成本已经下降了好几个数量级。

谈及从 GPT-4 到 GPT-4.5 发布间隔较长的原因，Chen 解释道，这主要是因为 OpenAI 在过去一年半到两年里大力专注于开发推理范式。其分析道，OpenAI 现在有两个不同的扩展轴，一个是无监督学习，GPT-4.5 是这个轴上的最新实验；另一个是推理。对于外界关注的命名问题，Mark Chen 表示，GPT-4.5 符合公司对「可预测扩展范式」的命名规律。同时他还暗示，未来的 GPT-5 可能会是「许多成果的集大成」。(@APPSO)

更多 Voice Agent 学习笔记：

多模态 AI 怎么玩？这里有 18 个脑洞

AI 重塑宗教体验，语音 Agent 能否成为突破点？

对话 TalktoApps 创始人：Voice AI 提高了我五倍的生产力，语音输入是人机交互的未来

2024，语音 AI 元年；2025，Voice Agent 即将爆发丨年度报告发布

对话谷歌 Project Astra 研究主管：打造通用 AI 助理，主动视频交互和全双工对话是未来重点

这家语音 AI 公司新融资 2700 万美元，并预测了 2025 年语音技术趋势

语音即入口：AI 语音交互如何重塑下一代智能应用

Gemini 2.0 来了，这些 Voice Agent 开发者早已开始探索……

写在最后：

我们欢迎更多的小伙伴参与 「RTE 开发者日报」 内容的共创，感兴趣的朋友请通过开发者社区或公众号留言联系，记得报暗号「共创」。

对于任何反馈（包括但不限于内容上、形式上）我们不胜感激、并有小惊喜回馈，例如你希望从日报中看到哪些内容；自己推荐的信源、项目、话题、活动等；或者列举几个你喜欢看、平时常看的内容渠道；内容排版或呈现形式上有哪些可以改进的地方等。

素材来源官方媒体/网络新闻

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.hqwc.cn/news/894072.html

如若内容造成侵权/违法违规/事实不符，请联系编程知识网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！

[编程笔记] ant-design中ProLayout组件左侧菜单数据刷新问题

最近在做1个React项目，用的ant-design，由于以前没有学过React，最近几个月属于边学边干的状态了（0基础直接上手可还行）很坑的一个bug，setProcessedRoutes([processedRoutes]) 的时候，左侧菜单没有自动更新，问了下AI，在多个结果中，用setProcessedRoutes([...processedR…

三菱机器人示教器跳屏故障分析维修

跳屏故障原因分析三菱机器人示教器跳屏故障可能由以下原因导致：电源故障：电源不稳定或电源线接触不良可能引起跳屏。信号干扰：工作环境中的电磁干扰，如大功率电器或高压线，可能导致跳屏。软件问题：示教器软件故障或版本不兼容可能导致跳屏。硬件故障：显示屏本身故障、排…

『Python底层原理』--异步机制（async/await）

在现代编程中，并发是提高程序效率的关键技术之一，它允许程序同时执行多个任务，充分利用系统资源。本文将深入探讨 Python 中的async/await机制，从并发编程基础讲起，逐步剖析其工作原理和实现方式。 1. 并发编程基础计算机程序的执行方式主要有两种：顺序执行和并发执行。…

bbox.exe WriteUp

WriteUp 题目信息名称：bbox.exe 分类：Reverse 描述：找到程序的flag题目链接: https://pan.baidu.com/s/1u8bGbKcUF6_gLaw63L3jyA?pwd=h8r5 提取码: h8r5解题思路首先用DIE分析文件的结构，发现这是一个无壳的32位程序。于是直接用32位IDA打开该文件进行反汇编，得到如下情…

Deepseek-R1模型部署

一、每个客户端需要单独配置API版前置条件： 1、英伟达的显卡 2、安装Ollama工具 3、Deepseek模型 4、Chatbox 部署Deepseek模型后使用Chatbox设置模型API即可使用缺点：需要在每台客户端都需要输入API，需要安装Chatbox软件二、一次性配置API版本前置条件： 1、英伟达的显卡…

学习理论：单阶段代理损失的(H, R) - 一致界证明

我们在上一篇博客中介绍了弃权学习的基本概念和方法，其中包括了针对多分类问题的单阶段预测器-拒绝器弃权损失L_{abst}。设l为在标签Y上定义的0-1多分类损失的代理损失，则我们可以在此基础上进一步定义弃权代理损失L。在上一篇博客中，我们还提到了单阶段代理损失满足的(H, R…

element组件学习

vite.config.js点击查看代码 import { fileURLToPath, URL } from node:urlimport { defineConfig } from vite import vue from @vitejs/plugin-vue import vueDevTools from vite-plugin-vue-devtools import AutoImport from unplugin-auto-import/vite import Components f…