
开发者朋友们大家好:
这里是 「RTE 开发者日报」 ,每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE(Real-Time Engagement) 领域内「有话题的 技术 」、「有亮点的 产品 」、「有思考的 文章 」、「有态度的 观点 」、「有看点的 活动 」,但内容仅代表编辑的个人观点,欢迎大家留言、跟帖、讨论。
本期编辑:@qqq、@鲍勃
01 有话题的技术
1、智谱推出首个能生成汉字的开源文生图模型

昨日,智谱正式宣布其首个支持生成汉字的开源文生图模型「CogView4」。据悉,CogView4 在 DPG-Bench 基准测试中的综合评分排名第一,在开源文生图模型中达到 SOTA,也是首个遵循 Apache 2.0 协议的图像生成模型。
具体来看,CogView4 在 DPG-Bench(用于评估文本到图像生成模型基准测试)中综合评分排名第一。官方介绍,CogView4 具备较强的复杂语义对齐和指令跟随能力,支持中英双语提示词输入,擅长理解和遵循中文提示词;能够生成在给定范围内的任意分辨率图像,同时具备较强的文字生成能力。最新的 CogView4-0304 版本现已开源,并将于 3 月 13 日上线智谱清言官网。(@APPSO)
2、播客平台 Podcastle 推出 AI 文本转语音模型:提供 450 种语音

在快速发展的播客领域,Podcastle 平台近日宣布推出其全新的 AI 文本转语音模型 Asyncflow v1.0。这个新模型不仅为用户提供了超过 450 种不同的 AI 语音,还向开发者开放了 API 接口,以便于他们将这一文本转语音功能直接集成到自己的应用程序中。
Podcastle 的创始人 Arto Yeritsyan 表示,公司一直希望能开发一个文本转语音模型,但由于过去高昂的训练成本和数据需求,这一愿望一直未能实现。然而,随着近年来大型语言模型技术的进步,Podcastle 终于在去年取得了突破,能够在不需要大量数据的情况下,构建出高质量的语音模型。Yeritsyan 补充道,Podcastle 的研发得到了去年 1350 万美元的 A 轮融资的支持,这为其技术创新提供了重要保障。
在价格方面,Podcastle 的文本转语音服务定价为每 500 分钟约 40 美元,相比之下,竞争对手 ElevenLabs 则收取 99 美元。除了文本转语音模型外,Podcastle 的语音克隆功能也得到了升级,训练过程由之前的需朗读 70 句不同句子,缩短至现在仅需几秒的录音。新过程利用了 Podcastle 去年推出的 Magic Dust AI 技术,显著提高了音频录制质量。

在实际测试中,尽管新生成的语音听起来稍显机器人,但仍能较好地模仿说话者的语调。Podcastle 表示,随着时间推移,该功能将不断改进,用户也可以通过不同的录音样本训练出不同的声音效果。
Yeritsyan 指出,除了成本优势外,将音频、视频、播客和 AI 驱动的叙述工具整合到一个重新设计的网站中,也将使 Podcastle 在竞争中脱颖而出。他提到,虽然大多数用户仍主要使用 Podcastle 进行音频内容创作,但视频制作的需求也在逐渐上升。(@AIbase 基地)
3、Dubformer 获 360 万美元融资,情感迁移技术革新 AI 配音
近日,人工智能配音初创公司 Dubformer 成功获得 360 万美元种子轮融资,致力于解决 AI 配音中情感传递的关键挑战。这笔由 Almaz Capital 领投、s16vc 和 FinSight 参与的投资,将推动公司进一步发展其创新技术。
Dubformer 与传统 AI 配音方案不同,率先采用情感转移技术,不仅复制声音,更捕捉原始表演的语调、节奏和情感细微差别。公司创始人兼 CEO Anton Dvorkovich 强调:「我们不仅重现声音,还捕捉表演的精髓。」
视频本地化市场价值 70 亿美元,年复合增长率达 16%。Dubformer 的技术旨在为媒体公司提供创新解决方案,在降低成本的同时提高配音质量。
Dubformer 的 AI 配音技术已获得业界认可。在机器翻译领域最负盛名的比赛之一 WMT2024 上,Dubformer 在语音翻译中名列前茅,并在多种语言的总体排名中名列前茅,超越了 Google Translate、DeepL 和 ChatGPT 等主要参与者。
据悉,Dubformer 由机器翻译专家 Anton Dvorkovich 于 2023 年 9 月创立,过去六个月保持 50%的月环比增长率,为美国和欧洲的 200 多家客户提供服务,包括派拉蒙等知名公司。Dubformer 提供面向内容创作者、本地化公司和广播公司的 AI 配音解决方案,支持 130 多种语言。Dubformer 致力于改变内容的本地化方式,通过情感传输技术,使 AI 配音更自然、更具情感共鸣。(@AIbase 基地)
02、有亮点的产品
1、全球首款宠物智能手机亮相:支持定位、AI 实时通话
3 月 4 日,在 2025 年世界移动通信大会(MWC 2025)上,uCloudlink 发布了全球首款宠物智能手机——PetPhone。
这款创新产品旨在通过科技手段加强宠物与主人之间的互动,为宠物主人提供更便捷、安全的宠物管理解决方案。
PetPhone 具备多项先进功能,包括支持宠物与主人之间的实时互动,增强情感联系。支持 AI 实时呼叫,全球安全定位,全天候活动追踪等生命体征分析。
此外,PetPhone 还配备了云端 SIM 卡,拥有长达 5 天的续航能力和 IP67 级防尘防水性能,重量仅为 37 克,极大提升了户外使用的便捷性和实用性。(@快科技)
2、毛绒宠物 Fuzzoo:专为 Z 世代女性设计的口袋 AI
Robopoet 今日在世界移动通信大会(MWC)上发布专为 Z 世代女性设计的口袋 AI 毛绒宠物 Fuzzoo。该产品将于 2025 年 5 月上线 Kickstarter,同步在国内开启预售,首批支持中英文。
Fuzzoo 使用自研多模态情感模型 Multi-modal Emotional Model(MEM),长期记忆及自学习能力支持产品能在与用户交互的过程中形成不同「性格」。Robopoet 成立于 2024 年,专注于打造 AI 情感陪伴机器人,团队成员来自小鹏、字节、华为、大疆等科技大厂。(@极客公园)
03、有态度的观点
1、 OpenAI 首席研究官:公司同样重视模型效率优化

近日,OpenAI 首席研究官 Mark Chen 接受专访,详细解读了 GPT-4.5,同时也分享了 OpenAI 的内部信息。在谈到与 DeepSeek 等竞争对手的差异时,Chen 表示,OpenAI 同样重视模型效率优化。Chen 透露,OpenAI 在推理堆栈上做了很多工作,也很重视以低成本服务用户,并且其表示,自从推出 GPT-4 以来,成本已经下降了好几个数量级。
谈及从 GPT-4 到 GPT-4.5 发布间隔较长的原因,Chen 解释道,这主要是因为 OpenAI 在过去一年半到两年里大力专注于开发推理范式。其分析道,OpenAI 现在有两个不同的扩展轴,一个是无监督学习,GPT-4.5 是这个轴上的最新实验;另一个是推理。对于外界关注的命名问题,Mark Chen 表示,GPT-4.5 符合公司对「可预测扩展范式」的命名规律。同时他还暗示,未来的 GPT-5 可能会是「许多成果的集大成」。(@APPSO)

更多 Voice Agent 学习笔记:
多模态 AI 怎么玩?这里有 18 个脑洞
AI 重塑宗教体验,语音 Agent 能否成为突破点?
对话 TalktoApps 创始人:Voice AI 提高了我五倍的生产力,语音输入是人机交互的未来
2024,语音 AI 元年;2025,Voice Agent 即将爆发丨年度报告发布
对话谷歌 Project Astra 研究主管:打造通用 AI 助理,主动视频交互和全双工对话是未来重点
这家语音 AI 公司新融资 2700 万美元,并预测了 2025 年语音技术趋势
语音即入口:AI 语音交互如何重塑下一代智能应用
Gemini 2.0 来了,这些 Voice Agent 开发者早已开始探索……
写在最后:
我们欢迎更多的小伙伴参与 「RTE 开发者日报」 内容的共创,感兴趣的朋友请通过开发者社区或公众号留言联系,记得报暗号「共创」。
对于任何反馈(包括但不限于内容上、形式上)我们不胜感激、并有小惊喜回馈,例如你希望从日报中看到哪些内容;自己推荐的信源、项目、话题、活动等;或者列举几个你喜欢看、平时常看的内容渠道;内容排版或呈现形式上有哪些可以改进的地方等。

素材来源官方媒体/网络新闻