开发者朋友们大家好:
这里是 「RTE 开发者日报」 ,每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE(Real-Time Engagement) 领域内「有话题的 新闻 」、「有态度的 观点 」、「有意思的 数据 」、「有思考的 文章 」、「有看点的 会议 」,但内容仅代表编辑的个人观点,欢迎大家留言、跟帖、讨论。
本期编辑:@qqq,@鲍勃
01 有话题的技术
1、商汤「日日新融合大模型交互版」开放商用
商汤科技日日新融合大模型交互版(SenseNova-5o)宣布正式对外提供实时音视频对话服务。现阶段 APP 将供免费测试使用,不限使用次数。
今年早些时候,商汤曾于 1 月 10 日正式推出「日日新」融合大模型,实现原生融合模态,深度推理能力与多模态信息处理能力均大幅提升,并在两大权威评测榜单夺得第一,成为「双冠王」——国内权威大模型测评机构 SuperCLUE 最新发布的《中文大模型基准测评 2024 年度报告》中,「日日新」融合大模型以总分 68.3 的成绩与 DeepSeek V3 一起并列国内榜首,成为年度第一;在近期另一个权威综合评测机构 OpenCompass 的多模态评测中,商汤以同一款模型同样取得了榜单第一,分数大幅领先 GPT-4o。
作为商汤「日日新」融合大模型的交互版本,「SenseNova-5o」拥有强大的实时交互、视觉识别、记忆思考、持续对话和复杂推理等能力,能帮助 AI 与人类更自然、更流畅地交流。同时,通过整合商汤大装置基础设施能力,商汤还为「SenseNova-5o」提供了配套的 Realtime API 的服务优化,实现与 RTC 网络的深度结合,令音视频对话服务在多种环境下稳定、实时、流畅、无延迟。
例如,「SenseNova-5o」记忆力进一步增强,能够精确牢记每一轮与用户的对话,支持超长多模态交互记忆不少于 5 分钟,同时超越了短期对话,能够持续跟踪和积累与用户的交互信息,不断完善和优化对用户需求的理解。
与此同时,「SenseNova-5o」当前的交互延迟已缩短至 2 秒以内,与人类自然交流几乎无差。通过个性化设置功能,该产品还可以支持根据用户偏好,个性化设置交流风格与使用习惯,从人设到语气都能自由调整。例如,其在《射雕英雄传》中扮演的「郭靖」不仅可以接受用户的提问,还能与另一位「SenseNova-5o」扮演的「黄蓉」一起对话探讨杨过的教育问题。(@财经涂鸦)
2、智谱正式推出清影 2.0 视频模型
1 月 21 日,智谱正式宣布推出清影 2.0 视频模型,其带来了一系列 AI 生成视频的新惊喜。
据官方介绍,清影 2.0 的模型结构、训练方法、数据工程全面更新,图生视频基础模型能力大幅度提升 38%;生成更可控,支持画面主体进行大幅度运动,同时保持画面稳定性;指令遵从能力行业领先,能够理解和实现各种复杂 prompt;能够驾驭各种艺术风格,画面美感大幅提升。目前,清影 2.0 视频模型现已在智谱清言网页端和 App 全量上线,普通用户可免费试用,会员享受快速通道,且为不扣积分的无限模式。(@APPSO)
3、Perplexity 推出人工智能搜索 API Sonar
Perplexity 推出了名为 Sonar 的 API 服务,企业和开发者可借此将该初创公司的生成式 AI 搜索工具整合进自己的应用程序。
Perplexity 为开发者提供了两个层级的选择:基础版 Sonar 价格更便宜、速度更快;Sonar Pro 则更适合处理复杂问题,价格更高,Perplexity 表示,Sonar API 能让企业和开发者自定义 AI 搜索引擎提取信息的来源。
随着 API 的推出,Perplexity 将其 AI 搜索引擎推广到更多地方,不再局限于自身的应用程序和网站。例如,Zoom 等公司已经开始使用 Sonar 为其视频会议平台提供 AI 助手,Sonar 能让 Zoom 的 AI 聊天机器人依据带引文的网络搜索实时作答,且无需用户离开视频聊天窗口。
Sonar 还能为 Perplexity 开辟新的收入来源,这对初创公司的投资者而言可能非常重要。Perplexity 目前仅提供订阅服务,用户可无限制使用其 AI 搜索引擎及一些附加功能。不过,科技行业去年大幅降低了通过 API 访问 AI 工具的价格,Perplexity 却声称 Sonar 将提供市场上最便宜的 AI 搜索 API。
Sonar 基础版采用固定价格,运用轻量级模型,每 1000 次搜索收费 5 美元,每输入 75 万个单词(约 100 万个输入标记)收费 1 美元,每输出 75 万个单词(约 100 万个输出标记)收费 1 美元。
Sonar Pro 价格更高,答案更详细,可处理更复杂的问题。该版本会根据用户提示运行多个搜索,所以定价较难预测。Perplexity 表示,Sonar Pro 提供的引用量是基础版的两倍。Sonar Pro 每 1000 次搜索收费 5 美元,每在 AI 模型中输入 75 万个单词(约 100 万个输入标记)收费 3 美元,每模型输出 75 万个单词(约 100 万个输出标记)收费 15 美元。
Perplexity 宣称,在衡量 AI 聊天机器人答案事实正确性的 SimpleQA 基准测试中,Sonar Pro 的表现优于 Google、OpenAI 和 Anthropic 的领先模型。(@中鲸社)
4、腾讯混元 3D 生成大模型 2.0 开源发布
该技术宣称一句话、一张图,甚至画个草图都能生成一个 3D 模型,甚至还能加动作、换纹理、捏人物、做动画。
腾讯混元 3D-2.0 版本主要是对 3D 生成过程中的 几何和纹理 两个大模型进行了升级。
-
几何大模型的任务就是捕捉 3D 物体的形状和结构。腾讯云采用 Hunyuan3D-DiT 和 Hunyuan ShapeVAE技术 ,让生成的「白模」(没上色的模型)效果「堪比设计师手工建模」;
-
纹理大模型 Hunyuan3D-Paint 可以根据文字或图片描述,为「白模」穿上各种纹理。
此外,腾讯混元通过 「解耦生成」 新方法,让几何大模型和纹理大模型能够实现「1+1>2」的生成效果。
目前,腾讯混元 3D 生成技术已经应用于 UGC 3D 创作、商品素材合成、游戏 3D 资产生成等场景。腾讯地图就基于混元 3D 大模型,生成个性化 3D 导航车标,号称速度提升了 91%。
开发者可在 GitHub、Hugging Face 等技术社区下载混元 3D 2.0 模型,用户也可以直接在混元 3D 官网上申请体验功能。(@IT 之家)
5、豆包大模型 1.5Pro 正式发布
今天,豆包大模型 1.5Pro 版本正式和大家见面。新模型综合能力显著增强,低训练/推理成本,高效模型结构,全面提升多模态能力、推理能力,多项公开评测基准上全球领先。
目前,Doubao-1.5-pro 已在豆包 APP 灰度上线,接受海量请求效果出色,同时,开发者也可在火山引擎直接调用 API 。
多模态能力全面提升:
新版豆包视觉理解模型 Doubao-1.5-vision-pro,视觉理解能力全球领先。
全新的豆包实时语音模型 Doubao-1.5-realtime-voice-pro,采用 Speech2Speech 端到端框架,表现力实现质的飞跃,真正做到会哭会笑、能说方言会唱歌。火山引擎将在上半年通过方舟平台推出对应 API 服务。
更强的深度思考能力:
基于豆包 1.5 基座模型,通过 RL 算法的突破和工程优化,在未使用其他模型数据的情况下,研发豆包深度思考模型。阶段性进展 Doubao-1.5-Pro-AS1-Preview 在 AIME 上已取得了业内领先的成绩。(@豆包)
02 有亮点的产品
1、腾讯混元推出 3D AI 创作引擎:号称业界首个一站式的 3D 内容创作平台。
该平台支持:
文 / 图生 3D 模型: 只需输入中 / 英文提示词或上传一张图片,就能生成 4 个 3D 模型,还能挑选不同纹理风格;
低多边形 low-poly 模型生成: 可根据物体复杂程度,自适应生成几百至数千面的三角 mesh,面数更低的同时保证模型细节效果,特别适合游戏引擎渲染;
一站式流程管理: 从建模到动画到素材管理,像流水线一样高效。
具体效果方面:
3D 动画生成: 选个动作模版,角色可以跑步、挥手、跳舞;
3D 纹理生成: 通过文字或图片描述,一键生成高清纹理;
3D 草图生成: 随手涂鸦的简笔画,加上简单描述就能生成 3D 模型;
3D 人物生成: 上传一张照片,立刻生成虚拟形象,还能随意调整发型、服饰等细节;
3D 小游戏创作: 用头像生成角色,再配上一段动画,一键制作小游戏,直接分享给朋友。
不仅如此,混元 3D AI 创作引擎还能帮助专业用户 搭建 3D 生成工作流 ,通过模块化设计,一键生成符合需求的角色或道具。(@IT 之家)
03 有态度的观点
1、Anthropic 计划为 Claude 发布「双向」语音模式
在华尔街日报对 Anthropic CEO Dario Amodei 的专访中,关于「语音模式—一即实现与 Claude 的语音对话功能」,
Dario Amodei 表示:「这项功能最终也会实现。目前的情况是,Claude 已经具备语音转文字和文字转语音的能力。至于双向语音交互模式,这是我们未来规划中的一项内容。不过从企业用户和部分深度用户的角度来看,对这项功能的需求相对较低,但它确实会在未来推出。」(@AI 深度研究员)
2、Pytorch 华人负责人押注复合 AI:行业已经从依赖 Scaling Law 逐渐转向强调模型的推理能力
(图片来源:Latent Space)
Lin Qiao 表示亲眼见证了数据量的爆炸式增长以及行业的巨额投入。「当时就很明显,AI 是推动这些数据增长背后的关键动力。那是一个非常有趣的时刻——Meta 正在完成「移动优先」的过渡,开始迈向「AI 优先」。 这个转变的根本原因是移动优先策略提供了前所未有的全方位用户交互,随之产生了大量数据,而这些数据也为 AI 提供了动力。」
除此之外,他还说: 「单一模型的知识是有限的,因为它的训练数据是有限的,不具备实时信息,也无法获取企业的专有信息。因此,要真正构建一个能够解决实际问题的应用,我们需要一个复合 AI 系统。 复合 AI 系统的核心,是通过多个跨模态的模型、API(无论是公共还是专有)、存储系统、数据库系统以及知识库等协同工作,共同提供最优答案。」
未来的趋势是开源模型和闭源模型之间的性能差距会逐渐缩小,甚至趋于消失。 「一旦两者在同一水平线上,我们的早期推理优化投资将展现出巨大的优势。通过围绕质量、延迟和成本平衡的长期探索,我们积累了丰富的经验。这些积累让我们有能力发布一个接近高质量闭源模型水准的新产品。」(@Z Potentials)
更多 Voice Agent 学习笔记:
2024,语音 AI 元年;2025,Voice Agent 即将爆发丨年度报告发布
对话谷歌 Project Astra 研究主管:打造通用 AI 助理,主动视频交互和全双工对话是未来重点
这家语音 AI 公司新融资 2700 万美元,并预测了 2025 年语音技术趋势
语音即入口:AI 语音交互如何重塑下一代智能应用
Gemini 2.0 来了,这些 Voice Agent 开发者早已开始探索……
帮助用户与 AI 实时练习口语,Speak 为何能估值 10 亿美元?丨Voice Agent 学习笔记
市场规模超 60 亿美元,语音如何改变对话式 AI?
2024 语音模型前沿研究整理,Voice Agent 开发者必读
从开发者工具转型 AI 呼叫中心,这家 Voice Agent 公司已服务 100+客户
WebRTC 创建者刚加入了 OpenAI,他是如何思考语音 AI 的未来?
写在最后:
我们欢迎更多的小伙伴参与「RTE 开发者日报」内容的共创,感兴趣的朋友请通过开发者社区或公众号留言联系,记得报暗号「共创」。
对于任何反馈(包括但不限于内容上、形式上)我们不胜感激、并有小惊喜回馈,例如你希望从日报中看到哪些内容;自己推荐的信源、项目、话题、活动等;或者列举几个你喜欢看、平时常看的内容渠道;内容排版或呈现形式上有哪些可以改进的地方等。
素材来源官方媒体/网络新闻