Hume 语音模型 OCTAVE：实现情感语音合成、声音克隆和多角色对话生成；通义开源多模态说话人识别项目 3D-Speaker-编程知识

Hume 语音模型 OCTAVE：实现情感语音合成、声音克隆和多角色对话生成；通义开源多模态说话人识别项目 3D-Speaker

news/2025/2/28 19:50:57/文章来源:https://www.cnblogs.com/Agora/p/18628454

开发者朋友们大家好：

这里是 「RTE 开发者日报」 ，每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE（Real-Time Engagement）领域内「有话题的新闻」、「有态度的观点」、「有意思的数据」、「有思考的文章」、「有看点的会议」，但内容仅代表编辑的个人观点，欢迎大家留言、跟帖、讨论。

本期编辑：@SSN，@鲍勃

01有话题的新闻

1、3D-Speaker：阿里通义开源的多模态说话人识别项目，支持说话人识别、语种识别、多模态识别、说话人重叠检测和日志记录

3D-Speaker 是阿里巴巴通义实验室语音团队推出的多模态开源项目，旨在通过结合声学、语义和视觉信息，实现高精度的说话人识别和语种识别。项目提供了工业级模型、训练和推理代码，以及大规模多设备、多距离、多方言的数据集，支持高挑战性的语音研究。

3D-Speaker 的最新更新增强了多说话人日志功能，提升了识别效率和准确性，适用于大规模对话数据的高效处理。

3D-Speaker 的主要功能

说话人日志： 将音频划分为属于不同说话人的多个段落，识别出每个说话人的开始和结束时间。

说话人识别： 确定音频中说话人的身份。

语种识别： 识别音频中说话人所使用的语言。

多模态识别： 结合声学、语义、视觉信息，增强识别能力，尤其是在复杂声学环境中。

重叠说话人检测： 能识别出音频中任意说话人重叠的区域。（@蚝油菜花）

2、百川智能发布金融大模型 Baichuan4-Finance

百川智能发布全链路领域增强大模型 Baichuan4-Finance。据介绍，通过行业首创的领域自约束训练方案，Baichuan4-Finance 实现了金融能力和通用能力同步提升的效果，极大提高了金融场景的整体可用性。

据媒体报道，内部人士透露，其金融专业能力和场景应用能力大幅领先 GPT-4o，在中国人民大学财政金融学院新近发布的评测体系 FLAME 以及国内主流开源金融评测基准 FinancelQ 上均登上榜首。

根据评测数据显示，Baichuan4-Finance 的整体准确率高达 93.62%，在银行、保险、基金和证券等多个金融领域的准确率均突破了 95%，相较于 GPT-4o 高出近 20%。此外，在 FinanceIQ 等主流开源金融评测基准上，Baichuan4-Finance 的整体准确率也达到了 79.23%，领先 GPT-4o 近 13 个百分点。

值得一提的是，今年五月份，百川智能发布基座大模型 Baichuan4，相较 Baichuan3 在各项能力上均有极大提升，当时在国内权威大模型评测机构 SuperCLUE 的评测中，模型能力国内第一。（@AIbase 基地）

3、Adobe 推出新 AI 工具可让声音设计师通过哼唱和模仿声音来创作音频

该系统会分析语音输入的三个关键元素：响度、音色（决定声音的明亮程度）和音调。然后，系统会将这些特征与文本描述相结合，生成所需的声音。

Sketch2Sound 的有趣之处在于它能够理解上下文。例如，如果有人输入「森林氛围」并发出短促的声音，系统会自动识别出这些声音应该是鸟叫声 - 而无需特定指令。

同样的智能也适用于音乐。在创建鼓点模式时，用户可以输入「低音鼓、小军鼓」，然后使用低音和高音哼唱节奏。系统会自动将低音鼓放在低音上，将小军鼓放在高音上。

研究团队内置了特殊的过滤技术，让用户可以调整控制生成声音的精确度。声音设计师可以根据自己的需求选择精确、细致的控制或更轻松、近似的方法。

这种灵活性使得 Sketch2Sound 对于拟音师（为电影和电视节目制作音效的专业人士）来说特别有价值。他们无需操纵物理对象来发出声音，而是可以通过语音和文本描述更快地创建效果。

研究人员指出，输入录音的空间音频特性有时会以不想要的方式影响生成的声音，但他们正在努力解决这个问题。Adobe 尚未宣布 Sketch2Sound 何时或是否会成为商业产品。（@AIbase 基地）

4、Hume AI 发布全新语音模型 OCTAVE，实现即时语音克隆与个性化定制

核心技术亮点：

语音与个性同步生成： OCTAVE 不仅能根据文字描述生成声音，还能同时创建与之匹配的个性，包括语言风格、口音、表达方式、潜在性格等。用户可以通过描述性文本或录音指定声音的性别、年龄、情感语调、职业相关的说话风格等多种特征。例如，模型可以生成「像用热沥青漱口的沙哑男声」，或「温柔善解人意的治疗师的声音」。

即时语音克隆与个性提取： OCTAVE 仅需一段 5 秒的录音，即可提取说话者的清晰声音、口音和个性特征，并以此生成自然的对话。这使得用户可以快速复制和使用各种独特的声音。

实时互动与多角色对话： OCTAVE 支持实时互动，并且可以生成多个相互作用的 AI 角色，在对话中自由切换。这使得模拟复杂的对话场景成为可能。该模型对说话风格、表达方式和潜在性格的理解，使其在实时互动中产生的语言和声音更加自然真实。

3B 参数小模型： OCTAVE 在语言理解方面表现出色，其性能与同等规模的前沿大型语言模型（LLM）相当。所有示例均由 30 亿参数的 OCTAVE 3B 模型生成，展示了其最小模型的强大实力。

Hume AI 表示，目前 OCTAVE 仍处于改进阶段，已向部分合作伙伴提供有限版本，以评估其在各种应用环境中的安全性和有效性。预计未来几个月内将向更多用户开放。（@Hume Blog）

02有亮点的产品

1、GenFuse AI：自动化各种业务流程的无代码平台

GenFuse AI 是一款创新的无代码工具，专注于帮助用户创建和管理 AI 代理，以自动化重复性任务。其核心价值主张在于通过直观的拖拽式编辑器，使任何人都能轻松构建多代理工作流程，而无需具备技术背景。目标用户包括希望提高工作效率的企业和个人，尤其是那些缺乏编程知识但希望利用 AI 技术简化流程的用户。GenFuse AI 解决了传统自动化工具复杂、难以使用的问题，为用户提供了一个友好的解决方案。(@Z potentials)

2、解决 AI 语音代理评估和管理痛点，Hamming.ai 获 380 万美元种子轮融资

随着 AI 语音代理在电话沟通中日益普及，其可靠性问题日益凸显。Hamming.ai 获得 380 万美元种子轮融资，旨在解决这一行业痛点。传统的人工测试效率低下，且难以覆盖所有场景，导致 AI 语音系统成本高昂，并存在潜在风险。

Hamming.ai 通过自动化测试、监控和管理 AI 语音代理，高效解决上述问题。他们利用自主研发的 AI 语音代理进行大规模测试，并为企业提供 LLM 提示管理、自动化红队测试以及通话分析等服务。据称，其测试速度比人工快 20 倍，成本降低 10 倍。

该公司由 Sumanyu Sharma 和 Marius Buleandra 联合创立，两人均拥有在构建信任和安全基础设施方面的丰富经验。Sharma 曾任 Citizen 数据主管，并曾在特斯拉负责 AI 驱动的销售项目；Buleandra 则在 Anduril、Square 和微软等公司积累了丰富的数据基础设施和 AI 工程经验。（@AIbase 基地）