实时多模态 AI 的 N 种新可能丨实时互动和大模型专场@RTE2024回顾

news/2024/11/20 18:21:22/文章来源:https://www.cnblogs.com/Agora/p/18558967

 

 

在本届 RTE2024 大会上,来自产业界和学术界的多位专家深入探讨了实时互动和大模型技术的最新进展及其潜在应用。

 

西湖心辰联合创始人俞佳、声网 AI 算法工程师乔齐、MiniMax 资深音频算法专家张博闻、商汤科技数字文娱解决方案负责人焦文奎以及面壁智能算法 VP 翟忠武等分享了他们在各自领域的研究成果和独到见解。

 

RTE 开发者社区主理人林旅强和声网大语言模型实验室高级研究员李忻玮分别主持了主题分享和圆桌讨论环节。

 

俞佳:生成式语音与用户粘性的密切关系

 

西湖心辰联合创始人俞佳带来了一场关于生成式语音技术及其用户粘性的分享。他着重探讨了语音技术在实际应用中的价值,尤其是在 AI 心理咨询和 AI 陪伴 等领域。

 

俞佳强调了语音技术对用户体验的深刻影响。 「心理咨询的本质在于连接,」他解释说:「用户能否与 AI 系统或 AI 咨询师建立起如同与真人咨询师般的连接至关重要。」语音,乃至多模态的视觉能力,都在构建这种连接中扮演着关键角色。当用户感受到系统真正理解自己时,即使提供的建议并非完美无缺,也能带来实质性的帮助。

 

传统的语音处理流程通常是将语音转换为文本,处理后再转换回语音。然而,这种方法不可避免地会丢失诸如语速、语气、情绪等重要的信息。为了解决这一难题,俞佳及其团队开发了 端到端的语音大模型 Lingo。 该模型采用三阶段训练方法,包括模态对齐、适应性训练和多模态微调。尤为值得一提的是,Lingo 支持语音和文本的同时输入输出,为后续的处理和应用提供了更多可能性。

 

乔齐:基于大语言模型的双全工对话模式探索

 

声网 AI 算法工程师乔齐分享了基于大语言模型的双全工对话方面的探索。他指出,现有的 AI 语音助手,以 ASR、LLM、TTS 三段式框架为主,在实际交互中仍存在不足。

 

双全工对话模式是解决这一问题的关键。 「双全工」允许用户在对话过程中随时打断,并要求 AI 助手能够理解、响应这种打断,并在合适的时机进行回复,最终实现更自然流畅的交互体验。

 

他进一步解释了让大语言模型进行双全工对话的核心在于 理解「说」和「听」两种对话状态, 以及它们之间四种可能的转移路径:说->说(忽略干扰,继续发言),说->听(响应打断,开始聆听),听->说(回复用户),听->听(继续聆听)。

 

为实现双全工对话,乔齐介绍了两种方案。第一种是利用现有的闭源商业大模型,并结合提示词工程进行调优。第二种方案是微调小规模大语言模型并部署在端侧设备,以解决闭源模型成本高和数据安全问题。

 

张博闻:新一代语音大模型 Abab-speech-01 的突破性应用

 

MiniMax 声音团队算法工程师张博闻分享了新一代语音生成大模型 Abab-speech-01 的落地成果。该模型利用 数百万小时 涵盖多语言、方言、情绪和场景的标注音频数据进行预训练和微调,显著提升了语音合成的 自然度和情感表达能力。 相较于传统模型,Abab-speech-01 更擅长理解文本语义和情感,能够更自然地表达如笑声等细节,并根据文本情感调整语音,使其更生动传神。此外,它只需 5-6 秒音频即可实现高质量音色复刻,大幅提升效率并降低成本。

 

在 C 端应用方面,MiniMax 推出了 AI 虚拟社交产品「星野」和生产力工具「海螺 AI」。「星野」利用 Abab-speech-01 的 音色复刻能力, 支持用户创建数百万种独特音色,并可通过文本描述生成音色。「海螺 AI」则内置 30 种官方精品音色及音色复刻功能,确保安全合规的前提下,允许用户使用自身或亲人的声音进行语音合成。两款产品均集成 低延时语音通话功能, 端到端延时控制在 400 毫秒以内。

 

在产业应用方面,Abab-speech-01 已成功应用于有声读物、数字人带货和智能硬件等领域。

 

焦文奎:商汤科技多模态模型解决方案与创新应用

 

商汤科技数字文娱解决方案负责人焦文奎介绍了商汤科技「日日新」大模型的流式多模态能力及其应用探索。依托强大的算力基础设施(12000P,年底将达 20000P)和约 10TB 的数据(20%为高质量标注数据),「日日新」大模型已迭代至 5.5 版本,重点关注 大装置、大模型和应用的三位一体发展。

 

流式多模态模型支持音频、视频、文本输入,并以音频或文本输出,响应延迟为 560 毫秒。面向用户的 SDK「日日新 5O」已发布,未来将推出企业级版本。现场演示的拟人对话和图像描述等 demo,展示了在品牌/地标识别、人像/场景理解等方面的能力,并计划将文生图能力融入多模态模型。

 

  • 应用场景探索方面,包括:品牌/地标识别: 例如博物馆展品讲解

  • 人像/场景理解: 例如电商直播中的穿着打扮指导

  • 数字人: 与声网合作,探索陪聊、带货等场景,并解决弱网环境下的低延时需求,未来将实现音进音出,并逐步加入视觉模块。

  • AI 面试官: 结合慢推理模型,用于校招和社招初面。

  • 音视频美颜美体美型。

 

翟忠武:基于面壁小钢炮训练的对话模型实践

 

面壁智能算法 VP 翟忠武分享了他们在端侧对话模型领域的突破性进展。面对大模型高昂的推理成本,面壁智能致力于将大模型部署到手机、单片机等低功耗设备,并取得了显著成果。

 

翟忠武重点介绍了「面壁小钢炮」项目,这项创新尝试旨在 提升模型的知识密度。 团队通过一套精密的「风洞系统」进行大量实验,优化模型架构和关键参数,最终实现了一个仅有 1.2B 参数但性能优于 7B 和 13B 模型的小型化模型。

 

在实际应用中,面壁智能的端侧对话模型展现出令人惊艳的性能。该模型无需 GPU 支持,可在手机端流畅运行,平均每位用户可持续对话 80 分钟,进行 300 轮对话。翟忠武现场演示了模型极快的响应速度,甚至超越用户输入速度。

 

这一高效的端侧模型背后,凝聚了多项核心技术:

 

1、快慢系统融合: 模型整合了「慢思考」(分析用户画像、记忆和聊天记录)和「快思考」(快速生成回复)两个系统,显著提升了模型的整体能力和响应效率。

 

2、多模态架构设计: 模型支持文字和语音的同步输入输出,并采用流式处理和 Beam Search 解码,以适应多样化的交互场景。

 

3、创新的训练方法: 团队采用独特的训练方法,同时训练模型的「接龙」和「对话」能力,并在后期引入高质量数据进行强化学习。

 

4、模型稀疏化技术: 借鉴人脑神经元连接的稀疏性,通过稀疏化技术大幅提升模型效率,降低计算资源消耗。

 

圆桌讨论:实时多模态 AI 的 N 种可能

 

主题是 「实时多模态 AI 的 N 种可能」 的圆桌讨论由声网大语言模型实验室的李忻玮主持,参与讨论的嘉宾有面壁智能算法 VP 翟忠武、TEN Framework 联合发起人 Plutoless 以及西湖心辰联合创始人俞佳。

 

 

会议伊始,主持人李忻玮用一个轻松的快问快答环节与 Plutoless 互动,确认他「暂时通过了图灵测试」,也为「实时性」这一关键词埋下伏笔。围绕 Anthropic 新推出的 Claude 3.5 模型的 「Computer Use」功能, 讨论正式展开。该功能允许 Claude 通过 API 接入用户电脑,模拟鼠标键盘操作。

 

翟忠武认为这并非新技术,并指出其实 现流畅稳定操作的关键在于端侧模型, 以规避云端模型的网络延时问题。他更看好 function call 的应用,认为直接调用 API 比通过视觉识别 UI 更高效。

 

Plutoless 也表示类似功能在 Framework 已有尝试,并指出语音控制的实现 难点在于与应用 API 的打通, 即「最后一公里」问题。他进一步介绍了 Framework 在实时视频方面的布局,表示已支持类似 ChatGPT 的截图提问功能,并计划在开源项目中包含屏幕共享功能,以实现更自然的交互。

 

俞佳则从产品角度对「Computer Use」功能表达了兴奋之情。他认为,尽管技术上并无突破,但该功能 赋予了大模型操作图形界面的能力, 拓展了 AI 的应用空间,如同人形机器人拥有了「手」一样意义重大。

 

关于端侧模型的潜力, 翟忠武认为未来的交互将以语音为主,并强调端侧模型作为基础设施的重要性,能够让开发者无需重复训练大模型。他认为目前端侧模型的瓶颈在于实时性和算力。

 

 

Plutoless 指出, 人工智能处理信息的方式与人类截然不同。 以远程会议为例,当网络连接不稳定时,人类更注重音视频的流畅度而非完整性。即使画面模糊或声音断续,我们仍然可以凭借自身的理解能力抓住会议的主旨。但如果出现严重的音频延迟,沟通就会受到阻碍。相反, 人工智能并不需要像人类那样理解信息的语义。 比如,将 10 秒的信息压缩到 1 秒,对人类来说是无法理解的,而人工智能却可以轻松处理。

 

TEN Framework 的初衷正是解决这些复杂问题,让开发者专注于业务逻辑和自身优势领域。TEN Framework 致力于将这些复杂能力原生集成到框架中,并通过插件提供给开发者,降低开发门槛和心智负担。

 

关于 AI 带来的道德风险, 俞佳坦言,随着人与 AI 情感连接的加深,AI 回复的风险性挑战也日益增大,西湖心辰已在产品中加入了针对用户极端情绪的预警机制。

 

最后,圆桌讨论转向了 多模态生成范式。 翟忠武认为,用统一的 token ID 处理不同模态数据是可行的,并指出目前的关键在于如何 将图像和声音转化为 token ID。 Plutoless 则认为,多模态交互更加自然,但也带来了延时问题。他指出目前多模态模型的精确度和可控性仍有不足,主要 受限于训练数据的缺乏。 俞佳也承认,多模态模型效果的不足 限制了某些产品需求的实现, 但他对未来发展仍然乐观。

 

 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/837453.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

vscode主题美化

vscode 主题美化 主题使用Tokyo Night由于我在用rust的时候发现其对一些变量的颜色不太好看,所以自己又在设置中改了一点"editor.tokenColorCustomizations": {...."[Tokyo Night]": { // or "[Tokyo Night Storm]""textMateRules": […

2024.11.20总结

1本文于 github 博客同步更新。 A: 一个数可以被操作当且仅存在一列的顶部元素为它且存在一列的底部元素为它,初始扫一遍,将合法的元素以顶部所在列为关键字扔到小根堆里,每次找到最小的元素添加,然后检查将新露出来的元素是否存在匹配,若结束时未填完即为无解。 B: 要么…

ABAP 日期计算

RP_CALC_DATE_IN_INTERVAL 日期函数2 FIMA_DATE_CREATE 有问题 在2月份计算有问题 慎用 计算两个日期月份 FIMA_DAYS_AND_MONTHS_AND_YEARS

群晖NAS维修数据恢复

一台群晖NAS,开机状态灯是黄灯,DISC4也是亮黄灯,机器一直在报警。 群辉型号DS415+,是一种典型的硬盘损坏的情况,这是一台四盘位的一个群辉NAS,第一时间把每个硬盘取下来编个编号,WD的红盘也就是nasVR专用硬盘,型号是WD401F2X的,生产日期有三块是2015年,有一块是比较新…

实景三维技术在基层社会治理中的数智化应用

在推进国家治理体系和治理能力现代化的进程中,基层社会治理的数字化转型尤为关键。实景三维技术,以其直观、精准的空间信息表达能力,正在成为基层社会治理的有力工具。本文将探讨实景三维技术如何在“地、房、人、用、管”五个维度赋能基层社会治理。一、实景三维技术简介实…

Nginx服务器配置---反向代理服务时proxy_pass的转发规则

nginx是由俄罗斯开发的一款http web服务器,我们经常用这款服务器做负载均衡和反向代理。今天我们就来聊聊Nginx作为反向代理时,如何进行路由配置。假设你已经部署好Nginx了,我们进入Nginx安装目录,进入nginx.conf文件。找到http节点下的server节点,值是一个json。在json中…

less 全局变量使用 引用

参考链接: https://blog.csdn.net/qq_42493241/article/details/120021001 照搬成功 (以防链接失效截图)

Ablations

消融实验(ablation study)是什么? 太长不看版: 说白了就是设立对照组/控制变量法的意思,通过去除/增加某个模块的作用,来证明该模块的必要性,如果消融实验后得到性能结果大幅变化,说明该模块起到了作用。—————————————————————————— 严谨版: …

低代码无代码开发工具:TOP10排名

随着企业数字化转型步伐的加快,无代码及低代码开发工具(LCNC)已跃升为构建应用的首选方案。这些工具凭借简化开发流程、降低技术壁垒的优势,赋能企业迅速构建并部署应用,以灵活应对市场的瞬息万变。为何需要低无代码? 在快速迭代的商业环境中,传统的代码开发模式往…

Debian12关闭休眠模式

场景描述: 日常服务器部署中,系统环境如果是Debian12操作系统,那么安装完操作系统后,会默认开启系统自动休眠模式, 需要关闭系统的自动休眠,否则网络状态也会休眠,导致远程连接服务器的时候,没有响应! 临时解决方式: 如果目标服务器在机房或者在旁边,可以移动下该服…

IDM冻结试用期

本文并非原创,详细内容在GitHub上 https://github.com/lstprjct/IDM-Activation-Script/blob/main/README.md https://github.com/Mercury-Z/IDM-Activation-Script-Chinese 我讲讲我的使用过程,现在CSDN上阅读量比较多的帖子都是IDM破解版安装包,但就怕安装包有夹带,而且我…

NL-SLAM for OC-VLN: Natural Language Grounded SLAM for Object-Centric VLN

NL-SLAM for OC-VLN: Natural Language Grounded SLAM for Object-Centric VLN 用于 OC-VLN 的 NL-SLAM:用于以对象为中心的 VLN 的基于自然语言的 SLAM 【NL-SLAM for OC-VLN: Natural Language Grounded SLAM for Object-Centric VLN 】 文章链接:[2411.07848] NL-SLAM fo…