脑机接口、嵌入式 AI 、工业级 MR、空间视频和下一代 XR 浏览器丨RTE2024 空间计算和新硬件专场回顾

news/2024/11/14 6:03:53/文章来源:https://www.cnblogs.com/Agora/p/18541644

 

 

这一轮硬件创新由 AI 引爆,或许最大受益者仍是 AI,因为只有硬件才能为 AI 直接获取最真实世界的数据。

 

在人工智能与硬件融合的新时代,实时互动技术正迎来前所未有的创新浪潮。从嵌入式系统到混合现实,从空间视频到脑机接口,这些前沿领域正以惊人的速度推进,为未来的人机交互描绘出令人振奋的蓝图。在本届 RTE2024 大会上,来自产业界和学术界的多位专家深入探讨了这些技术的最新进展及其潜在应用。

 

闪极科技 CTO 周万程、声网视频工程师许振明、萤火空间创始人邵鹏、姬械机科技联合创始人卢树强以及 Rokid 前端工程师刘亚中等分享了他们在各自领域的研究成果和独到见解。

 

果壳创始人、未来光锥基金创始合伙人姬十三主持了主题分享和圆桌讨论环节。

周万程:有限硬件资源下嵌入式系统的 AI 实时音频算法

 

闪极科技 CTO 周万程 在分享中深入探讨了在嵌入式系统中实现 AI 实时音频算法的挑战与解决方案。他结合自己在电路与系统领域的背景,生动阐述了 「没有嵌入式,AI 则无翅」 这一观点。

 

随着 AI 技术的爆发式发展,如何将先进的 AI 功能部署到轻量级的边缘计算平台上,成为提升用户体验的关键技术。然而,嵌入式系统面临着处理能力、内存和功耗等硬件资源的严格限制。

 

针对这些限制,周万程提出了三个优化方向:

 

1、降低算法复杂度: 通过量化、减枝和低秩近似等技术,显著降低计算量。

 

2、数据优化: 利用多级缓存、数据预取和动态缓存等策略,提高数据访问效率。

 

3、硬件支持: 充分利用 DSP、ASIC 和 FPGA 等硬件加速单元。

 

展望未来,周万程认为 NPUFPGA 的可重构特性将为嵌入式 AI 带来巨大机遇。他强调,嵌入式系统中的机器学习将成为推动 AI 发展的重要力量,因为它们能直接接触到真实世界的数据。

 

 

 

许振明:空间视频在 RTC 直播中的应用探索

 

 

许振明 分享了声网团队在空间视频技术方面的最新探索,重点介绍了如何将空间视频应用于实时互动直播中。

 

要在 RTC 中实现空间视频,必须解决三个关键问题:3D 内容的生产、传输和渲染显示。

 

在内容生产方面,iPhone 15 Pro 的双摄像头设计使得消费级设备能够采集空间视频成为可能。此外,AI 生成的视频,如 SORA,也可以通过时间偏移技术模拟双目效果。

 

在传输方面,采用 Multi-view 编码技术可以节省超过30%的码率。与此同时,还需要考虑网络抖动、FEC 保护等 RTC 特有的问题。

 

渲染显示 是最具挑战的环节。为了实现流畅的空间视频体验,每只眼睛至少需要 1080p 30fps,理想情况下是 4K 60fps。这对渲染性能和系统调度精度提出了很高要求。声网通过多种优化手段来保证渲染质量。

 

许振明表示,声网提供了灵活的 API,开发者可以根据需求选择使用声网的采集、编解码、传输等能力。除了空间视频,声网还提供 空间音频、AI 降噪、Persona 等多项技术,支持更沉浸式的 RTC 体验。

 

 

邵鹏:混合现实 MR 和空间计算的未来与挑战

 

 

 

 

苏州萤火空间创始人兼 CTO 邵鹏 首先介绍了混合现实(MR)的概念,称其为增强现实(AR)的升级分支。MR 设备可以让用户同时看到真实世界和虚拟内容,并实现虚拟与现实的无缝融合和交互。他进一步详细解释了空间计算的不同层次,从 0 自由度(DOF)到 6DOF 再到 SLAM,每一层级都要求更复杂的硬件和算法支持。

 

在技术细节方面,邵鹏强调了实现高质量 MR 体验所面临的挑战,包括 稳定的空间算法、明亮的实景显示、清晰的 RGB 显示以及较大的视场角(FOV)。他预测,真正的消费级 MR 眼镜可能要到 2030 至 2035 年才能问世,这将需要在重量、续航、建模能力等多个方面达到高水平。

 

面对这些挑战,邵鹏提出了将计算任务上云的解决方案,认为这一策略可以使本地设备更加轻便,并大大延长续航时间。然而,他也指出,这种趋势可能对国内硬件厂商构成威胁,并呼吁加强对 SLAM空间计算的研究,以在未来的技术浪潮中保持竞争力。

 

最后,邵鹏展示了萤火空间的产品,介绍了其能够实时快速建立空间模型,并支持远程专家进行空间标注和指导的功能。他认为这种技术在远程协作培训等领域具有广阔的应用前景。

 

 

 

卢树强:脑机接口与俱身智能计算体系的前沿探索

 

 

姬械机科技联合创始人卢树强开门见山地解释道,「脑机接口本质上属于智能硬件,它是对大脑信号的采集与计算,并通过与外界设备或环境的交互来实现功能。」他进一步将脑机接口技术分为两类:侵入式(需要开颅)和非侵入式(皮肤外接触)。虽然这项技术在日常生活中尚不普及,但其巨大的潜力令人期待。

 

俱身智能 的主要体系可以分为两大类:一类是通过视觉传感器进行环境理解和任务执行;另一类是通过智能穿戴设备(包括脑机接口)来捕捉人体信息,用于训练人形机器人。

 

在介绍计算体系时,卢树强详细阐述了从数据采集、处理到重建、生成的完整流程。「与 VR、XR 技术不同,我们面对的是 多元高维度的数据,」他强调道,「这就要求我们具备高精度、高采样率的传感器,以及复杂的降噪和特征识别算法。」

 

 

刘亚中:多维沉浸,探索 XR 中的 Web 内容新体验

 

 

 

Rokid 前端工程师刘亚中介绍了 JSAR——一个创新的 Web XR 运行时与浏览器,旨在解决当前 Web XR 内容在 XR 空间中面临的两大挑战:

 

应用形态的限制: 目前,Web XR 内容在 XR 设备上只能选择呈现为平面网页或独占的 3D 场景,无法同时存在,这大大限制了 Web XR 的使用场景和体验。

 

3D 场景中的 UI 开发复杂性: 与传统的 2D 网页相比,在 Web XR 中开发简单的 UI 组件需要大量代码,这对开发者非常不友好。

 

**为了解决这两个问题,刘亚中和团队开发了 JSAR。**JSAR 使得 Web XR 应用能够与其他 2D 和 3D 应用并存,并简化了 3D 场景中的 UI 开发。通过深度缓冲等技术,JSAR 实现了 Web XR 内容与 Unity 等游戏引擎渲染的无缝集成。

 

JSAR 的架构设计: 每个 Web XR 应用都是一个独立进程,通过客户端与 Unity 进程通信。这不仅实现了多个应用的共存,还引入了空间音频等优势。

 

未来展望:JSAR 将扩展更多功能,包括支持运行 HTML、传统 2D 网页等,成为真正的下一代 XR 浏览器。

 

 

 

圆桌讨论:下一代计算平台的模样

 

 

 

 

 

在主题是「下一代计算平台的模样」的圆桌讨论中,来自「未来光锥前沿基金」的姬十三担任主持人,参与讨论的嘉宾包括周万程、许振明、邵鹏、卢树强和刘亚中。

 

谈及 Apple Vision Pro 的未来, 嘉宾们普遍认为尽管存在一些局限性,但这款产品为整个行业树立了新的标杆。卢树强观察到 Vision Pro 在游戏开发和个人使用方面的需求正在增长。许振明补充道,即便 Vision Pro 停产,它对行业的影响也已经深远。

 

在 AI 与硬件结合的话题上, 周万程强调了 反思型 AI 的重要性,认为未来 AI 应该能够根据用户的反馈不断改进。邵鹏从混合现实的角度出发,指出大语言模型、图像识别和 3D 模型理解将极大提升 MR 设备 的交互能力和应用场景。卢树强则预测,AI 在未来两三年内将主要提供基础信息服务,而在更远的未来,可能会实现 任务和操作 层面的服务。刘亚中则提出,大语言模型使得用户 不再依赖传统的网址输入 ,而是通过 AI 自动为其选择和提供相应服务,极大提升了使用体验。

 

关于下一代计算平台 , 专家们提出了多元化的观点。卢树强认为 人形机器人 可能成为重要的计算平台,预计在十年内可能出现雏形。许振明则看好 汽车作为潜在的计算中心 ,特别是在自动驾驶领域。邵鹏坚持认为 云计算 仍将是主要的计算平台,但 AR/MR/VR 设备可能成为重要的人机交互界面。周万程提出 未来的计算可能是分布式的, 利用闲置的设备资源进行边缘计算。刘亚中则认为,AI 可能会引发硬件革命,用户们将能够 自行开发新的硬件 来满足他们的需求。

 

 

 

 

 

「无所不在的计算:空间计算和新硬件」技术专场由 RTE 开发者社区和未来光锥前沿基金联合出品。

 

 

 

RTE 开发者社区是聚焦实时互动领域的开发者社区。希望通过社区链接领域内的开发者和生态力量,萌芽更多新技术、新场景,探索实时互动领域的更多可能。这里你将遇见一群致力于改变人和人、人和世界,以及人和 AI 连接方式的开发者。

 

 

 

「未来光锥」是由果壳发起的科创品牌,致力于推动科研端与产业端相互融合,促进科技成果的高效转化。

 

 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/832242.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

GitLab 如何跨版本升级?

本分分享 GitLab 跨版本升级的一些注意事项。 众所周知,GitLab 的升级必须要严格遵循升级路径,否则就会出现问题,导致升级失败。因此,在 GitLab 升级之前需要做好两件事情:当前版本的确认 升级路径的确认极狐GitLab 推出 GitLab 专业升级服务,专业人员为 GitLab升级保驾护…

Codeforces Round 898 (Div. 4)E - Building an Aquarium

E. Building an Aquarium 题目 有一块由 \(n\) 根柱子组成的珊瑚,其中 \(i\) 根柱子高 \(a_i\) 个单位。之后,在珊瑚周围建造一个水族箱,具体如下:选择一个整数 \(h \geq 1\) --水箱的高度。在水箱两侧建造高度为 \(h\) 的墙壁。 然后,在水箱中注满水,使每一列的高度都是…

Oracle数据库归档模式的开启和关闭

一、Oracle环境Oracle服务器:oracle11g oracle版本:11.2.0.1.0 操作系统版本:Red Hat Enterprise Linux Server release 7.6 (Maipo)二、归档模式介绍 oracle是款高安全性的数据库,刚安装好的数据库一般没有开启归档模式,我们需要开启归档模式,特别是业务数据库,开…

易经八卦,

在易经中,我们用—表示阳;--表示阴;在计算机中, 用0表示--,1表示—; 两爻组合得到 太阳, 太阴, 少阳, 少阴, 在计算机中, 分别用11,00,10,01表示 三爻组合, 得到八卦, 乾、兑、离、震、巽、坎、艮、坤, 分别用111,110,101......001,000表示 两个八卦, 上下组合成64卦, 乾1111…

NVM :用于管理 Node.js 版本的工具

在日常的开发工作中,我们往往会遇到需要在同一台机器上同时管理多个版本的 Node.js 的情况。为了解决这个问题,我一个同事推荐了NVM(Node Version Manager)。,可以方便地在不同的项目之间切换 Node.js 版本,同时保证开发环境的一致性。本文将介绍 NVM 的基本概念、window…

Z-library数字图书馆镜像地址/官网入口及客户端app (长期更新)

Z-Library是一家电子图书馆,被誉为全球最大的科学图书和学术文献免费资源之一。它创办于2009年,截至2022年10月1日,已收录超过1129万本图书和8483万篇学术文章。从各种知名文学著作,理工学科,人文艺术、到学术论文等应有尽有!支持PDF、epub、mobi等多种格式图书资源下载绝…

Lec 03 系统指令集架构

Lec 03 系统指令集架构 (参考来源:上海交通大学并行与分布式系统研究所+操作系统课程ppt) Creative Commons Attribution 4.0 License Contents 3.1 回顾:特权级的必要性一台计算机上同时运行多个应用程序,如何保证不同应用间的隔离?如果所有的应用均能完全控制硬件计算资源…

TypeScript语法细节

联合类型使用联合类型

lec 02 arm汇编语言基础

Lecture 02: ARM 汇编基础 Contents为什么学习ARM/ISA汇编 从C到汇编 理解arm汇编 理解机器执行1 为什么学习汇编和指令集架构? 1.令人困惑的应用表现2.指令集架构ISA(Instruction Set Architecture)CPU向软件(应用程序和操作系统)提供的接口。 理解软件在CPU上的运行(OS设计,…

看雪看雪看雪

看雪看雪看雪[攻防世界]看雪看雪看雪 分析 得到一个rar文件,里面有一张jpg 南方孩子羡慕按照图片隐写思路:属性 010editor(隐藏文件分离,宽高) stegslove 等解题 按照刚才思路,没有什么发现 回头看看题目“看雪看雪看雪”,好像有个东西叫雪隐写 后面看wp,其实属性里面有…