微软 AI 研究团队推出 SIGMA:一个开源研究平台,旨在推动混合现实与人工智能交叉领域的研究与创新

  每周跟踪AI热点新闻动向和震撼发展 想要探索生成式人工智能的前沿进展吗?订阅我们的简报,深入解析最新的技术突破、实际应用案例和未来的趋势。与全球数同行一同,从行业内部的深度分析和实用指南中受益。不要错过这个机会,成为AI领域的领跑者。点击订阅,与未来同行! 订阅:https://rengongzhineng.io/

生成式 AI、超大型语言模型、视觉模型和多模态模型的突破,为开放领域知识、推理和生成能力奠定了基础,能够支持开放式任务辅助场景。这不仅包括生成相关指令和内容,还为构建能与人类在现实世界中合作的 AI 系统提供了起点。这类应用包括混合现实任务助手、交互机器人、智能制造工厂、自动驾驶车辆等。

为了与人类无缝合作,AI 系统必须能够在多模态流中持续感知和推理其周围环境。这一要求不仅限于目标检测和追踪。为了实现有效的团队合作,所有参与者都必须了解物体的潜在功能、它们之间的关系、空间限制,以及这些因素随时间的变化。

这些系统不仅需要对物理世界进行推理,还需要理解人类行为。推理中应包括对实时协作行为的认知状态和社会规范的判断,并且还需涵盖对身体姿势、声音和动作的低级判断。

借助混合现实和 AI 技术(如大型语言和视觉模型)的组合,微软研究院推出了 SIGMA。这款互动程序可使用 HoloLens 2 指导用户完成流程任务。任务可以由大型语言模型(如 GPT-4)或任务库中手动定义的阶段动态生成。当用户在互动过程中提出开放式问题时,SIGMA 可以利用其强大的语言模型提供答案。此外,SIGMA 可以利用 Detic 和 SEEM 等视觉模型,在用户视野中定位并突出显示与任务相关的物体。

SIGMA 选择了几种设计方式来实现其研究目标。一个例子是客户端-服务器架构。HoloLens 2 设备运行轻量级客户端应用程序,将多个多模态数据流传输到更强大的桌面服务器。这些数据流包括 RGB(红、绿、蓝)、深度、音频、头部、手部和视线追踪信息。桌面服务器将数据和指令传送给客户端应用程序,以便在设备上显示内容,并执行应用程序的基本功能。通过这种设计,研究人员能够超越头戴设备当前的计算限制,并为将该程序扩展到其他混合现实设备打开了可能性。

SIGMA 的基础是名为 Platform for Situated Intelligence(psi)的开源架构,该架构支持多模态综合性 AI 系统的开发和研究。psi 框架提供高性能流媒体和日志基础设施,并允许快速原型制作。数据重放基础设施使数据驱动的应用级开发和调试成为可能。Platform for Situated Intelligence Studio 提供了丰富的可视化、调试、优化和维护支持。

虽然 SIGMA 目前的功能还不够完善,但它为未来混合现实与人工智能融合的研究奠定了基础。许多研究主题,特别是感知,可以使用收集的数据集进行探索,这些问题包括计算机视觉和语音识别。

SIGMA 是微软对该领域持续投入的一个例子,也是该公司探索新型人工智能和混合现实技术的代表。Dynamics 365 Guides 是微软为一线员工提供的另一款企业级混合现实解决方案。客户可以在 Copilot in Dynamics 365 Guides 中使用私有预览功能,获得逐步操作指导和工作流程相关信息。AI 和混合现实相结合,让这成为可能。Dynamics 365 Guides 为一线员工提供了强大的工具,可以在复杂操作中受益。

通过公开该系统,研究人员希望能帮助其他研究者解决构建全栈交互应用的基础工程任务负担,以便他们能够专注于本领域的新兴研究。

SIGMA: An open-source mixed-reality system for research on physical task assistance - Microsoft Research

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/675796.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【知识点随笔分享 | 第十篇】快速介绍一致性Hash算法

前言: 在分布式系统中,数据的分布和负载均衡是至关重要的问题。一致性哈希算法是一种解决这些挑战的有效工具,它在分布式存储、负载均衡和缓存系统等领域得到了广泛应用。 随着互联网规模的不断扩大,传统的哈希算法在面对大规模…

set-cookie字段,cookie文件介绍+原理,如何查看cookie文件,在基于http协议服务器的代码实现,cookie存在问题+解决(会话机制)

目录 Set-Cookie 引入 介绍 原理 描述 图解 保存"cookie文件"的方法 内存级 文件级 查看cookie文件 示例 实现 介绍 代码 核心代码 全部代码 示例 cookie存在的问题 介绍 存在的必要性 如何解决 问题梳理 引入 会话机制 -- 解决信息泄漏…

C#语言核心

一、面向对象基本概念 万物皆对象,用程序来抽象(形容)对象,用面向对象的思想来编程 用中文去形容一类对象,把一类对象的共同点提取出来,然后用程序语言把它翻译过来,带着对象的概念在程序中使…

Vector Laboratories|用于生物偶联疗法BioDesign™ dPEG® Linker连接平台

术语dPEG代表“离散PEG(discrete PEG)”,这是一种均一的、单分子量(MW)、高纯度的新一代聚乙二醇聚合物。Vector Laboratorie采用其受专利保护的专有生产工艺,可生产提供适合于各种应用场景,具有…

【分治算法】【Python实现】最接近点对

文章目录 [toc]问题描述一维最接近点对算法Python实现 二维最接近点对算法分治算法时间复杂性Python实现 个人主页:丷从心 系列专栏:分治算法 学习指南:Python学习指南 问题描述 给定平面上 n n n个点,找其中的一对点&#xff…

python 打包为exe可执行程序

近期因为需要做文字识别,应用ocr 所以每次都需要部署环境,然后打算做成exe,遇到问题做一总结。 pyinstaller -D --hidden-importpaddleocr testflask.py 生成exe paddleocr 和pyinstaller 安装不做说明。 No such file or directory: …

Web开发小知识点(一)

1.input不支持自动换行解决办法 input不支持换行; textarea:支持换行; 设置提示文案的css 用::placeHolder 2.textarea禁止拖拽、去掉右下角三角(css下) textarea{resize:none; } 3.用户对访…

web 基础之 HTTP 请求

web 基础 网上冲浪 就是在互联网(internet)上获取各种信息,进行工作,或者娱乐,他的英文表示surfing the Internet,因 “surfing”d的意思是冲浪,即成为网上冲浪,这是一种形象说法, 也是一个非…

市场营销的酒店营销策略研究意义

在市场经济条件下,市场营销策略已成为企业经营管理中最重要的组成部分,其在企业管理中的地位日益显现出来。 然而,由于酒店营销环境的特殊性,酒店营销策略研究一直是咱们从业者研究的热点之一。 对于酒店营销策略的研究&#xf…

MySQL中JOIN连接的实现算法

目录 嵌套循环算法(NLJ) 简单嵌套循环(SNLJ) 索引嵌套循环(INLJ) 块嵌套循环(BNLJ) 三种算法比较 哈希连接算法(Hash Join) 注意事项: 工…

VS2022快捷键修改

VS2022快捷键修改 VS2022快捷键修改 VS2022快捷键修改

【LAMMPS学习】八、基础知识(5.11)磁自旋

8. 基础知识 此部分描述了如何使用 LAMMPS 为用户和开发人员执行各种任务。术语表页面还列出了 MD 术语,以及相应 LAMMPS 手册页的链接。 LAMMPS 源代码分发的 examples 目录中包含的示例输入脚本以及示例脚本页面上突出显示的示例输入脚本还展示了如何设置和运行各…