具身智能论文(一)

目录

  • 1. PoSE: Suppressing Perceptual Noise in Embodied Agents for Enhanced Semantic Navigation
  • 2. Embodied Intelligence: Bionic Robot Controller Integrating Environment Perception, Autonomous Planning, and Motion Control
  • 3. Can an Embodied Agent Find Your “Cat-shaped Mug”? LLM-Based Zero-Shot Object Navigation
  • 4. ScanERU: Interactive 3D Visual Grounding Based on Embodied Reference Understanding
  • 5. CAVEN: An Embodied Conversational Agent for Efficient Audio-Visual Navigation in Noisy Environments
  • 参考文献

1. PoSE: Suppressing Perceptual Noise in Embodied Agents for Enhanced Semantic Navigation

在这里插入图片描述

  这篇论文探讨了如何在未知环境中提升机器人基于语义信息的导航能力。现有方法,如依赖大量数据集或预设规则的方法,通常面临着扩展性差和适应性弱的问题。而依靠预训练的语言模型的方法,则因视觉与语义信息的不匹配导致感知噪声,影响决策准确性。

  为了克服这些限制,论文提出了一种创新的方法,称为基于提示的视觉上下文语义探索(PoSE)。该方法利用视觉-语言模型(VLMs)的先验知识,通过设计特定的提示(prompts)来减少感知噪声,并优化探索效率。这些提示基于存在逻辑,能够在观察到的环境中减少目标对象的误识别,例如通过判断某个场景是否可能找到目标对象来调整探索策略。

  论文还引入了一个独特的探索地图,该地图能够将推理出的目标位置转化为机器人探索的坐标。在ALFRED基准上的实验结果显示,PoSE在未见环境中的表现优于传统的规则基础和任务特定的数据驱动策略,尤其是在处理基于文本模式的探索方法时。通过这种集成视觉信息和语义理解的方法,PoSE不仅提高了任务执行的成功率,也增强了模型的泛化能力,展示了其在未知环境中的有效性和广泛适用性。

2. Embodied Intelligence: Bionic Robot Controller Integrating Environment Perception, Autonomous Planning, and Motion Control

在这里插入图片描述

  这篇论文针对现代制造业中对机器人智能化和自主性需求的增加,提出了一种新型的仿生机器人控制器,以解决传统机器人控制器在环境感知、目标识别、自主思考和规划能力方面的不足。

  为实现这一目标,研究团队在机器人控制器中集成了三个核心模块:运动控制模块、视觉感知模块和自主规划模块。控制器基于ROS框架和ECI(Edge Controls for Industry)平台构建,利用改进的RRT-Growth-Angle算法进行路径规划,以确保机器人在执行任务时能够避免碰撞。

  研究中以多目标重排问题作为验证场景,建立了一个双机器人协作系统。系统使用YOLOv5_OBB网络进行对象识别和定位,通过任务序列规划和路径规划算法,自主规划出无碰撞的轨迹,实现从起始点到抓取位置再到放置位置的移动。实验结果表明,该仿生机器人控制器能有效地模仿人的感知、思考和行动过程,智能地处理复杂的自动化任务。这项研究不仅展示了仿生机器人控制器在工业自动化领域的应用潜力,还为未来机器人控制系统的设计提供了新的思路和方向,特别是在提高机器人的自主性和智能化水平方面具有重要意义。

3. Can an Embodied Agent Find Your “Cat-shaped Mug”? LLM-Based Zero-Shot Object Navigation

在这里插入图片描述

  这篇论文聚焦在一个特定的挑战:在完全未见过的环境中,让机器人仅通过自然语言的描述来找到特定的目标物体,比如一个形状像猫的马克杯。针对这一挑战,研究团队提出了一种称为“语言引导探索”(Language-Guided Exploration, LGX)的新方法。这种方法利用了大型语言模型(LLMs)的常识推理能力和预训练的视觉-语言模型,通过这些模型,机器人可以理解复杂的、非约束性的自然语言描述,并据此做出导航决策。具体实现上,LGX首先解析环境中的视觉语义信息,再结合LLM生成的导航子目标或直接的空间指令来引导机器人行动。

  在实验部分,研究者使用RoboTHOR模拟环境对LGX进行了测试。与现有的基于CLIP的OWL-ViT模型相比,LGX在零样本目标导航的成功率上实现了超过27%的提升,表明其在处理具体目标导航任务中的优势。此外,研究团队还将该方法应用于实际机器人平台,通过真实世界的实验进一步验证了其效果。

  通过这些实验,LGX展示了在处理自然语言驱动的零样本目标导航中的有效性,特别是在理解和执行基于复杂自然语言描述的任务方面。这一研究不仅推动了机器人导航和自然语言处理领域的发展,也为未来机器人在真实世界中的应用提供了有力的技术支持。

4. ScanERU: Interactive 3D Visual Grounding Based on Embodied Reference Understanding

在这里插入图片描述

  这篇论文探讨如何通过人机交互来提升3D视觉定位的准确性,尤其是在识别外观相似的多个邻近物体时的挑战。传统的3D视觉定位技术在处理含糊的空间描述和相似物体的区分上存在局限性,而本研究通过引入身体语言和手势信息,提出了一种名为“基于身体参照的理解(ERU)”的新任务,以改善这些问题。

  研究团队首先设计了ScanERU数据集,这是首个融合文本描述、实际视觉图像和合成手势信息的数据集,用于评估和训练模型。此数据集包含了多种半合成场景,旨在提供一个复杂且具有挑战性的测试环境,以验证方法的有效性。

  在技术实现上,论文构建了一个基于注意力机制和人体动作的启发式框架。这一框架不仅考虑了语言和视觉信息,还特别强调了手势信息的整合,通过这三者的互动来提高识别精度。实验结果表明,这种多模态融合方法在识别具有复杂空间关系的多个相似物体方面表现出色,尤其是在有手势指示时,识别效果有显著提高。

  此外,为了验证方法的实际应用效果,研究团队还在真实世界场景中进行了测试,使用Azure Kinect DK 3D传感器收集现场数据,并应用开发的方法进行处理和分析。这一部分的测试结果进一步证实了所提出方法的实用性和有效性,特别是在真实环境下对于复杂描述的处理能力上。

  总的来说,这篇论文通过创新地融合语言、视觉以及身体手势信息,提出了一个全新的3D视觉定位框架,并通过实验和实际应用展示了其在处理复杂场景和提高定位准确性方面的显著优势。这项工作不仅推动了3D视觉定位技术的发展,也为未来人机交互及智能系统设计提供了新的研究方向和实用解决方案。

5. CAVEN: An Embodied Conversational Agent for Efficient Audio-Visual Navigation in Noisy Environments

在这里插入图片描述

  这篇论文提出了一种新颖的对话式音视频导航框架CAVEN,专门设计来解决在嘈杂环境中基于声音导航的问题。这种环境中的声音通常是间歇性的、杂音混杂的,给定位声源带来了极大的挑战。在此背景下,传统的声音或视觉导航方法往往难以应对声音信号的不确定性和复杂性。

  CAVEN框架的核心创新在于它能够通过与人类或预设的Oracle进行全双工的自然语言交互,以增强导航策略。这种交互不仅限于简单的指令响应,还包括能够生成和解析复杂问题的能力,从而使代理能够根据实时获取的信息动态调整其导航策略。具体来说,该框架包括两个主要组件:一是基于音视频线索的轨迹预测网络,用于生成可能的导航轨迹;二是一个基于自然语言的问题生成与推理网络,用于与Oracle进行互动,以获得导航指令或解决导航中的疑问。

  实验部分,研究者使用SoundSpaces模拟器在各种噪音环境下测试CAVEN的效果,并与其他音视导航方法进行了比较。结果显示,CAVEN在成功率上几乎提高了一个数量级,特别是在定位新声源和处理混合声音的场景中表现突出。这一显著的改进归功于CAVEN能够通过双向交流准确处理复杂的语音和视觉信息,显著提高了导航的准确性和鲁棒性。

  此外,为了支持这种复杂的交互式导航任务,研究团队还创建了一个新的大规模数据集AVN-Instruct,包含了大量的音频目标、轨迹和语言指令对。这些数据不仅用于训练CAVEN模型中的交互模块,还通过新的评价指标SNO和SNI来评估语言引导导航任务的效果。

参考文献

[1] Zhuang B, Zhang C, Hu Z. PoSE: Suppressing Perceptual Noise in Embodied Agents for Enhanced Semantic Navigation[J]. IEEE Robotics and Automation Letters, 2023.

[2] Gan Y, Zhang B, Shao J, et al. Embodied Intelligence: Bionic Robot Controller Integrating Environment Perception, Autonomous Planning, and Motion Control[J]. IEEE Robotics and Automation Letters, 2024.

[3] Dorbala V S, Mullen Jr J F, Manocha D. Can an Embodied Agent Find Your “Cat-shaped Mug”? LLM-Based Zero-Shot Object Navigation[J]. IEEE Robotics and Automation Letters, 2023.

[4] Lu Z, Pei Y, Wang G, et al. ScanERU: Interactive 3D Visual Grounding Based on Embodied Reference Understanding[C]//Proceedings of the AAAI Conference on Artificial Intelligence. 2024, 38(4): 3936-3944.

[5] Liu X, Paul S, Chatterjee M, et al. CAVEN: An Embodied Conversational Agent for Efficient Audio-Visual Navigation in Noisy Environments[C]//Proceedings of the AAAI Conference on Artificial Intelligence. 2024, 38(4): 3765-3773.

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/697196.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【cpp】并发多线程 Unique

1. unique_lock 何时锁定资源。 unique_lock lock1 时候&#xff0c;还没有锁住资源。 实际是后面&#xff0c;显式的出发&#xff1a; 比如&#xff0c; lock.lock, 或 std::lock(lk1,lk2), 或者条件变量CV.wait(mtx, []{!re})。 #include <iostream> #include <mu…

Redis-详解(基础)

文章目录 什么是Redis&#xff1f;用Redis的特点&#xff1f;用Redis可以实现哪些功能&#xff1f;Redis的常用数据类型有哪些?Redis的常用框架有哪些?本篇小结 更多相关内容可查看 什么是Redis&#xff1f; Redis&#xff08;Remote DictionaryServer&#xff09;是一个开源…

服务器端口怎么开,服务器端口的开放通常涉及的五个关键步骤

服务器端口的开放通常涉及五个关键步骤&#xff0c;包括修改防火墙规则、配置服务器软件以及验证端口是否开放。下面将详细介绍每个步骤。 一、您需要确定需要开放的端口。常见的服务器应用程序端口包括HTTP&#xff08;80端口&#xff09;、HTTPS&#xff08;443端口&#xff…

苍穹外卖Day06笔记(复习了jwt的加密解密和传递)

疯玩了一个月&#xff0c;效率好低&#xff0c;今天开始捡起来苍穹外卖~ 1. 为什么不需要单独引入HttpClient的dependency&#xff1f; 因为我们在sky-common的pom.xml中已经引入了aliyun-sdk-oss的依赖&#xff0c;而这个依赖低层就引入了httpclinet的依赖&#xff0c;根据依…

【SAP-PP】记录COGI的删除记录

业务需求&#xff1a;记录COGI的被删除记录 业务背景知识&#xff1a; 1.COGI正常记录PP自动货物移动中错误的记录&#xff1b; 2.本意是如果出现了错误&#xff0c;能够让用户能手动处理一下货物移动&#xff0c;保证账务和库存的争取&#xff1b; 3.在一些特殊情况下&#xf…

opencv车道偏离系统-代码+原理-人工智能-自动驾驶

车道偏离预警系统&#xff08;Lane Departure Warning System, LDWS&#xff09;是一种主动安全技术&#xff0c;旨在帮助驾驶员避免因无意中偏离车道而引发的事故。从原理到实战应用&#xff0c;其工作流程大致如下&#xff1a; 传感器采集 &#xff1a;系统通常配备有一个或…

【UE5 C++】基础学习笔记——01 UObject的创建与使用

目录 步骤 一、创建UObject 二、创建基于UObject的蓝图类 三、在UObject中使用变量和函数 步骤 一、创建UObject 在内容浏览器中新建一个C类 父类选择“Object” 类的类型设置为公有&#xff0c;这里就命名为“MyObject”&#xff0c;点击“创建类”来创建头文件和源文…

VMware 不能拍摄快照

问题&#xff1a; 拍摄快照后&#xff0c;会出现这个弹窗&#xff0c;然后虚拟机就直接自动退出了&#xff0c;还会弹出一个框&#xff1a; 解决方法&#xff1a; 我用的是 window11 和 VMware16.0.0 这是因为VM16与window11&#xff0c;二者之间版本不兼容问题&#xff0c;可…

金三银四面试题(二十七):适配器模式知多少?

什么是适配器模式 适配器模式&#xff08;Adapter Pattern&#xff09;是一种结构型设计模式&#xff0c;它允许将一个类的接口转换为客户期望的另一个接口。通过适配器&#xff0c;原本不兼容的接口可以一起工作&#xff0c;从而提高系统的灵活性和可扩展性。 关键元素&…

阿里天池基于LLM智能问答系统学习赛排到第一名了

阿里天池基于LLM智能问答系统学习赛排到第一名了 0. 引言1. 05-09分数排到第一名了 0. 引言 5.1 假期期间发现阿里天池基于LLM智能问答系统学习赛正好是我工作上用到的技术&#xff0c;就抱着玩一玩的心里挑战了一下。 这个比赛包含了text_comprehension&#xff08;RAG&…

小米/红米手机刷机错误:Missmatching image and device

报错&#xff1a; Missmatching image and device。 场景&#xff1a; 该解决方法只适用于手机是通过EMT解锁的。 解决方法&#xff1a; 打开刷机脚本&#xff0c;并注释检测脚本&#xff1a; 刷机脚本根据不同的刷机方式&#xff0c;选择编辑不同的脚本&#xff0c;例如&am…

电机及FOC算法介绍

一.电机概述 1.电机的简介 电机是一种可以在电能和机械能的之间相互转换的设备&#xff0c;其中发电机是将机械能转换为电能&#xff0c;电动机是将电能转换为机械能。发电机的主要用于产生电能&#xff0c;用途单一&#xff0c;但是电动机主要用于产生机械能&#xff0c;用途…