【论文解读】Multi-Robot Collaborative Perception with Graph Neural Networks-编程知识

Multi-Robot Collaborative Perception with Graph Neural Networks

摘要
引言
方法
- Messages with Spatial Encoding
- Messages with Dynamic Cross Attention Encoding
- Message Passing Mechanism
- Feature Decoder
实验
结论

摘要

多机器人系统，如空中机器人群，通过实现代理之间的合作，自然适合于在多个任务中提供额外的灵活性、弹性和鲁棒性。为了提高自主机器人决策过程和态势感知能力，多机器人系统必须协调其感知能力，有效地收集、共享和融合代理之间的环境信息，以获得适合上下文的信息或获得传感器噪声或故障的弹性。在本文中，我们提出了一种通用图神经网络(GNN)，其主要目标是增加多机器人感知任务、单机器人推理感知精度以及对传感器故障和干扰的弹性。我们表明，所提出的框架可以解决单目深度估计和语义分割等多视图视觉感知问题。使用从多个空中机器人视点收集的照片逼真和真实数据的几个实验证明了所提出的方法在具有挑战性的推理条件下的有效性，包括被严重噪声和相机遮挡或故障破坏的图像。

引言

在这项工作中，我们用gnn解决了多机器人感知问题。最近的深度学习趋势已经在包括机器人在内的多个领域产生了范式转变。数据驱动方法[1]在不需要专家领域知识的情况下，在多个机器人感知问题上优于经典方法，包括单目深度估计、语义分割、目标检测和目标跟踪。单机器人系统可以受益于深度神经网络的发展以及与其他智能体的协作。图神经网络(gnn)利用图中节点间的信息传递来挖掘多机器人感知问题的底层图结构。节点特征通过聚合邻居的节点特征，一轮或多轮更新。各种类型的图神经网络已经被提出，包括GNN[2]、卷积GNN[3]、图注意网络[4]。这些方法已被证明是有效的节点分类、图分类和链接预测。最近，研究人员也开始将GNNs应用于多机器人系统的通信[5]和规划[6]。
这项工作提出了多方面的贡献。

首先，我们提出了一个可推广的基于gnn的多机器人系统感知框架，以提高单个机器人的推理感知精度。我们的方法是灵活的，并考虑到不同的传感器模式。它将相邻节点之间的空间关系嵌入到消息中，并采用交叉注意机制根据不同机器人节点特征的相关性来调整消息权重。
其次，我们在两个多视图视觉感知任务中展示了所提出的方法:协同单目深度估计和语义分割，并讨论了如何将所提出的框架应用于不同的感知模式。
最后，我们在具有挑战性的多视图感知实验中展示了该方法的有效性，包括受重图像噪声、遮挡影响的相机传感器，以及航空机器人收集的真实图像数据的照片和真实图像数据的失败。

据我们所知，这是第一次使用GNN来解决使用真实机器人图像数据的多视图/多机器人感知任务。

方法

所提出的多机器人感知系统如图2所示，观测值{xi}i=1…不是所有机器人的传感器，并返回输出{yi}i=1…经过GNN处理后。我们将vi的邻居节点表示为N(i)。我们假设在传感器捕获信息的时间和GNN提供结果的时间之间，图结构没有变化。
在这里插入图片描述
我们用N表示多机器人感知系统中机器人的数量。我们将每个机器人i看作一个节点vi，如果机器人i和机器人j有通信连接，我们在vi和vj之间构造一条边eij。因此，我们构造一个图G = (V, E)， V = {vi}， E = {eij}， i, j∈{1，…， N}，根据机器人之间的通信连接。通信拓扑可以通过考虑机器人之间的距离阈值或通信信号的强度来确定。所提出的多机器人感知系统如图2所示，观测值{xi}i=1…不是所有机器人的传感器，并返回输出{yi}i=1…经过GNN处理后。我们将vi的邻居节点表示为N(i)。我们假设在传感器捕获信息的时间和GNN提供结果的时间之间，图结构没有变化。GNN首先对观测值{xi}i=1…N入节点特征{hi}i=1…其中h0i = fEncode(xi)，在每一层次上，l∈1……L的消息传递，每个节点vi聚合消息ml ij。我们考虑了两种不同的消息编码机制:a)空间编码和b)动态交叉注意编码。这些机制使得图的双向边上的消息不相同。在消息传递的每一级之后，都会更新节点特性i。一旦执行了消息传递的最后一级L，则通过解码节点特征hL i获得最终结果yi。

Messages with Spatial Encoding

如果我们可以访问节点之间的相对空间关系，我们可以将其编码为节点对之间共享的消息。我们在图3中说明了使用空间编码的消息生成机制。
在这里插入图片描述
(aij , bij ) = FiLM(pij ),
【FiLM】FiLM（Feature-wise Linear Modulation）是一种神经网络技术，用于调整神经网络中的特征通道。在 FiLM 中，特征向量与一个缩放因子（aij）和偏置向量（bij）相乘，以调整每个通道的特征。这种方法可以改变特征空间的分布，从而使神经网络能够适应不同的任务和场景

Messages with Dynamic Cross Attention Encoding

我们还提出了另一种在不同节点特征之间动态交叉关注的消息编码机制，灵感来自于图注意力网络[4]。该消息编码机制考虑了邻居机器人之间的动态特征关系，并对来自邻居节点的消息进行相应的加权。
在这里插入图片描述

Message Passing Mechanism

消息传递机制在相邻节点vj和vi之间聚合消息mji，并更新节点下一级特性hl+1i。我们简单地使用平均操作作为聚合操作

Feature Decoder

在这里插入图片描述
在最后一级消息传递后，每个节点的节点特征根据空间关系通过确定的空间消息编码或通过动态交叉注意消息编码将特征关系聚合到其他相关机器人的信息中。

实验

在我们的实验中，我们比较了不同方法在单目深度估计和语义分割方面的性能。我们使用绝对相对差（Abs-Rel）、平方相对差（Sq-Rel）和均方根误差（RMSE）作为单目深度估计的度量[10]。我们使用mIoU作为语义分割的度量。表中粗体的数字是最好的情况，表中下划线的数字是第二好的情况。我们将我们提出的方法和基线的不同变体与不同数量的噪声/损坏相机（范围从0到2）进行比较。我们使用具有相同编码器和解码器结构的单个机器人基线。基线是在干净的数据集上训练的，其中噪声摄像机的数量为0，我们用具有不同噪声摄像机数量的所有数据集测试基线。我们的方法在相同的数据集上使用不同数量的噪声相机进行训练和测试。我们还使用多机器人基线mp，它将所有图像作为输入，并产生所有输入的期望输出。我们研究了我们方法的三种不同变体：mppose表示具有空间编码消息的多机器人感知，mp-att表示具有交叉注意力编码消息的多重机器人感知，mp表示使用不编码消息的多元机器人感知，这是前一级节点特征。我们使用mp进行消融研究，以显示空间和交叉注意力编码的有效性
在这里插入图片描述

结论

在这项工作中，我们提出了一个具有图神经网络的多机器人协同感知框架。我们利用空间编码和交叉注意力编码的消息传递机制，实现机器人团队之间的信息共享和融合。所提出的方法是一个通用框架，可以应用于不同的传感器模式和任务。我们在从多个空中机器人的角度收集的模拟和真实世界数据集上验证了所提出的语义分割和单目深度估计任务的方法，包括不同类型的严重传感器损坏和噪声。实验表明，该方法提高了对传感器损坏和噪声的感知精度和鲁棒性。对于成群的空中或地面机器人，它可以成为不同多视图任务的有效解决方案。未来，我们将把这一框架扩展到其他传感器模式和任务。我们还将探索如何使用图神经网络来集成航空群系统的感知、控制和规划框架