3D空间的几何和拓扑结构
直接在3D空间操作可以更自然的参数化以及捕捉 重复、平面、对称等几何结构
2. Related Work
3D Object Detection from RGB-D Data
Front view image based methods(只是介绍了一种表示方法)
Bird’s eye view based methods(难以检测小物体,难以适应垂直方向有多个物体的场景 )
3D based methods(各种方法各有缺点,如计算大、人工设计几何特征,不灵活等)
Deep Learning on Point Clouds
点云转化成图片或一定分辨率的立体网格,再把2D卷积泛化到3D卷积
利用点云稀疏性设计高效的3DCNN架构
直接处理原始点云(pointnet)
pointnet已经可以做分类和语义分割,本文把它扩展到3D目标检测
3. Problem Definition
输入:点云
目标:在3D空间中分类并且定位目标
3D边框的表示:
size: h, w, l
center:
orientation: ,相对于预定以的规范姿势
4. 3D Detection with Frustum PointNets
4.1. Frustum Proposal
frustum proposal generation:
① 给定摄像机投影矩阵,2D边框可以被提升到椎体,这个椎体定义了物体的3D搜索空间。
② 收集椎体内所有点形成一个 frustum point cloud
③ 旋转椎体,使椎体的中心轴正交于成像平面,可以提高算法的旋转不变性
基于FPN的模型,先在ImageNet和COCO训练,再在 KITTI 2D object detection dataset 微调
4.2. 3D Instance Segmentation
直接回归物体位置的方法由于物体遮挡及背景复杂不容易
但是物体在空间中是分开的,所以在3D点云中分割是自然且相对容易
使用 3D mask coordinates 预测3D边框中心
3D Instance Segmentation PointNet
① 输入椎体内的点云,预测每个点属于该物体的分数,一个椎体只含有一个感兴趣的物体
多类别检测时,类别进行onehot编码,并和中间点云特征concat
② 3D Instance Segmentation 后,属于物体的点就可以提取出来(mask)
③ 进一步标准化物体点的坐标,提高平移不变性
XYZ值减中心
不对点云缩放,坐标变换对结果很重要
4.3. Amodal 3D Box Estimation
Learning-based 3D Alignment by T-Net
(内容不全)