一、点云数据采集

在计算机视觉和遥感中，点云的获取主要有四种方法：

图像衍生方法；
光探测与测距(LiDAR)系统；
红绿蓝深(RGB-D)相机；
合成孔径雷达(SAR)系统。

由于调查原理和平台的差异，其数据特征和应用范围非常多样化。下面提供了对这些技术的简要介绍。

1. 图像衍生点云

图像衍生方法从光谱图像间接生成点云。首先，通过光电系统(如照相机)获取刻板图像。然后，根据摄影测量学或计算机视觉理论的原理自动或半自动地计算出三维孤立点信息。基于不同的平台，立体和多视角图像衍生系统可分为机载、星载、无人机和近距离类。早期的航空传统摄影测量在数字摄影测量系统中以半自动人机交互方式产生三维点，具有几何约束严格和精度高的特点。由于许多手工工作，产生这种类型的点数据是费时的。因此，用这种方法在大面积上生成密集点是不可行的。
在测量和遥感行业，这些早期形成的“点云”被用于制图和制作数字地表模型(dsm)和数字高程模型(dem)。由于图像分辨率和多视图图像处理能力的限制，传统的摄影测量只能从航空/卫星平台获得接近最低点的视图，很少有建筑立面，这只能产生2.5D的点云，而不是全3D。在这个阶段，摄影测量原理也可以应用于近景摄影测量，从某些物体或小面积场景中获取点，但在点云生成过程中也需要手工编辑。
密集匹配，多视图立体视觉(MVS)，以及运动结构(SfM)，改变了图像衍生点云，开启了多视图立体视觉时代。SfM可以自动估计相机的位置和方向，使其能够同时处理多视图图像，而密集匹配和MVS算法提供了生成大量点云的能力。近年来，基于SfM和MVS的倾斜摄影技术可以很容易地获得城市尺度的全三维密集点云。然而，SfM和MVS生成的点云质量不如传统摄影测量或LiDAR技术生成的点云质量好，对于大区域来说尤其不可靠。
与航空摄影测量相比，卫星立体系统在空间分辨率和多视点图像的可用性方面存在劣势。然而，卫星相机能够在较短的时间内以相对较低的成本绘制大区域的地图。此外，由于新的密集匹配技术及其空间分辨率的提高，卫星图像正在成为图像衍生点云的重要数据源。

2. 激光雷达点云

激光探测和测距(LiDAR)是一种测量和遥感技术。顾名思义，激光雷达利用激光能量来测量传感器与被测物体之间的距离。大多数激光雷达系统都是基于脉冲的。脉冲的基本原理基于测量是发射激光能量脉冲，然后测量能量到达目标所需的时间。根据传感器和平台的不同，点密度或分辨率变化很大，从每平方米不到10个点( $pts/m^2$ )到每平方米数千个点。
基于平台，激光雷达系统分为机载激光雷达扫描(ALS)、地面激光雷达扫描(TLS)、移动激光雷达扫描(MLS)和无人激光雷达扫描(ULS)系统。
ALS从机载平台操作。早期ALS激光雷达数据为2.5D点云，类似于传统的摄影测量点云。由于机载平台到地面的距离较大，ALS点的密度通常较低。与传统的摄影测量相比，ALS点云的获取成本更高，而且通常不包含光谱信息。Vaihingen点云语义标注数据集[31]是一个典型的ALS基准数据集。多光谱机载激光雷达是ALS系统的一种特殊形式，它使用不同的波长获取数据。多光谱激光雷达在提取水体、植被和阴影方面表现良好，但数据不易获取。
TLS，也称为静态激光雷达扫描，通过安装在三脚架上的固定传感器进行扫描。由于它是在中距离或近距离的环境中使用，所以点云密度非常高。它的优点是能够提供真实的、高质量的3D模型。到目前为止，TLS通常用于小型城市或森林遗址的建模，以及遗产或艺术品文档。Semantic3D.net是一个典型的TLS基准数据集。
MLS在地面上的移动车辆上运行，最常见的平台是汽车。目前，自动驾驶的研究和开发是一个热门话题，其中高清地图是必不可少的。因此，生成高清地图是MLS最重要的应用。主流的几个点云基准数据集都属于MLS。
ULS系统通常部署在无人机或其他无人驾驶车辆上。由于它们相对便宜且非常灵活，这种最近加入LiDAR家族的产品目前正变得越来越受欢迎。ULS可以提供更短的-距离激光雷达测量应用，采集密度更大、精度更高的点云。由于其平台体积小，重量轻，ULS提供了很高的操作灵活性。因此，除了传统的LiDAR任务(例如获取dsm)外，ULS在农业和林业测量、灾害监测和采矿测量方面具有优势。
对于激光雷达扫描，由于系统始终随着平台移动，因此需要将点的位置与全球导航卫星系统(GNSS)和惯性测量单元(IMU)数据相结合，以确保高质量的匹配点云。到目前为止，激光雷达一直是点云研究最重要的数据源，并已被用于提供地面真相，以评估其他点云的质量。

3. RGB- D点云

RGB- D相机是一种可以同时获取RGB和深度信息的传感器。基于不同原理的RGB-D传感器有三种：（a）结构光传感器，（b）立体传感器，（c）飞行时间传感器。与激光雷达类似，RGB-D相机可以测量相机与物体之间的距离，但以像素为单位。然而，RGB-D传感器比激光雷达系统便宜得多。微软的Kinect是最知名和使用最多的RGB-D传感器。在RGB- D相机中，不同传感器之间或之间的相对方向元素被校准和已知，因此可以很容易地获得共配准的同步RGB图像和深度图。显然，点云不是RGB-D扫描的直接产物。但由于相机中心点的位置是已知的，因此可以很容易地获得深度图中每个像素的三维空间位置，然后直接用于生成点云。RGB-D相机有三个主要应用:物体跟踪，人体姿势或签名识别，以及基于slam的环境重建。由于主流的RGB-D传感器是近距离的，甚至比TLS近得多，因此它们通常用于室内环境。

4. SAR点云

干涉合成孔径雷达(InSAR)是一种对遥感至关重要的雷达技术，它基于多幅SAR图像对的比较生成地表变形图或数字高程图。作为一颗冉冉升起的新星，基于insar的点云在过去的数年里已经显示出了它的价值，并为点云应用创造了新的可能性。合成孔径雷达层析成像(TomoSAR)和持续散射体干涉测量(PSI)是InSAR生成点云的两种主要技术，将SAR原理扩展到三维。与PSI相比，TomoSAR的优势在于其对城市区域，特别是人工基础设施的详细重建和监测。TomoSAR点云的点密度可与LiDAR媲美。这些点云可以用于城市地区的建筑重建，因为它们具有以下特点:
（a）利用星载数据重建的TomoSAR点云具有1 m左右的中等3D定位精度，通过地理编码纠错技术甚至可以达到分米级别，而ALS LiDAR提供的精度通常在0.1 m左右。
（b）由于其相干成像性质和侧视几何形状，TomoSAR点云相对于激光雷达系统强调不同的物体: a)侧视的SAR几何结构使TomoSAR点云能够拥有丰富的表面信息:使用逐像素的TomoSAR对星载SAR数据中具有非常高细节水平的建筑综合体进行高分辨率重建的结果见; b)暂时不相干的物体，例如树木，不能从多通道星载SAR图像叠加中重建;c)为了从空间中获得单个建筑的完整结构，需要使用TomoSAR点云从多个视角进行立面重建。
（c）作为激光雷达和光学传感器的补充，SAR是迄今为止唯一能够从空间提供四维信息的传感器，即建筑群的时间变形，以及立面的微波散射特性反映几何和材料特征。
InSAR点云存在两个影响其精度的主要缺点:(1)由于轨道扩展有限和图像数量少，TomoSAR点的定位误差具有高度的各向异性，高程误差通常比距离和方位角误差高一到两个数量级;(2)由于多次散射，可能会产生幽灵散射体，在离真实的三维位置很远的地方出现异常。
与上述基于图像的点云、基于lidar的点云和基于rgb -d的点云相比，来自SAR的数据尚未被广泛用于研究和应用。然而，成熟的SAR卫星，如TerraSAR-X，已经收集了丰富的全球SAR数据，可用于基于insar的全球尺度重建。因此，SAR点云在未来可以发挥显著的作用。

二、点云特征

从传感器发展和各种应用的角度来看，可以将点云分类为：（a）稀疏点云(小于 $20 pts/m^2$ )，（b）密集点云(数百 $pts/m^2$ )和（c）多源点云。
（a）早期受匹配技术和计算能力的限制，摄影测量点云稀疏，体积小。当时，激光扫描系统种类有限，没有得到广泛应用。主流激光数据ALS点云也很稀疏。受点密度的限制，这一阶段的点云不能代表物级的地表覆盖。因此，没有对精密PCS或PCSS的具体需求。研究人员主要集中在三维制图(DEM生成)和简单物体提取(如屋顶)。
（b）密集匹配等计算机视觉算法，以及各种LiDAR系统、RGB-D传感器等高效点云生成器，开启了密集点云的大数据时代。密集和大体积的点云在3D应用中创造了更多的可能性，但也有更强的实用算法的需求。PCS和PCSS是新提出的，并且变得越来越必要，因为只有类级或实例级的点云才能进一步连接虚拟词和真实词。计算机视觉和遥感都需要PCS和PCSS解决方案来开发类级交互应用程序。
（c）从一般计算机视觉的角度来看，对点云及其相关算法的研究还停留在(b)阶段。然而，得益于星载平台和多传感器的发展，遥感研究人员对点云有了新的认识。新一代点云，如卫星摄影测量点云和TomoSAR点云，刺激对相关算法的需求。多源数据融合已经成为遥感研究的一个趋势，但目前计算机视觉中的算法对于这样的遥感数据集还存在不足。为了充分利用多源点云数据，还需要进行更多的研究。
不同的点云具有不同的特性和应用环境。表1概述了各种点云的基本信息，包括点密度、优缺点和应用。
在这里插入图片描述

三、点云应用

在PCS和PCSS的研究中，数据和算法的选择是由具体应用的需求驱动的。在本节中，概述主要针对PC和PCSS的研究(见表2)。这些研究根据其点云数据类型和工作环境进行了分类。后者包括城市、森林、工业和室内环境。在表2中，在每个参考文献后面的括号内的文本包含相应的出版年份和主要方法。算法类型用缩写表示。
在这里插入图片描述

从表2可以总结出几个问题：（a）激光雷达点云是PCS中最常用的数据。它们已被广泛用于建筑(城市环境)和树木(森林)。建筑也是传统PC中最受欢迎的研究对象。由于建筑物通常由规则的平面构成，平面分割是建筑分割中的一个基本问题。

（b）在现实场景中经常使用图像衍生点云。然而，主要由于可用的带注释的基准的限制，基于图像数据的PCS和PCSS研究并不多。目前，基于图像衍生点的公共影响力数据集只有一个，其范围仅为单个建筑物周围很小的区域。因此，需要在这一领域作出更多努力。
（c）RGB-D传感器受距离较近的限制，通常应用于室内环境。在PCS研究中，平面分割是RGB-D数据的主要任务。在PCSS研究中，由于有来自RGB-D传感器的多个基准数据集，因此许多基于深度学习的方法都在它们上进行了测试。
（d）关于InSAR点云，虽然没有很多PCS或PCSS的研究，但它们在城市监测，特别是建筑物结构分割方面显示出潜力。

四、基准数据集

公共标准基准数据集在算法开发、评估和比较方面具有显著的有效性。需要注意的是，大多数都是标示为PCSS，而不是PCS。自2009年以来，PCSS已经有了几个基准数据集。然而，早期的数据集有很多缺点。例如，奥克兰户外MLS数据集、悉尼城市对象MLS数据集、巴黎夫人MLS数据集、IQmulus & TerraMobilita竞赛MLS数据集和ETHZ CVL RueMonge 2014多视图立体数据集不能充分提供不同的对象表示和标记点。KITTI和NYUv2比上述数据集拥有更多的对象和点，但它们不直接提供标记的点云。这些必须从KITTI中的3D边界框或NYUv2中的深度图像中生成。
为了克服早期数据集的缺点，近年来出现了新的基准数据。目前，主流的PCSS基准数据集来自LiDAR或RGB-D。下面是这些数据集的非详尽列表。

Semantic3D.net: Semantic3D.net是一个具有代表性的大型户外TLS PCSS数据集。它是一个城市场景的集合，总共有超过40亿个标记的3D点，仅用于PCSS目的。这些场景包含了一系列不同的城市物体，分为8类，包括人造地形、自然地形、高植被、低植被、建筑物、硬景观、扫描人工制品和汽车。考虑到不同算法的效率，设计了语义-8和简化-8两种类型的子数据集。Semantic-8是完整的数据集，而reduced-8以与Semantic-8相同的方式使用训练数据，但只包括四个小型子集作为测试数据。该数据集可以从http://www.semantic3d.net/下载。为了了解不同算法在该数据集上的性能。
Stanford大型3D室内空间数据集(S3DIS):与semantic3D.net不同，S3DIS是一个大型室内RGB-D数据集，也是2D-3D-S数据集的一部分。它是一个超过2.15亿个点的集合，覆盖面积超过6000平方米的六个室内区域，从三个建筑开始。主要覆盖区域是教育和办公用途。S3DIS中的注释是在实例级别准备的。物体分为结构元素和活动元素，再分为13类(结构元素:天花板、地板、墙壁、梁、柱、窗、门;可移动元素:桌子、椅子、沙发、书柜、木板、杂物等)。该数据集可以从http://buildingparser.stanford.edu/dataset.html下载。
Vaihingen点云语义标注数据集:该数据集是近年来遥感领域唯一发布的基准数据集。这是一个ALS点云的集合，由徕卡ALS50系统以45◦视场和500米的平均飞行高度在德国Vaihingen捕获的10条组成。相邻两条条带之间的平均重叠约为30%，中位数点密度为6.7点 $m^2$ 。这个数据集最初在点级别上没有标签。Niemeyer等首次将其用于PCSS测试，并在三个区域标记点。现在将标记点云分为9类作为算法的评价标准。虽然与semantic3D.net和S3DIS相比，该数据集的点明显减少，但它是一个有影响力的遥感ALS数据集。该数据集可以从http://www2.isprs.org/commissions/comm3/wg4/3d-semantic-labeling.html下载。
Paris-Lille-3D: Paris-Lille-3D[36]是PCSS的全新基准，于2018年发布。这是一个MLS点云数据集，有超过1.4亿个标记点，包括50个不同的城市对象类别，沿着两个法国城市，巴黎和里尔的2公里街道。作为MLS数据集，它也可以用于自动驾驶汽车。由于这是最近的数据集，相关网站上只显示了少数经过验证的结果。该数据集可在http://npm3d.fr/paris-lille-3d下载。
ScanNet: ScanNet是一个实例级室内RGB-D数据集，包括2D和3D数据。与上面提到的基准测试相反，ScanNet是标记体素的集合，而不是点或物体。到目前为止，最新版本的ScanNet v2已经收集了1513个带注释的扫描，表面覆盖率约为90%。在语义分割任务中，该数据集被标记为20类带注释的3D体素化对象。每一类对应一种家具。此数据集可以从http://www.scan-net.org/index#code-and-data下载。