自动驾驶感知、预测及规划技术解析-51CTO.COM

人们对自动驾驶(AD)和智能车辆(IV)的兴趣日益增长，是因为它们承诺提高安全性、效率和经济效益。虽然以前的调研已经反映了这一领域的进展，但是需要一个全面和前瞻性的总结。作者的工作通过三篇不同的文章填补了这一空白。

第一部分，一个“综述的综述”(SoS) ，概述了历史，综述，道德，以及 AD 和 IV 技术的未来发展方向。

第二部分，“自动驾驶和智能车辆的里程碑第一部分: 控制，计算系统设计，通信，高精地图，测试和人类行为”深入研究了在 IV中的控制，计算系统，通信，高精地图，测试和人类行为的发展。

第三部分回顾了智能汽车的感知和规划。提供一个自动驾驶和智能汽车的最新进展的全面概述，这项工作迎合新人和经验丰富的研究人员。通过整合 SOS 和第一部分，提供了独特的见解，并努力在这个充满活力的领域中作为过去成就和未来可能性之间的桥梁。

1 简介

自动驾驶(AD)和智能汽车(IV)最近引起了学术界和工业界的重视，因为它们具有一系列潜在的好处。AD调研和IVs调研在收集研究成果、概括整个技术发展、预测未来趋势方面占有重要地位,系统总结和未来的研究方向。

根据AD中的不同任务，作者将其分为8个子部分，感知、规划、控制、系统设计、通信、高精地图、测试和IVs中的人类行为，如下图1所示。

在第一部分中，作者简要介绍了每个任务的功能和AD的智能级别。在这里，作者描述了不同AD场景中的经典应用，包括城市道路、公园物流、仓库、港口、智能矿山、农业、野生动物救援和隧道搜索。市民在私家车、AD出租车和公交车等城市道路上实现AD更为常见。部分场景及港口中的IV要求控制器遵循特定规则并实现高效率。仓库和矿井是室内外环境中的经典封闭场景。改良的IVs或所谓的专业智能机器人可以在野外使用，以取代农业作业、野生动物救援、隧道搜索等中的人类港口。事实上，AD和IVs可以在不同的场景中执行多项任务，并在日常生活中发挥关键作用。

在本文中，作者将2个小节视为独立的章节，每个小节都包括任务定义、功能划分、创新，以及对AD和IVs里程碑的详细介绍，感知、规划和控制的关系如下图2所示。

最重要的是，对它们的研究已经快速发展了十年，现在已经进入了瓶颈期。希望这篇文章能被认为是对初学者的全面总结，并为研究人员带来新颖多样的见解以取得突破。

本文的三个贡献：

提供了一个更系统、全面和新颖的调研，以了解AD和IVs的关键技术发展。
在每个技术部分介绍了许多部署细节、测试方法和独特见解。
对AD和IVs进行了系统的研究，试图成为连接过去和未来的桥梁。

2 感知

感知是AD的一个基本模块。该模块为自车提供周围的环境信息。如下图3所示，感知分为定位、目标检测、场景理解、目标预测和跟踪。

定位

定位是驾驶平台获得自己的位置和姿态的技术。这是规划和控制的重要前提[3]。目前，定位策略分为四类：全局导航系统（GNSS）和惯性测量单元（IMU）、视觉实时定位与建图（SLAM）、激光雷达SLAM和基于融合的SLAM。

1）GNSS和IMU

GNSS是一种天基无线电导航和定位系统，可以为用户提供地球表面的3D坐标、速度和时间信息。IMU通常由三轴加速度计和陀螺仪组成（9自由度的传统三轴磁力计）。通过用来自IMU的动态状态更新来自GNSS的低频定位信息，平台可以获得高更新频率的定位信息。尽管GNSS和IMU方法的融合是全天候的，但信号会受到城市建筑的干扰。

2）视觉SLAM

视觉SLAM采用相机帧的变化来估计自车的运动，这类算法按传感器分为三类：单目、多视图和深度。具体而言，视觉SLAM算法只需要图像作为输入，这意味着定位系统的成本相对较低。然而，它们依赖于丰富的特征和轻微的照明变化。此外，优化是视觉定位系统的一个关键模块，它在考虑全局信息后更新每个帧的估计，优化方法包括基于滤波器和基于图。

从特征提取的角度来看，视觉SLAM有两个典型的类别，即关键点和光流方法。关键点方法利用SIFT、SURF、ORB和描述符等点提取方法来检测不同图像上的相同特征，然后计算帧之间的相对运动。由于点提取方法可以稳定准确地提取关键点，因此关键点视觉SLAM系统可以在结构化道路和城市区域中提供显著的优势。然而，当在非结构化道路上操作或面对平坦的白墙时，该系统可能会遇到困难。

此外，早期的算法不能实时运行，并且忽略了图像中的大部分像素信息。光流方法假设光度在帧之间是不变的，并试图通过最小化图像上的光度误差来估计相机运动。这种方法具有以下优点：

计算开销小，实时性高；
对关键点依赖性弱；
考虑帧中的整个像素。

然而，由于光度假设，光流方法对两幅图像之间的光度变化很敏感。从优化的角度来看，视觉SLAM系统也可以分为基于滤波器和基于优化的策略，然而，基于图的优化方法在准确性和效率方面取得了一些突破。因此，研究人员将在未来继续关注后一点。

3）激光雷达SLAM

与视觉SLAM方法相比，由于激光雷达的特性，激光雷达SLAM系统能够以准确的3D信息主动检测周围环境。与视觉系统类似，激光雷达SLAM也可以通过传感器或基于滤波器的方法（如基于Gmapping和优化过程的优化）分类为2D方法，如Gmapping、制图、Karto和3D。Gmapping采用粒子滤波方法，并将定位和映射过程分离。

在优化过程中，每个粒子都负责维护贴图。LOAM操作两种并行算法，一种是通过点云匹配方法计算低频下帧之间的运动变换，另一种是尝试构建地图并校正高频下的里程计。Segmap利用深度神经网络提取语义特征信息，可以减少计算资源消耗，并实时解决室内智能机器人和IVs的数据压缩问题。SUMA将点云转移到2D空间中，并采用扩展的RGB-D SLAM结构来生成局部地图。

此外，通过点云的迭代最近点匹配方法对surfel地图进行维护和更新。激光雷达SLAM系统具有精度高、地图密集、对亮度依赖性弱的优点。然而，没有语义信息和环境干扰是激光雷达SLAM系统面临的两个主要挑战。此外，研究人员必须花费大量时间和精力来维护和修复安装在IVs上的激光雷达。

4）基于融合的SLAM

为了避免单传感器故障或鲁棒性低的问题，研究人员引入了融合多种模态数据的方法，包括视觉惯性、激光雷达惯性、视觉激光雷达惯性和其他融合，如添加声纳或雷达，SLAM方法。作者发现，融合方法通常会将更新频率更高的IMU数据引入SLAM系统。松散融合方法将来自相机或激光雷达的外部观测数据和来自IMU的内部运动数据视为两个独立的模块，而紧密融合有些方法设计了一个单元优化模块来解决和融合多种模态数据。

以前的方法可以被视为扩展的视觉或激光雷达SLAM系统，对研究人员部署在测试平台和IVs上是友好的。然而，为了提高鲁棒性和适应性，紧密融合策略提供了适当的解决方案，包括在视觉里程计系统中引入束调整和采用关联优化。总之，基于融合的SLAM方法解决了单个传感器的几个困难，但仍给连接系统带来了一些挑战，如校准、同步和复杂处理。不同定位方法的优缺点如下表I所示。

目标检测

目标检测的目的是检测传感器视场中的静态和动态目标。一些检测任务的结果如下图4所示。

车道线检测

车道检测是在传感器的视野中识别车道，以辅助驾驶。对于通用过程，它包括三个部分，包括图像预处理、车道检测和跟踪。图像预处理的目的，如感兴趣区域（RoI）提取、逆透视映射和分割，是为了降低计算成本和消除噪声。车道检测和跟踪的方法可分为基于计算机视觉（CV）的方法和基于学习的方法[34]。基于CV的车道检测方法目前得到了广泛的应用，主要是因为它们的计算成本低且易于复制。形态顶帽变换用于消除场中不相关的目标。然后，应用霍夫变换提取图像的边缘像素并构造直线。

然而，缺点是很难检测曲线，因此许多研究人员已经介绍了一些关于霍夫变换的有效方法。其他一些线路估计方法涉及复杂场景中的高斯混合模型（GMM）、随机样本一致性（RANSAC）、卡尔曼滤波器。基于学习的方法可以部署在丰富的场景中，但它们需要大量的数据来训练具有大量参数的网络。试图设计新颖的多个子报头结构来提高车道检测性能。据作者所知，车道检测被集成到ADAS中，以保持车道或跟随前一辆车，研究人员更关注3D车道[40]、封闭区域的车道和非结构化道路。

驾驶区域检测

与车道检测相比，驾驶区域检测增加了障碍物信息，为避障功能和路径规划任务提供了基础信息。作者还将这项任务分为基于简历的方法和基于学习的方法。当道路表面没有被障碍物遮挡时，可以将驾驶区域检测转换为车道检测。否则，它可以被视为车道检测和2D目标检测的组合。当将驾驶区域检测视为一项独立任务时，需要将道路像素与目标和非驾驶区域区分开来。颜色直方图可以满足要求，一些研究人员开发了关于颜色[41]和效率[42]的方法来解决性能差的问题区域增长方法[43]比颜色直方图方法更稳健。

基于学习的驾驶区域检测方法类似于图像分割。对于机器学习算法，可以通过特征提取器和分类头（如支持向量机（SVM）、条件随机场（CRF））提取诸如RGB颜色、Walsh-Hadamard、定向梯度直方图（HOG）、局部二进制模式（LBP）、Haar和LUV通道的特征，以获得最终结果。深度神经网络可以取代特征提取器和一些改进，例如使用大视觉区域卷积核[44]、多层连接[45]，以实现有竞争力的性能。作者发现，基于学习的驾驶区域检测结果通常是场景理解任务的一个分支，研究人员试图解决一些挑战，包括2D-3D转换、复杂的驾驶区域等。

交通标志检测

交通标志包含大量关键的交通信息，如道路状况、限速、，驾驶行为限制和其他信息。作者还将其分为基于简历的方法和基于学习的方法。对于基于CV的检测方法，特定地区（特定国家或城市）交通标志的近似颜色组成条件相似。在相对简单的原始图像中，通过采用颜色空间分布、分割头和SVM分类器，对特定颜色进行阈值分离可以获得更好的结果。一些研究通过引入额外的颜色通道来开发方法，如正常RGB模型、动态颜色阈值、概率模型和边缘信息。

然而，这些方法很难解决由光照、衰落、遮挡和恶劣天气引起的问题。一些研究人员试图利用三角形、圆形交通标志或编码梯度检测方法上的通变换来处理遮挡和连接。基于形状的检测方法可以解决由颜色变化引起的结果不稳定的问题，但它几乎不能克服由遮挡和变形引起的问题。基于机器学习的交通标志识别算法通常使用滑动窗口方法遍历给定的交通标志图像。提出了梯度方向的变异直方图特征，并通过极限学习机训练单个分类器来检测交通标志。

随着深度学习算法的不断研究，越来越多的学者使用深度学习算法来检测交通标志。读者可以将这种分类方法视为处理特征提取，包括预处理和分类。为了提取更深层次的信息，引入了更深层次的编码器、集成的空间金字塔池（SPP）层、级联的RCNN网络、深度可分离卷积和剪辑策略，以实现检测精度和高推理速度。深度学习方法对标志的颜色和形状的变化具有令人满意的容忍度，然而，这种类型的方法需要大量的数据和手动注释。此外，检测网络应该具有识别具有缺乏自信迹象的不同区域和长距离检测迹象的能力。

基于视觉的3D目标检测

基于视觉的3D目标检测是指从图像中获取场中所有目标的3D信息（位置、尺寸和旋转）的过程。作者将其分为基于单目和基于双目的检测。

单目3D目标检测：近年来，单目3D目标检测得到了广泛的发展，其准确性也在不断提高。继承自[53]等2D目标检测网络的直接关联分类和回归方法具有简单的结构，但由于从单个图像中恢复3D属性的不适定问题，其性能不令人满意。解决这一缺点的策略主要有两种。

（1）介绍了3D和投影2D候选者之间的几何连接。例如，GS3D[56]将目标解耦为多个部分，以分析曲面属性和实例关系。Monopair和Monet3D考虑了目标与其两个最近邻居之间的关系。

（2）除了回归3D边界候选者，网络还在训练阶段考虑来自双目视觉或激光雷达数据的局部或全深度图。CaDDN[57]为结合深度估计和目标检测任务提供了一种完全可微的端到端方法。DDMP3D利用上下文和深度估计头的特征表示来实现有竞争力的性能。此外，引入了连续帧作为输入，试图通过关联检测和跟踪来更新3D结果。尽管这些方法在准确性上没有明显的优势，但广泛的学术研究和低成本使其具有吸引力。

双目3D目标检测：双目3D目标检测方法的灵感来自双目视觉的视差分析。精确的深度值可以通过双目中心和相关像素对之间的距离来计算。Disp-RCNN、OC Stereo添加分割模块，对来自双目相机的图像进行配对，以诱导精确的关联。YOLOSTREO3D提供了一个轻量级的模型，优于大量基于复杂视差卷积运算的双目方法，并显著缩短了训练和测试时间。总之，基于双目的方法可以避免单目图像的不适定问题，并且便于制造商在IVs中部署和维护，但基线上的精确测量、双目匹配的时间成本以及图像预处理的要求给研究人员带来了挑战。

基于激光雷达的3D目标检测

基于激光雷达3D目标检测方法从激光雷达捕获的点云数据中识别目标的3D特性。作者将其分为体素检测和点检测。

逐体素目标检测：逐体素的目标检测方法表示鸟瞰图（BEV）中的点云特征，并且BEV图被手动划分为独双目素的s系列。这种类型的检测网络的结构设计源于点云分割框架，如PointNet和PointNet++，它们适合输入或输出端的检测任务，其整体架构需要平衡性能和效率。以经典的VoxelNet和PointPillar为例，VoxelNet在映射点云后对体素进行归一化，然后使用多个体素特征编码（VFE）层对每个非空体素应用局部特征提取。通过3D卷积中间层（增加感受野并学习几何空间表示）进一步提取体素特征，最后，使用具有位置回归的区域建议网络（RPN）对目标进行检测和分类。

点式目标检测：[68，69]等点式目标检测受到PointNet的启发，PointNet是一种使用点云进行室内6D姿态估计的经典网络。点-RCNN[68]是一个两阶段的点云检测框架，包括第一阶段的语义分割分析和第二阶段的位置修正。VoteNet[70]将2D检测结构扩展到3D框架，以建立点云的通用检测框架。它基本上遵循PointNet++来减少点云转换中的信息损失。VoteNet还引入了一种受霍夫变换启发的新颖投票机制，与其他3D网络相比，该机制可以定位目标的中心，而不是表面上的点。值得注意的是，在点云检测中，应充分考虑丢弃点的数量和由于距离而产生的模态差异。

基于融合的3D目标检测

激光雷达、雷达和相机被广泛部署在用于感知任务的IVs中，这些类型的传感器的组合可以使车辆变得坚固，并能够全时检测目标。然而，这并不意味着基于融合的方法将优于使用单个传感器的方法。基于融合的方法的缺点主要有两个原因。

（1）网络填补各种传感器的模态缺口是一项挑战；

（2）系统误差和测量误差（如校准和同步）很难消除，它们会在网络中传播和放大。

大多数研究人员提出了解决这些困难的方案，并取得了一些有竞争力的结果。在本节中，作者根据传感器的类型对基于融合的目标检测任务进行分类。

相机和激光雷达：相机和激光DAR是AD的两个关键传感器，研究人员首先关注融合并行方法，该方法同时提取点云和图像信息。MV3D[77]和AVOD[76]利用点云上的共享3D anchor和相应的图像。ContFuse[80]和MMF[81]采用具有连续融合层的紧密耦合融合方法。3D-CVF引入了一种跨视图空间特征融合方法来融合图像和点云。此外，EPNet[83]专注于点云系统，并在几何空间上采用基于点的策略将图像投影到点云系统上。与并行方法相比，顺序方法是可读的和可部署的，因为不需要引入关联结构来减少差距。F-PointNet[75]和F-ConvNet[74]试图通过在2D候选者内生成3D边界框来减少搜索区域。PointPainting[84]输出语义信息，并将每个点投影到相应的点上，以提高3D目标检测精度。CLOCs[73]融合独立提取器之后的数据，并在KITTI上实现竞争结果。DVF[72]采用2D真相作为指导，然后通过点云提取3D属性。

相机和雷达：将雷达的图像和数据结合起来，可以有效地降低成本并保持准确性。[86]将雷达检测结果投影到图像空间，并利用它们来提高对远处目标的目标检测精度。CRF Net[87]开发了一种垂直展示的方法。

激光雷达和雷达：这种类型的融合侧重于极端恶劣的天气条件和明显的目标。雷达网[88]通过一种新颖的早期融合方法融合雷达和激光雷达数据。它通过基于注意力的融合利用了雷达的遥感范围。MVDNet[89]从两个传感器生成建议，然后融合多模态传感器流之间的区域特征，以改进最终检测结果。ST MVDNet[90]通过强制输出来开发结构教师网络和学生网络之间的一致性，以及在一种类型的数据丢失时引入丢失的模式来解决退化问题。

相机、激光雷达和雷达：在这种融合类型中，研究人员试图在不同的天气条件下设计一个强大的感知系统。[91]通过将图像直接投影到点云上来获得具有PointNet[64]架构的目标检测输出。与前一帧平行，对来自雷达的点云进行处理以预测速度，然后将速度与最终检测输出相关联。RVF-Net[92]融合了输入过程中的所有数据，并在nuScenes[93]数据集上获得了令人满意的结果。

其他：超声波雷达通过声音在空中传播的时间来判断障碍物的距离，其精度可以达到5米以内的厘米级。该传感器主要用于自动停车场景。一种带有红外灯的红外相机可以捕捉红外光谱特性，达到夜视成像的效果。此外，对事件摄像机的研究也是当前的热点之一。事件摄影机基于管道时间戳处理数据，而不是处理帧平面中的单个像素。由于数据具有时序性质，传统的网络结构无法处理数据，因此如何与其他传感器融合将是未来的研究重点之一。KITTI[85]中不同传感器类型的各种组合的3D目标检测方法的性能如下表II所示。这里，KITTI通过帧的复杂性将整个数据划分为三个评估场景（简单、中等和硬），并计算3D-AP，这是2D-AP[94]对这三个场景的扩展方法。

作者总结道：

1）采用融合策略可以在3D目标检测任务中获得竞争的结果，主要是因为引入了更多的初始信息。但这种方法需要研究人员消除或减少模态差异。

2）由于传感器的特性、相机的分辨率有限以及KITTI中参考系统的定义，基于视觉的方法的性能弱于基于激光雷达的方法。然而，基于可视化的方法由于其可维护性、经济性和易于部署而吸引了许多研究者。

3）自注意机制（Transformer结构）和BEV方法[71，78，79]可以提高跨模态融合、特征提取等的准确性。此外，为了解决数据饥饿和模型鲁棒性问题，目前的研究在unScenes[93]、Waymo[95]等附加数据上训练和测试模型。

场景理解

作者在论文中将场景理解定义为每个像素或点的多个输出，而不是每个目标。在本节中，作者将其分为三个子部分，分割、深度和流量估计。作者只专注于AD领域的学术研究和应用。

自动驾驶中的分割

语义分割的目标是将场景划分为几个有意义的部分，通常通过用语义标记图像中的每个像素（语义分割），通过同时检测目标并将每个像素与每个目标区分开来（实例分割），或者通过结合语义和实例分割（全景分割）[96]。分割是计算机视觉中的关键任务之一，研究人员在ADE20K[97]、Pascal-VOC[94]、CityScape[98]等平台上评估了他们的模型。然而，在AD场景中，经典的3D CV区域，很难独立完成感知任务。它通常涉及车道检测、驾驶区域检测、视觉界面模块，或与点云结合提供语义信息。作者将简要介绍基于分割的一般背景，然后重点介绍AD的分割研究。

语义分割

全卷积网络（FCN）[99]是一种流行的语义分割结构，它采用卷积层来恢复输出图的大小。一些工作通过引入改进的编码器-解码器[100]、扩展卷积[101]、CRFs[102]、收缩空间金字塔池（ASPP）[103]来扩展FCN。此外，由于池化和膨胀卷积运算，上述方法涉及固定的正方形上下文区域。关系上下文方法[104]提取像素之间的关系。[105]通过信道级联和跳过连接来追求高分辨率，尤其是在医疗领域。在AD领域，语义分割网络可能熟悉常见的结构，研究人员应该更多地关注特殊类别和遮挡，并在道路场景的数据集上评估他们的模型[98]。为了在数据集上实现SOTA结果，研究人员引入了多尺度注意力机制[106]，边界感知分割模块[107]。此外，由于缺乏AD场景的标记数据，一些研究侧重于道路上目标的属性，如考虑跨类目标之间的内在相关性[108]或半监督分割机制。

实例分割

实例分割是为每个目标实例预测一个掩码及其对应的类别。早期的方法[115]设计了一种架构来真实化目标检测和分割任务。掩码-RCNN[115]扩展了更快的RCNN，以通过二进制分割识别每个像素的类别，并根据区域建议网络（RPN）汇集感兴趣区域（RoI）的图像特征。一些研究人员通过引入系数网络[116]、每个掩码的IoU分数和形状先验来改进预测，从而开发了基本结构。与2D目标检测方法类似，[117]取代了检测器采用单级结构。[118]试图避免检测的影响并实现显著的性能。

为了在AD数据集上获得有竞争力的分割结果，研究人员专注于3D空间上的几何信息[119]、边界识别[120]、结合语义分割（全景分割）[121]或入侵多帧（视频库）[122]。1.3）泛光学分割：泛光学分割是为了统一像素级和实例级的语义分割[123]，[124]设计了一个不同的分支来回归语义和实例分割结果。泛光学FCN[125]旨在在统一的全卷积流水线中表示和预测前景事物和背景事物。

Panoptic SegFormer[126]介绍了一种使用变换器进行全景分割的简洁有效的框架。对于AD场景，TASC[110]提出了一种新的可微分方法，以减少训练过程中两个子任务之间的差距。Axial DeepLab[109]构建了一个具有全局感受野和位置敏感注意力层的独立注意力模型，以低计算成本捕获位置信息。此外，研究人员通过引入一种新的作物感知边界盒回归损失和样本方法[127]来解决道路上的多尺度问题，并通过组合优化策略捕获目标的边界。这些方法在CityScape[98]或Mapillary Vistas[128]的任务中取得了有竞争力的结果。

自动驾驶中的深度估计

这类任务是在相机平面上呈现深度信息，这是增强基于视觉的3D目标检测的有效方法，也是连接激光雷达和相机的潜在桥梁。深度完成任务是深度估计的一个子问题[129]。在稀疏到密集深度完成问题中，研究人员通过计算方法或来自传感器的多个数据从稀疏深度图推断3D场景的密集深度图。

主要困难包括：

稀疏深度中的不规则间隔模式，
多传感器模态的融合方法（可选）
一些数据和现实世界缺乏密集的像素级真值（可选）。

深度估计是测量每个像素相对于相机的距离的任务。深度值是通过有监督（通过深度完成获得的密集图）[130]、无监督[131]、激光雷达制导[132]或双目计算[133]从单目或双目图像中提取的。一些方法[134135]引入了CRF模块、多任务结构、全局提取器和分段平面性优先级，以在流行的基准测试（如KITTI[85]和NYUv2[136]）中实现有竞争力的性能。模型通常根据RMS度量进行评估[85]。对于室外单目深度估计，DORN[137]采用多尺度网络结构来捕获上下文信息。MultiDepth[114]利用深度区间分类作为辅助任务。HGR[138]提出了一种层次指导和正则化学习框架来估计深度。SDNet[113]通过利用涉及深度和语义的双重独立估计头来改进结果。VNL[112]设计了一种新颖的结构，该结构包括多个阶段的局部平面引导层。[139]使用由随机采样的三个点确定的法线方向的几何约束来提高深度预测精度。BANet[111]引入了双向注意力模块，该模块采用前馈特征图并结合全局信息来消除歧义。无监督方法[140]吸引了大量研究人员，因为它可以减少对标记数据的要求，并消除过度拟合问题。此外，由于存在不适定问题，纯单目深度估计只能获得相对深度值，而双目制导方法可以获得绝对深度值。[141]介绍了变压器结构，以获得有竞争力的结果。双目深度估计方法可以在双目视差估计任务中找到。

自动驾驶中的流量估计

与分割和深度估计任务类似，流量估计侧重于图像平面，它呈现数据帧期间的像素移动。它现在引起了人们的兴趣，其研究可以用于事件相机方法。

光流估计

光流是指像素在成像系统中的移动，包括水平和垂直两个方向。与基于无监督视频的深度估计类似，可以通过最小化目标图像和源图像之间的差异来推断像素运动[142]。SPyNet[143]提出了一种轻量级框架，该框架采用经典的空间金字塔公式进行光流估计。此外，它还试图估计大位移运动和精确的亚像素流。PWC Net[144]包括三个子网，即特征金字塔提取器、翘曲层和成本体积层，以提高光流的质量。

场景流估计

场景流估计表示一个3D运动场，可以视为光流的扩展。因此，它是3D场景中光流和深度估计的结合。在场景流的整体训练步骤中，很少使用单目图像，该结构以双目视频为输入来回归视差以恢复尺度。DRISF[145]将高斯牛顿（GN）的推理步骤视为递归神经网络（RNN），这意味着它可以用端到端的方法进行训练。FD-Net[146]进一步扩展了无监督深度估计，并将全流分解为目标流（目标像素）和刚性流（背景像素），以分别评估特征，从而能够避免由于遮挡和截断而导致的扭曲模糊。竞争协作（CC）[147]将场景流量估计设置为具有三个玩家的游戏。其中两人争夺资源，最后一人担任主持人。GeoNet[148]由两个模块组成，一个是具有6 DoF自我运动估计的单目深度，另一个是用于学习目标光流的残差网络。

CityScape和KITTI的全景分割和深度估计性能如下表III所示。PQ、SQ、RQ分别指[123]中的全景分割、分割质量和识别质量，对于深度估计，SILog（比例不变对数误差）、sqErrorRel（相对平方误差）和iRMSE（均方根逆深度的平方误差）是KITTI中的经典度量。与检测类似，研究人员引入了自注意机制、额外的训练数据和新的网络单元，以提高场景理解任务的准确性。作者提到，上述任务并没有直接向AD中的规划和控制等下游任务提供输出。在实际任务中，语义分割、深度估计和光流估计将相互结合，以提供更丰富的像素语义信息，从而提高跨模态数据融合的准确性，运动目标的空间检测和跟踪。

3 预测

为了在复杂的交通场景中安全高效地导航，AD框架应该能够预测其他交通代理（如车辆和行人）在不久的将来的行为方式。预测可以定义为根据过去的感知可能产生的结果。设Xit是在观测时间t具有代理i的空间坐标的向量，其中...

基于模型的方法

这些方法预测智能体的行为，如变道、左转等。预测车辆行为概率分布的最简单方法之一是自主多模型（AMM）算法。该算法计算每个代理的最大概率轨迹。2）数据驱动方法：这些方法主要由神经网络组成。在感知数据集上训练后，模型对下一个行为进行预测。DESIRE提出了一种编码器-解码器框架，该框架创新地结合了场景上下文和流量代理之间的交互。SIMP离散输出空间，计算车辆目的地的分布，并预测估计的到达时间和空间偏移。FaF开创了基于激光雷达点云的检测和短期运动预测的统一。预测模块有时与感知分离，主要是因为下游规划模块接收感知和预测结果。未来对预测的研究将侧重于广义规则的制定、场景的普遍性和模块的简单性。E.跟踪跟踪问题从一系列车载传感器数据开始。根据神经网络是否嵌入跟踪框架，作者将其分为传统方法和神经网络方法。1）传统方法：卡尔曼滤波器是一种著名的算法，尤其是在跟踪代理方面。由于计算成本低，即使在简单场景中的低规格硬件上，基于卡尔曼的方法也具有快速响应时间。跟踪问题也可以显示为图搜索问题。与基于卡尔曼的方法相比，基于图的方法最重要的优点是它更适合于多跟踪问题。[155]利用基于图的方法，使用最小成本方法来解决跟踪问题。

神经网络方法

在给定相关且数量充足的训练数据的情况下，神经网络具有能够学习重要且稳健的特征的优势。CNN被广泛用于特工追踪。[156]使用来自卷积层的值的组合来处理多代理跟踪。为从浅卷积层提取的信息提出了适当的滤波器，与更深的层或多层的组合相比，实现了相同水平的鲁棒性。RNN还为解决跟踪任务中的时间相干问题提供了一种智能的方法。[158]使用基于LSTM的分类器在多个时间帧上跟踪代理。与CNN方法相比，基于LSTM的方法更适合于去除和重新插入候选观测值，尤其是当目标离开或重新进入场景的可见区域时。在这两项任务中，联合感知和跟踪可以实现SOTA结果。在现实中，稳定的跟踪可以降低系统对实时检测的要求，也可以校正检测结果。目前，联合任务学习策略受到越来越多研究者的青睐。

4 规划

规划模块负责为ego车辆的低级别控制器找到要跟踪的局部轨迹。规划模块负责为ego车辆的低级控制器找到要跟踪的局部轨迹。这里，“局部”是指所得轨迹在其空间或时间范围内较短；否则ego车辆不能对超出传感器范围的风险做出反应。规划模块通常包含三个功能，即全局路线规划、局部行为规划和局部轨迹规划。全局路线规划在全局地图上提供从起点到目的地的道路级路径；局部行为规划决定接下来几秒钟的驾驶行为类型（例如，跟车、轻推、侧传、让行和超车），而局部轨迹规划基于所决定的行为类型生成短期轨迹。本节回顾了与规划模块中的三个功能相关的技术，如下图5所示。

全局路线规划

全局路线规划负责在道路网络中找到最佳道路级路径，该路径以包含数百万条边和节点的有向图的形式呈现。路线规划器在有向图中搜索，以找到连接起点和终点节点的最小成本序列。这里，成本是基于查询时间、预处理来定义的考虑了复杂性、内存占用率和/或解决方案稳健性。全局路线规划技术的发展历史比自动驾驶汽车技术要长得多，因为全局路线规划也为手动驾驶汽车服务。如所示，现有的全局路由规划方法分为目标导向方法、基于分离器的方法、层次方法、有界跳方法及其组合。

局部行为/轨迹规划

局部行为规划和局部轨迹规划功能协同工作，沿着识别的全局路线输出局部轨迹，如下图6所示。

图片

由于产生的轨迹是局部的，除非全局目的地不远，否则这两个功能必须以后退的方式实现。值得强调的是，这两个功能的输出应该是轨迹而不是路径，否则自车需要额外的努力来躲避环境中的移动障碍。从广义上讲，这两项职能将以两种不同的方式发挥作用。一种是端到端的方式，即开发一个集成系统，从机载传感器接收原始数据并直接输出本地轨迹。另一种方法是依次实现局部行为规划和局部轨迹规划功能。

1）端到端方法

与下一小节中回顾的顺序规划解决方案相比，端到端解决方案名义上更有效地处理车辆环境交互，因为感知和规划模块之间没有外部间隙。端到端系统的输入是机载传感器获得的大量原始数据，而输出是局部轨迹。由于输入和输出之间的关系过于复杂，无法概括为完整的规则，因此通常使用机器学习方法，其中大多数方法分为基于模仿学习和基于强化学习的方法。一种基于模仿学习的方法基于训练样本构建神经网络。挑战在于如何收集一致的大量训练样本，以及如何保证学习效率（例如，不存在过度拟合）。基于强化学习的方法通过试错操作获得知识，因此它们较少依赖外部训练样本的质量和数量。端到端方法仍然不成熟，因此大多数方法都是在模拟中训练/测试的，而不是在现实世界中。最近的研究工作集中在如何提高学习的可解释性、安全性和效率上。

2）基于顺序规划的方法

与上述端到端解决方案相反，在过去十年中，顺序应用局部行为规划和轨迹规划函数是一种常见的传统选择。然而，局部行为规划和轨迹规划之间的界限相当模糊，例如，一些行为规划人员所做的不仅仅是识别行为类型。为了便于理解，本文没有严格区分这两种函数，将相关方法简单地视为轨迹规划方法。名义上，轨迹规划是通过解决最优控制问题（OCP）来完成的，该问题在满足多种类型的硬约束的情况下最小化预定义的成本函数。OCP的解决方案表示为时间连续控制和状态分布，其中所需轨迹由状态分布（的一部分）反映。由于这种OCP的分析解决方案通常不可用，因此需要两种类型的操作来构建轨迹。具体地，第一种类型的操作是识别状态网格序列，而第二种类型是在相邻的状态网格之间生成基元。

4.1 状态网格识别

状态网格识别可以通过搜索、选择、优化或潜在的小型化来完成。基于搜索的方法将与上述OCP相关的连续状态空间抽象成图，并在那里找到状态的链接。流行的基于搜索的方法包括A*搜索和动态编程（DP）。基于选择的方法通过寻找具有最优成本/回报函数值的候选者来决定下一步或几个步骤中的状态网格。贪婪选择和马尔可夫决策过程（MDP）系列方法通常属于这一类。一种基于优化的方法将原始OCP离散化为数学程序（MP），其解为高分辨率状态网格。MP解算器进一步分为基于梯度的解算器和非基于梯度的求解器；基于梯度的求解器通常求解非线性规划、二次规划、二阶约束二次规划或混合整数规划；基于非梯度的解算器通常由元启发式方法表示。基于势最小化的方法通过模拟它们被力或启发式势场排斥或吸引的过程来调整状态网格的位置。这一类别中流行的方法包括弹性带（EB）系列、人工势场方法和力平衡模型。

每种状态网格识别方法的能力不同。例如，基于梯度优化和基于潜在最小化的方法通常比典型的基于搜索/选择的方法更灵活和稳定，但基于搜索/选取的方法更有效地全局探索整个状态空间。不同的方法可以联合起来作为一种从粗到细的策略，正如许多研究所实施的那样。

4.2 原始生成

原始生成通常通过闭式规则、模拟、插值和运算来完成。闭式规则是指通过具有闭式解决方案的分析方法生成基元的方法。典型的方法包括Dubins/Reed-Shepp曲线、多项式和理论最优控制方法。基于仿真的方法通过前向仿真生成轨迹/路径基元，由于没有自由度，因此运行速度快。基于插值的方法由样条曲线或参数化多项式表示。基于优化的方法在数值上解决了连接两个状态网格的小规模OCP。

状态网格识别和基元生成是构造轨迹的两个必要操作。这两种操作可以以各种方式组织。例如，在迭代循环中集成两个运算；在在线状态网格识别之前离线构建基元的图；在生成连接基元之前识别状态网格。

如果规划者只找到了一条路径而不是一条轨迹，那么作为后处理步骤，应该在规划的路径上附加一个时间进程。这种策略被称为路径速度分解（PVD），之所以被广泛使用，是因为它将一个3D问题转换为两个二维问题，这在很大程度上促进了求解过程。相反，非PVD方法直接规划轨迹，这具有提高解决方案最优性的潜在优点。

该研究领域的最新研究包括如何开发特别适合特定场景/任务的特定规划者，以及如何在上游/下游模块不完善的情况下规划安全轨迹。

5 结论

在本文中，作者对AD和IVs中的感知和规划里程碑的研究发展进行了广泛的介绍。此外，还为这两项任务提供了一些实验结果和独特的见解。结合其他两个部分，希望整个工作将为研究人员和初学者带来新颖而多样的见解，并成为连接过去和未来的桥梁。