自动驾驶数据集管理解决方案 原创

发布于 2025-8-11 06:03
浏览
0收藏

自动驾驶 AI 训练场景智能驾驶正在重塑交通格局,为人们带来更舒适高效的驾驶体验。当下,智能驾驶融合了先进的传感技术、大数据和人工智能算法,为了确保车辆能够在各种复杂环境中安全、高效地运行,智能驾驶 AI 训练涉及大量的数据处理、算法开发和模型训练。 

自动驾驶数据集管理解决方案-AI.x社区

自动驾驶技术的发展离不开海量且高质量的数据集,而数据集的质量和一致性管理则是推进这一领域发展的关键。dgp(Dataset Governance Policy)项目正是为此而生,它为Toyota Research Institute(TRI)的自动驾驶数据集提供了可追踪性、可再现性和标准化管理的解决方案。

dgp 是一个开源项目,旨在为自动驾驶数据集的创建、管理和使用制定一套统一的规范。通过编码化的数据模式(schema)和维护策略,dgp 确保了所有数据集的一致性和高效性,这对于机器学习模型的训练和评估至关重要。

自动驾驶数据集管理解决方案-AI.x社区

自动驾驶数据可以分为四大类:

自动驾驶车辆产生的数据首先是 原始数据。主要是传感器数据、车辆自身数据、驾驶行为数据等。这些数据的特点是数据量极大、类型多样、以非结构化半结构化数据为主。无论对存储、传输、处理都构成比较大的挑战

为了在深度学习中使用数据,我们还需要大量 标注数据。主要有红绿灯数据集,障碍物数据集(2D、3D),语义分割数据集,自由空间数据集,行为预测数据集等等。

为了刻画自动驾驶行为,我们还需要将数据抽象成 逻辑数据。主要是完美感知数据,环境抽象数据,车辆动力学模型等。

最后,我们会用为仿真构建 仿真数据,主要是参数模糊化数据,三维重建数据,互动行为数据等。

自动驾驶数据集管理解决方案-AI.x社区

数据平台是支撑智能汽车的“云 + 端”研发迭代新模式的核心平台。

由数据采集与传输,自动驾驶数据仓库,自动驾驶计算平台三个部分构成。

首先是数据采集与传输部分。使用 Data-Recorder 会按 Apollo 数据规范产生,完整的、精确记录的数据包,可以完成问题复现,也同时完成数据积累。通过传输接口,可以将数据高效地传输到运营点和云集群中

接着是自动驾驶数据仓库部分,会将全部海量数据成体系地组织在一起,快速搜索,灵活使用,为数据流水线和各业务应用提供数据支撑

自动驾驶计算平台部分,基于云资源异构计算硬件提供超强算力,通过细粒度容器调度提供多种计算模型,来支撑起各业务应用。如训练平台、仿真平台、车辆标定平台等等。


自动驾驶数据集管理解决方案-AI.x社区

以百度Apollo为例, 开源数据集分为以下三大部分:

  • 标注数据集,包括 6 部分数据集:激光点云障碍物检测分类,红绿灯检测,Road Hackers,基于图像的障碍物检测分类,障碍物轨迹预测,场景解析。
  • 演示数据集,包括车载系统演示数据,标定演示数据,端到端演示数据,自定位模块演示数据;
  • 仿真数据集,包括自动驾驶虚拟场景和实际道路真实场景;

除开放数据外,还配套开放云端服务,包括数据标注平台,训练学习平台以及仿真平台和标定平台,为 Apollo 开发者提供一整套数据计算能力的解决方案,加速迭代创新。

自动驾驶数据集管理解决方案-AI.x社区

数据开放平台的首页由几个小节构成,分别是仿真场景数据、标注数据、演示数据、相关产品与服务、上传我的数据

开发者可以直接使用 Apollo 已经开放的数据,也可以通过 Apollo 的 Data-Recorder 记录数据上传到云上使用。

通过选择特定数据,可以进入特定数据的应用。

开发者可以在标定平台中标定车辆参数,通过上传数据,申请数据加工,使用数据标注服务,在训练平台中训练 Model,将前几步应用平台的结果合并到 Github 的 Apollo 代码中,将编译结果或源码提交到仿真平台中完成评估,这样就通过“云 + 端”完成了自有车载系统的研发迭代。

接下来是标注数据。

自动驾驶数据集管理解决方案-AI.x社区

标注数据是为满足深度学习训练需求,经人工标注而生成的数据,目前我们开放了多种标注数据,同时在云端配套提供相应的计算能力,供开发者在云端训练算法,提升算法迭代效率。

Apollo 开放了 6 个标注数据集和社区中比较流行的算法,以便开发者调试云端环境:

  1. 激光点云障碍物检测分类,我们提供基于规则算法的 Demo(传统机器学习);
  2. 红绿灯检测,我们提供基于SSD 算法的 Demo(Paddle、Caffe);
  3. Road Hackers,我们提供基于 CNN+LSTM 的 Demo(Keras、TensorFlow);
  4. 基于图像的障碍物检测分类我们提供基于 SSD 算法的 Demo(Caffe);
  5. 障碍物轨迹预测,我们提供基于 MLP 算法的 Demo(TensorFlow);
  6. 场景解析

综上所述,开发者可以在标定平台中标定车辆参数,通过上传数据,申请数据加工,使用数据标注服务,在训练平台中训练 Model,将前几步应用平台的结果合并到 Github 的 Apollo 代码中,将编译结果或源码提交到仿真平台中完成评估,这样就通过“云 + 端”完成了自有车载系统的研发迭代。


本文转载自​​​数字化助推器​​​  作者:天涯咫尺TGH

©著作权归作者所有,如需转载,请注明出处,否则将追究法律责任
已于2025-8-11 06:10:38修改
收藏
回复
举报
回复
相关推荐