鸿蒙开发者社区

公众号矩阵

移动端

视频课免费课排行榜短视频直播课软考学堂

全部课程软考信创认证华为认证厂商认证 IT技术 PMP项目管理免费题库

文章资源问答课堂专栏直播

51CTO

鸿蒙开发者社区

51CTO技术栈

51CTO官微

51CTO学堂

51CTO博客

CTO训练营

鸿蒙开发者社区订阅号

51CTO软考

51CTO学堂APP

51CTO学堂企业版APP

鸿蒙开发者社区视频号

51CTO软考题库

AI.x社区

登录/注册
51CTO

中国优质的IT技术网站

51CTO博客

专业IT技术创作平台

51CTO学堂

IT职业在线教育平台

自动驾驶数据集管理解决方案原创

发布于 2025-8-11 06:03

浏览

0收藏

自动驾驶 AI 训练场景智能驾驶正在重塑交通格局，为人们带来更舒适高效的驾驶体验。当下，智能驾驶融合了先进的传感技术、大数据和人工智能算法，为了确保车辆能够在各种复杂环境中安全、高效地运行，智能驾驶 AI 训练涉及大量的数据处理、算法开发和模型训练。

自动驾驶数据集管理解决方案-AI.x社区

自动驾驶技术的发展离不开海量且高质量的数据集，而数据集的质量和一致性管理则是推进这一领域发展的关键。dgp（Dataset Governance Policy）项目正是为此而生，它为Toyota Research Institute（TRI）的自动驾驶数据集提供了可追踪性、可再现性和标准化管理的解决方案。

dgp 是一个开源项目，旨在为自动驾驶数据集的创建、管理和使用制定一套统一的规范。通过编码化的数据模式（schema）和维护策略，dgp 确保了所有数据集的一致性和高效性，这对于机器学习模型的训练和评估至关重要。

自动驾驶数据集管理解决方案-AI.x社区

自动驾驶数据可以分为四大类：

自动驾驶车辆产生的数据首先是 原始数据。主要是传感器数据、车辆自身数据、驾驶行为数据等。这些数据的特点是数据量极大、类型多样、以非结构化半结构化数据为主。无论对存储、传输、处理都构成比较大的挑战。

为了在深度学习中使用数据，我们还需要大量 标注数据。主要有红绿灯数据集，障碍物数据集（2D、3D），语义分割数据集，自由空间数据集，行为预测数据集等等。

为了刻画自动驾驶行为，我们还需要将数据抽象成 逻辑数据。主要是完美感知数据，环境抽象数据，车辆动力学模型等。

最后，我们会用为仿真构建 仿真数据，主要是参数模糊化数据，三维重建数据，互动行为数据等。

自动驾驶数据集管理解决方案-AI.x社区

数据平台是支撑智能汽车的“云 + 端”研发迭代新模式的核心平台。

由数据采集与传输，自动驾驶数据仓库，自动驾驶计算平台三个部分构成。

首先是数据采集与传输部分。使用 Data-Recorder 会按 Apollo 数据规范产生，完整的、精确记录的数据包，可以完成问题复现，也同时完成数据积累。通过传输接口，可以将数据高效地传输到运营点和云集群中。

接着是自动驾驶数据仓库部分，会将全部海量数据成体系地组织在一起，快速搜索，灵活使用，为数据流水线和各业务应用提供数据支撑。

自动驾驶计算平台部分，基于云资源异构计算硬件提供超强算力，通过细粒度容器调度提供多种计算模型，来支撑起各业务应用。如训练平台、仿真平台、车辆标定平台等等。

自动驾驶数据集管理解决方案-AI.x社区

以百度Apollo为例，开源数据集分为以下三大部分：

标注数据集，包括 6 部分数据集：激光点云障碍物检测分类，红绿灯检测，Road Hackers，基于图像的障碍物检测分类，障碍物轨迹预测，场景解析。
演示数据集，包括车载系统演示数据，标定演示数据，端到端演示数据，自定位模块演示数据；
仿真数据集，包括自动驾驶虚拟场景和实际道路真实场景；

除开放数据外，还配套开放云端服务，包括数据标注平台，训练学习平台以及仿真平台和标定平台，为 Apollo 开发者提供一整套数据计算能力的解决方案，加速迭代创新。

自动驾驶数据集管理解决方案-AI.x社区

数据开放平台的首页由几个小节构成，分别是仿真场景数据、标注数据、演示数据、相关产品与服务、上传我的数据。

开发者可以直接使用 Apollo 已经开放的数据，也可以通过 Apollo 的 Data-Recorder 记录数据上传到云上使用。

通过选择特定数据，可以进入特定数据的应用。

开发者可以在标定平台中标定车辆参数，通过上传数据，申请数据加工，使用数据标注服务，在训练平台中训练 Model，将前几步应用平台的结果合并到 Github 的 Apollo 代码中，将编译结果或源码提交到仿真平台中完成评估，这样就通过“云 + 端”完成了自有车载系统的研发迭代。

接下来是标注数据。

自动驾驶数据集管理解决方案-AI.x社区

标注数据是为满足深度学习训练需求，经人工标注而生成的数据，目前我们开放了多种标注数据，同时在云端配套提供相应的计算能力，供开发者在云端训练算法，提升算法迭代效率。

Apollo 开放了 6 个标注数据集和社区中比较流行的算法，以便开发者调试云端环境：

激光点云障碍物检测分类，我们提供基于规则算法的 Demo（传统机器学习）；
红绿灯检测，我们提供基于SSD 算法的 Demo（Paddle、Caffe）；
Road Hackers，我们提供基于 CNN+LSTM 的 Demo（Keras、TensorFlow）；
基于图像的障碍物检测分类我们提供基于 SSD 算法的 Demo（Caffe）；
障碍物轨迹预测，我们提供基于 MLP 算法的 Demo（TensorFlow）；
场景解析

综上所述，开发者可以在标定平台中标定车辆参数，通过上传数据，申请数据加工，使用数据标注服务，在训练平台中训练 Model，将前几步应用平台的结果合并到 Github 的 Apollo 代码中，将编译结果或源码提交到仿真平台中完成评估，这样就通过“云 + 端”完成了自有车载系统的研发迭代。

本文转载自数字化助推器作者：天涯咫尺TGH

©著作权归作者所有，如需转载，请注明出处，否则将追究法律责任

标签

已于2025-8-11 06:10:38修改

赞

收藏

回复

举报

回复

相关推荐

基于数据正则化自博弈强化学习的人类兼容型自动驾驶

AIGC最前线 • 4562浏览 • 0回复
分享大型语言模型在自动驾驶方面的应用案例

51CTO内容精选 • 4024浏览 • 1回复
仅靠开源数据复刻出LLaMA3指令学习效果，在线迭代RLHF全流程解决方案来了

轻薄滴假象 • 3544浏览 • 0回复
无需3D数据也能训练，港科&港中文联手华为推出3D自动驾驶场景生成模型

Crystalcxt • 4375浏览 • 0回复
RAG 开发四大痛点及解决方案

玄姐聊AGI • 3881浏览 • 0回复
NL2SQL：基于LLM的解决方案是最好的吗？

大语言模型论文跟踪 • 7788浏览 • 0回复
微软：RAG并不是你唯一的解决方案！

PaperAgent • 3698浏览 • 0回复
大模型部署解决方案之TorchServe+vLLM

夜行神鱼 • 3562浏览 • 0回复
入口控制：多智能体强化学习在自动驾驶中的应用研究

xuxiangda • 4797浏览 • 0回复
一文读懂Agent的治理难题与解决方案 | 4000份AI数据集大揭秘：训练数据的来源、版权与地域差异

sbf_2000 • 3285浏览 • 0回复
TAG：定义自然语言查询的高效解决方案

51CTO内容精选 • 4734浏览 • 0回复
全自动驾驶真的来了！花6万4才能用！马斯克急忙上线阉割版!AI提醒驾驶员别走神，网友实测翻车：秒变移动路

51CTO技术栈 • 2673浏览 • 0回复
近期Ollama未授权访问漏洞Nginx反向代理解决方案

V0ne • 3575浏览 • 0回复
大模型数据预处理——关于复杂文档在大模型应用中的解决方案

AI探索时代 • 3097浏览 • 0回复
关于基于RAG技术的智能客服系统解决方案

AI探索时代 • 2549浏览 • 0回复
关于大模型应用过程中的记忆功能管理问题，以及解决方案

AI探索时代 • 1973浏览 • 0回复
智驾｜为什么自动驾驶离不开世界模型？

数智飞轮 • 1174浏览 • 0回复
自动驾驶多活数据中心方案如何实现

数智飞轮 • 1299浏览 • 0回复
什么是端到端自动驾驶？

数智飞轮 • 3199浏览 • 0回复

这个用户很懒，还没有个人简介

帖子

声望

粉丝

关注

最近发布

可信AI人工智能的落地场景有哪些 15h前发布
智能辅助驾驶如何进行模型训练 4天前发布

热门推荐

2025年五大本地大模型，程序员必看！ 0回复

智能体主流框架深度研究报告：功能特性、用户群体、技术架构与商业化路径分析 0回复

阿里通义重磅开源 DeepResearch：让 AI 具备 “人类级研究能力” 的技术架构全景解析 0回复

可灵AI数字人来了！快手重磅发布Kling-Avatar，面向多模态指令理解与控制的数字人长视频生成新范式 0回复

NeurIPS'25 智能体最新技术即时洞察：6大方向、代表论文、发展趋势 0回复

上一篇：基于智驾工具链的高精地图真值反投

下一篇：大模型知识图谱融合的三大应用场景

社区精华内容

目录

Copyright © 2005-2025 51CTO.COM 京ICP证060544版权所有未经许可请勿转载