智驾|数据闭环技术的三核心和六平台 原创

发布于 2025-6-18 06:36
浏览
0收藏

随着自动驾驶技术的不断发展,数据闭环将在其中发挥越来越重要的作用。未来,数据闭环系统将更加高效、智能和低成本化,在自动驾驶领域,数据闭环正逐渐成为提升系统能力的核心要素。

一、自动驾驶的三个阶段

1.第一阶段:传统方案中:感知、预测、PNC拆分,各自训练各自优化,相互链接,但模型结构、输入输出、标注格式规范均不一样,采用交付长尾数据,标注规范、模型结构、数据解析处理等问题由感知、PNC自行解决;

2.第二阶段:感知、PNC模型固定,数据结构化形式固定,所有的数据任务转移至数据算法团队,从交付数据转换到交付格式化真值(标注好的数据) 此阶段可行性业界已验证;

3.第三阶段:经过大量的数据沉淀,满足端到端大模型的数据需求,感知、PNC模型相互融合后,模型生产完全依赖数据输入,所有的模型产出,感知PNC只负责提交任务场景模型场景需求,所有的任务由数据算法团队自动产出,包括模型、测试集、仿真、QA测试报告等。

智驾|数据闭环技术的三核心和六平台-AI.x社区

二、数据闭环技术的实现目标

1.建立长尾数据闭环迭代能力,结合平台计算、数仓等建立自动化能力,减少人工定制化干预,释放人力,增加数据吞吐能力,快速解决corner case数据量不足的问题;

2.凝练出高精度的真值模型(自标注模型),可以对感知表现不好的bad case形成模型错题集,补齐模型短板、修复问题;

3.从交付单个数据项目,进化到交付通用产线能力,建立快速挖掘、快速交付、快速迭代修复、快速评测的闭环能力,提升自动驾驶数据反馈速度和效率。

三、数据闭环3个核心和6个平台

数据流转、模型生产、车云端输出是数据闭环的3个核心内容。

智驾|数据闭环技术的三核心和六平台-AI.x社区

数据闭环的6个平台

数据闭环整体方案包括六个部分:

  • 数据管理平台:用于存储原始数据、标注数据、各类标签(模型输出、图搜、原始数据、标签大库等)、车辆数据质检(数据缺失);
  • 标注平台:用于接受标注任务、标注能力(2d/3d,图像/点云),输出标注结果至数据管理平台;
  • 仿真平台:用于测试模型在实际场景中的长尾挖掘能力、测试感知、PNC模型的问题case是否解决等等
  • 模型训练平台:用于训练挖掘模型,感知模型(不同于paddlecloud),更灵活,数据格式来源标注平台
  • 数据挖掘平台:用于解析数据、规则编写、模型结果获取、刷库、评测等功能;
  • 实车下发平台:用于配置车端规则、模型量化、模型打包发布、下发、数据回传等。

智驾|数据闭环技术的三核心和六平台-AI.x社区

智驾|数据闭环技术的三核心和六平台-AI.x社区

建立数据闭环能力的工作流程如下图所示:

智驾|数据闭环技术的三核心和六平台-AI.x社区

四、数据闭环的意义

1、破解“长尾问题”:高效捕获边缘场景

自动驾驶系统的失效往往源于边缘场景(corner case),例如暴雨中模糊的车道线、横穿马路的非标障碍物等。传统路测受限于时间和成本,难以覆盖海量边缘场景。通过在量产车上部署数据采集系统,当自动驾驶系统遇到处理不佳的情况时,能够触发数据回传。当系统检测到驾驶员接管、紧急制动或感知置信度骤降时,自动记录前后30秒的多模态数据(摄像头、雷达、IMU等),形成动态场景库。

2、 实现模型“持续进化”:从静态训练到动态学习

传统深度学习模型依赖固定数据集训练,难以适应复杂多变的真实路况。随着自动驾驶从高速场景向城市复杂场景拓展,车辆需要面对各种不同的路况和交通状况。为了使自动驾驶系统能够适应不同城市的多样化路况,需要采集大规模真实人驾数据。这些数据涵盖各种场景,有助于模型学习到更广泛的特征和模式,从而提高其泛化能力,使系统在不同环境下都能稳定可靠地运行。

3、重塑开发范式:从V模型到数据驱动

自动驾驶系统需要不断提升其感知、规划和决策等环节的能力,传统V型开发流程(需求-设计-验证)难以应对高等级自动驾驶的动态需求,而数据驱动的算法迭代是实现这一目标的高效方式。基于深度学习的人工智能算法发展至今,通过数据闭环,工程师能够利用新采集的数据对神经网络模型进行持续训练和优化。例如,在感知层面,利用大量数据训练BEV+Transformer模型,有望提升其对周围环境的识别精度;在规划层面,特斯拉采用数据驱动的决策树生成模型,大大缩短了规划路径的计算时间,实现了规划算法的迭代升级。

五、数据闭环在量产车的落地场景

1、提升量产车数据采集能力

数据闭环的实现路径中,数据采集是关键环节。在启动阶段,数据采集主要依赖研发采集车,通过专业设备和传感器在各种路况下收集数据,为自动驾驶系统的开发提供了基础。然而,随着技术的演进和市场需求的增长,量产车逐渐成为数据采集的主力军。特别是高阶智驾系统在量产车中的渗透率不断提升,这些车辆在日常行驶中能够产生海量的数据。

相比研发采集车,量产车的数据采集具有显著优势。一方面,量产车数量庞大,覆盖范围广,能够收集到更多样化的路况和场景数据,有助于提升自动驾驶系统对各种复杂环境的适应能力。另一方面,量产车的数据采集是实时进行的,能够及时反映道路状况的变化,为系统的更新和优化提供更及时的依据。

此外,量产车的数据采集还能够更好地体现真实用户在实际驾驶中的行为和习惯,为自动驾驶系统的决策算法提供了更贴近现实的训练数据。因此,随着组合辅助驾驶系统在量产车中的普及,量产车的数据采集能力得到了显著提升,为智能化技术的持续发展和优化提供了强大的数据支持。

2. 云端技术和AI算法驱动

云端技术的成熟为数据的存储、处理和模型训练提供了强大的支持。自动驾驶开始逐渐进入数据驱动的时代,车企和自动驾驶技术提供商能够借助云端平台实现数据的高效管理和利用,通过数据闭环不断提升系统的性能。

AI算法的发展,特别是无监督和半监督学习算法的兴起,使得计算机能够通过自学习的方式对数据进行清洗和算法迭代。AI算法解决学习效率问题,数据解决学习内容问题,二者相辅相成,共同推动了数据闭环在自动驾驶领域的发展。

总结 

随着自动驾驶技术的不断发展,数据闭环将在其中发挥越来越重要的作用。未来,数据闭环系统将更加高效、智能和低成本化。在工具链方面,随着技术的成熟和经验的积累,工具链将不断完善,实现更高的自动化和智能化水平,进一步提升研发效率和降低成本。数据闭环的发展将推动自动驾驶系统向更高级别演进,实现更安全、便捷和智能的驾驶体验,为智慧交通和未来出行奠定坚实基础。


本文转载自数字化助推器  作者:天涯咫尺TGH

©著作权归作者所有,如需转载,请注明出处,否则将追究法律责任
已于2025-6-18 06:36:14修改
收藏
回复
举报
回复
相关推荐