如何基于多模态大模型进行智驾训练原创

数智飞轮

发布于 2025-10-14 09:06

浏览

0收藏

基于多模态大模型为智驾场景模型训练生成视觉数据，是当前自动驾驶领域一个非常前沿且富有潜力的方向。它能够以极低的成本、极高的效率创造海量、多样化的长尾场景数据，突破真实数据收集的瓶颈。

传统的智驾数据依赖于昂贵的传感器和车队路采，而多模态大模型的方法核心在于：利用大模型对世界知识的理解和强大的生成能力，将文本或简单草图等“抽象描述”转化为高度逼真和结构化的“视觉数据”。

常用的做法是使用3d建模软件虚拟出一个真实空间并且搭配物理引擎，来满足模型的训练要求。但这样的存在如下的问题。

1.数据和现实环境中的光影色彩存在区别，并且很难模拟现实环境中的特殊天气环境。

2.3d建模的环境本身构建就比较困难，其次要提高它的真实。光影效果的代价也比较大。

所以本文提出一种成本较低的，基于真实世界照片合成汽车驾驶画面用于模型训练。尤其是在高危的，对环境敏感的场景，比如：车辆的安全检测、紧急制动的模型训练中。

需求分析

输入：这是一个告诉转弯的路段，没有红绿灯，但是路上有锥形桶，无法通行。

输出：

如何基于多模态大模型进行智驾训练-AI.x社区

面临的挑战

这个需求看上去好像是需要直接通过文字生成图片，但实际这样的效果却并不好。

1.大模型用文字生成的图像对于街景的理解较差。

2.大模型对于交通道路的理解较差，例如立交桥可能会生成出面条的样子的道路。

3.模型对于驾驶位观察各事物之间视角的理解较差。

4.大模型生成的图片与真实世界的驾驶图片还有较大差距。包括：光源角度，距离感，环境因素，空气可见度等

总体思路

为了解决这些挑战，我们可以转换一下思路。我们可以

1.先将原始图片中的素材进行解构。

2.因为原始素材中的图片遮挡导致了部分信息的损失，可以使用模型将其信息恢复。这样就会得到一个种类齐全。素材多样的子元素库

3.将子元素匹配出自然语言

4.将检索到的子元素进行组合。

如何基于多模态大模型进行智驾训练-AI.x社区

这样就可以得到复杂多样的合成图片。既可以精确控制图片内容，又可以充分利用真实世界场景。

概要设计

素材获取与修复

具体的，对于这个场景的处理办法如果可以把不同照片中的要素自由组合。

如何基于多模态大模型进行智驾训练-AI.x社区

1.分离：将图片中的各个元素分离。在我们这个例子中，图片被分离出：驾驶舱、自然道路、桩头、红绿灯、对向车辆。情况下，道路中还可能会出现临时的障碍物，如人，动物等。

2.修复：因为自然图片当中多个图层之间互相重叠遮挡。导致图片信息损失，各子元素分离后还需要进行修复。才能获得完整的原素材。

3.入检索库：因为不同素材所具备的属性不同，所以他们需要在不同的逻辑库中进行存储，用以区分。这样，检索时，更可以根据他们的不同差异化的特征维度获取到合适的组合材料。

4.重构：将子素材进行总和。这一步特别的，需要关注各组素材在自然空间中的位置限制、比例大小，进行符合现实的拼装。

5.光影恢复：因为原素材所在环境存在差异，将不同素材拼装后，还需要根据环境光影特点对图片中的内容进行一次恢复。

如何基于多模态大模型进行智驾训练-AI.x社区

可组合子元素的额外属性分析标记

为了开发一个系统，通过理解文字来检索图片素材并将这些素材组合用于自动驾驶图像输入，需要确保素材组合后符合自然特征。为了实现这一目标。在从原始素材库中分离可组合子元素时，不光需要关注图像分割的准确性，还需要关注从原图像环境中提取出元素的其他特征。如：

车舱前景‌：为了可以和其他元素在空间上配合自然，需要标注车宽、车高、车辆品牌、配置标签。
道路背景‌：为了固定设施障碍在道路上合理布置，需要标注道路图片的透视点、可行区域、十字路口、信号灯布置点灯信息。
固定设施‌：固定设施如红绿灯。因为不同的红绿灯的安装方式存在较大差异，出现的位置是有严格限制且不一致。分离元素时需要对这些特殊的元素进行分类记录。
临时障碍物：这类障碍物出现的位置较随意。需求从原图中的透视关系中分析出图像的基准大小。
o移动物‌：移动物主要是人、动物灯，除了分析临时障碍物，还需要分析运动方向，动作姿势、物体种类。

如何基于多模态大模型进行智驾训练-AI.x社区

文生图的query（请求）分析

在收到用户请求时，这里自然语言可能会存在信息缺失的问题，但是在组图前，我们必须对全部实体属性赋值。为了解决这些问题。我们需要从自然语言中理解并分解需求，最终转化成知识图谱。如下图中展示的案例：一段 “关于十字路口场景” 文生图的描述文字。

如何基于多模态大模型进行智驾训练-AI.x社区

原始文本：“这是一个十字路口的场景，前方绿灯，限速30，但是路上有锥形桶，无法通行。”

1.‌文本提示与核心对象提取‌：

背景‌：路，标签是：十字路口。但是没有给出车辆所在车道。也没有说明在十字路口走出多远。
障碍‌：桩桶。但是没有数量和位置。
红绿灯‌：位置在前方，当前状态为绿色。
限速牌：限速30‌。

2.属性补齐：通过理解文本中的场景描述，系统补全了各对象的属性，形成了完整的知识图谱。

背景‌：推测出相关属性 —— 从停止线走出十字路口10%、在直行车道上。
障碍‌：推测出相关属性 —— 装桶数量（2）、位置（右侧路中）。
限速牌‌：按推测出相关属性 —— 位置在前方右侧。

人工交互修订校对

找到合适的视觉或数据素材后，还需要按照具体需求将这些素材进行拼装和调整。我们还提供了一部可选的人工干预的步骤：

如何基于多模态大模型进行智驾训练-AI.x社区

为此，我们还有一个人工交互调整生成图片的干预选项。这里面对于交互的优化有

固定设施可以选择显示或者隐藏。
固定设施可以通过修改属性更改外观、形态和固定位置。
对于障碍物，移动物，可以自由变换。
物体移动的时候，会根据透视关系自动调整大小。

实现路径

1. 从简单开始：先尝试为特定的长尾场景（如“遮挡的行人”）生成数据，而不是生成整个驾驶场景。
2. 建立评估流程：严格进行A/B测试，比较“只用真实数据”和“真实数据+生成数据”训练的模型性能。
3. 工具链搭建：构建一个集成了提示词生成、多模态模型调用、数据后处理和自动评估的端到端工具链。

如何基于多模态大模型进行智驾训练-AI.x社区

发展趋势和挑战

3D世界模型集成：未来的趋势是将2D生成与3D神经渲染和世界模型（如NeRF、GAIA-1、GenSim）结合。先在3D空间中生成一个一致的、可驾驶的动态场景，然后再渲染出多视角、多时间步的2D图像，从根本上解决时空一致性问题。
仿真与生成的融合：在游戏引擎（如Unity、Unreal Engine）中构建基础场景，然后利用大模型进行场景内容填充和纹理风格化，结合两者的优势。
闭环数据生成：自动识别自动驾驶模型在测试中失败的具体案例（例如，未能检测到雨中的行人），然后针对性地生成大量类似场景的数据，用于模型的迭代增强。

总而言之，基于多模态大模型生成智驾训练数据是一条极具潜力的捷径，但它目前还不能完全替代真实数据，而是作为真实数据的有力补充和增强，特别是在解决长尾问题和极端场景方面，它能发挥不可替代的价值。

本文转载自数智飞轮作者：蓝田

标签

多模态大模型

智驾训练

已于2025-10-14 09:54:22修改

51CTO

51CTO博客

51CTO学堂

如何基于多模态大模型进行智驾训练原创