
AAAI 2025 | CAD-GPT:面向工业CAD精准建模的多模态大模型
在现代制造业中,计算机辅助设计(CAD)工具已成为工业产品开发不可或缺的关键技术,广泛应用于汽车、航空、电子、机械等多个核心行业。尽管 CAD 极大提升了设计的精度与效率,但其建模过程仍高度依赖人工操作与工程经验,尤其在三维空间建模、结构组合、序列构建等环节对空间推理与几何知识的要求极高。
受到多模态大语言模型(MLLM)技术突破的启发,荐读的论文提出了 CAD-GPT —— 一款具备空间推理增强能力的多模态生成模型,首次实现了从单张图像或自然语言描述出发,直接合成结构合理、语义一致、精确的 CAD 构建序列。
该模型创新性地引入三维建模专用的空间定位机制,将复杂的三维坐标与方向信息映射为离散语言 Token,使语言模型能够在统一的语言空间中表达和推理三维几何结构。CAD-GPT 为工业 CAD 自动化建模提供了全新的技术范式,显著推动了设计智能化与制造效率的提升。
大量实验证明,CAD-GPT 在性能上显著优于当前最先进的 CAD 模型生成方法:在图像输入条件下,CAD-GPT 的中位 Chamfer Distance(CD)降至 9.77,相较于最佳基线 HNC-CAD 降低了 48%,相比 GPT-4 更是降低了 84%。模型生成的有效率(Invalidity Ratio)仅为 1.61%,显著优于其他方法。在文本输入条件下,CAD-GPT 同样展现出卓越表现,CD 距离仅为 28.33,IR 降至 7.43%,比 GPT-4 低 90%。同时在命令与参数准确率上分别达到了 98.73% 和 98.12%,全面领先主流多模态大模型。
解决方案:CAD-GPT 的提出
受到多模态大语言模型(MLLM)突破的启发,团队提出 CAD-GPT —— 一个具备空间推理能力的通用建模大模型。
主要特点:
1. 从图像 / 语言出发,直接生成 CAD 构建序列
2. 引入空间Token机制:三维位置、角度、草图等均离散为语言Token
3. 生成结果更精确,显著优于 GPT-4、HNC-CAD 等主流方法
项目主页与 Demo:https://OpenIWIN.github.io/CAD-GPT/
创新点一:统一建模生成范式
我们提出了一种基于多模态大语言模型(MLLM)的统一生成式范式——CAD-GPT,能够从图像或自然语言输入中精准合成 CAD 建模序列。该范式首次将 CAD 构建任务纳入多模态语言建模框架,通过构建结构化的建模语言空间,实现建模过程的语义统一与端到端表达。模型直接输出符合工业规范的建模指令序列(如草图、拉伸、布尔操作等),避免了传统方法依赖中间表示(如点云、B-rep、潜变量编码)的冗余步骤,显著提升了自动建模的通用性与可控性。
创新点二:精确的空间感知与语言映射机制
为克服 MLLM 空间推理能力弱、3D参数难以编码等挑战,CAD-GPT 引入了一套面向三维建模的空间定位机制,通过空间离散化与 Token 化设计,将三维空间坐标、草图法向角度、二维草图几何等高维参数转换为可学习的语言 Token。该机制包括三类可插拔的空间 Token(Orientation Tokens、3D Localization Tokens、2D Sketch Tokens),配合可学习的位置嵌入模块,使得模型能够在统一语言空间内表达和推理建模几何关系,有效增强了 MLLM 对三维空间的感知能力。
创新点三:在多模态输入和小样本条件下的卓越性能
实验表明,CAD-GPT 在图像和文本条件下均显著优于现有主流方法:在图像输入任务中,模型的中位 Chamfer Distance 降至 9.77,比 GPT-4 降低 84%,无效模型比例仅为 1.61%;在文本输入任务中,模型的命令与参数准确率分别达到 98.73% 和 98.12%,IR 仅为 7.43%。此外,在数据稀缺的条件下,CAD-GPT 依然展现出出色的建模能力,能够在小样本输入场景下生成结构完整、语义合理的 CAD 构建序列,验证了其生成式模型在跨模态建模任务中的鲁棒性与迁移适应能力。
图2. 论文图
问题背景:CAD自动建模的挑战
计算机辅助设计(CAD)是现代工业产品研发与制造流程中的核心工具,广泛应用于机械、汽车、航空航天、电子等多个工程领域。CAD 模型不仅承载了产品结构与参数化信息,也是下游仿真分析、工艺规划和智能制造的基础。
在工业实践中,设计人员通常通过绘制二维草图并执行三维建模操作(如拉伸、切割、布尔运算等)构建复杂的 CAD 模型。然而,这一过程高度依赖专家经验,建模门槛高、效率低,难以满足当前工业对智能化、自动化设计的迫切需求。
当前主流的 CAD 建模自动化方法主要依赖三类路径:
1. 基于点云的逆向建模
2. 基于潜空间编码的生成模型(如VAE / VQ-VAE)
3. 基于语言或图像的条件生成模型
这些方法在一定程度上推进了 CAD 自动建模的发展,但在实际工业场景中仍面临诸多挑战:
•输入模态与建模需求的异构性工业设计任务来源多样,有些来自设计图纸或草图图像,有些来自工程人员的语言描述,但现有方法往往局限于单一模态(如点云或文本),难以适应真实场景中多源输入的建模需求。
•三维空间表达能力的缺失大多数通用语言模型或多模态大模型缺乏建模所需的三维空间推理与表示能力,难以理解和生成精确的空间结构,导致模型重建误差大、结构失真严重。
•缺乏具备泛化能力的基础模型现有 CAD 建模模型多为特定架构下训练,难以迁移到不同类别、不同复杂度的零件建模任务中,缺乏类似“语言模型基础大脑”那样可扩展的 CAD 构建基础模型。
荐读论文《CAD-GPT: Synthesising CAD Construction Sequence with Spatial Reasoning-Enhanced Multimodal LLMs》正是为解决上述关键挑战而提出。该研究提出了一个具备三维空间理解能力的多模态大语言模型,能够在统一架构下从图像或自然语言输入生成结构合理、语义一致的 CAD 构建序列,推动了工业设计自动化范式的变革。
方法概述
(一)CAD-GPT 框架概述
CAD-GPT 引入了三维建模空间定位机制,将传统 CAD 参数(如三维坐标、草图法向角度、二维草图控制点)映射为可学习的语言 Token(如 <An>
、<Pk>
、<SlX>
等),并配合视觉-语言对齐机制与多轮上下文理解能力,使模型能够在统一语言空间中精准表达三维几何关系。
图1. CAD-GPT 模型架构示意图
图1右侧展示了我们提出的空间离散化策略,它将连续的建模空间编码为离散语言结构,从而实现对建模位置、方向和草图内容的端到端控制。
(二)问题定义与理论贡献
在工业 CAD 自动建模领域,现有方法往往:
• 仅支持特定输入模态(如点云、草图图像或文本指令)
• 适配特定建模任务(如轮廓重建、参数提取)
因此,难以实现跨输入形式、跨任务目标的统一建模流程。同时,由于三维空间信息的表达复杂、语义理解与几何推理交织,现有模型普遍缺乏在多模态输入下通用生成 CAD 序列的能力。
本研究的理论贡献在于:
首次将“多模态基础模型”范式引入工业 CAD 生成任务,构建了一个具有高度通用性、跨模态建模能力与空间推理能力的模型框架 —— CAD-GPT。
具体包括以下几方面:
1. CAD 基础模型定义
我们将 CAD 基础模型定义为: 一个通用的多模态生成模型,能够在图像与自然语言等异构输入条件下,通过统一的训练流程与共享参数结构,输出符合工业规范的 CAD 构建序列;该模型无需修改架构,即可支持不同输入模态、建模复杂度和对象类别下的 CAD 建模任务。”
2. 统一输入输出建模机制
CAD 建模任务中,图像、文本与建模序列存在高度的模态异构性与语义差异性。
为此,CAD-GPT:
• 引入空间离散化机制
• 将连续的三维建模参数(如草图起点、方向角、空间位置)映射为离散 Token 序列
• 并统一接入语言模型的词表,使其在语言生成范式下完成建模任务
在理论建模上,CAD-GPT 将建模过程形式化为一个条件序列生成问题,其输出建模序列的生成概率建模为:
图0.1. 公式1
其中可为图像特征、文本指令或空间提示序列。在空间建模任务中,我们进一步将建模动作拆解为“空间定位序列”与“结构生成序列”,分别定义如下:
图0.2. 公式2
自监督 + 多阶段学习范式:CAD-GPT 采用以图文配对为基础的自监督训练范式,先在大量图像-CAD 对与文本-CAD 对上进行阶段式预训练(image2CAD → text2CAD),学习具备空间理解与建模能力的语言结构表示;随后可在少量带标签的领域样本上进行微调,以适配特定场景和任务目标。Prompt 学习与微调机制融合:模型支持通过插入建模指令提示 Token(Prompt Tokens)实现任务驱动的语义引导,同时兼容全参数微调与轻量级 Prompt 微调,具备良好的迁移能力与样本效率,适应多样化设计任务。
综上,CAD-GPT 首次实现了**“跨模态输入-建模任务统一-空间表达融合”的多模态基础模型框架,为工业 CAD 建模从“特定模态+专家知识驱动”向“通用建模+语言生成驱动”转变提供了明确的理论定义与技术路径。
(三)CAD-GPT 的核心创新
统一的 CAD 建模生成范式:本文提出了一种基于语言生成范式的 CAD 建模新框架,首次实现了多模态输入(图像或自然语言)到结构化建模指令的统一映射。模型采用条件语言建模结构,将 CAD 构建任务形式化为自回归生成过程,统一处理拉伸、草图、布尔操作等核心建模指令,显著提升工业建模系统的通用性和灵活性。
三维建模空间定位机制:为增强模型的三维空间感知与表达能力,本文设计了空间推理增强机制,提出三类建模专用 Token(空间位置 Token、方向角 Token、草图几何 Token),并引入可学习的位置嵌入以桥接连续空间与语言空间的差异。该机制将连续几何信息离散化嵌入语言模型词表,构建了统一可控的三维建模语言空间,从而实现从输入到建模过程的全闭环生成。
在多模态输入与小样本条件下的统一建模性能表现:CAD-GPT 在图像和文本输入两类任务中均显著优于现有最先进(SOTA)模型。在图像输入任务中,模型的中位 Chamfer Distance 降至 9.77(相比 GPT-4 降低 84%),有效率 IR 降至 1.61%;在文本任务中准确率提升至 98.7%,IR 仅为 7.43%。此外,模型在小样本建模任务中亦表现优异,仅凭少量示例即可完成结构一致性高的构建序列生成,体现出极强的迁移能力与泛化能力。
图2. 空间建模定位机制
(四)实验数据集与设置
1)数据集信息论文在多个精心构建的 CAD 建模数据集上对 CAD-GPT 框架进行了系统评估,涵盖图像建模(Image-to-CAD)和文本建模(Text-to-CAD)两种任务设定:
• 图像建模任务:基于 DeepCAD 原始模型,构建了 160,000 张单视角渲染图像与对应 CAD 构建序列对,用于训练图像到建模序列的映射能力。图像采用固定渲染视角,以确保视觉输入的一致性。
• 文本建模任务:通过 GPT-4o 自动生成自然语言建模指令,并结合人工审核,最终筛选出 18,000 条高质量图文对数据,用于训练和评估从语言输入到建模输出的能力。
上述数据集涵盖多种形状类别(几何图形、机械零件、家具组件等),具有高度的结构多样性与语言表达差异,是目前规模较大的多模态 CAD 生成基准资源。值得一提的是,此前从未有工作在统一框架下同时支持图像与文本输入建模任务,CAD-GPT 在多模态数据集上的表现具有代表性与开创性。
2)实验配置所有实验在配备 4 × NVIDIA RTX A800 GPU(每卡 80GB) 的服务器上运行。
•基础语言模型:LLaVA-1.5(基于 Vicuna-7B)
•Transformer 层数:32(继承 Vicuna 架构)
•视觉编码器:ViT-L/14(336px)
训练流程与策略如下:
•批量大小:8 / GPU × 4 GPU
•学习率:2.0 × 10⁻⁵
•训练轮数:72 小时(约 12 epoch)
(五)实验结果与性能分析
1)主要实验结果在构建的数据集上,我们对 CAD-GPT 进行了全面评估,涵盖图像建模(Image-to-CAD)与文本建模(Text-to-CAD)两大任务,并与多种现有代表性方法进行了对比,包括 DeepCAD、SkexGen、HNC-CAD、GPT-4 以及 LLaMA-3.1。实验结果表明,CAD-GPT 在所有评估任务中均显著优于现有最先进算法,展现出卓越的生成精度与结构一致性。
图3. 图片生成效果
•图像建模任务表现(Image-to-CAD):中位 Chamfer Distance(CD)为9.77,比 HNC-CAD(18.64)降低约48%,比 GPT-4(62.64)降低达84%;有效模型比例(Invalidity Ratio, IR)为1.61%,显著优于 GPT-4(64.37%)和 SkexGen(22.32%);命令准确率(ACCcmd)为99.21%,参数准确率(ACCparam)为98.87%。
图4. 一句话生成效果
• 文本建模任务表现(Text-to-CAD):中位 Chamfer Distance 为 28.33,比 GPT-4(187.52)降低约 83%;IR 仅为 7.43%,而 GPT-4 为 76.97%,LLaMA-3.1 达到 98.68%;ACCcmd 和 ACCparam 分别为 98.73% 和 98.12%,在精度与稳定性方面全面领先。
图5. 性能指标
2)计算效率分析为验证模型的实用性与部署能力,我们进一步评估了 CAD-GPT 的推理效率,并分析了关键模块对计算复杂度的影响。
在标准配置下(引入空间 Token 机制与 Prompt 提示机制):
• 模型平均推理时间为7.12ms
• 总 FLOPs 约为85.6 GFLOPs
• 满足大多数工业设计应用场景下的交互式响应需求
进一步分析显示:
•移除三维空间 Token 编码模块后,推理时间下降至3.45ms,但生成模型的结构一致性与几何精度显著下降(CD 上升约2.5 倍)
•关闭 Prompt Token 模块后,模型在图文多样输入条件下的表现稳定性下降,IR 提升3.7 倍,说明该模块对语义对齐与生成控制起到关键作用
总结与思考
荐读的论文提出了 CAD-GPT —— 一个面向工业 CAD 自动建模任务的多模态生成式基础模型。该模型首次在图像与自然语言输入条件下,通过统一架构生成结构化建模指令序列,显著优于当前最先进(SOTA)方法,在多种评估指标上均展现出卓越的准确性、结构一致性与生成稳定性。
CAD-GPT 能够高效处理来自不同模态的输入形式(渲染图、文本指令)、不同结构复杂度的 CAD 模型对象,以及不同类型建模序列的生成目标,充分验证了统一建模方法在工业 CAD 场景中的可行性与实用性。
本研究是首次将基础模型范式引入工业 CAD 构建任务的探索性尝试,初步验证了基础模型在复杂几何生成场景中,亦可如自然语言与视觉任务一样,具备通用性、泛化性与低成本适应能力。论文不仅从理论上验证了构建统一 CAD 建模模型的可行性,更在实践中提出了一个可推广、性能优越的模型框架,为未来工业智能建模系统的发展提供了重要的技术路径与方法参考。
📄 论文链接https://arxiv.org/abs/2412.19663
本文转载自PaperAgent
