快速看一下GLM-4.1V多模态方面架构和数据方面的特点。
模型架构-核心特点
1、视觉编码器特点

- 初始化模型:AIMv2-Huge作为视觉编码器的基础。
- 3D卷积适配:为提升视频处理效率,参考Qwen2-VL的设计,将原始2D卷积替换为3D卷积。这一改动使视频输入的时间维度下采样2倍,减少计算量;对于单张图像,通过复制图像帧保持处理一致性。
- 动态分辨率支持:
a.引入2D-RoPE到ViT的自注意力层,使模型能够处理极端宽高比(超过200:1)或高分辨率(4K以上)的图像。
b.保留预训练ViT的可学习绝对位置嵌入,并通过双三次插值动态适配不同分辨率输入。具体来说,对于输入图像的每个patch,其坐标会被归一化到[-1,1]范围,再通过插值生成适配当前分辨率的位置嵌入,公式如下:其中,为补丁的整数坐标,和为patch网格的宽和高,为原始位置嵌入表,为双三次插值函数。
2、语言模型解码器特点
- 3D-RoPE扩展:为增强语言模型对空间信息的理解,将RoPE扩展到3D维度,在保留文本处理能力的同时,提升多模态场景下的空间推理能力。
- 视频时间建模:对于视频输入,在每个帧token后插入时间索引token(time index token),通过编码帧的时间戳(如字符串形式)明确告知模型帧间的时间距离,强化 temporal 理解与 grounding 能力。
训练数据与处理特点
1、图像描述数据
包含超过100亿对图像-文本对,来自LAION、DataComp、DFN、Wukong等公开数据集及网页搜索引擎。
处理过程:
- 启发式过滤:基于图像分辨率、纯色检测、字幕长度限制和图像去重等规则,剔除低质量样本。
- 相关性过滤:使用预训练的CLIP模型计算图像-文本相似度,保留分数≥0.3的样本,确保模态语义一致性。
- 概念平衡重采样:参考MetaCLIP策略,基于视觉概念和专有名词的词汇表重新加权数据,缓解web数据中的长尾分布问题,增强概念覆盖度。
- 事实导向的重描述:迭代训练一个事实导向的重描述模型,对原始字幕进行去噪和丰富化,生成更精确、详细的描述,同时保留原始文本的事实准确性。
2、交错的图像-文本数据
来自网页和书籍等,包含图像与文本的复杂逻辑关系和领域知识,但噪声大(如模态错位、信息密度低)。
- 网页数据处理:MINT、MMC4、OmniCorpus等大规模开源数据集。通过CLIP分数过滤语义无关的图像;移除广告、二维码等噪声元素;排除图像密集但文本稀疏的样本(如在线相册)。增强:训练“高知识密度”图像分类器,优先保留学术图表、科学插图、工程 schematic、教学 diagrams 和地图等信息价值高的内容。
- 学术书籍处理:收集超过1亿本数字化书籍,筛选出STEM(科学、技术、工程、数学)领域的相关书籍。使用PDF解析工具深度提取高质量的 interleaved 图文内容。
3、OCR数据
- 合成文档图像:将语言预训练语料的文本用不同字体、大小、颜色和方向渲染,叠加到LAION数据集的图像背景上,模拟实际应用场景。
- 自然场景文本图像:使用Paddle-OCR工具处理海量自然图像,提取文本及 bounding box,保留至少包含一个有效OCR检测的样本。
- 学术文档:参考Nougat方法,从arXiv获取论文,将LaTeX源码转换为HTML后解析为轻量标记语言,按原PDF分页光栅化,生成高质量的PDF渲染与结构化标记配对数据。
4、视觉定位数据
- 自然图像定位:以LAION-115M为基础,使用GLIPv2模型解析图像字幕,自动预测每个名词短语的 bounding box。筛选至少包含两个有效 bounding box 的样本,最终得到4000万条高质量标注。
- GUI定位:从CommonCrawl快照提取URL,通过自动化工具捕获网页截图,并使用Playwright框架与网页深度交互,解析所有可见DOM元素及其在页面上的精确 bounding box。生成1.4亿条针对GUI的指代表达生成与理解任务的问答对,增强模型在GUI环境中的交互和理解能力。
5、视频数据
来源学术、网页和专有来源的多样化视频 corpus。通过细粒度人工标注解决标准字幕中的幻觉和遗漏问题,准确捕获复杂动作和场景文本。采用人机协作流程标注关键电影元素(如相机运动、镜头构图),编码更深层的视觉叙事。移除损坏或无效文件。通过视频和文本嵌入的相似度过滤语义冗余样本,确保训练语料的纯净性。
6、指令微调数据
- 任务覆盖与分类:设计细粒度分类体系,按语义结构和任务目标组织提示词,实现类别特异性预处理和平衡采样。
- 复杂场景增强:针对开源数据集的缺口(如GUI交互、长文档理解),整合带严格结构约束的合成数据,扩展数据多样性和复杂度。
- 数据污染检查:通过人工和自动化审查,防止公开评估基准的数据泄露。
- 数据集规模:5000万样本,涵盖通用视觉感知、多模态推理(如STEM问题解决)、文档密集场景、GUI代理操作和UI编码等,为全场景强化学习提供全面支持。
GLM-4.1V-Thinking and GLM-4.5V: Towards Versatile Multimodal Reasoning with Scalable Reinforcement Learning,https://arxiv.org/pdf/2507.01006v4
本文转载自大模型自然语言处理 作者:llmnlp