
Seed1.5-VL技术报告解读 原创
字节最新发布了一个强悍的闭源多模态大语言模型Seed1.5-VL,其技术报告内容简非常坦诚,值得一读。笔者将在本文带大家按文章的写作顺序,一步步精读这篇技术报告。
概述
https://arxiv.org/abs/2505.07062
Seed1.5-VL由一个拥有532M参数的视觉编码器和一个拥有20B活跃参数的MoE LLM构成,在60个多模态视觉语言模型的Benchmark中有38个达到了SOTA。在GUI、视频理解、视觉推理中表现出了极强的性能。目前Seed1.5-VL是一个商用模型,已经开放收费API使用,但并不开源。
模型结构
首先Seed1.5-VL的模型结构依然是典型的VLM构造,一个原生动态分辨率的Seed-ViT作为图像编码器,与Qwen2-VL类似,使用2D RoPE位置编码,接着是一个MLP Adapter,最后连接到一个自回归的LLM。(关于视觉编码器的输入分辨率问题,可参考本号的高分辨率MLLM系列:通向高分辨率VLM (11): VILA-HD)
固定的分辨率在实际应用中面临诸多问题,尤其是OCR等需要图像细节的任务性能会受到巨大影响,为应对图像输入分辨率的挑战,本文开发了原生分辨率的视觉编码器Seed-ViT。
Seed-ViT预训练流程分为三个阶段:(1)带有2D RoPE的掩码图像建模(Masked Image Modeling,MIM),(2)原生分辨率对比学习,以及(3)全模态预训练(Omni-modal Pre-training)
在第一阶段,训练目标是通过MIM增强对视觉几何和结构意识的视觉感知能力。我们利用EVA02-CLIP-E作为教师模型,学生模型则按照表1中定义的架构随机初始化。在训练过程中,随机掩盖75%的图像块以及相应的RoPE位置编码,并使用教师产生的CLIP特征作为重建目标。这一过程通过学生和教师输出的余弦相似性损失进行优化。作者发现,学生和教师模型之间在视觉位置嵌入上的差异并不会损害性能,因为教师使用可学习的位置嵌入,而学生使用2D RoPE。相反,2D RoPE赋予学生强大的原生动态分辨率识别能力。随着我们扩大这一MIM过程的规模,VLM在图表/文档理解和OCR方面的能力得到了显著提升。
在对比学习阶段,视觉编码器使用我们经过MIM训练的学生模型进行初始化,而文本编码器则使用EVA-02-CLIP-E中的文本编码器进行初始化。对于每一对给定的图像-文本对,我们使用注意力池化将视觉编码器提取的块特征pooling成一个1280d的图像embedding。然后通过联合优化SigLIP Loss和SuperClass Loss来实现图像和文本嵌入之间的对齐。
最后一个全模态预训练阶段,采用了MiCo框架,从视频数据中构建包含视频帧、音频、视觉字幕和音频字幕的对齐元组。ViT对视频帧和音频进行编码,而一个单独的文本编码器处理字幕。通过对这些嵌入进行对齐,ViT学习统一的全模态表示。尽管这一阶段仅消耗了整个ViT预训练过程中训练数据token量的4.8%,但它显著提高了ViT在图像和视频理解任务上的性能。
在对视频输入的处理中,Seed1.5-VL引入了动态采样分辨率,来高效处理不同长度和信息密度的视频,最大预算为每段视频81920个token,可以灵活使用更高分辨率处理较少的帧,或者使用更低分辨率以容纳更长视频中的更多帧。
预训练数据工程
我们都知道,除了Infra之外,大模型算法的核心在于“数据工程”,虽然常被贬低为“洗数据”,被精通公式推导和电路图绘制的学者们看不起。但不可否认的是,数据工程直接决定了模型的能力上下限。让我们先看一下Seed1.5-VL在预训练阶段是如何做数据工程的。
Seed1.5-VL的预训练语料库用到了3万亿(3T)token数,要知道,顶尖的大语言模型的预训练一般也才10-30T的token数目,对于下游多模态预训练而言,3T的token数非常的惊人。
通用任务的图像文本对,用于注入视觉知识,通过对知识长尾分布进行一定的平衡,确保稀有视觉概念有足够的训练迭代。这个重平衡策略在预训练中非常关键。
为验证这一观察,研究者使用Biotrove数据集进行了沙盒实验
- Random-46M:从训练集中随机选择4600万样本。
- Max1k-46M:选择4600万样本,每个物种最多1000个样本,确保包含稀有物种。
- Max100-15M:选择1500万样本,每个物种最多100个样本,增加稀有物种的相对曝光。
实验结果表明,Random-46M配置在稀有物种识别上表现不佳。相比之下,限制常见物种的最大样本数(Max1k-46M)显著提高了稀有物种的性能。进一步限制常见物种的代表性(Max100-15M)增强了对稀有物种
的记忆,但对常见物种的识别产生了不利影响。因此,有效地获取视觉知识需要在保持常见视觉概念的多样化示例的同时,确保稀有视觉概念有足够的训练迭代。
OCR数据。OCR任务已经成为了多模态大模型的兵家必争之地,能极大扩展MLLM的应用场景。在训练Seed1.5-VL时采用了大量的OCR标注数据和合成数据。
作者构建了一个包含超过10亿样本的OCR训练数据集,涵盖文档、场景文本、表格、图表和流程图,如上图所示。
Grounding(定位)和计数任务数据。主要利用了三种数据类型:边界框标注、点标注和计数数据。
3D空间稀疏理解类的数据。为了使模型能够从单张图像中理解三维空间,构建了针对以下三个任务的数据:相对深度排序、绝对深度估计和三维定位。
视频数据。包含通用视频理解数据、时间定位和检索数据、视频流数据(交错问答和实时评论等)
STEM数据(科学、技术、工程、数学)。收集了320万高质量教育定位样本,涵盖数学、物理、化学、生物等300个类别。合成1000万张不同格式的结构化表格,生成450万张化学结构图,制作150万张合成坐标系图(包括函数图和位置图)。特定子集K12描述数据:10万张教育图像的人工标注描述,100万对视觉问答(VQA)对,100万张机器生成描述,数十万张几何描述。处理了超过1亿的K12水平练习题。补充了数千万中国成人教育问题和数百万图像相关问题。采用混合采集策略:人工标注、自动化合成、严格质量控制。确保多模态覆盖(文本、视觉、图表),涵盖数学、物理、化学等核心STEM领域。
GUI数据。也是MLLM最常见的应用场景,即GUI操控。为了支持强大的GUI感知、基础和推理,作者制作了一个跨web、应用程序和桌面环境的大规模数据集。每个截图都与通过自动解析和人工辅助探索收集的结构化元数据元素类型、边界框、文本和深度配对。
预训练配方
模型包含三个主要模块:视觉编码器、MLP适配器和语言模型。在视觉语言模型(VLM)预训练阶段之前,视觉编码器会进行独立训练。语言模型初始化自一个内部预训练模型,该模型拥有大约200亿活跃参数。该语言模型采用仅解码器的MoE架构,并已在包含数万亿高质量纯文本标记的大型语料库上进行训练。我们的VLM预训练方法分为三个不同的阶段
- 阶段0:通过仅训练MLP适配器,同时冻结视觉编码器和语言模型,来使视觉编码器与语言模型对齐。跳过这一阶段会导致损失略高,性能稍差。
- 阶段1:所有模型参数均可训练。这一阶段专注于知识积累,通过在包含3万亿标记的多模态语料库上进行训练,掌握模型的视觉定位和OCR能力,该语料库主要由标题、交错的图像-文本、视觉定位和OCR数据组成。经实证发现,添加少量纯文本标记(例如5%)可以保持模型的语言能力。此外,添加少量指令跟随数据可获得更可靠的评估结果,从而将预训练开发与后训练分开。
- 阶段2:我们在不同任务之间创建更平衡的数据混合,并添加来自新领域(如视频理解、编程和3D空间理解)的数据。此外,我们将序列长度从32,768增加到131,072,以便更好地适应视频中的长依赖关系和复杂推理问题的建模。与阶段1一样,所有模型参数均可训练。
后训练
后训练阶段通过监督微调(Supervised Fine-tuning, SFT)和强化学习(Reinforcement Learning, RL)的结合,为Seed1.5-VL赋予了强大的指令跟随和推理能力。这一过程从一个在冷启动数据上训练的SFT模型开始。一个关键组成部分是数据管道,它持续收集困难且多样化的提示,这些提示通过拒绝采样改善SFT数据并输入到RL中。后训练以迭代的方式进行:SFT模型通过提炼RL模型在多样化提示上的学习成果而逐步得到增强。这种迭代改进持续进行,直到提示池耗尽且性能指标收敛为止。最终,这一过程产生了Seed1.5-VL,它既能生成快速简洁的回复,也能生成具有长链推理(Long Chain-of-Thought, LongCoT)的深入回答。
监督微调(SFT)阶段是为Seed1.5-VL在强化学习之前配备基础的指令跟随和推理能力的关键。SFT数据集包含两个主要部分,分别针对不同的能力。第一部分是通用指令数据,训练Seed1.5-VL处理多样化和复杂的指令,重点是生成简洁准确的回复。第二部分是长链推理(LongCoT)数据,专注于生成详细、逐步的推理过程。这些数据通过提示工程和拒绝采样生成。
在SFT数据构建的初始阶段,我们的目标是使模型能够应对广泛的应用场景。为此,我们根据传统视觉任务的分类和视觉语言模型的实际应用需求,开发了一个模型能力分类体系。基于这个分类体系,我们通过众包从互联网收集图像,并生成约1.3万条高质量的指令调整数据,每条数据包括一个提示和相应的回复。这些初始回复旨在与人类偏好高度一致。
为了进一步提升模型的性能,我们还纳入了额外的3万条高质量数据样本,这些样本来自研究社区。这些样本是从我们精心收集的包含约150万条条目的开源库中筛选出来的。最初,我们使用专有的图像-文本嵌入模型将图像-文本对聚类到特定任务的类别中。这种聚类使得数据集能够在各种任务中保持高度的多样性。随后,我们利用与人类偏好对齐的训练有素的SFT模型,在这个采样子集上进行多次模拟。生成的回复通过LLM作为评判进行过滤,以原始真实值为参考,判断模型生成的回复的正确性。在此基础上,我们进一步采用奖励模型从保留的结果中筛选出最符合人类偏好的回复,从而获得最终的拒绝采样微调数据。最终,我们将SFT数据中的开源数据量从150万压缩到大约3万条高质量数据。其余的开源数据则在预训练阶段提前使用。
对于RLHF阶段,为训练奖励模型,收集了人类标注的偏好数据,使用5级评分系统比较候选模型响应,并使用偏好强度细化合成数据。
我们的在线强化学习实现采用PPO算法变体,奖励信号来自奖励模型对生成答案token的概率。在PPO训练期间,奖励模型参考真实答案或SFT模型的最佳N个答案。
评测
Seed-VIT是一个体积小且性能优异的视觉编码器
Seed1.5-VL最终取得了非常多VQA榜单的SOTA
本文转载自思源数据科学 作者:思源Source
