快手Kwai Keye-VL多模态大模型模型架构、训练策略、数据情况 原创

发布于 2025-7-8 09:36
浏览
0收藏

模型架构

快手Kwai Keye-VL多模态大模型模型架构、训练策略、数据情况-AI.x社区

Keye-VL和经典的MLLM架构类似,由ViT+MLP+LLM组成。视觉侧有两点可以看看:

1、具有原生分辨率的视觉编码器

提到,MLLMs使用预训练的固定分辨率ViT作为视觉编码器。然而,这些ViT通常是为处理粗粒度的图像-文本匹配任务而设计的,而MLLMs需要处理更细粒度的生成任务。因此,Kwai Keye-VL模型实现了一个原生分辨率的ViT,以自然地处理原始分辨率的图像,避免复杂的图像拼接或分割操作。

具体实现,Kwai Keye-VL的ViT是基于SigLIP-400M-384-14进行初始化。为了保持图像的结构完整性和细节,模型采用了插值技术将固定的位置嵌入扩展为自适应分辨率的位置嵌入,并引入了二维旋转位置嵌入(RoPE)来增强视觉信息的建模能力。

2、视觉编码

为了确保语言解码器能够充分感知和理解图像和视频中的视觉信号,模型为图像和视频建模保留了足够的token缓冲区。

对于不同分辨率的图像,每个图像的总token数设置为16384,这足以覆盖超过一百万像素的图像,并帮助模型在大多数情况下看到图像的细节。对于视频建模,模型设计了一种动态分辨率策略,平衡了最大帧数和总token数。

训练策略

预训练

1、训练数据概述

模型使用了超过600B token,来源包括公共数据集和专有的内部数据。训练数据主要涵盖六个类别:图像字幕、OCR和VQA、定位和计数、交错文本-图像、视频理解和纯文本数据。

2、预训练管道

预训练采用了四阶段的渐进式训练策略,如下图:

快手Kwai Keye-VL多模态大模型模型架构、训练策略、数据情况-AI.x社区

  • 阶段0:视觉预训练
    预训练视觉编码器,以使其适应内部数据分布并支持动态分辨率。
  • 阶段1:跨模态对齐
    语言模型从Qwen3-8B初始化,在此阶段,视觉和语言模型的参数被冻结,专注于优化投影MLP层。通过大规模数据集建立跨模态特征的强对齐,为后续学习阶段奠定基础。
  • 阶段2:多任务预训练
    解冻所有模型参数,进行端到端的优化,使用多样化的多任务训练数据。数据涵盖了常见的视觉-语言任务,如图像字幕、OCR、定位、VQA和交错图像-文本数据,显著增强了模型的基本视觉理解能力。
  • 阶段3:退火
    在此阶段,模型在精选的高质量数据上进行微调,目标是解决在大规模训练中缺乏高质量样本暴露的问题。通过优化的学习策略和数据混合,进一步细化模型的细微理解能力。
  • 模型合并
    在预训练的最后阶段,探索同质-异质合并技术,通过平均不同数据混合的模型权重,减少整体偏差并增强模型鲁棒性。

后训练

快手Kwai Keye-VL多模态大模型模型架构、训练策略、数据情况-AI.x社区

后训练过程分为两个阶段,训练模型的综合能力。初始阶段专注于建立自然图像理解和文本交互的基础性能,后续阶段则集中于逐步增强模型的复杂推理能力。

1、无推理训练:建立基础性能

这一阶段通过两个连续步骤建立模型在非推理场景中的核心性能和稳定性。由sft+mpo两步骤构成,

1.1、SFT

SFT数据候选池包含超过500万个多模态QA样本。为了确保任务的多样性和数据的质量,采取了以下方法:

  • 任务多样性:使用TaskGalaxy框架,将数据分类为70,000种不同的多模态任务类型。
  • 数据挑战性:通过MLLMs生成多个推理路径,测量每个样本的复杂性,过滤过于简单的样本。
  • 数据可靠性:人类注释者为训练集中的图像和视频精心制作字幕。

训练策略包括动态学习率,并在训练后期进行退火处理,以提高性能。

1.2、混合偏好优化(MPO)

MPO可以看看前期文章(《​​​多模态偏好数据集生成与混合偏好优化(MPO)方法​​》),这里不展开。

在SFT之后,模型通过MPO进一步优化其性能。数据集包括开源样本、重建偏好样本、自我改进样本、仅文本样本和人类注释样本。MPO算法用于优化模型在非推理环境中的整体性能。

2、推理训练:复杂认知

快手Kwai Keye-VL多模态大模型模型架构、训练策略、数据情况-AI.x社区

这一阶段通过引入混合模式的CoT冷启动和强化学习机制,显著增强模型的多模态感知、推理和“思考与图像”能力。分下面三步:

2.1、CoT冷启动

此步骤初始化模型的链式思维能力,结合长CoT数据和指示性数据,促进复杂问题的结构化思考,同时保持开放任务的风格多样性和响应灵活性。

2.2、混合模式RL

在CoT冷启动的基础上,使用RL进一步增强模型的能力,特别是在多模态感知、推理和数学推理方面。通过GRPO算法,模型在短视视频理解等任务上表现出显著的性能提升。

2.3、迭代对齐

最后一步通过迭代对齐来解决重复崩溃和逻辑错误问题。使用拒绝采样数据,通过多轮迭代优化模型,使其能够根据任务难度自动选择合适的推理模式。

数据概览

快手Kwai Keye-VL多模态大模型模型架构、训练策略、数据情况-AI.x社区

阶段

子阶段

数据集组成

数据类型

数据来源和构建方法

无推理训练:建立基础性能

监督微调(SFT)

超过500万个多模态QA样本

多样化的任务类型,包括复杂的推理路径

使用TaskGalaxy框架分类为70,000种不同的多模态任务类型;通过MLLMs生成多个推理路径,过滤过于简单的样本;人类注释者为图像和视频制作字幕。


混合偏好优化(MPO)

400,000个开源样本
50,000个重建偏好样本
10,000个自我改进样本
90,000个仅文本样本
30,000个人类注释样本

开源数据、重建偏好数据、自我改进数据、仅文本数据和人类注释数据

- 开源数据进行简单去重和过滤,保留400,000个样本。
 - 重建偏好数据:使用现有多模态偏好数据集(如MM-RLHF),并使用开源大模型生成高质量负例。
 - 强化微调(RFT)数据:针对SFT模型的弱点构建偏好对。
 - 仅文本数据:包括90,000个内部仅文本偏好对。
 - 人类注释数据:使用MM-RLHF流程生成30,000个人类注释偏好对。

推理训练:复杂认知的核心突破

CoT冷启动

330,000个非推理样本
230,000个推理样本
20,000个自动推理样本
100,000个代理推理样本

长CoT数据和指示性数据,结合推理和非推理数据

结合长CoT数据和指示性数据,促进复杂问题的结构化思考。


混合模式RL

多模态感知数据
多模态推理数据
基于文本的数学推理数据
代理推理数据

MMPR、MM-Eureka等数据集,DeepEyes数据集中的47,000个样本

使用MMPR、MM-Eureka等数据集,以及DeepEyes数据集中的样本,通过GRPO算法增强模型的能力。


迭代对齐

来自指令跟随、OCR、数学、图表、计数、仅文本内容、安全和认知领域的拒绝采样数据

拒绝采样数据,用于选择“好案例”和“坏案例”

通过多轮迭代,选择“好案例”和“坏案例”来构建偏好对,使用MPO算法更新模型。

实验

  • ViT的零样本图像分类快手Kwai Keye-VL多模态大模型模型架构、训练策略、数据情况-AI.x社区
  • 公共基准测试

快手Kwai Keye-VL多模态大模型模型架构、训练策略、数据情况-AI.x社区

参考文献:Kwai Keye-VL Technical Report,https://arxiv.org/pdf/2507.01949
repo:https://github.com/Kwai-Keye/Keye

本文转载自​​大模型自然语言处理​​   作者:余俊晖

©著作权归作者所有,如需转载,请注明出处,否则将追究法律责任
收藏
回复
举报
回复
相关推荐