屠榜多模态!谢赛宁团队用"先理解后生成"策略打造BLIP3-o:60k指令集+DiT双杀VAE!
文章链接:https:arxiv.orgpdf2505.09568代码链接:https:github.comJiuhaiChenBLIP3o模型链接:https:huggingface.coBLIP3oBLIP3oModel预训练数据:https:huggingface.codatasetsBLIP3oBLIP3oPretrain优化数据:https:huggingface.codatasetsBLIP3oBLIP3o60k亮点直击创新架构设计:首次采用扩散Transformer生成CLIP语义特征,突破传统VAE局限,实现高效训练与高质量生成。分阶段训练策略:通过“理解优先,生成扩展”的序列化训...