
图表代码生成,ChartIR;视频与文本统一多模态模型
Improved Iterative Refinement for Chart-to-Code Generation via Structured Instruction
2025-06-15|SJTU, Shanghai Inno, Lehigh U, BIG AI, BIGAI|🔺8
http://arxiv.org/abs/2506.14837v1
https://huggingface.co/papers/2506.14837
研究背景与意义
- 问题定义与现状概述
多模态大语言模型(MLLMs)在视觉理解领域表现卓越,但在图表到代码生成任务中仍存在明显不足。该任务不仅要求模型精准理解高密度、多维度的图表信息,还需将其准确转化为结构化且可执行的代码。直接利用MLLMs进行此类复杂任务常常效果不佳,暴露出视觉理解与代码翻译两大核心挑战。
- 挑战与目标阐明
当前主流方法存在训练依赖、单一指标优化、优化过程不平衡等问题,限制了模型在图表代码生成上的表现。本文旨在提出一种无训练、模型无关的迭代细化框架ChartIR,通过结构化指令显著提升MLLMs的图表理解与代码生成能力,实现更高的视觉与结构一致性。
研究方法与创新
- 技术框架设计
ChartIR采用两阶段策略:初始代码生成与迭代细化。初始阶段通过多维度的结构化图表描述,辅助模型理解图表的文本、颜色、布局和类型等关键视觉特征。细化阶段则基于生成图表与参考图表的差异描述,指导模型逐步修正代码,提升生成图表的整体质量。
- 创新点详解
- 结构化图表描述机制:区别于传统单一视觉输入,ChartIR引入描述与差异两类指令,将复杂视觉信息转化为模型易理解的语言表示,显著增强模型的视觉语义理解能力。
- 迭代差异驱动的代码细化:通过多维度差异分析,模型能针对具体视觉和结构缺陷进行精准修正,避免了以往单指标优化带来的局部最优问题,实现全方位的图表质量提升。
- 训练自由与模型无关性:无需额外训练即可适配开源与闭源模型(如Qwen2-VL和GPT-4o),保证方法的通用性和实用性。
- 理论基础与优势ChartIR基于视觉-语言转换和迭代优化理论,利用中间结构化表示桥接视觉感知与代码生成的模态鸿沟。相较于现有方法,其多维度描述和综合差异反馈机制使得模型能更全面地理解和修正图表细节,提升了代码生成的准确性和可执行性。
实验设计与结果分析
- 实验设置
采用Plot2Code和ChartMimic两个公开基准数据集,分别评测开源模型Qwen2-VL和闭源模型GPT-4o。对比基线包括直接生成(Direct Generation)和最新的迭代多代理方法METAL。评价指标涵盖GPT-4o主观打分、文本、布局、类型、颜色等低层次视觉指标,以及PSNR、SSIM等传统图像相似性指标。
- 结果表现
- ChartIR在所有指标上均优于基线,GPT-4o模型上GPT-4oScore提升达17%,表明生成图表在视觉和结构上更接近参考图。
- 开源模型Qwen2-VL同样受益显著,尤其在传统图像质量指标和低层视觉指标上提升明显,验证了结构化描述对增强模型视觉理解的有效性。
- 消融实验显示,描述和差异两大模块均为性能提升关键,缺一不可,且二者协同作用最为显著。
- 多场景适用性实验涵盖多种图表类型和复杂布局,ChartIR在多样化场景中均展现出稳定且优越的性能,体现出良好的泛化能力和实用价值。
结论与展望
- 研究贡献总结
本文提出的ChartIR框架通过结构化多维描述结合迭代差异细化,有效解决了图表视觉理解与代码翻译的双重难题,实现了无训练、模型无关的高质量图表代码生成。实验验证了其在开源和闭源模型上的广泛适用性和领先性能。
- 局限性分析
- 计算资源需求较高,尤其在迭代细化阶段,尽管查询次数减少,但整体计算成本仍需优化。
- 对闭源模型的提升空间有限,因其本身已具备较强的图表理解能力,结构化指令的增益相对有限。
- 未来研究方向
- 探索更高效的迭代策略和差异描述生成模型,以降低计算开销。
- 针对闭源模型,设计更具针对性的结构化指令或辅助模块,进一步挖掘其潜力。
- 扩展至更多复杂图表类型及其他视觉到代码转换任务,推动多模态理解与生成技术的发展。
Show-o2: Improved Native Unified Multimodal Models
2025-06-18|NUS, ByteDance, NUS Show Lab|🔺6
http://arxiv.org/abs/2506.15564v1
https://huggingface.co/papers/2506.15564
https://github.com/showlab/Show-o
研究背景与意义
- 研究背景
随着大型语言模型(LLMs)和大型多模态模型(LMMs)的迅猛发展,统一多模态模型(UMMs)成为整合文本、图像及视频理解与生成的关键方向。现有研究多聚焦于文本与图像的融合,尚缺乏对视频模态的高效统一处理。
- 研究意义
本文提出的Show-o2模型,基于3D因果变分自编码器(VAE)空间,通过空间-时间融合机制构建统一视觉表示,突破了以往模型在多模态融合上的局限,实现了文本、图像和视频的原生统一理解与生成,推动多模态模型向更广泛应用场景迈进。
- 挑战与目标
现有多模态模型往往依赖大规模文本语料,且多模态理解与生成能力分离,难以兼顾高效扩展与性能。Show-o2旨在通过双路径融合及两阶段训练策略,既保留语言知识,又提升视觉生成能力,实现统一、高效且可扩展的多模态模型设计。
研究方法与创新
- 统一视觉表示设计
采用3D因果VAE编码器提取图像和视频潜变量,设计双路径架构:语义层(Semantic Layers)提取高层语义信息,投影器(Projector)保留低层细节,两者通过空间-时间融合机制结合,生成统一视觉表示,兼顾多模态理解和生成需求。
- 原生统一多模态建模
结合预训练语言模型,构建包含语言头和流头(Flow Head)的双头架构。语言头负责文本的自回归建模,流头通过流匹配(Flow Matching)实现图像和视频的生成,二者原生集成于单一模型,避免了以往多模型组装的复杂性。
- 两阶段训练策略
- 第一阶段:针对流头和视觉融合模块进行训练,利用66M图文对及视频文本数据,专注视觉生成能力的培养。
- 第二阶段:微调整个模型,结合高质量多模态理解指令和视觉生成数据,确保语言理解与视觉生成能力的协同提升。该策略有效避免了对大规模文本语料的过度依赖,保持语言模型的知识完整性。
- 技术优势与创新点
- 原生支持文本、图像和视频三模态,提升模型的通用性和扩展性。
- 双路径融合机制兼顾语义与细节信息,增强多模态理解与生成效果。
- 流匹配结合自回归建模,创新地融合了两种主流生成范式。
- 两阶段训练方案兼顾效率与效果,降低训练成本,提升大规模模型训练的可行性。
- 对比现有方法
相较于Chameleon、Transfusion和Show-o等模型,Show-o2不仅扩展到了视频模态,还通过原生统一的模型架构和双路径融合机制,显著提升了多模态任务的性能和生成质量。
实验设计与结果分析
- 实验设计
- 数据集:采用66M图文对、视频文本对及高质量多模态指令数据,涵盖丰富场景。
- 模型规模:测试1.5B和7B参数两种版本,验证模型的可扩展性。
- 评测指标:覆盖多模态理解(MME、GQA、SEED-Bench等)和视觉生成(GenEval、DPG-Bench、VBench)多个权威基准。
- 多模态理解性能
Show-o2在多项理解指标中表现优异,1.5B版本在MME-p和MMU-val等指标领先同参数模型,7B版本超越多款7B及更大参数模型,证明统一视觉表示和融合机制的有效性。
- 视觉生成效果
Show-o2在图像生成任务中,凭借仅66M图文对训练数据,达到甚至超越了依赖百亿级数据训练的竞品模型。视频生成方面,Show-o2以2B参数规模实现了对比更大模型的竞争力表现,生成视频在语义连贯性和视觉质量上均表现优异。
- 混合模态生成能力
模型支持交错文本与图像的生成,能够连贯叙述故事,展示了强大的多模态交互能力和生成一致性。
- 消融实验
- 空间-时间融合机制显著提升了理解和生成指标。
- 分类器无关引导(CFG)和推理步数调整对生成质量有积极影响。
- 两阶段训练策略对于最终性能提升至关重要。
结论与展望
- 总结贡献
Show-o2提出了一种原生统一的多模态模型架构,通过双路径空间-时间融合和结合自回归与流匹配的生成机制,实现了文本、图像和视频的统一理解与生成。两阶段训练策略有效平衡了语言知识保留与视觉生成能力,模型在多项多模态理解和生成基准上均取得领先成绩。
- 局限性
当前模型在图像中文字渲染方面表现不足,存在一定的细节生成缺陷,提示未来需要加强视觉细节的表达能力。
- 未来展望
- 引入更高分辨率视觉编码与生成技术,提升细节表现。
- 探索更高效的训练与推理机制,降低计算资源需求。
- 扩展更多模态融合,如音频与三维数据,推动多模态模型向更广泛应用拓展。
- 加强模型在跨语言、多文化背景下的泛化能力,提升实用性与公平性。
本文转载自AI研究前瞻,作者:胡耀淇
