
多模态大模型统一布局生成方法微调数据集设计及模型架构统一训练思路 原创
现有布局生成方法多针对特定任务(如海报设计、文档布局等),缺乏跨任务的灵活性和通用性,难以统一处理不同场景下的布局需求。
布局生成任务的分类,多样的布局生成任务可分为四类:(a) BFEF(无背景与无元素), (b) BCEF(背景约束与无元素), (c) BFEC(无背景且元素约束) 和 (d)BCEC(背景约束与元素约束)。不同任务需要不同的模型,这缺乏灵活性。在每个任务内部,存在指标性能与人类感知之间的差异:(“生成布局 1”)指标较好但人类感知布局较差,与(“生成布局 2”)指标较差但人类偏好布局形成对比。
现在来看一个使用多模态大模型的方法,统一生成布局。
Layout-HF100k 数据集概述
所提出的 Layout-HF100k 示例。前两行展示的是合格样本,其余则为不合格样本,不合格部分以红色虚线标出
数据规模:总计10万样本(9.6万训练+0.4万测试),分布如下:
任务类型 | 样本量(训练/测试) | 核心约束 | 场景 |
BFEF | 1.9万/0.1万 | 无背景/元素内容 | 文档排版 |
BCEF | 3.1万/0.1万 | 给定背景,自由元素 | 固定背景海报 |
BFEC | 1.9万/0.1万 | 自由背景,给定元素(产品+文案) | 电商海报 |
BCEC | 2.7万/0.1万 | 给定背景+元素 | 复杂营销海报 |
数据来源:整合公开数据集(CGL-Dataset、PubLayNet)+ 自研EP-Layout(电商场景),确保多样性。
方法
- 输入:多模态输入(背景图/元素图 + 文本指令 )。
- 输出:符合人类审美的布局 (坐标+类型),附带评估分数和推理过程(CoT)。
Uni-Layout 由统一布局生成器、人类模拟评估器、动态边际对齐机制(DMPO) 三大模块,系统性解决布局生成的通用性、评估的人类对齐性,以及生成-评估闭环优化问题。本文仅看一下统一布局生成器设计:
1.1 统一指令设计
指令设计结构
任务描述(T) + 背景属性(b_a) + 背景内容(b_c) + 元素属性(e_a^m) + 元素内容(e_c^n) + 输出格式(O)
指令示例
1.2 模型结构与训练
基于 LLaVA 的多模态大模型(MLLM),通过 next-token 预测生成布局序列 。目标最小化布局 token 生成的负对数似然,支持跨任务(BFEF/BCEF/BFEC/BCEC)的统一训练。损失函数:
实验性能
对齐前后效果对比
针对背景无关与元素无关任务的不同布局生成 Model 对比
不同布局生成 Model 在背景约束与元素约束任务(左)、背景约束与元素自由任务(右)中的对比
针对背景自由与元素约束任务的不同布局生成 Model 对比
对齐前后效果对比。不合格部分以红色虚线标注。
Uni-Layout 生成的布局示例
Uni-Layout: Integrating Human Feedback in Unified Layout Generation and Evaluation,
本文转载自大模型自然语言处理 作者:llmnlp
