
重磅!黑森林实验室开放 FLUX.1 Kontext [dev]权重,120 亿参数黑科技,重塑图像编辑格局!
迄今为止,所有功能强大的生成式图像编辑模型都只能作为专有工具使用。如今,黑森林实验室发布了 FLUX.1 Kontext [dev],这是FLUX.1 Kontext [pro]的开发者版本,它在一个 120 亿参数的模型中提供专有级别的图像编辑性能,并且可在消费级硬件上运行。
开放模型权重是技术创新的基石。FLUX.1 Kontext [dev]现已作为开放权重模型在 FLUX.1 非商业许可证下发布,可供研究和非商业用途免费使用。FLUX.1 Kontext [dev] 与现有的 FLUX.1 [dev] 推理代码兼容,并提供对 ComfyUI、HuggingFace Diffusers 和 TensorRT 等热门推理框架的即时支持。
主要特点
- 根据编辑指令更改现有图像。
- 具有特征、风格和对象参考,无需任何微调。
- 强大的一致性允许用户通过多次连续编辑来优化图像,同时最大程度地减少视觉漂移。
- 采用指导蒸馏进行训练,FLUX.1 Kontext [dev]效率更高。
- 开放权重以推动新科学研究,并授权开发创新工作流。
- 生成的输出可用于个人、科学和商业目的,如FLUX.1 [dev] 非商业许可证中所述。
结果展示
FLUX.1 Kontext 的文本转图像示例,具有低烘焙度、多样风格和精准的排版。
风格参考。给定一张输入图像,模型提取其艺术风格,并将其应用于生成多样化的新场景,同时保留原始风格特征。
产品摄影。(a)输入图像展示整套服装。(b)提取的裙子,置于白色背景下,采用产品摄影风格。(c)裙子面料的特写,突出纹理和图案细节。
FLUX.1 Kontext 能够利用边界框等视觉提示来编辑文本,同时保持其风格。
连续的面部表情编辑。从参考侧面 (a) 开始,模型首先将拍摄对象重新调整朝向相机 (b),然后将她的表情更改为自然大笑 (c),同时保留背景、服装和光线。
迭代式产品风格编辑。从参考碗 (a) 开始,模型首先在桌面工作室环境中生成一个与之匹配的花瓶,其中插满鲜花 (b),然后 将花瓶的底色更改为黑色,同时保留花卉图案、光线和构图 (c)。
树立开放图像编辑的新标准
FLUX.1 Kontext [dev] 专注于编辑任务。该模型支持迭代编辑,擅长在各种场景和环境中保留角色,并支持精确的局部和全局编辑。
实验评估
为了验证 FLUX.1 Kontext [dev] 的性能,在多个图像编辑基准测试中进行了广泛的评估。
最新发布的图像编辑基准KontextBench上的人类偏好评估表明,FLUX.1 Kontext [dev] 在多个类别中的表现均优于现有的开放图像编辑模型(字节跳动 Bagel、HiDream-E1-Full)和封闭模型(谷歌的 Gemini-Flash Image)。由Artificial Analysis进行的独立评估也证实了这些发现。
针对 NVIDIA Blackwell 架构进行了优化
实验室与 NVIDIA 合作,专为新的NVIDIA Blackwell架构设计了优化的 TensorRT 权重,这大大提高了推理速度并降低了内存使用量,同时保持了高质量的图像编辑性能。
除了原有的 FLUX.1 Kontext [dev] 权重外,还在Hugging Face 代码库中提供了 BF16、FP8 和 FP4 TensorRT 变体,让开发者能够根据自己的用例灵活地平衡速度、效率和质量。
相关链接
- 论文:https://arxiv.org/pdf/2506.15742
- 主页:https://bfl.ai/announcements/flux-1-kontext-dev
- 模型:https://huggingface.co/black-forest-labs/FLUX.1-Kontext-dev
- ComfyUI:https://github.com/comfyanonymous/ComfyUI
- 代码:https://github.com/black-forest-labs/flux
- API 文档:https://docs.bfl.ai/quick_start/introduction
- 自助服务门户:http://bfl.ai/pricing/licensing
- 帮助台:https://help.bfl.ai
unsetunset论文介绍unsetunset
论文展示了 FLUX.1 Kontext 的评估结果,这是一个统一图像生成和编辑的生成流匹配模型。该模型通过整合文本和图像输入的语义上下文,生成新颖的输出视图。FLUX.1 Kontext 采用简单的序列连接方法,在一个统一的架构中同时处理局部编辑和生成上下文任务。与当前在多轮编辑过程中字符一致性和稳定性下降的编辑模型相比,论文观察到 FLUX.1 Kontext 改进了对象和字符的保存,从而提高了迭代工作流的鲁棒性。该模型的性能与当前最先进的系统相当,同时生成时间显著缩短,支持交互式应用程序和快速原型设计工作流。
为了验证这些改进,论文引入了 KontextBench,这是一个全面的基准测试,包含 1026 个图像-提示对,涵盖五个任务类别:局部编辑、全局编辑、字符引用、样式引用和文本编辑。详细评估表明,FLUX.1 Kontext 在单轮质量和多轮一致性方面均表现出色,为统一图像处理模型树立了新的标准
方法概述
实验结果
结论
FLUX.1 Kontext是一个流匹配模型,它将上下文图像生成和编辑功能整合到一个框架中。通过简单的序列连接和训练方案,FLUX.1 Kontext 实现了最佳性能,同时解决了一些关键限制,例如多轮编辑过程中的字符漂移、推理速度慢和输出质量低。
本文转载自AIGC Studio,作者:AIGC Studio
