文心一图:透明度和图层感知的开放扩散模型
Qwen-Image-Layered: transparency and layer aware open diffusion model

原始链接: https://huggingface.co/papers/2512.15603

## Qwen-Image-Layered:通过分解实现一致的图像编辑 最近的图像生成模型在一致性编辑方面面临挑战,因为栅格图像本身具有复杂性。受分层设计工具的启发,**Qwen-Image-Layered** 引入了一种新的扩散模型,它将单个图像*分解*为多个独立的 RGBA 图层。这允许隔离编辑——对一个图层的更改不会影响其他图层——从而显著提高一致性。 该模型通过三个关键创新实现这一点:用于统一表示的 RGBA-VAE,能够处理可变图层数量的 VLD-MMDiT 架构,以及多阶段训练策略。至关重要的是,一个新的数据集,包含从 Photoshop 文档中提取的带注释的多层图像,解决了训练数据不足的问题。 实验表明,Qwen-Image-Layered 在分解质量方面优于现有方法,并建立了一种新颖的、一致且直观的图像编辑方法。

## Qwen-Image-Layered:一种新型开源扩散模型 Qwen-Image-Layered 是 Qwen Image 团队发布的一种新型开源(Apache 2.0 许可)扩散模型。 与许多现有模型不同,它独特地理解图像透明度(RGBA)以及,至关重要的是,**图像图层**——模仿了创意专业人士在 Photoshop 和 Figma 等程序中的工作方式。 这使得能够生成具有不同前景和背景元素的图像。 该模型的发布分两个阶段进行:首先是研究论文,然后是代码和权重。 一个关键的技术方面是“多阶段训练”策略,允许现有图像模型适应图层理解,以及用于处理 Photoshop .PSD 文件的流程。 目前,该模型将图层输出为 PowerPoint 演示文稿(使用 python-pptx)或单独的 PNG 文件。 用户正在探索 ComfyUI 等工具中的工作流程,但最初的 Civitai 工作流程并未成功。 性能各异,报告从高端硬件上的 1 分钟到使用 Cloudflare/Replicate 的 8 秒不等。 **资源:** [HuggingFace 论文](https://huggingface.co/papers/2512.15603), [HuggingFace 模型](https://huggingface.co/Qwen/Qwen-Image-Layered), [GitHub](https://github.com/QwenLM/Qwen-Image-Layered)
相关文章

原文

Recent visual generative models often struggle with consistency during image editing due to the entangled nature of raster images, where all visual content is fused into a single canvas. In contrast, professional design tools employ layered representations, allowing isolated edits while preserving consistency. Motivated by this, we propose \textbf{Qwen-Image-Layered}, an end-to-end diffusion model that decomposes a single RGB image into multiple semantically disentangled RGBA layers, enabling \textbf{inherent editability}, where each RGBA layer can be independently manipulated without affecting other content. To support variable-length decomposition, we introduce three key components: (1) an RGBA-VAE to unify the latent representations of RGB and RGBA images; (2) a VLD-MMDiT (Variable Layers Decomposition MMDiT) architecture capable of decomposing a variable number of image layers; and (3) a Multi-stage Training strategy to adapt a pretrained image generation model into a multilayer image decomposer. Furthermore, to address the scarcity of high-quality multilayer training images, we build a pipeline to extract and annotate multilayer images from Photoshop documents (PSD). Experiments demonstrate that our method significantly surpasses existing approaches in decomposition quality and establishes a new paradigm for consistent image editing.

联系我们 contact @ memedata.com