Qwen-Image-Layered

AI Image Editor 越来越接近 Photoshop

AI Image Editor 可以给图片分层了！阿里巴巴通义千问团队最新开源。将单一 RGB 图像分解为多个语义独立的 RGBA 图层，实现无损、高一致性的端到端图像编辑体验。

分层原理展示

输入一张 RGB 图像，输出多个包含透明通道（Alpha）的独立图层。

重新定义图像生成与编辑

Qwen-Image-Layered 不仅仅是一个生成模型，它通过模拟专业设计软件的图层逻辑，解决了传统扩散模型在一致性上的痛点。

图像分解 (I2L)

将普通图像分解为具有语义意义的 RGBA 图层。支持复杂场景、文本和半透明物体的精准分离。

可变与递归图层

不固定图层数量，支持指定 3层、8层等。更可对单个图层进行递归分解，实现无限精度的层级控制。

固有可编辑性

每个图层均可独立移动、缩放、删除或重新着色。物理隔离保证了编辑时背景和其他物体的一致性。

文本到多图层 (T2L)

支持直接从文本提示词生成多图层图像，为创意设计提供即时可用的分层素材。

无缝集成

与 Qwen-Image-Edit 完美结合，可针对特定图层进行高级重绘（Inpainting）和替换操作。

完全开源

Apache 2.0 协议。模型权重、代码库、论文全部公开。Hugging Face 和 ModelScope 同步上线。

实际应用展示

精准的语义分解

以上示例展示了模型对复杂图像的分解效果：左侧为输入图像，右侧为分解出的多个RGBA图层（包括透明通道），每个图层对应语义独立的元素（如背景、物体、文本）。

技术亮点

RGBA-VAE

为了处理透明通道，团队设计了统一 RGB 和 RGBA 的变分自编码器，构建了兼容的潜空间表示。

VLD-MMDiT

基于 Qwen2.5-VL，采用了支持可变图层数（Variable-Layer）的扩散 Transformer 架构。

多阶段训练

从大规模预训练图像生成模型出发，经过精心设计的微调策略，适配到多图层分解任务。

高质量数据

利用真实 PSD 文件构建数据集，确保模型能处理半透明遮挡、复杂图文排版等真实挑战。

快速上手

查看完整文档

Python 示例

from diffusers import QwenImageLayeredPipeline
import torch
from PIL import Image

# 1. 加载模型
pipeline = QwenImageLayeredPipeline.from_pretrained("Qwen/Qwen-Image-Layered")
pipeline = pipeline.to("cuda", torch.bfloat16)

# 2. 准备图像
image = Image.open("test.png").convert("RGBA")

# 3. 设置参数并推理
inputs = {
    "image": image,
    "layers": 4,              # 指定分解为4层
    "num_inference_steps": 50,
    "resolution": 640,
    "true_cfg_scale": 4.0,
}

with torch.inference_mode():
    output = pipeline(**inputs)
    layers = output.images[0] # Returns list of layers

# 4. 保存图层
for i, layer in enumerate(layers):
    layer.save(f"layer_{i}.png")

需要 transformers>=4.51.3 和最新版 diffusers

pip install git+https://github.com/huggingface/diffusers python-pptx