AI Image Editor 越来越接近 Photoshop
AI Image Editor 可以给图片分层了! 阿里巴巴通义千问团队最新开源。将单一 RGB 图像分解为多个语义独立的 RGBA 图层,实现无损、高一致性的端到端图像编辑体验。
输入一张 RGB 图像,输出多个包含透明通道(Alpha)的独立图层。
Qwen-Image-Layered 不仅仅是一个生成模型,它通过模拟专业设计软件的图层逻辑,解决了传统扩散模型在一致性上的痛点。
将普通图像分解为具有语义意义的 RGBA 图层。支持复杂场景、文本和半透明物体的精准分离。
不固定图层数量,支持指定 3层、8层等。更可对单个图层进行递归分解,实现无限精度的层级控制。
每个图层均可独立移动、缩放、删除或重新着色。物理隔离保证了编辑时背景和其他物体的一致性。
支持直接从文本提示词生成多图层图像,为创意设计提供即时可用的分层素材。
与 Qwen-Image-Edit 完美结合,可针对特定图层进行高级重绘(Inpainting)和替换操作。
Apache 2.0 协议。模型权重、代码库、论文全部公开。Hugging Face 和 ModelScope 同步上线。
以上示例展示了模型对复杂图像的分解效果:左侧为输入图像,右侧为分解出的多个RGBA图层(包括透明通道),每个图层对应语义独立的元素(如背景、物体、文本)。
为了处理透明通道,团队设计了统一 RGB 和 RGBA 的变分自编码器,构建了兼容的潜空间表示。
基于 Qwen2.5-VL,采用了支持可变图层数(Variable-Layer)的扩散 Transformer 架构。
从大规模预训练图像生成模型出发,经过精心设计的微调策略,适配到多图层分解任务。
利用真实 PSD 文件构建数据集,确保模型能处理半透明遮挡、复杂图文排版等真实挑战。
from diffusers import QwenImageLayeredPipeline
import torch
from PIL import Image
# 1. 加载模型
pipeline = QwenImageLayeredPipeline.from_pretrained("Qwen/Qwen-Image-Layered")
pipeline = pipeline.to("cuda", torch.bfloat16)
# 2. 准备图像
image = Image.open("test.png").convert("RGBA")
# 3. 设置参数并推理
inputs = {
"image": image,
"layers": 4, # 指定分解为4层
"num_inference_steps": 50,
"resolution": 640,
"true_cfg_scale": 4.0,
}
with torch.inference_mode():
output = pipeline(**inputs)
layers = output.images[0] # Returns list of layers
# 4. 保存图层
for i, layer in enumerate(layers):
layer.save(f"layer_{i}.png")需要 transformers>=4.51.3 和最新版 diffusers