天塌级更新！阿里开源图像新模型Qwen-Image-Layered，能达到PS级图层效果

2026-02-12 09:40:11来源：网络作者：admin

12月22日消息，阿里开源了全新的图像生成模型Qwen-Image-Layered，该模型首次在模型内部实现了类似PS级别的图层理解与图像生成功能。

千问新模型运用自主研发的创新架构，能够把图片“拆解”为多个图层，如同专业设计师借助Photoshop进行分层作图与修图一般，可达成近乎“零漂移”的AI图像精准编辑效果，从根本上攻克AI生图的一致性难题，推动大模型在专业设计领域的实际落地进程。

Qwen-Image-Layered突破了主流视觉大模型的“扁平式思维”局限，借助“分层”与“补全”的方式构建起对现实世界更精准的“物理式理解”，推动AI从平面的“看图描述”进阶到真实的“空间重构”层面。

在当下的视觉大模型领域里，图像一致性编辑一直都是核心难题。AI生成图像具备创意性，可进行编辑却十分困难，这主要是由于大模型对图片的认知是平面化的，仅仅是把众多像素点紧密地结合在一起，没办法像人类那样去感知图像里物体的前后距离、相互遮挡等物理层面的关系。

因此，让大模型进行图像生成与编辑就如同抽卡“开盲盒”：例如你希望将画中的猫向左移动10厘米，可AI根本不清楚猫左移后空出的背景区域该呈现何种内容，只能重新生成一次，结果猫和背景都变得完全不一样了。

这种“牵一发而动全身”的随机性，使得AI绘图在商业广告设计、UI界面设计、影视后期处理等追求极致精准的专业领域，始终只能充当参考角色，无法真正替代专业工具。

Qwen-Image-Layered 的诞生，标志着视觉大模型正从“像素预测”阶段迈向“结构重组”阶段。千问团队自主研发了全新的RGBA-VAE编码方式，在传统RGB图像基础上增加了用于表示透明度图层的“Alpha通道”，使模型具备了图层认知能力。

同时新模型采用了创新的VLD-MMDiT架构，配合独特的“图层级3D位置编码”，让AI自动“脑补”被遮挡部分的背景纹理，实现对图层和空间的更深入理解和生成。

据了解，为训练这种能力，千问团队从海量的专业Photoshop（PSD）文件中提取真实图层逻辑，让AI从出生起就拥有专业设计师的“分层思维”。

Qwen-Image-Layered模型架构图

业内人士指出，千问新模型将为创意产业带来实质性变革。AI生图不再是死板一块，而成为一个活生生的、可无限调整的素材库。

图片编辑工作无需再依赖复杂精细的人工抠图，AI已原生具备“内在可编辑性”。设计师、动画及影视制作人员能够在确保背景或主体丝毫不变的情况下，对特定图层的构件开展位移、缩放或重绘操作，从而大幅提高数字内容创作的生产效率。

据了解，Qwen-Image-Layered已在魔搭社区和HuggingFace开源，开发者和企业可免费下载商用。

截至目前，阿里巴巴已开源近400个千问系列模型，相关模型的全球下载量已突破7亿次，衍生出的模型数量超过18万个，在开源模型领域位居全球第一。其旗下的通义大模型已为超100万家客户提供服务，在中国企业级大模型调用市场中占据首位，成为中国企业选用最多的大模型。

免责声明：文章图片应用自网络，如有侵权请联系删除