教程

Z-Image 上手指南：阿里通义开源 AI 图像生成模型实战教程（2026）

作者：Z-Image 编辑部发布于 2026 年 5 月 8 日更新于 2026 年 5 月 8 日约 12 分钟阅读

Z-Image 是阿里巴巴 Tongyi-MAI 团队于 2025 年底开源的文生图扩散模型。这款 60 亿参数的模型采用 Scalable Single-Stream DiT（S3-DiT）架构，原生支持中英双语字体在图内渲染，使用 Apache 2.0 协议开源。其蒸馏变体 Z-Image-Turbo 在 H800 GPU 上生成一张 1024×1024 图像约需一秒，消费级显卡 16 GB 显存即可运行。本文将系统讲清四件事：Z-Image 是什么、怎么部署、提示词怎么写，以及它跟 Midjourney、DALL·E 3 和 Stable Diffusion 在使用层面的实际差异。

Z-Image 是什么？

Z-Image 是阿里巴巴 Tongyi-MAI 团队推出的开源文生图扩散模型家族。大多数开源模型需要 120 亿以上参数才能达到商用级输出质量，而 Z-Image 凭借 Scalable Single-Stream DiT（S3-DiT）架构，仅用 60 亿参数就跨过了这条线。S3-DiT 不再像传统模型那样把文本 token、视觉语义 token 和 VAE 图像 token 分流处理，而是在序列层面把它们拼接起来，输入到一个统一的 transformer 流中。架构细节见技术报告 arXiv:2511.22699。

截至 2026 年 5 月，Z-Image 家族包含四个模型：

Z-Image-Turbo——为速度优化的 8 步蒸馏版本，2025 年 11 月 26 日发布。
Z-Image——基础模型，采样步数 28–50 步，2026 年 1 月 27 日发布。
Z-Image-Omni-Base——同时支持生成和编辑，分阶段开源中。
Z-Image-Edit——针对指令式图像编辑微调，分阶段开源中。

本站嵌入式生成器使用的就是 Turbo 变体。

Z-Image 跟 Midjourney、DALL·E 3、Stable Diffusion 比怎么样？

在第三方基准测试中，Z-Image-Turbo 是 Artificial Analysis 文生图榜单上的开源第 1 名，与商用闭源模型一并排名时位列第 8（截至 2026 年初）。下表汇总了用户实际使用层面的差异。

对比维度	Z-Image-Turbo	Midjourney	DALL·E 3	Stable Diffusion XL
权重开源	✅ Apache 2.0	❌	❌	✅
参数量	60 亿	未公开	未公开	约 35 亿
中英双语图内文字	✅ 原生支持	部分	部分	❌
默认采样步数	8	—	—	25–50
本地运行	✅ ≥ 16 GB 显存	❌	❌	✅
使用成本	免费	订阅	按调用计费	免费（本地）

一句话总结：如果你需要商用级质量、开放协议、并且图内中英文字体能稳定生成这三件事同时成立，Z-Image 是目前第一个真正同时做到的开源模型。

运行 Z-Image 需要什么？

根据手头硬件和目标，你可以从三种方式中选一种来用 Z-Image。

1. 本站免费在线 Demo

打开首页就能直接用嵌入式生成器——无需注册、无需安装、无需 API Key。Demo 通过 Hugging Face Space 调用 Z-Image-Turbo。适合首次尝试和日常生图。

2. 官方 Hugging Face Space

社区维护的 Space 在官方模型外包了一层简洁 UI：huggingface.co/Tongyi-MAI/Z-Image-Turbo。同样的模型、同样的速度，无需安装。当你需要比内嵌 Demo 更多的参数控制时可以用这个。

3. 本地用 diffusers 跑

你需要：

一张 NVIDIA 显卡，显存至少 16 GB（RTX 3090、RTX 4080/4090、A100、H100/H800）。
CUDA 11.8 或更高版本，Python 3.10 或更高版本。
Hugging Face diffusers 库（截至 2026 年 5 月需从 main 分支安装）。
支持 bfloat16 的显卡——这是推荐的精度。

最小可运行示例：

pip install git+https://github.com/huggingface/diffusers
pip install -U transformers accelerate

# Python
import torch
from diffusers import ZImagePipeline

pipe = ZImagePipeline.from_pretrained(
    "Tongyi-MAI/Z-Image-Turbo",
    torch_dtype=torch.bfloat16,
    low_cpu_mem_usage=False,
)
pipe.to("cuda")

image = pipe(
    prompt="A red origami crane on a wooden desk, cinematic lighting",
    height=1024, width=1024,
    num_inference_steps=9,   # 实际只跑 8 次 DiT forward
    guidance_scale=0.0,      # Turbo 必填 0.0
).images[0]
image.save("output.png")

上面这段里有两处特别容易踩坑：guidance_scale=0.0 不是写错——Turbo 在蒸馏阶段已经把 classifier-free guidance 内化了，推理时给任何正值都会让画质变差。num_inference_steps=9 也是对的——调度器会把 step 0 当作热身步，模型实际只执行 8 次 DiT forward。

怎么写出好的 Z-Image 提示词？

多数高质量提示词都包含四个要素。你不必显式标注它们，但一旦输出跟你想象不一致，可以回过头检查是不是哪一项缺失了。

1. 主体——画面里到底是什么？

要具体。"一只狗"很弱。"一只金毛幼犬，一只耳朵耷拉到一边，坐在门廊台阶上"就有效得多。

2. 风格——它看起来像什么？

从模型熟悉的词汇里选：油画、水彩、3D 渲染、动漫、像素艺术、写实摄影、炭笔素描、复古胶片、吉卜力、装饰艺术海报。风格是你能动用的最大杠杆。

3. 光线和氛围

晨光柔和、黄金时刻、正午烈日、霓虹光晕、戏剧性明暗、阴天、雾气弥漫、逆光、烛光。除了风格之外，光线对画面情绪的影响最大。

4. 构图和质量修饰词

近景、广角、俯视、低角度、三分法构图、浅景深。质量词只在必要时加：高细节、清晰对焦、专业摄影。两到三个修饰词足矣，堆砌反而无益。

整合起来：

一只红色折纸鹤摆在木质书桌上，怀斯风格的油画，左侧柔和窗光，近景，浅景深，高细节。

Z-Image 的双语字体渲染是怎么工作的？

这是 Z-Image 最有口碑的能力之一。绝大多数开源图像模型生成不了可读文字——字母糊成一团、单词拼错、中文字符直接乱码。Z-Image 在后训练阶段专门针对中英双语字体做了优化，因此能在第一二次尝试时就把可读的中英字符串放进生成图像里。

想稳定出文字，记住几条：

把要渲染的文字用直引号包起来，比如 "新年快乐"。
指明字体特征——衬线、手写、霓虹、毛笔书法。模型会把字体当作一种风格选项处理。
文字保持简短。一张图里一个词或一句短语效果最好，长段落容易乱码。
同图混合中英时，分别描述各部分。

英文咖啡店招牌示例：

一块复古咖啡店黑板菜单，标题"MORNING BLEND"用大号手写衬线字体，下方写着"$4.50"，边缘装饰着咖啡豆插图。

中国春节海报示例：

红色中国春节海报，正中央是"新年快乐"四个金色书法字，边缘环绕梅花和灯笼，传统水墨画风格。

新手最常见的错误怎么避免？

主体描述太空泛。"漂亮的风景"只会得到一张普通的库存照片。补上地点、季节、天气、前景和背景。

风格相互冲突。"写实动漫水彩 3D 渲染"会让模型不知所措。选一种主风格，再加一两个不冲突的修饰词。

在正面提示词里写否定。写"不要人"有时反而会冒出人。用描述空白处的方式把不想要的东西挤掉，而不是直接否定。

在 Turbo 上设了正的 guidance。用 Turbo 时一定要把 guidance_scale 设成 0.0，num_inference_steps 设成 9。蒸馏过程已经把 CFG 内化，推理时任何正值都会拉低质量。

主体被埋在提示词后段。扩散 transformer 给前面的 token 更高权重——把最重要的细节放在提示词开头。

常见问题

Z-Image 是免费的吗？

是的。Z-Image 采用 Apache 2.0 协议开源，允许个人和商业用途免费使用、修改和再分发，模型权重和生成的图像都可以自由使用。

Z-Image 是什么时候发布的？

Z-Image-Turbo 于 2025 年 11 月 26 日发布，完整的 Z-Image 基础模型于 2026 年 1 月 27 日发布。

Z-Image 是谁开发的？

Z-Image 由阿里巴巴通义实验室的 Tongyi-MAI 团队研发，并在 GitHub 和 Hugging Face 开源发布。

Z-Image-Turbo 为什么这么快？

Turbo 版本通过两项作者称为 Decoupled-DMD（带 CFG 增强的分布匹配蒸馏）和 DMDR（DMD 与强化学习融合）的技术，从基础模型蒸馏而来。这套方法把原本需要 28–50 步的生成压缩到 8 个 NFE，质量损失极小。

本地运行 Z-Image 需要什么硬件？

一张至少 16 GB 显存的 NVIDIA 消费级显卡（如 RTX 3090、RTX 4080 或 RTX 4090），CUDA 11.8 或更高版本，Python 3.10 或更高版本，以及支持 bfloat16 的 GPU。在企业级 H800 上，Z-Image-Turbo 生成 1024×1024 图像约需一秒。

Z-Image 生成的图像可以商用吗？

可以。Apache 2.0 协议允许模型本身和生成的图像用于商业用途。但你仍需自行确认输出不侵犯第三方权利，例如肖像权、商标和受保护的艺术风格。

Z-Image 支持中英以外的语言吗？

官方文档明确说明仅原生支持英文和中文的图内字体渲染。其它文字目前不在官方支持范围内，渲染结果可能不稳定。

Z-Image 和 Z-Image-Turbo 有什么区别？

Z-Image 是 28–50 步的基础模型，质量和多样性最高。Z-Image-Turbo 是为速度优化的 8 步蒸馏版本，也是本站嵌入式生成器使用的模型。

下一步可以做什么

读官方模型卡（Hugging Face）：huggingface.co/Tongyi-MAI/Z-Image-Turbo——里面有推荐采样参数、预期用途和已知局限。
看源码（GitHub）：github.com/Tongyi-MAI/Z-Image。
读底层论文：Z-Image 技术报告（arXiv:2511.22699）、Decoupled-DMD（arXiv:2511.22677）和 DMDR（arXiv:2511.13649）。
关注 Z-Image-Edit，它会带来基于自然语言指令的图像编辑能力。

提升最快的办法是多生成、记录哪些 prompt 有效哪些不行，然后迭代。AI 生图大半的功夫不在模型上——在于你能不能把脑子里那张图清楚地用文字描述出来。

资料来源

Tongyi-MAI/Z-Image GitHub 仓库 README，访问于 2026 年 5 月 8 日：github.com/Tongyi-MAI/Z-Image。
Tongyi-MAI/Z-Image-Turbo Hugging Face 模型卡，访问于 2026 年 5 月 8 日：huggingface.co/Tongyi-MAI/Z-Image-Turbo。
Z-Image 技术报告：arXiv:2511.22699。
Decoupled-DMD：带 CFG 增强的分布匹配蒸馏，arXiv:2511.22677。
DMDR：DMD 与强化学习融合，arXiv:2511.13649。
Artificial Analysis 文生图榜单，访问于 2026 年 5 月。

开发方	阿里巴巴 Tongyi-MAI 实验室
参数量	60 亿
架构	Scalable Single-Stream DiT (S3-DiT)
发布时间	Z-Image-Turbo：2025 年 11 月 26 日 · Z-Image：2026 年 1 月 27 日
开源协议	Apache 2.0
最低显存（Turbo）	16 GB
原生分辨率	512×512 至 2048×2048，任意宽高比
目前最佳基准成绩	Artificial Analysis 开源第 1 · 总榜第 8
特色能力	原生中英双语字体渲染