教程

Z-Image 上手指南:阿里通义开源 AI 图像生成模型实战教程(2026)

作者:Z-Image 编辑部发布于 2026 年 5 月 8 日更新于 2026 年 5 月 8 日约 12 分钟阅读

Z-Image 是阿里巴巴 Tongyi-MAI 团队于 2025 年底开源的文生图扩散模型。这款 60 亿参数的模型采用 Scalable Single-Stream DiT(S3-DiT)架构,原生支持中英双语字体在图内渲染,使用 Apache 2.0 协议开源。其蒸馏变体 Z-Image-Turbo 在 H800 GPU 上生成一张 1024×1024 图像约需一秒,消费级显卡 16 GB 显存即可运行。本文将系统讲清四件事:Z-Image 是什么、怎么部署、提示词怎么写,以及它跟 Midjourney、DALL·E 3 和 Stable Diffusion 在使用层面的实际差异。

Z-Image 是什么?

Z-Image 是阿里巴巴 Tongyi-MAI 团队推出的开源文生图扩散模型家族。大多数开源模型需要 120 亿以上参数才能达到商用级输出质量,而 Z-Image 凭借 Scalable Single-Stream DiT(S3-DiT)架构,仅用 60 亿参数就跨过了这条线。S3-DiT 不再像传统模型那样把文本 token、视觉语义 token 和 VAE 图像 token 分流处理,而是在序列层面把它们拼接起来,输入到一个统一的 transformer 流中。架构细节见技术报告 arXiv:2511.22699

截至 2026 年 5 月,Z-Image 家族包含四个模型:

  • Z-Image-Turbo——为速度优化的 8 步蒸馏版本,2025 年 11 月 26 日发布。
  • Z-Image——基础模型,采样步数 28–50 步,2026 年 1 月 27 日发布。
  • Z-Image-Omni-Base——同时支持生成和编辑,分阶段开源中。
  • Z-Image-Edit——针对指令式图像编辑微调,分阶段开源中。

本站嵌入式生成器使用的就是 Turbo 变体。

Z-Image 跟 Midjourney、DALL·E 3、Stable Diffusion 比怎么样?

在第三方基准测试中,Z-Image-Turbo 是 Artificial Analysis 文生图榜单上的开源第 1 名,与商用闭源模型一并排名时位列第 8(截至 2026 年初)。下表汇总了用户实际使用层面的差异。

对比维度Z-Image-TurboMidjourneyDALL·E 3Stable Diffusion XL
权重开源✅ Apache 2.0
参数量60 亿未公开未公开约 35 亿
中英双语图内文字✅ 原生支持部分部分
默认采样步数825–50
本地运行✅ ≥ 16 GB 显存
使用成本免费订阅按调用计费免费(本地)

一句话总结:如果你需要商用级质量、开放协议、并且图内中英文字体能稳定生成这三件事同时成立,Z-Image 是目前第一个真正同时做到的开源模型。

运行 Z-Image 需要什么?

根据手头硬件和目标,你可以从三种方式中选一种来用 Z-Image。

1. 本站免费在线 Demo

打开首页就能直接用嵌入式生成器——无需注册、无需安装、无需 API Key。Demo 通过 Hugging Face Space 调用 Z-Image-Turbo。适合首次尝试和日常生图。

2. 官方 Hugging Face Space

社区维护的 Space 在官方模型外包了一层简洁 UI:huggingface.co/Tongyi-MAI/Z-Image-Turbo。同样的模型、同样的速度,无需安装。当你需要比内嵌 Demo 更多的参数控制时可以用这个。

3. 本地用 diffusers 跑

你需要:

  • 一张 NVIDIA 显卡,显存至少 16 GB(RTX 3090、RTX 4080/4090、A100、H100/H800)。
  • CUDA 11.8 或更高版本,Python 3.10 或更高版本。
  • Hugging Face diffusers 库(截至 2026 年 5 月需从 main 分支安装)。
  • 支持 bfloat16 的显卡——这是推荐的精度。

最小可运行示例:

pip install git+https://github.com/huggingface/diffusers
pip install -U transformers accelerate

# Python
import torch
from diffusers import ZImagePipeline

pipe = ZImagePipeline.from_pretrained(
    "Tongyi-MAI/Z-Image-Turbo",
    torch_dtype=torch.bfloat16,
    low_cpu_mem_usage=False,
)
pipe.to("cuda")

image = pipe(
    prompt="A red origami crane on a wooden desk, cinematic lighting",
    height=1024, width=1024,
    num_inference_steps=9,   # 实际只跑 8 次 DiT forward
    guidance_scale=0.0,      # Turbo 必填 0.0
).images[0]
image.save("output.png")

上面这段里有两处特别容易踩坑:guidance_scale=0.0 不是写错——Turbo 在蒸馏阶段已经把 classifier-free guidance 内化了,推理时给任何正值都会让画质变差。num_inference_steps=9 也是对的——调度器会把 step 0 当作热身步,模型实际只执行 8 次 DiT forward。

怎么写出好的 Z-Image 提示词?

多数高质量提示词都包含四个要素。你不必显式标注它们,但一旦输出跟你想象不一致,可以回过头检查是不是哪一项缺失了。

1. 主体——画面里到底是什么?

要具体。"一只狗"很弱。"一只金毛幼犬,一只耳朵耷拉到一边,坐在门廊台阶上"就有效得多。

2. 风格——它看起来像什么?

从模型熟悉的词汇里选:油画、水彩、3D 渲染、动漫、像素艺术、写实摄影、炭笔素描、复古胶片、吉卜力、装饰艺术海报。风格是你能动用的最大杠杆。

3. 光线和氛围

晨光柔和、黄金时刻、正午烈日、霓虹光晕、戏剧性明暗、阴天、雾气弥漫、逆光、烛光。除了风格之外,光线对画面情绪的影响最大。

4. 构图和质量修饰词

近景、广角、俯视、低角度、三分法构图、浅景深。质量词只在必要时加:高细节、清晰对焦、专业摄影。两到三个修饰词足矣,堆砌反而无益。

整合起来:

一只红色折纸鹤摆在木质书桌上,怀斯风格的油画,左侧柔和窗光,近景,浅景深,高细节。

Z-Image 的双语字体渲染是怎么工作的?

这是 Z-Image 最有口碑的能力之一。绝大多数开源图像模型生成不了可读文字——字母糊成一团、单词拼错、中文字符直接乱码。Z-Image 在后训练阶段专门针对中英双语字体做了优化,因此能在第一二次尝试时就把可读的中英字符串放进生成图像里。

想稳定出文字,记住几条:

  • 把要渲染的文字用直引号包起来,比如 "新年快乐"
  • 指明字体特征——衬线、手写、霓虹、毛笔书法。模型会把字体当作一种风格选项处理。
  • 文字保持简短。一张图里一个词或一句短语效果最好,长段落容易乱码。
  • 同图混合中英时,分别描述各部分。

英文咖啡店招牌示例:

一块复古咖啡店黑板菜单,标题"MORNING BLEND"用大号手写衬线字体,下方写着"$4.50",边缘装饰着咖啡豆插图。

中国春节海报示例:

红色中国春节海报,正中央是"新年快乐"四个金色书法字,边缘环绕梅花和灯笼,传统水墨画风格。

新手最常见的错误怎么避免?

主体描述太空泛。"漂亮的风景"只会得到一张普通的库存照片。补上地点、季节、天气、前景和背景。

风格相互冲突。"写实动漫水彩 3D 渲染"会让模型不知所措。选一种主风格,再加一两个不冲突的修饰词。

在正面提示词里写否定。写"不要人"有时反而会冒出人。用描述空白处的方式把不想要的东西挤掉,而不是直接否定。

在 Turbo 上设了正的 guidance。用 Turbo 时一定要把 guidance_scale 设成 0.0,num_inference_steps 设成 9。蒸馏过程已经把 CFG 内化,推理时任何正值都会拉低质量。

主体被埋在提示词后段。扩散 transformer 给前面的 token 更高权重——把最重要的细节放在提示词开头。

常见问题

Z-Image 是免费的吗?

是的。Z-Image 采用 Apache 2.0 协议开源,允许个人和商业用途免费使用、修改和再分发,模型权重和生成的图像都可以自由使用。

Z-Image 是什么时候发布的?

Z-Image-Turbo 于 2025 年 11 月 26 日发布,完整的 Z-Image 基础模型于 2026 年 1 月 27 日发布。

Z-Image 是谁开发的?

Z-Image 由阿里巴巴通义实验室的 Tongyi-MAI 团队研发,并在 GitHub 和 Hugging Face 开源发布。

Z-Image-Turbo 为什么这么快?

Turbo 版本通过两项作者称为 Decoupled-DMD(带 CFG 增强的分布匹配蒸馏)和 DMDR(DMD 与强化学习融合)的技术,从基础模型蒸馏而来。这套方法把原本需要 28–50 步的生成压缩到 8 个 NFE,质量损失极小。

本地运行 Z-Image 需要什么硬件?

一张至少 16 GB 显存的 NVIDIA 消费级显卡(如 RTX 3090、RTX 4080 或 RTX 4090),CUDA 11.8 或更高版本,Python 3.10 或更高版本,以及支持 bfloat16 的 GPU。在企业级 H800 上,Z-Image-Turbo 生成 1024×1024 图像约需一秒。

Z-Image 生成的图像可以商用吗?

可以。Apache 2.0 协议允许模型本身和生成的图像用于商业用途。但你仍需自行确认输出不侵犯第三方权利,例如肖像权、商标和受保护的艺术风格。

Z-Image 支持中英以外的语言吗?

官方文档明确说明仅原生支持英文和中文的图内字体渲染。其它文字目前不在官方支持范围内,渲染结果可能不稳定。

Z-Image 和 Z-Image-Turbo 有什么区别?

Z-Image 是 28–50 步的基础模型,质量和多样性最高。Z-Image-Turbo 是为速度优化的 8 步蒸馏版本,也是本站嵌入式生成器使用的模型。

下一步可以做什么

提升最快的办法是多生成、记录哪些 prompt 有效哪些不行,然后迭代。AI 生图大半的功夫不在模型上——在于你能不能把脑子里那张图清楚地用文字描述出来。

资料来源