チュートリアル

Z-Image チュートリアル:Alibaba Tongyi のオープンソース AI 画像生成モデル実践ガイド(2026 年版)

著者:Z-Image 編集部公開日:2026 年 5 月 8 日更新日:2026 年 5 月 8 日約 12 分で読めます

Z-Image は、Alibaba の Tongyi-MAI チームが 2025 年末に公開したオープンソースの text-to-image 拡散モデルです。Scalable Single-Stream DiT(S3-DiT)アーキテクチャを採用し、わずか 60 億パラメータで商用クオリティの画像を生成できます。英語と中国語のバイリンガル文字を画像内に直接描画でき、ライセンスは Apache 2.0。蒸留版の Z-Image-Turbo は H800 GPU で 1024×1024 画像を約 1 秒で生成し、16 GB VRAM のコンシューマー GPU でも動作します。本記事では、Z-Image とは何か、ローカルでの動かし方、効果的なプロンプトの書き方、そして Midjourney、DALL·E 3、Stable Diffusion との実用面の違いを解説します。

Z-Image とは何ですか?

Z-Image は、Alibaba Tongyi-MAI チームによるオープンソース text-to-image 拡散モデルファミリーです。多くのオープンモデルが商用品質に到達するために 120 億以上のパラメータを必要とするのに対し、Z-Image は Scalable Single-Stream DiT(S3-DiT)アーキテクチャを採用することで、わずか 60 億パラメータで同水準の品質を実現しています。S3-DiT はテキストトークン、視覚的セマンティクストークン、VAE 画像トークンを別々のストリームで処理する従来手法と異なり、これらをシーケンスレベルで連結し、単一の統合ストリームとして transformer に入力します。詳細は技術レポート arXiv:2511.22699 に記載されています。

2026 年 5 月時点で、Z-Image ファミリーには以下の 4 モデルが含まれます:

  • Z-Image-Turbo:速度を重視した 8 ステップの蒸留版。2025 年 11 月 26 日公開。
  • Z-Image:基盤モデル。サンプリングステップは 28〜50 ステップ。2026 年 1 月 27 日公開。
  • Z-Image-Omni-Base:生成と編集を 1 つのモデルで両立(順次公開予定)。
  • Z-Image-Edit:自然言語の指示による画像編集にファインチューニング(順次公開予定)。

本サイトに埋め込まれているジェネレーターは、この Turbo 版を使用しています。

Z-Image は Midjourney、DALL·E 3、Stable Diffusion と比べてどうですか?

第三者ベンチマークの Artificial Analysis text-to-image リーダーボードでは、Z-Image-Turbo は オープンソース部門で 1 位、クローズドソースを含む総合では 8 位(2026 年初時点)です。下表はユーザー視点での実用面の違いをまとめたものです。

比較項目Z-Image-TurboMidjourneyDALL·E 3Stable Diffusion XL
重み公開✅ Apache 2.0
パラメータ数60 億非公開非公開約 35 億
英中バイリンガル文字✅ ネイティブ部分的部分的
標準サンプリング数825〜50
ローカル実行✅ VRAM 16 GB 以上
コスト無料サブスクリプション従量課金無料(ローカル)

要点:商用クオリティ、オープンライセンス、画像内の英中文字を確実に描画——この 3 つを同時に満たす最初のオープンソースモデルが Z-Image です。

Z-Image を動かすには何が必要ですか?

用途と環境に応じて、Z-Image の利用方法は主に 3 通りあります。

1. 本サイトの無料 Web デモ

トップページにアクセスすれば、サインアップもインストールも API キーも不要で、埋め込みジェネレーターをそのまま使えます。デモは Hugging Face Space 経由で Z-Image-Turbo を呼び出しています。初めて触る場合や日常的な生成にはこれが最適です。

2. 公式 Hugging Face Space

コミュニティ運営の Space が公式モデルにシンプルな UI をかぶせています:huggingface.co/Tongyi-MAI/Z-Image-Turbo。同じモデル、同じ速度で、インストールも不要です。埋め込みデモよりもう少しパラメータを触りたい場合に向いています。

3. diffusers でローカル実行

必要な環境:

  • VRAM が 16 GB 以上 の NVIDIA GPU(RTX 3090、RTX 4080/4090、A100、H100/H800 など)。
  • CUDA 11.8 以降、Python 3.10 以降。
  • Hugging Face diffusers ライブラリ(2026 年 5 月時点では main ブランチからのインストールが必要)。
  • bfloat16 対応 GPU——推奨される dtype です。

最小限の動作例:

pip install git+https://github.com/huggingface/diffusers
pip install -U transformers accelerate

# Python
import torch
from diffusers import ZImagePipeline

pipe = ZImagePipeline.from_pretrained(
    "Tongyi-MAI/Z-Image-Turbo",
    torch_dtype=torch.bfloat16,
    low_cpu_mem_usage=False,
)
pipe.to("cuda")

image = pipe(
    prompt="A red origami crane on a wooden desk, cinematic lighting",
    height=1024, width=1024,
    num_inference_steps=9,   # 実際は DiT を 8 回 forward
    guidance_scale=0.0,      # Turbo では 0.0 が必須
).images[0]
image.save("output.png")

このコードで間違えやすい箇所が 2 つあります。guidance_scale=0.0 はタイポではありません。Turbo は CFG(classifier-free guidance)込みで蒸留されているため、推論時に正の値を指定すると逆に品質が下がります。num_inference_steps=9 も正しい値です。スケジューラがステップ 0 をウォームアップとして扱うため、モデル本体の DiT forward は 8 回だけ実行されます。

Z-Image で良いプロンプトを書くには?

高品質なプロンプトの多くは 4 つの要素から成り立っています。明示的にラベルを付ける必要はありませんが、出力がイメージと一致しないときは、これらが抜けていないかを確認すると効果的です。

1. 主題——何の画像か

具体的に書きます。「犬」では弱い。「片耳が垂れたゴールデンレトリバーの子犬が玄関の階段に座っている」のほうが圧倒的に強い指示になります。

2. スタイル——どう見えるか

モデルが理解できる語彙から選びます:油絵、水彩、3D レンダー、アニメ、ピクセルアート、写実的な写真、木炭デッサン、ヴィンテージフィルム、スタジオジブリ調、アールデコのポスター。スタイルは出力に最も大きく影響するレバーです。

3. 光と雰囲気

柔らかい朝の光、ゴールデンアワー、強い昼下がりの日差し、ネオンのグロー、ドラマチックな明暗、曇天、霧、逆光、ろうそくの灯り。光はスタイル以外で画面の感情を最も強く変える要素です。

4. 構図と品質修飾語

クローズアップ、ワイドショット、俯瞰、ローアングル、三分割構図、浅い被写界深度。品質を表す語は必要なときだけ:高精細、シャープなフォーカス、プロ仕様の写真。修飾語は 2〜3 個までで十分で、重ねすぎても効果は出ません。

組み合わせ例:

木製の机の上に置かれた赤い折り鶴、ワイエス風の油絵、左側からの柔らかな窓明かり、クローズアップ、浅い被写界深度、高精細。

Z-Image のバイリンガル文字描画はどのように機能しますか?

Z-Image の評判の多くはこの能力に由来します。多くのオープン画像モデルでは画像内の文字が読めません——文字が滲み、単語が誤綴され、漢字に至っては崩れてしまうことも珍しくありません。Z-Image はバイリンガルタイポグラフィ専用にポストトレーニングされているため、生成画像内に英語と中国語の読みやすい文字列を 1〜2 回の試行で配置できます。

文字を安定して描画するためのポイント:

  • 描画したい文字列をストレートクォートで囲む:"MORNING BLEND"
  • フォントの特徴を指定する——セリフ、手書き、ネオン、書道など。モデルはフォントをスタイル選択の一種として扱います。
  • 文字は短く保つ。1 画像あたり 1 単語または短いフレーズが最も安定します。長文は崩れがちです。
  • 同じ画像内に複数の文字体系を混在させる場合は、それぞれを個別に記述する。

英語のコーヒーショップの看板の例:

ヴィンテージなコーヒーショップの黒板メニュー、見出し“MORNING BLEND”は大きな手書きセリフ体、その下に“$4.50”、周囲にコーヒー豆の装飾イラスト。

中国の旧正月ポスターの例:

赤い中国旧正月ポスター、中央に“新年快乐”の 4 文字を金色の書道で配置、縁には梅の花と提灯、伝統的な水墨画のスタイル。

初心者がよく陥る失敗とその対処法

主題が漠然としている。「美しい風景」では汎用的なストックフォトのような結果しか得られません。場所、季節、天候、前景、背景を具体的に指定しましょう。

スタイルが衝突している。「写実的なアニメ水彩 3D レンダー」のような指示はモデルを混乱させます。主スタイルを 1 つ選び、矛盾しない修飾語を 1〜2 個までに抑えます。

ポジティブプロンプト内で否定形を使う。「人を入れない」と書くと逆に人が現れることがあります。否定するのではなく、空間そのものを描写して不要な要素を押し出してください。

Turbo にポジティブな guidance を設定している。Turbo を使う場合は guidance_scale=0.0num_inference_steps=9 を必ず指定します。蒸留時に CFG が組み込まれているため、推論時の正の値はかえって品質を下げます。

主題がプロンプトの後ろに埋もれている。拡散 transformer は前方のトークンに重みを置くため、最重要要素はプロンプトの冒頭に置きます。

よくある質問

Z-Image は無料で使えますか?

はい。Z-Image は Apache 2.0 ライセンスで公開されており、モデルおよび生成画像の個人利用と商用利用、改変、再配布が無料で許可されています。

Z-Image はいつ公開されましたか?

Z-Image-Turbo は 2025 年 11 月 26 日に公開されました。基盤モデルである Z-Image は 2026 年 1 月 27 日に公開されています。

Z-Image を作ったのは誰ですか?

Z-Image は Alibaba 通義実験室(Tongyi Lab)の Tongyi-MAI チームが開発し、GitHub と Hugging Face で公開されています。

Z-Image-Turbo はなぜそれほど高速なのですか?

著者らが Decoupled-DMD(CFG 拡張付きの Distribution Matching Distillation)と DMDR(DMD と強化学習を組み合わせた手法)と呼ぶ 2 つの技術により、基盤モデルから蒸留されています。これらにより 28〜50 ステップの生成を 8 NFE に圧縮しつつ、品質低下をほぼ抑えています。

Z-Image をローカルで動かすにはどんなハードウェアが必要ですか?

VRAM が 16 GB 以上のコンシューマー向け NVIDIA GPU(RTX 3090、RTX 4080、RTX 4090 など)、CUDA 11.8 以降、Python 3.10 以降、bfloat16 対応 GPU が必要です。エンタープライズ向けの H800 GPU では、Z-Image-Turbo は 1024×1024 の画像をサブ秒で生成します。

Z-Image で生成した画像は商用利用できますか?

はい。Apache 2.0 ライセンスはモデルと生成画像の商用利用を認めています。ただし、肖像権や商標、保護された画風など第三者の権利を侵害しないかは利用者の責任で確認する必要があります。

Z-Image は英語と中国語以外の言語にも対応していますか?

公式ドキュメントでは画像内の文字描画について英中バイリンガル対応のみ明記されています。それ以外の言語・文字体系は公式サポート外で、生成結果が安定しないことがあります。

Z-Image と Z-Image-Turbo はどう違いますか?

Z-Image は 28〜50 ステップで動作する基盤モデルで、品質と多様性が最も高い構成です。Z-Image-Turbo は速度に特化した 8 ステップの蒸留版で、本サイトに埋め込まれているジェネレーターはこの Turbo を使用しています。

次のステップ

上達の最短経路は、たくさん生成し、何が効いて何が効かなかったかを記録し、繰り返し改善することです。AI 画像生成の腕の大半はモデルではなく、頭の中にあるイメージをいかに明確に言葉にできるかにかかっています。

参考文献