新模型 Stable Diffusion 3 与 Stable Cascade 全面解析-工具盒子

最近 Stability AI 又接连推出了 2 个新的模型：Stable Diffusion 3 和 Stable Cascade，在图像生成效率和质量上比半年前推出的 SDXL 1.0 有了明显提升，今天就为大家介绍一下 2 款新模型的特点和用法。

一、Stable Diffusion 3 简介

官方介绍： https://stability.ai/news/stable-diffusion-3

加入等候名单： https://stability.ai/stablediffusion3

2 月 22 号，Stability AI 发布了新模型 Stable Diffusion 3（下面简称为 SD 3.0），这也是 Stable Diffusion 系列的最新模型。发布公告中, Stability AI 称 SD 3.0 是他们 “功能最强大” 的模型，还特别强调使用的是 Diffusion Transformer 架构（感觉是受了 OpenAI Sora 模型的刺激）。模型资源目前还没有放出来，想体验的话可以加入等候名单。

新模型 Stable Diffusion 3 与 Stable Cascade 全面解析

官方介绍 SD 3.0 模型在多主题提示、图像质量和拼写能力方面有了极大的提升，我用它提示词在 Midjourney 生成了图像，下面是对比结果。整体来说 SD 3.0 的能力的确非常强，图像质量和 Midjourney V6 模型非常接近，在文本内容生成上的表现甚至超过了 Midjourney V6，不过 V6 在细节丰富度和风格美感上还是有自己独特的优势。

新模型 Stable Diffusion 3 与 Stable Cascade 全面解析

除了文生图能力，Stability AI 创始人 Emad 还放出了一段演示视频，显示 SD 3.0 支持用文字修改画面内容以及将图像转换为视频。如果 SD 3.0 模型能开源，肯定会给开源 AI 绘画生态带来一轮新的提升，这是非常值得期待的。

二、Stable Cascade 模型简介

官方 Github 主页： https://github.com/Stability-AI/StableCascade

其实在 2 月 12 号，也就是 SD 3.0 发布 12 天之前，Stability AI 已经发布过一款新模型 Stable Cascade 了，这是一个基于 Würstchen 架构的新文本-图像模型，相关代码和资源在公布，但目前只允许用于非商业目的。

新模型 Stable Diffusion 3 与 Stable Cascade 全面解析

Stable Cascade 生成的图像

与 Stable Diffusion 系列模型不同, Stable Cascade 由三个模型组成：Stage A、Stage B 和 Stage C，Stage A 是 VAE 模型，Stage B 和 Stage C 是扩散模型。它们分别处理图像生成的不同阶段，且一个模型的输出会成为下一个模型的输入，也就是 “级联"（Cascade）”，这也是 Stable Cascade 名称的由来。

当我们输入提示词后，首是 Stage C 模型会根据给定的文本生成 24*24 的低分辨率潜像（Latents），然后输入到 Stage B 模型中进行放大，完成后再输入到 Stage A 模型中再次放大并转换为像素空间，最终生成我们需要的图像。

新模型 Stable Diffusion 3 与 Stable Cascade 全面解析

除了文生图，Stable Cascade 还支持图生图、图像生成变体、Inpainting /Outpainting、Controlnet、Lora 及高清放大等功能。由于 Stable Cascade 与其他 SD 模型相比使用更小的潜在空间进行训练和推理，因此推理速度更快，训练也更高效，对开发来说有非常自由灵活的调节空间，或许之后它能发展成在 Stable Diffusion、Stable Diffusion XL 之后又一个新的生态体系。

新模型 Stable Diffusion 3 与 Stable Cascade 全面解析

三、在 ComfyUI 中安装使用 Stable Cascade

ComfyUI 已经官方支持 Stable Cascade 的使用了，并将原本的 7 个模型整合成为 2 个，不仅图像质量提升了，操作流程也更简化了，使用起来方便。下面以文生图工作流为例讲一下 Stable Cascade 的用法。

1. 首先下载 stable_cascade_stage_c.safetensors 和 stable_cascade_stage_b.safetensors 两个大模型，放入根目录的 models/checkpoints 文件夹中（如果是和 WebUI 共用模型这放到 WebUI 的根目录中）。

模型地址： https://huggingface.co/stabilityai/stable-cascade/tree/main/comfyui_checkpoints 文末有资源包

新模型 Stable Diffusion 3 与 Stable Cascade 全面解析

2. 启动 ComfyUI，将文生图基础工作流拖入工作界面。填入自己的提示词，设置好分辨率（推荐 1024-2048px），再检查一下 Stage C 和 Stage B 内的是否选择了对应的大模型，其他参数保持不变，再点击生成就可以了。

注意：运行过程中肯可能出现的报错：Error occurred when executing CheckpointLoaderSimple:
unet_dtype() got an unexpected keyword argument 'supported_dtypes'
解决方式是更新自定义节点 ComfyUI_smZNodes，然后重启 ComfyUI 就可以解决了

新模型 Stable Diffusion 3 与 Stable Cascade 全面解析

从使用体验来说，Stable Cascade 对显存占用更少，6G 就能跑通，8G 的显存跑一张 1024*1024 的图大概是 65-90 s，比 SDXL 了快了一倍。图像质量比 SDXL 要好很多，与 Midjourney V6 相比还是有差距，但是在生成带文字内容的图像（比如 logo，海报等）时，Stable Cascade 也会有比较好的效果。

新模型 Stable Diffusion 3 与 Stable Cascade 全面解析