最近 Stability AI 又接连推出了 2 个新的模型:Stable Diffusion 3 和 Stable Cascade,在图像生成效率和质量上比半年前推出的 SDXL 1.0 有了明显提升,今天就为大家介绍一下 2 款新模型的特点和用法。
官方介绍: https://stability.ai/news/stable-diffusion-3
加入等候名单: https://stability.ai/stablediffusion3
2 月 22 号,Stability AI 发布了新模型 Stable Diffusion 3(下面简称为 SD 3.0),这也是 Stable Diffusion 系列的最新模型。发布公告中, Stability AI 称 SD 3.0 是他们 “功能最强大” 的模型,还特别强调使用的是 Diffusion Transformer 架构(感觉是受了 OpenAI Sora 模型的刺激)。模型资源目前还没有放出来,想体验的话可以加入等候名单。
官方介绍 SD 3.0 模型在多主题提示、图像质量和拼写能力方面有了极大的提升,我用它提示词在 Midjourney 生成了图像,下面是对比结果。整体来说 SD 3.0 的能力的确非常强,图像质量和 Midjourney V6 模型非常接近,在文本内容生成上的表现甚至超过了 Midjourney V6,不过 V6 在细节丰富度和风格美感上还是有自己独特的优势。
除了文生图能力,Stability AI 创始人 Emad 还放出了一段演示视频,显示 SD 3.0 支持用文字修改画面内容以及将图像转换为视频。如果 SD 3.0 模型能开源,肯定会给开源 AI 绘画生态带来一轮新的提升,这是非常值得期待的。
官方 Github 主页: https://github.com/Stability-AI/StableCascade
其实在 2 月 12 号,也就是 SD 3.0 发布 12 天之前,Stability AI 已经发布过一款新模型 Stable Cascade 了,这是一个基于 Würstchen 架构的新文本-图像模型,相关代码和资源在公布,但目前只允许用于非商业目的。
Stable Cascade 生成的图像
与 Stable Diffusion 系列模型不同, Stable Cascade 由三个模型组成:Stage A、Stage B 和 Stage C,Stage A 是 VAE 模型,Stage B 和 Stage C 是扩散模型。它们分别处理图像生成的不同阶段,且一个模型的输出会成为下一个模型的输入,也就是 “级联"(Cascade)”,这也是 Stable Cascade 名称的由来。
当我们输入提示词后,首是 Stage C 模型会根据给定的文本生成 24*24 的低分辨率潜像(Latents),然后输入到 Stage B 模型中进行放大,完成后再输入到 Stage A 模型中再次放大并转换为像素空间,最终生成我们需要的图像。
除了文生图,Stable Cascade 还支持图生图、图像生成变体、Inpainting /Outpainting、Controlnet、Lora 及高清放大等功能。由于 Stable Cascade 与其他 SD 模型相比使用更小的潜在空间进行训练和推理,因此推理速度更快,训练也更高效,对开发来说有非常自由灵活的调节空间,或许之后它能发展成在 Stable Diffusion、Stable Diffusion XL 之后又一个新的生态体系。
ComfyUI 已经官方支持 Stable Cascade 的使用了,并将原本的 7 个模型整合成为 2 个,不仅图像质量提升了,操作流程也更简化了,使用起来方便。下面以文生图工作流为例讲一下 Stable Cascade 的用法。
1. 首先下载 stable_cascade_stage_c.safetensors 和 stable_cascade_stage_b.safetensors 两个大模型,放入根目录的 models/checkpoints 文件夹中(如果是和 WebUI 共用模型这放到 WebUI 的根目录中)。
模型地址: https://huggingface.co/stabilityai/stable-cascade/tree/main/comfyui_checkpoints 文末有资源包
2. 启动 ComfyUI, 将文生图基础工作流拖入工作界面。填入自己的提示词,设置好分辨率(推荐 1024-2048px),再检查一下 Stage C 和 Stage B 内的是否选择了对应的大模型,其他参数保持不变,再点击生成就可以了。
注意:运行过程中肯可能出现的报错:Error occurred when executing CheckpointLoaderSimple:
unet_dtype() got an unexpected keyword argument 'supported_dtypes'
解决方式是更新自定义节点 ComfyUI_smZNodes,然后重启 ComfyUI 就可以解决了
从使用体验来说,Stable Cascade 对显存占用更少,6G 就能跑通,8G 的显存跑一张 1024*1024 的图大概是 65-90 s,比 SDXL 了快了一倍。图像质量比 SDXL 要好很多,与 Midjourney V6 相比还是有差距,但是在生成带文字内容的图像(比如 logo,海报等)时,Stable Cascade 也会有比较好的效果。
那么以上就是今天为大家介绍的 2 款新的文生图模型 Stable Diffusion 3 和 Stable Cascade,喜欢本期推荐的话记得点赞收藏支持一波。