AI 绘画自出现以来一直在不断发展,最明显的体现就是图像生成质量越来越高,还有很重要的一点就是出图速度的提升。比如之前为大家介绍过的 LCM 和 SDXL Turbo,仅用 1-4 步就能完成图像推理,使模型出图速度比之前快了 8-10 倍 。最近,字节又推出了一个新的模型 SDXL-Lightning,它同样能在几秒之内就生成 1024px 的图像, 且出图质量比 LCM 和 Turbo 都要好,今天就为大家介绍一下 Lightning 的功能和用法。
SDXL-Lightning 项目介绍: https://huggingface.co/ByteDance/SDXL-Lightning
SDXL vs Lightning vs Turbo 的快速比较工具: https://anotherjesse.com/posts/sdxl-lightning/
SDXL-Lightning 模型是从 Stability AI 的 stable-diffusion-xl-base-1.0 模型中,使用了一种结合渐进式和对抗式蒸馏的扩散蒸馏方法提炼出来的。渐进式蒸馏使提炼后的模型能保留原模型的图像风格和种类,对抗式蒸馏则用于提升图像生成质量,二者结合使 SDXL-Lightning 在图像的快速生成和高质量、多样化之间找到了一个平衡点, 使其在快速出图的同时,依旧能保持较高的图像质量,并且能够覆盖广泛的图像模式。
下面是官方给出的对比图,可以看到 SDXL-Lightning 在 2-8 步之间的生成效果都不错,8 步时质量最稳定,甚至与 SDXL 模型 32 步的生成效果不相上下;即使在 4 步的条件下,在图像质量以及风格多样性也比 Turbo 和 LCM 模型好很多。
SDXL-Lightning 模型发布后很快就有了在线部署,我们可以免费在网站上测试它的出图效果 。下面是我录制的一个生成过程,可以看到文字输入后图像马上就有了变化,反应速度非常快,并且在质量、风格与细节上都保持的不错,相信 AI 实时绘画也会因为 SDXL-Lightning 有进一步的发展。
SDXL-Lightning 实时生成在线试用①: https://fastsdxl.ai/
prompt:a 90s illustration of a dog chasing a butterfly in the autumn forest.
模型地址: https://huggingface.co/ByteDance/SDXL-Lightning/tree/main
官方工作流: https://huggingface.co/ByteDance/SDXL-Lightning/tree/main/comfyui
字节目前已经放出了 SDXL-Lightning 完整的模型和工作流资源,模型包括 Checkpiont 和 Lora 两种。
Checkpiont 模型分为 1step、2step、4step、8step 四款,1step 虽然出图速度最快,但效果不稳定,所以推荐使用 4step 或 8step,下面以 4step 模型为例,讲解一下基础用法。
首先下载 sdxl_lightning_4step.safetensors 大模型,安装到根目录的 models/checkpoints 文件夹中(如果是和 SD WebUI 共享资源,则放到 WebUI 的根目录中)。
将 ComfyUI 更新到最新版本,然后把 comfyui_sdxl_lightning_workflow_full 工作流留拖入界面中。
需要确认的设置有:① Ksampler 中得生成步数要与你选择的大模型保持一致,这里我载入的是 4step 大模型,所以生成步数设置为 4 步;② 推荐使用 Euler 采样器与 sgm_uniform 调度器。
设置完成后就能生成了,经测试生成一张 1024*1024 px 的图片只需要 6 秒,并且质量非常高。
除了官方的 4 个大模型,开源社区中 DreamShaperXL 大模型也已经有了 Lightning 微调版本,并且其图像质量及风格美学在一定程度上优于官方模型。如果想使用它,工作流同上,对应的参数设置为:CFG 为 2,采样步数 3-6,采样器必须为 DMP++ SED Karras,尺寸推荐 1024 px。
DreamShaperXL Lightning 下载: https://civitai.com/models/112902?modelversionid=354657 (文末有资源包)
SDXL Lightning Lora 模型则有 3 款:2step、4step 和 8step,它们可以与其他任意 SDXL 大模型搭配,在提升出图速度的同时保持原模型的风格。具体工作流如下(文末有资源包),使用前需要先下载一个 LightningLlora 模型并安装到根目录的 models/lora 文件夹中 。
我使用的是动漫风大模型 CounterfeitXL 和 Lightning_4step_lora 模型, 生成一张 768*1024px 图像的时间为 4s,图像在风格与细节上与原模型几乎没有差别,只在颜色上不如原来明亮了,但可以通过添加 VAE 模型来改善这个问题。 如此短的时间内实现这样高的质量,Lightning lora 的作用还是非常惊人的,它可以有效提升我们使用 XL 大模型的效率。
除了 Comfyui,lllyasviel 大神(Controlnet 和 Fooocus 的作者)开发的 Stable Diffusion WebUI Forge 也实现了对 SDXL-Lightning 的官方支持,有安装的小伙伴可以去体验一下。参数方面采样器推荐选 Euler SGMUniform,CFG 需要为 1.0。
这里补充一下 WebUI Forge 的相关信息。WebUI Forge 是基于 A1111 WebUI 构建的一个高性能平台,它在界面与使用方法上与 A1111 WebUI 没有任何不同,主要区别在于:
对低显存用户更友好。以最低的 6G 显存为例,WebUI Forge 的推理速度比 A1111 WebUI 提升了 60~75%,高峰时对显存的占用减少约 800MB 至 1.5GB,最大图像分辨率(不会 OOM)增加约 3 倍,最大图像生成批次(不会 OOM)增加约 4 倍 ,因此使用时不再会轻易爆显存。
支持更多新的功能。SVD/Z123/masked/Ip-adapter/masked controlnet/photomaker 的等功能在 A1111 WebUI 中目前都无法使用,而 WebUI Forge 引入了 Unet Patcher,可以在新功能出现后及时进行官方支持。
如果你不习惯 ComfyUI 的节点式界面,又想在 WebUI 中使用新出的 AI 功能,那么 WebUI Forge 就是一个很好的选择,官方 Github 主页有一键安装包和使用教程,有需要的小伙伴可以自行下载:
WebUI Forge 下载安装: https://github.com/lllyasviel/stable-diffusion-webui-forge