模型版本
stable Diffusion版本简介
组织:Stability AI, Applied Research
论文地址:
代码地址:
模型权重:
SD v1.5 | ㅤ |
SD v1.6 | Stable Diffusion V1.6(SD1.6)模型,不过目前为止它仍然是闭源的,我们只能通过申请试用的方式获得SD1.6的API调 |
SD V2.0 | SD V2.0 与SD 1.5模型相比,SD 2.0模型主要改动了模型结构和训练数据两个部分。SD 2.0使用的CLIP ViT-H/14模型相比SD 1.x使用的 OpenAI CLIP ViT-L/14模型,在Imagenet top1(分类准确率75.4% -> 78.0%)、Mscoco image retrieval at 5(多模态检索任务指标61% -> 73.4%)以及Flickr30k image retrieval at 5(多模态检索任务指标87% -> 94%)上均有明显的提升,表明CLIP ViT-H/14模型的Text Encoder能够输出更准确的文本语义信息。 |
SD V2.1 | SD V2.1模型在SD V2.0模型的基础上提高了生成图像的质量,由于SD V2.0在训练过程中采用NSFW检测器过滤掉了可能包含安全风险的图像(punsafe=0.1),但是也同时过滤了很多人像图片,这导致SD V2.0在人像生成上效果并不理想,所以SD V2.1在SD V2.0的基础上放开了限制(punsafe=0.98)继续进行微调训练,使得人像的生成效果得到了优化和增强,其原生基本生成分辨率 768x768。 |
SDXL 0.9 | ㅤ |
SDXL 1.0 | 更好的成像质量:SDXL能够以几乎任何艺术风格生成高质量的图像,SDXL 1.0比SD v1.5和SD v2.1(甚至比SDXL 0.9)都有巨大的提升!盲测者评估图像在各种风格、概念和类别中的整体质量和美学都是最好的。 |
SD Turbo | SD Turbo模型是在Stable Diffusion V2.1的基础上,通过蒸馏训练得到的精简版本,其本质上还是一个Stable Diffusion V2.1模型,其网络架构不变。 不如 lightning |
SDXL-Lightning | 基于Stability AI的stable-diffusion-xl-base-1.0模型开发的,采用了一种结合渐进式和对抗式蒸馏的扩散蒸馏方法进行提炼。渐进式蒸馏保留了原模型的图像风格和种类,而对抗式蒸馏则提升了图像生成的质量。这两种方法的结合使得SDXL-Lightning在快速出图和高质量、多样化之间找到了平衡点,即使在快速出图的同时,也能保持较高的图像质量,并且覆盖广泛的图像模式。
SDXL-Lightning 模型可以通过 1 步、2 步、4 步和 8 步来生成图像。推理步骤越多,图像质量越好。
|
SD3.0 | https://stability.ai/news/stable-diffusion-3
Stable Diffusion 3.0采用了与Sora相似的Diffusion Transformer技术
The Stable Diffusion 3 suite of models currently ranges from 800M to 8B parameters.
字体控制能力很强
API:
https://platform.stability.ai/docs/api-reference#tag/Generate/paths/~1v2beta~1stable-image~1generate~1sd3/post |
- SD (Stable Diffusion):
- SD 是 Stability AI 最初发布的基础文本到图像的生成模型。
- 它是一个通用的模型,能够根据文本提示生成各种类型的图像。
- SD 模型通常需要多个采样步骤来生成高质量的图像。
- SDXL (Stable Diffusion XL):
- SDXL 是 SD 的扩展版本,提供了更大的模型尺寸和更高的图像分辨率。
- 它是为了处理更复杂的图像生成任务而设计的,能够生成更详细和高质量的图像。
- SDXL 模型通常比 SD 模型更大,因此需要更多的计算资源。
- SDXL-Distilled:
- SDXL-Distilled 是通过蒸馏技术从 SDXL 模型创建的轻量级版本。
- 它的目的是在保持 SDXL 高质量图像生成能力的同时减少模型的大小和计算需求。
- 这个版本适合资源有限的环境,同时仍然希望获得高质量的图像生成结果。
- SDXL-Turbo:
- SD Turbo模型是在Stable Diffusion V2.1的基础上,通过蒸馏训练得到的精简版本,其本质上还是一个Stable Diffusion V2.1模型,其网络架构不变。
- SDXL-Turbo 是采用对抗性扩散蒸馏(ADD)技术训练的模型,能够实现单步或极少数步骤的快速图像生成。
- 它是为了在需要极快速响应的应用中使用而设计的,如实时图像编辑或交互式内容创建。
- SDXL-Turbo 在速度和质量之间取得了很好的平衡,能够在几乎瞬间生成高质量的图像。
- SDXL-Lightning:
- SDXL-Lightning 可能是 SDXL 系列中的另一个变体,旨在进一步优化速度和效率。
- 这个版本的具体细节没有在提供的信息中明确说明,但它可能代表了对 SDXL 模型的进一步改进或特定应用场景的优化。
- We provide both full UNet and LoRA checkpoints. The full UNet models have the best quality while the LoRA models can be applied to other base models.——我们提供完整的UNet和LoRA检查点。完整的UNet模型具有最好的质量,而LoRA模型可以应用于其他基础模型。
Loading...