扩散模型因其卓越的生成能力，最近在图像合成领域获得了前所未有的关注。尽管这些模型性能出众，但通常会产生大量的计算成本，这主要归因于顺序去噪过程和繁琐的模型大小。压缩扩散模型的传统方法通常涉及大量的再训练，带来了成本和可行性方面的挑战。在本文中，我们介绍了 DeepCache，一种从模型架构角度加速扩散模型的新型免训练范式。DeepCache 利用扩散模型顺序去噪步骤中固有的时间冗余，缓存并检索相邻去噪阶段的特征，从而减少冗余计算。利用 U-Net 的特性，我们在重复使用高级特征的同时，还能以非常低廉的成本更新低级特征。这一创新策略反过来又使稳定扩散 v1.5 的速度提高了 2.3 倍，而 CLIP 分数仅下降了 0.05；使 LDM-4-G 的速度提高了 4.1 倍，而 ImageNet 上的 FID 仅略微下降了 0.22。我们的实验还证明，DeepCache 优于需要重新训练的现有剪枝和蒸馏方法，而且与当前的采样技术兼容。此外，我们还发现，在相同的吞吐量下，DeepCache 能有效地实现与 DDIM 或 DDIM 相似甚至略有改进的结果。

DeepCache

horseee • Updated Oct 10, 2024

DeepCache: Accelerating Diffusion Models for Free

Diffusion models have recently gained unprecedented attention in the field of image synthesis due to their remarkable generative capabilities. Notwithstanding their prowess, these models often...

https://arxiv.org/abs/2312.00858

sd-webui-deepcache-standalone

aria1th • Updated Jul 20, 2024

Oneflow

效果要实际测试才知道

onediff

siliconflow • Updated Oct 10, 2024

GPU	WebUI	Xformers	TensorRT	Aitemplate	OneFlow
RTX 4090	26.07 it/s	36.14 it/s	74.07 it/s	69.35 it/s	74.31 it/s
RTX 3090	15.92 it/s	19.90 it/s	38.74 it/s	37.75 it/s	42.18 it/s
RTX 2080Ti	11.55 it/s	13.74 it/s	显存不足	21.67it/s	23.3it/s

sd-webui 使用 onediff 方式

onediff/onediff_sd_webui_extensions at main · siliconflow/onediff

OneDiff: An out-of-the-box acceleration library for diffusion models. - siliconflow/onediff

https://github.com/siliconflow/onediff/tree/main/onediff_sd_webui_extensions#performance-of-community-edition

阿里云神龙AI加速引擎AIACC

必须使用阿里云服务器才行

aiacc加速 - - 阿里云

aiacc加速，：神龙AI加速引擎AIACC是基于阿里云IaaS资源推出的AI加速引擎，用于优化基于AI主流计算框架搭建的模型，使用AIACC可加速深度学习应用，能显著提升模型的训练和推理性能。同时配合资源管理工具FastGPU快速构建AI计算任务，可以全面提升研发效率。

https://www.alibabacloud.com/help/zh/egs/what-is-aiacc

Deepytorch Inference推理加速介绍、优势及模型限制_GPU云服务器(EGS)-阿里云帮助中心

Deepytorch Inference是阿里云自研的AI推理加速器，专注于为Torch模型提供高性能的推理加速。通过对模型的计算图进行切割、执行层融合以及高性能OP的实现，大幅度提升PyTorch的推理性能。本文介绍Deepytorch Inference在推理加速方面的概念、优势及模型支持情况。

https://help.aliyun.com/zh/egs/what-is-deepytorch-inference?spm=a2c4g.11186623.4.5.1e9312c7Xb4l1w&scm=20140722.H_2672813._.ID_2672813-OR_rec-V_1

JIT 编译优化，算子优化

架构层	ㅤ	说明
框架层	ㅤ	• Pytorch Framework：即PyTorch框架组件，用于接入客户的模型。 • Pytorch Custom Ops：其他第三方PyTorch算子，该算子不会被优化，而是保留在框架层中。
Deepytorch Inference推理加速	Deepytorch Inference组件	• Torchscript Graph Optimization PipeLines：Torchscript上的图形优化工具以及算子融合技术。 • Environment Manager：用于控制Deepytorch Inference的执行功能和优化等级。 • Deepytorch Engine：核心执行Engine。包括一些关键组件，例如Build Helper Ops、Operation Parser、Shape Tracker、Accuracy Checker以及Engine Rebuilder等。
ㅤ	算子层	• High Perference Kernel Libs：高性能算子库，用于提供高性能功能。 • Custom Plugins：其他功能性的算子实现。

其他

Controlnet Cache

Stable Diffusion会在每次预测的时候重新加载所有的controlnet，这非常耗费时间，在这里将controlnet设为cache模式，由于使用了4个controlnet，可以将值设置为大于等于4，可以减少大量的加载时间。

Xformers使用

开启时使用--xformers可以启动xformers节省显存与加快预测速度。

TensorRT使用

fp16

Last update: 2024-8-1