性能优化|推理加速

推理加速
LCM 采样器
SDXL Lightning
sd pytorch 升级
DeepCache
oneDiff
硬件性能

DeepCache

扩散模型因其卓越的生成能力,最近在图像合成领域获得了前所未有的关注。尽管这些模型性能出众,但通常会产生大量的计算成本,这主要归因于顺序去噪过程和繁琐的模型大小。压缩扩散模型的传统方法通常涉及大量的再训练,带来了成本和可行性方面的挑战。在本文中,我们介绍了 DeepCache,一种从模型架构角度加速扩散模型的新型免训练范式。DeepCache 利用扩散模型顺序去噪步骤中固有的时间冗余,缓存并检索相邻去噪阶段的特征,从而减少冗余计算。利用 U-Net 的特性,我们在重复使用高级特征的同时,还能以非常低廉的成本更新低级特征。这一创新策略反过来又使稳定扩散 v1.5 的速度提高了 2.3 倍,而 CLIP 分数仅下降了 0.05;使 LDM-4-G 的速度提高了 4.1 倍,而 ImageNet 上的 FID 仅略微下降了 0.22。我们的实验还证明,DeepCache 优于需要重新训练的现有剪枝和蒸馏方法,而且与当前的采样技术兼容。此外,我们还发现,在相同的吞吐量下,DeepCache 能有效地实现与 DDIM 或 DDIM 相似甚至略有改进的结果。
DeepCache
horseeeUpdated Oct 10, 2024
sd-webui-deepcache-standalone
aria1thUpdated Jul 20, 2024

Oneflow

效果要实际测试才知道
onediff
siliconflowUpdated Oct 10, 2024
GPU
WebUI
Xformers
TensorRT
Aitemplate
OneFlow
RTX 4090
26.07 it/s
36.14 it/s
74.07 it/s
69.35 it/s
74.31 it/s
RTX 3090
15.92 it/s
19.90 it/s
38.74 it/s
37.75 it/s
42.18 it/s
RTX 2080Ti
11.55 it/s
13.74 it/s
显存不足
21.67it/s
23.3it/s
sd-webui 使用 onediff 方式
notion image
notion image
notion image

阿里云神龙AI加速引擎AIACC

必须使用阿里云服务器才行
notion image
JIT 编译优化,算子优化
架构层
说明
框架层
• Pytorch Framework:即PyTorch框架组件,用于接入客户的模型。 • Pytorch Custom Ops:其他第三方PyTorch算子,该算子不会被优化,而是保留在框架层中。
Deepytorch Inference推理加速
Deepytorch Inference组件
• Torchscript Graph Optimization PipeLines:Torchscript上的图形优化工具以及算子融合技术。 • Environment Manager:用于控制Deepytorch Inference的执行功能和优化等级。 • Deepytorch Engine:核心执行Engine。包括一些关键组件,例如Build Helper Ops、Operation Parser、Shape Tracker、Accuracy Checker以及Engine Rebuilder等。
算子层
• High Perference Kernel Libs: 高性能算子库,用于提供高性能功能。 • Custom Plugins:其他功能性的算子实现。

其他

Controlnet Cache

Stable Diffusion会在每次预测的时候重新加载所有的controlnet,这非常耗费时间,在这里将controlnet设为cache模式,由于使用了4个controlnet,可以将值设置为大于等于4,可以减少大量的加载时间。

Xformers使用

开启时使用--xformers可以启动xformers节省显存与加快预测速度。

TensorRT使用

fp16

 
 
Loading...
目录
文章列表
王小扬博客
产品
Think
Git
软件开发
计算机网络
CI
DB
设计
缓存
Docker
Node
操作系统
Java
大前端
Nestjs
其他
PHP