推理加速

淘天技术团队

目前主流的加速思路包含算子优化、模型编译、模型缓存、模型蒸馏等
如果使用的SD pipeline没有对unet的各种子模块进行复杂修改,oneflow仍然值得尝试;否则,确保pytorch版本为最新的稳定版本以及适度使用deepcache可能是更省心且有效的选择。
  1. FlashAttention:
      • https://github.com/Dao-AILab/flash-attention
      • https://courses.cs.washington.edu/courses/cse599m/23sp/notes/flashattn.pdf
  1. oneflow
      • https://github.com/Oneflow-Inc/oneflow
      • https://github.com/siliconflow/onediff
  1. stable-fast
      • https://github.com/chengzeyi/stable-fast
  1. deepcache
      • https://github.com/horseee/DeepCache
  1. lcm-lora
      • https://latent-consistency-models.github.io/
  1. pytorch 2.2
https://pytorch.org/blog/pytorch2-2/
 
Loading...
目录
文章列表
王小扬博客
产品
Think
Git
软件开发
计算机网络
CI
DB
设计
缓存
Docker
Node
操作系统
Java
大前端
Nestjs
其他
PHP