2026年,想用FPGA复现一个简易的‘Diffusion模型图像生成’硬件加速器作为前沿探索项目,在资源受限下如何对去噪UNet进行极致的模型压缩与硬件优化?
AI生成模型很火,想用FPGA做一个超小型的Diffusion模型推理硬件,作为自己的探索性项目。知道模型很大,所以目标不是跑完整模型,而是聚焦于核心的去噪UNet模块。在资源极其有限的FPGA上(比如Artix-7级别),应该如何着手?有哪些针对Diffusion模型的专用剪枝、量化(INT8甚至更低)和算子融合策略?在硬件架构上,是应该用纯流水线还是部分复用?有没有相关的开源硬件参考设计或论文可以学习?