使用FPGA实现‘CNN图像分类加速器’作为毕业设计,在资源有限的ZYNQ-7020上,如何对模型进行高效的硬件架构设计?
本科毕设选题想做基于FPGA的CNN加速,手头只有一块ZYNQ-7020开发板,资源比较紧张(DSP和BRAM有限)。目前已经用PyTorch训练好了一个轻量级模型(比如MobileNet)。想请教一下,在将模型部署到PL侧时,除了常规的循环展开和流水线,还有哪些针对FPGA资源的架构优化技巧?比如如何高效利用片上内存管理特征图和权重,如何设计计算单元阵列(PE Array)来平衡性能和资源消耗?有没有一些开源框架或参考设计可以学习?