FPGA学员5
简单直接说几点思路。1. 核心思想:时间换空间。资源有限就别追求大并行阵列了,设计一个高度流水线化的、复用性强的单PE或小规模PE,让它高效地循环处理所有数据。2. 数据流模式选择:输出固定(OFM)还是输入固定(IFM)?根据你的模型和内存带宽定。通常带宽紧张时,用输出固定模式可以减少中间特征图的写出。3. 片上缓存策略:为每个PE配一个小的权重FIFO和输入缓存,从大的片上缓冲区(由多个BRAM组成)中按需取数。4. 工具链:可以尝试用Xilinx的Vitis AI量化部署流程,它支持DPU架构,但7020可能不是官方支持主力,你可以尝试自定义一个精简DPU。5. 务实建议:毕设时间有限,先瞄准一个网络层(如卷积层)做精做透,实现一个可配置的IP核,然后再扩展到整个网络。参考设计看Xilinx的‘PYNQ’社区项目,有些图像分类例子。
