2026年,想参加全国大学生FPGA创新设计大赛,选题‘基于FPGA的轻量级目标检测系统(如YOLO-Fastest)’,在实现过程中,如何为没有AIE或DSP48E的普通FPGA(如Artix-7)设计高效的卷积计算单元?
我是电子信息工程专业大二学生,想用一块学校实验室的Artix-7 FPGA开发板参加明年的FPGA大赛,选题是轻量级目标检测。我知道高端FPGA有AI引擎,但我们的板子资源有限。在实现卷积层时,如何用基本的逻辑资源(LUT、FF)和有限的DSP切片来设计一个相对高效的乘加计算单元?需要考虑数据复用、流水线设计以及权重/特征图的存储策略。有没有一些经典的硬件架构(比如脉动阵列的简化版)或开源参考设计可以学习?如何评估和优化自己设计的计算单元的效率和资源占用?