2026年,全国大学生FPGA创新设计大赛,如果选择‘基于FPGA的轻量化神经网络人脸检测门禁系统’,在资源有限的FPGA上部署YOLO-Fastest这类模型时,如何通过剪枝、量化与硬件架构协同设计来平衡检测精度与帧率?
我们团队计划参加2026年的FPGA创新设计大赛,题目初步定为用FPGA实现一个实时人脸检测门禁系统。计划使用YOLO-Fastest这类轻量级模型,但即使如此,对于一块中等规模的FPGA(比如Artix-7)来说,直接部署全精度模型资源依然紧张。我们想知道,在具体实现时:1. 如何对模型进行有效的剪枝和量化(比如INT8),在保证一定检测率(如mAP)的前提下最大程度减少参数量和计算量?2. 在硬件架构设计上,如何根据量化后的计算特点(如乘加运算)来优化DSP和BRAM的使用,设计高效的流水线或并行计算单元?3. 如何将预处理(图像缩放、归一化)和后处理(NMS)也硬件化,以进一步提升系统整体帧率?希望有做过类似项目的同学分享一些实战经验和踩坑教训。