2026年,全国大学生FPGA创新设计大赛备赛,如果选择‘基于FPGA的实时手势识别与交互系统’,在实现YOLO-tiny等轻量级目标检测算法时,如何优化数据流和存储访问以降低延迟?
我们团队准备参加2026年的全国大学生FPGA创新设计大赛,初步选题是‘基于FPGA的实时手势识别与交互系统’,打算用摄像头输入,在FPGA上实现实时检测。我们调研后决定采用YOLO-tiny这类轻量级网络。现在面临的主要挑战是,如何在资源有限的FPGA上满足实时性的高要求。具体问题包括:网络权重和中间特征图该如何存储和调度?是全部放在片内Block RAM,还是结合DDR外存?卷积计算单元该如何设计流水线和并行度才能最大化吞吐?在数据从DDR到计算单元搬运的过程中,如何通过乒乓操作、行缓冲等技术隐藏延迟?希望有大赛经验或项目经验的老师同学能提供一些架构优化思路。