2026年,想用一块Xilinx Zynq-7000开发板做一个‘基于CNN的实时手势识别’毕业设计,在PL端实现卷积加速时,如何设计数据流和利用DSP切片来最大化吞吐量并控制功耗?
我的本科毕业设计选题是‘基于Zynq-7000的实时手势识别系统’。计划在PS端(ARM)运行Linux和OpenCV做图像采集和显示,在PL端(FPGA)用HLS或RTL实现一个轻量级CNN的加速。目前最大的困惑是如何在PL端高效设计卷积计算的数据流。是应该用流水线架构还是并行阵列?如何充分利用Zynq芯片里的DSP48E1切片来并行计算乘加运算?同时还想控制整个系统的功耗,在设计时有哪些优化策略(比如时钟门控、数据复用)?希望有做过类似项目的前辈能给些架构设计上的建议。