2026年,想用一块Zynq-7000开发板做‘基于CNN的实时手势识别’毕设,在PL端实现卷积加速时,如何设计数据流和利用DSP切片来最大化吞吐量并控制功耗?
我的毕业设计选题是用Zynq-7000平台做实时手势识别,计划在PL(FPGA)部分实现CNN的卷积加速,PS(ARM)部分做控制和显示。目前卡在了硬件加速架构设计上,对于如何高效地将图像数据流输入到卷积核,如何充分利用DSP48E1切片进行乘加运算,以及如何通过流水线和并行化来平衡吞吐量、延迟和功耗,没有清晰的思路。希望有做过类似图像处理加速项目的朋友能给一些架构设计上的具体建议。我要回答answer.notCanPublish回答被采纳奖励100个积分