2026年FPGA大赛用Zynq做实时目标检测,YOLOv8n部署时LUT不够,怎么通过模型剪枝和通道压缩优化?
今年FPGA大赛想用Zynq-7020做实时视频目标检测,选的是YOLOv8n模型,但综合后LUT占用超过90%,时序根本跑不满。试过用Vitis AI量化到INT8,资源还是不够。有没有大佬分享过模型剪枝或者通道压缩的具体操作步骤?比如用torch-pruning剪掉冗余卷积核后,再转成Xilinx的DPU指令,资源能降多少?另外AXI4-Stream流水线上怎么插入流水线寄存器避免时序违规?求详细踩坑记录和代码片段。