2026年,FPGA工程师如何用HLS快速部署一个轻量级YOLOv8n目标检测模型到Zynq上?
最近在做一个边缘AI项目,想把YOLOv8n目标检测模型部署到Zynq上做实时推理。因为时间紧,不想纯手写Verilog,打算用Vitis HLS来加速卷积层。但实际做下来发现,HLS生成的RTL代码资源占用很大,而且量化后精度掉得厉害。想问下有没有成功部署过YOLOv8n的大佬,在HLS优化、INT8量化、层融合和流水线设计上有什么技巧?另外,PL和PS的DDR带宽怎么分配才能不成为瓶颈?求具体参数和代码片段参考。