2026年FPGA大赛用国产高云FPGA做实时目标检测,YOLOv5s部署后LUT资源爆了,有没有通过共享算术逻辑单元和重定时来优化的具体方法?
我们团队正在备赛2026年FPGA大赛,选的是国产高云GW5AST系列FPGA做实时目标检测,模型是YOLOv5s。现在部署到PL端后,LUT资源使用率直接飙到95%,BRAM和DSP倒是还有余量。试过用LUT替代DSP做乘法,但资源反而更紧张了。想问问有没有通过共享算术逻辑单元(比如让多个卷积层共用同一个计算单元)或者重定时(retiming)来优化LUT占用的具体方法?最好能给出高云开发工具里的操作步骤,或者有没有现成的开源优化脚本可以参考?