2026年,FPGA工程师如何用Verilog实现一个支持AXI4-Stream的实时ResNet-18残差块加速器,并优化残差连接的流水线调度?
最近在做一个基于Zynq的AI推理项目,需要部署ResNet-18的前几个残差块。我用Verilog实现了卷积和ReLU,但残差连接处的加法器总是导致流水线停顿,吞吐量上不去。请问有没有成熟的流水线调度策略,比如如何对齐主路径和跳跃路径的数据,避免加法器成为瓶颈?另外,AXI4-Stream接口的握手信号在残差块中怎么处理才能不丢数据?求大佬分享代码架构或时序约束技巧。