2026年,FPGA工程师如何用Verilog实现一个支持AXI4-Stream的实时LSTM推理加速器,并优化门控计算流水线?
我在做一个基于FPGA的实时时序预测项目,需要加速LSTM推理。目前用HLS实现但资源占用太高,想转用纯Verilog设计。看到很多AI芯片公司面试会问LSTM的硬件实现,特别是门控单元(输入门、遗忘门、输出门)的流水线优化。请问如何设计一个支持AXI4-Stream输入的LSTM加速器?关键点在于门控计算的并行度和tanh/sigmoid激活函数的逼近方法,还有状态更新时的数据依赖怎么处理?求大佬指点具体架构。