2026年,FPGA工程师在AI推理场景中如何用Verilog实现一个支持AXI4-Stream的Sigmoid激活函数加速器,并优化分段线性逼近的精度与资源?
最近在做一个基于FPGA的AI边缘推理项目,需要实现Sigmoid激活函数加速器。我用分段线性逼近来近似Sigmoid,但发现精度和LUT资源占用很难平衡。面试时被问到如何优化流水线,我有点懵。请问各位大佬,在AXI4-Stream接口下,怎么设计分段点选择和流水线调度,才能既保证精度又能控制资源?有没有成熟的Verilog实现方案可以参考?