2026年,FPGA工程师面试被问如何用Verilog实现一个支持AXI4-Stream的实时稀疏卷积加速器,并优化非零值索引查找和流水线?
最近面试一家AI芯片公司,面试官问了一个很实际的问题:如何用Verilog实现一个支持AXI4-Stream接口的实时稀疏卷积加速器,要求重点优化非零值索引查找模块和整体流水线设计。我大概知道稀疏卷积的原理,但不知道在FPGA上怎么高效处理稀疏矩阵,尤其是如何避免索引查找成为瓶颈。有没有做过类似项目的大佬,分享一下你的设计思路?比如用BRAM存储索引表还是用CAM?流水线怎么划分才能达到高吞吐?