2026年,AI芯片公司面试问如何用Verilog实现一个支持AXI4-Stream的卷积层加速器,应届生该如何从行缓存和流水线角度设计?
最近在准备AI芯片公司的面试,看到很多面经都提到了卷积加速器的设计。我理解卷积需要用到行缓存来存储输入特征图,但具体怎么用Verilog实现支持AXI4-Stream接口的卷积层呢?面试官可能会问流水线划分和数据复用策略,比如如何优化乘累加单元的并行度,还有怎么处理不同卷积核尺寸的兼容性。希望有经验的大佬指点一下,最好能给出一个典型的设计框架和面试回答思路。