2026年,AI芯片公司面试问如何用Verilog实现一个支持AXI4-Stream的LayerNorm加速器,应届生该如何从均值方差计算和流水线设计角度回答?
最近面了一家AI芯片初创,面试官让我手撕一个LayerNorm加速器,要求支持AXI4-Stream接口。我大概知道LayerNorm要算均值和方差,但一提到硬件实现就懵了,特别是流水线怎么划分、除法器怎么处理、AXI Stream握手信号怎么对齐。有没有大佬分享下从算法到RTL的完整思路?最好能给出关键代码片段,比如状态机跳转和流水线级数设计。