2026年,FPGA在AI推理芯片中做原型验证,如何用Verilog高效实现Transformer的矩阵乘法单元?
我在一家AI芯片初创公司做FPGA原型验证,现在需要加速Transformer模型的矩阵乘法。用纯Verilog写一个通用的矩阵乘法单元,但资源消耗太大,时序也跑不高。请问有没有针对Transformer的优化技巧?比如如何利用DSP48E1做int8量化乘法,或者用脉动阵列结构减少BRAM访问?另外,AXI-Stream接口怎么和矩阵乘法单元对接?希望能给出具体的设计方案和代码结构。