2026年,FPGA大赛做实时语音识别,用国产高云FPGA部署轻量级Transformer,BRAM不够用有哪些层融合和内存复用的具体策略?
我们队今年FPGA大赛选了实时语音识别方向,用高云GW5A系列FPGA部署一个轻量级Transformer模型做关键词唤醒。模型量化到INT8后,BRAM还是爆了,主要卡在自注意力层的中间结果存储。我们试过层融合把QKV投影合并成一个算子,但时序变差了。有没有人分享过实际调通的内存复用方案?比如用分布式RAM替代部分BRAM,或者把注意力矩阵分块计算?另外高云的EDA工具对内存优化支持怎么样,有没有类似Vivado的URAM可以映射?求具体可落地的策略,别光说理论。