2026年,芯片行业“存算一体”架构在AI推理中商业化加速,FPGA工程师如何利用HLS实现存算一体加速器并优化能效比?
最近看到很多新闻说存算一体芯片在边缘AI推理中开始落地,比如一些公司推出了基于SRAM的存算一体方案。我作为FPGA工程师,想知道怎么用HLS在FPGA上实现一个简单的存算一体加速器,比如做一个向量-矩阵乘法。主要困惑是:如何设计存储阵列和计算单元的映射?HLS的循环优化(如pipeline、unroll)在这里怎么用?还有,如何用板级测试验证能效比(TOPS/W)?感觉这是未来趋势,想提前积累经验。