2026年,全国大学生集成电路创新创业大赛,如果选择“基于FPGA的神经网络权重稀疏化与激活值压缩的协同加速器设计”,在实现动态剪枝、非结构化稀疏计算和高效数据压缩时,如何克服硬件实现的灵活性与效率挑战?
我们团队计划参加2026年的集创赛,想做一个AI加速器相关的题目。我们关注到模型压缩(如权重稀疏化、激活值压缩)是边缘AI的关键技术。我们的想法是设计一个FPGA加速器,能协同处理动态剪枝(在推理时跳过零权重)和非结构化的稀疏矩阵计算,同时对激活值进行实时压缩以减少内存带宽占用。但我们知道,非结构化稀疏在硬件上很难高效映射,会带来不规则的内存访问和计算资源利用率低的问题。想请教,在FPGA上实现这样的加速器,有哪些主流的硬件架构思路(比如基于索引的间接寻址、游程编码)?如何设计数据通路和控制器来平衡灵活性(支持不同稀疏模式)和计算效率?在有限的BRAM和DSP资源下,优化的关键点在哪里?