2026年,全国大学生集成电路创新创业大赛,做‘基于FPGA的轻量化Transformer引擎硬件加速’这类AI芯片题目,在有限的资源下如何平衡模型精度、推理延迟和功耗?
我们团队准备参加集创赛,题目想选AI方向的,看到Transformer很火,但模型太大。我们想在FPGA上实现一个针对特定任务(比如关键词检测)的轻量化Transformer加速器。目前困惑在于:如何对模型进行有效的剪枝、量化和硬件友好型重构?在架构设计上,是采用传统的 systolic array 还是更灵活的基于数据流的处理单元?如何用HLS或RTL实现并验证其正确性?希望有经验的学长学姐能给些思路。