2026年,想用FPGA复现一个‘简易版ChatGPT推理加速器’作为毕业设计,在资源有限的开发板上,应该如何选择并量化压缩一个开源的大语言模型(如Llama 2-7B)?
导师建议我做AI硬件加速相关的毕设,想挑战一下用FPGA实现大语言模型的推理。目标是能在Zynq UltraScale+这类评估板上,以可接受的延迟运行一个简化版的对话模型。最大的困惑是模型太大,直接部署不可能。请问应该从哪些方面入手对模型进行压缩(如量化、剪枝、知识蒸馏)?有没有现成的工具链(如Vitis AI, TVM)可以辅助?在FPGA上实现注意力机制和矩阵乘法的核心计算单元,有哪些架构设计的注意事项?