FPGA实现AI大模型推理加速,目前面临的主要技术瓶颈是什么?如何突破?
导师的课题方向是边缘AI,想用FPGA做轻量化模型的推理加速。看了很多论文,感觉FPGA在低功耗、可定制化方面有优势,但好像真正用来部署大模型(比如BERT、ViT的变体)的案例不多,远不如GPU成熟。想请教一下业内前辈,目前用FPGA来做大模型推理,主要的技术瓶颈在哪里?是算力密度不够、片上存储(BRAM)有限、高带宽内存(HBM)接口复杂,还是编译器工具链(如Vitis AI)的成熟度问题?如果想在这个方向做出有创新性的毕设或研究,应该从哪个角度切入比较有希望?