2026年,FPGA做轻量级大模型LLM部署,用Zynq跑TinyLlama或Gemma Nano,BRAM和DSP资源够用吗?求实际工程经验
最近看到很多边缘AI部署的文章,想把轻量级LLM比如TinyLlama或者Gemma Nano放到FPGA上做推理加速。我手头有块Zynq-7020,查了下BRAM只有4.9Mb,DSP只有220个,量化到INT4后模型大小还是远超BRAM。想问下有没有人实际在Zynq上做过类似项目?模型参数是放在DDR里然后逐层加载到BRAM做计算吗?这样会不会导致推理延迟太大?还有AXI4-Stream的数据搬运怎么优化才能减少瓶颈?求分享真实踩坑经验,别光说理论。