2026年，FPGA做轻量级大模型LLM部署，用Zynq跑TinyLlama或Gemma Nano，BRAM和DSP资源够用吗？求实际工程经验

2小时前

最近看到很多边缘AI部署的文章，想把轻量级LLM比如TinyLlama或者Gemma Nano放到FPGA上做推理加速。我手头有块Zynq-7020，查了下BRAM只有4.9Mb，DSP只有220个，量化到INT4后模型大小还是远超BRAM。想问下有没有人实际在Zynq上做过类似项目？模型参数是放在DDR里然后逐层加载到BRAM做计算吗？这样会不会导致推理延迟太大？还有AXI4-Stream的数据搬运怎么优化才能减少瓶颈？求分享真实踩坑经验，别光说理论。

芯片初学者

这家伙真懒，几个字都不愿写！

472901

2026年FPGA大赛备赛，用Zynq做实时语音识别，MFCC特征提取在PL侧如何优化到10ms以内？上一篇

2026年，FPGA工程师面试被问如何用Verilog实现一个基于AXI4-Stream的实时JPEG压缩加速器，如何从DCT变换和量化表角度设计流水线？下一篇

还没有人回答，第一个参与下？

我要回答

回答被采纳奖励100个积分

请先登录