2026年,做基于FPGA的实时视频流H.264编码毕设,如何用Zynq实现运动估计的SAD计算加速并控制逻辑资源在LUT 15k以内?
我的毕业设计是做基于FPGA的实时H.264视频编码器,用Zynq平台实现。现在卡在运动估计部分,SAD(绝对差值和)计算需要处理大量像素数据,纯Verilog实现占用了超过LUT 20k,远超出目标15k。我试过用HLS做pipeline优化,但资源下降不明显。有没有什么方法能减少SAD计算单元的数量?比如用分时复用或者搜索窗口缩小?另外,如何用Block RAM缓存参考帧数据来减少AXI总线访问?希望有做类似毕设的学长学姐给点建议。