2026年,想用一块AMD(Xilinx)的Versal ACAP开发板完成‘实时4K视频H.266/VVC编码器硬件加速’的毕设,在利用其AI Engine和可编程逻辑进行协同设计时,如何划分AIE与PL的任务,并解决两者间高速数据交互的带宽与延迟瓶颈?
毕设选题想挑战一下最新的H.266/VVC视频编码的FPGA加速,并且想用上Xilinx最新的Versal ACAP平台,因为它有AI Engine阵列。我的想法是利用AIE做运动估计、变换量化等计算密集型任务,PL做控制流和接口。但具体实施起来很困惑:如何科学地划分AIE和PL的功能?两者之间通过NoC和AXI接口通信,数据带宽和延迟会不会成为性能瓶颈?在设计和优化时有哪些关键点需要注意?有没有类似的设计案例或参考架构可以学习?