使用FPGA做‘实时4K视频拼接(Video Stitching)’的毕设或项目,在实现图像配准和融合算法时,如何利用硬件并行性大幅提升处理速度?
毕设题目是基于FPGA的多路4K视频实时拼接。算法部分我知道大概有特征点提取(如SIFT/SURF的简化版)、配准、融合。但用纯软件(OpenCV)根本达不到实时。如果用FPGA实现,我的思路是流水线化每个步骤,但特征提取和匹配这部分计算量大且不规则。想问:1. 有没有针对硬件的、更轻量级的图像配准算法?2. 在FPGA上实现特征点描述子匹配,用什么架构比较高效(比如用BRAM存特征数据库,并行比较)?3. 融合部分的羽化算法,硬件实现有什么技巧?