2026年,想用一块带HBM的FPGA加速卡(如Xilinx Alveo U280)做‘大规模图神经网络训练加速’的研究,在实现稀疏矩阵乘、图采样和梯度聚合时,如何克服HBM带宽限制与计算单元之间的数据搬运瓶颈?
导师的课题方向是图神经网络(GNN)加速,实验室有一块Alveo U280加速卡。我知道图数据不规则,访问模式稀疏,对内存带宽和延迟要求极高。虽然U280有HBM,但担心在实现GNN训练(尤其是大图)时,数据在HBM、片上存储和计算单元之间的搬运会成为主要瓶颈。具体问题:1. 针对GNN的稀疏特性,在硬件架构上,是应该设计专用的稀疏计算单元,还是通过数据重排、压缩等技术来适配现有的DSP阵列更高效?2. 如何利用FPGA的可重构性,为不同的图采样算法(如Neighbor Sampling)动态优化数据流?3. 在HLS或Vitis高层次开发中,有哪些针对图计算的数据局部性优化和流水线设计的最佳实践?希望有实际经验的大佬指点迷津。