2026年,FPGA工程师如何利用HLS(高层次综合)快速实现AI推理加速,并评估与纯RTL设计在性能和资源上的差异?
我是一名有3年经验的FPGA工程师,最近公司想用FPGA做边缘AI推理加速,比如部署轻量级神经网络。以前我们都是用纯RTL写模块,但感觉开发周期太长。听说HLS(高层次综合)可以像写C代码一样描述算法,然后自动生成RTL。我想知道,对于AI推理这种计算密集型任务,HLS生成的电路和手写RTL相比,在性能(比如吞吐率、延迟)和资源(LUT、DSP、BRAM)上到底差多少?有哪些典型的坑或者优化技巧?另外,是不是所有类型的AI层(比如卷积、池化、全连接)都适合用HLS来加速?