2026年FPGA大赛备赛,用Zynq做实时语音唤醒时,轻量级CNN模型怎么在PL端实现INT8量化才能满足低延迟?
今年FPGA大赛想做一个基于Zynq的实时语音唤醒系统,用轻量级CNN模型做关键词识别。现在模型在PS端跑延迟太高,想把推理放到PL端做硬件加速。但模型是FP32的,PL端DSP资源有限,打算量化到INT8。请问量化后精度一般会掉多少?怎么调整量化策略(比如逐层量化或混合精度)能尽量减少精度损失?另外,PL端做INT8矩阵乘时,DSP48E2怎么配置才能高效支持8位乘法?求有大赛经验的大佬分享具体优化方案。