2026年,全国大学生集成电路创新创业大赛,选择‘基于FPGA的端侧实时语音唤醒与关键词识别系统’,在实现MFCC特征提取、神经网络加速和低功耗设计时,如何平衡识别精度、实时性和FPGA资源消耗?
我们团队计划用FPGA实现一个低功耗的离线语音唤醒系统(比如唤醒词“小爱同学”)。技术路线打算用硬件加速MFCC特征提取,然后在FPGA上部署一个轻量级神经网络(如CNN或RNN)做分类。现在面临几个矛盾:1. MFCC的精度(滤波器组数量、FFT点数)和计算延迟的权衡。2. 神经网络模型大小(参数量)与识别率、推理延迟的权衡。3. 为了低功耗,可能需要动态调整时钟频率或关闭部分模块,但这又会影响实时性。想请教有相关项目经验的学长学姐,在FPGA资源(LUT、DSP、BRAM)有限的情况下,如何从算法和硬件架构层面协同优化,找到一个可行的平衡点?有哪些具体的量化、剪枝或架构搜索技巧可以用?