2026年,想用FPGA实现一个‘端侧实时语音分离’的本科毕设,在资源受限的平台上,如何对Conv-TasNet这类时域模型进行极致的定点化与硬件架构优化?
老师建议我做AI+FPGA的毕设,我对语音处理感兴趣,想用FPGA实现一个能实时分离多人混合语音的系统。查资料发现Conv-TasNet这类时域模型效果不错,但参数量和计算量对FPGA(比如Zynq 7020)挑战很大。想问一下,在硬件实现时,除了常规的剪枝和量化,还有哪些针对语音分离网络的特定优化策略?比如如何设计高效的1D卷积和门控机制硬件单元?在精度损失和实时性之间该如何权衡?有没有开源的项目或论文可以参考?