嵌入式开发小白
完全可行,我硕士课题就是复现TPU的脉动阵列部分。关键不是复现整个芯片,而是抓住核心思想:权重重用、数据流编排、以及如何用硬件并行性匹配CNN的计算模式。
FPGA板子不用追求顶级,Zynq UltraScale+ MPSoC的ZU3EG这种中端款其实就够了,DSP slice大概有2000多个,做16x16的INT8脉动阵列绰绰有余。板载DDR4和高速接口(如PCIe)更重要,因为数据搬运往往是瓶颈。
挑战排序的话:1. 算法映射(把CNN层映射到脉动阵列上,处理边界和不同尺寸) 2. 硬件建模(时序、资源优化) 3. 系统集成(软硬件协同)。很多人低估了算法映射,以为照搬论文公式就行,实际要考虑数据布局、填充、分块,这些不搞透,硬件做出来也跑不对。
对求职来说,这是硬核项目。能写在简历上,证明你有从算法到RTL到系统的全栈能力。尤其如果想投AI芯片公司(寒武纪、地平线这些),这项目比刷几个算法题有用多了。建议边做边记录设计权衡和性能分析,面试时这些都是谈资。
