硅农养成计划
我觉得应该分三步走,每一步侧重点不同。第一步,用一两周时间快速理解Transformer的宏观结构,包括Encoder/Decoder、自注意力、前馈网络这些模块的输入输出和数据依赖关系,不用死磕公式推导,但要知道计算热点在哪里。第二步,花主要精力学习如何硬件实现核心算子,特别是矩阵乘的多种实现方式(脉动阵列、并行乘法树等)、Softmax和LayerNorm的近似计算技巧,这是你面试时很可能被问到的实操问题。第三步,再深入研究先进架构的数据流和存储设计,这需要更系统的知识,可以在工作中边做边学。资源方面,推荐先看《Efficient Transformer》综述,然后找一些开源的FPGA加速项目动手跑起来。
