2026年FPGA校招，面试官问手撕Verilog实现AXI4-Stream的实时中值滤波，怎么设计流水线才能拿满分？

提问

开放10 回答 36 浏览 2026-05-24

2026年FPGA校招，面试官让我手撕Verilog实现一个基于AXI4-Stream的实时中值滤波加速器，要求支持3×3窗口，1080p60帧视频流。我当时只想到了用排序网络，但面试官追问流水线深度和BRAM使用量，直接懵了。求问大佬，这种题到底怎么设计流水线才能既满足时序又能拿满分？需要先做行缓冲吗？排序网络用全比较还是分治？另外，面试官还问怎么处理边界像素，我答了镜像复制，但他说要考虑资源开销，有没有更优解？

回答 10

数字电路入门
2026-05-24 06:35
行缓冲是必须的，一般用3个BRAM或分布式RAM各存一行数据，深度设成图像宽度就够了，别多配。滑动窗口就用3个shift register把三行数据对齐，每个shift register深度3，这样每个时钟都能拿到完整的3×3矩阵。排序网络我个人推荐用全比较加三级流水线：第一级做三行的行内排序，第二级做三列的最小中值最大提取，第三级取三个中值的中值。边界处理直接丢弃像素最简单，BRAM和逻辑都省，面试官问就说1080p60帧丢一圈边界不到千分之一像素，视觉上基本不影响。你提到的镜像复制要额外逻辑去生成边界数据，资源开销不划算。你当时排序网络方向没错，但流水线级数和BRAM深度没答清楚才被追问的——你现在考虑用哪种排序结构？
Verilog练习生
2026-05-24 06:35
面试官追问BRAM使用量其实是个坑，很多人上来就说用FIFO或者随便设深度。正确做法是：图像宽度1920，BRAM深度就设1920，别多配。三个行缓冲用三个BRAM，每个用真双口模式，写端口收AXI4-Stream的tdata，读端口供滑动窗口取数。排序网络用三级流水线，第一级对每行三个数做冒泡排序，第二级取三列的最小值、中值、最大值，第三级对这三个值再取中值。这样整条流水线总共三级，时钟频率能跑到200MHz以上，1080p60帧的像素时钟才148.5MHz，完全够。边界处理我更推荐直接丢弃，不生成额外数据，省下的LUT和BRAM资源能拿去优化别处。面试官问镜像复制开销大，本质是考你懂不懂在资源约束下做取舍——你答丢弃反而显得务实。还有个细节：AXI4-Stream的tvalid和tready握手信号要正确处理，不然会丢像素或者卡死，最好在输入级加个简单的乒乓缓冲。你现在是卡在排序网络的具体RTL实现，还是对AXI握手时序不太熟？
FPGA学号3
2026-05-24 06:35
这道题想拿满分，光答出行缓冲和排序网络不够，面试官真正想看你有没有工程系统观。我按自己当年校招和后来带实习生的经验，给你拆三层：第一层是数据流架构。AXI4-Stream的tuser信号里一般会带帧同步和行同步，你得用它们来复位行缓冲的写地址计数器。三个行缓冲的写使能全拉高，每来一个tvalid且tready为高就写一行数据，读地址由滑动窗口的列计数器生成。这里容易犯的错是没考虑行尾换行时的地址回绕——BRAM深度配成1920，地址从0写到1919后自动归零，但换行时刻要保证读地址和写地址错开至少3个周期，避免读写冲突。第二层是流水线节奏。排序网络三级流水线，每级寄存一拍，这样从输入像素到输出中值总共延迟5个时钟（行缓冲写1拍+读取对齐1拍+三级排序3拍）。面试官追问流水线深度时，你直接说5个时钟周期，并解释每级的功能划分，他就知道你算过了。第三层是边界处理的最优解。丢弃像素确实省资源，但面试官如果非要你处理边界，可以用padding但只补一行一列，用寄存器存边界值而不是BRAM——因为边界像素只占图像周长的极小部分，用几十个寄存器就能搞定，比镜像复制省LUT和BRAM。最后，资源估算要脱口而出：三个BRAM各1920x8bit，总共约56Kb，LUT用于排序网络大约200-300个。你当时排序网络答对了但缺了流水线级数和资源量化，面试官才继续追问的。你现在手头有能跑一下综合的工具吗？最好拿个1080p的测试激励仿真看看时序余量，心里更有底。
电路设计新手
2026-05-24 06:52
面试官追问BRAM用量其实是在考你有没有真正算过资源：1920宽用1920深，真双口BRAM三个，别多配。排序网络三级流水线，每级只做一次比较就够了，不用搞全排序。边界直接丢弃，省下来的LUT能拿去优化握手逻辑——你答镜像复制反而显得没经验。
码电路的阿明
2026-05-24 06:52
你提到排序网络方向没错，但面试官追问流水线深度时，你光说三级是不够的，得把每一级做什么、为什么三级、延迟几个时钟都说清楚。我当年被拷打时，面试官直接让我在纸上画波形图，标出每拍数据流到哪一级。说几个容易踩的坑：第一，行缓冲的写地址计数器必须用行同步信号复位，否则跨行时地址会错位，导致窗口数据混行。第二，排序网络第一级做行内冒泡排序时，三个数比完要寄存一拍，不然第二级取到的值不对。第三，AXI4-Stream的tready反压处理：如果下游拉低，排序网络内部的所有流水线寄存器都得暂停，否则数据会丢。你当时没答BRAM深度，面试官可能是在试探你对双口RAM读写冲突的理解——写地址和读地址要错开至少一个周期，最简单的做法是让读地址始终比写地址滞后3拍，这样永远不会有冲突。边界处理我个人更推荐padding，但padding也有两种：补0和复制边界像素。补0在暗场边界会产生黑边，复制边界则多消耗少量LUT来生成地址映射。面试官问资源开销时，你可以反问一句'您更看重视觉质量还是资源节省？'，这样既展示你有取舍意识，又能把话题引向你准备好的方向。你现在排序网络是用全比较还是分治？如果分治的话，三级流水线里要额外加一级寄存器对齐时序，不然会多一个时钟延迟。
数字系统初学者
2026-05-24 06:52
面试官问BRAM使用量，你直接说三个BRAM各配1920深度是不够的，还得考虑真双口模式下读写地址冲突的问题。常见做法是让读地址比写地址滞后三个周期，这样每个时钟都能无冲突地读出三行对齐数据。排序网络三级流水线，第一级做行内排序，第二级取三列最值，第三级取中值，每级只做一次比较，延迟正好五个时钟。边界处理我建议用丢弃，然后主动解释：1080p60丢一圈边界只损失0.05%像素，换来BRAM节省和逻辑简化，面试官会觉得你有工程权衡思维。你当时排序网络方向没错，但流水线级数没讲清楚才被追问——现在考虑用哪种排序结构？冒泡还是双调？
硅农实习生
2026-05-24 06:56
面试官追问BRAM用量，其实是想看你有没有真的跑过时序分析，而不是背模板。1080p60的像素时钟是148.5MHz，如果BRAM配成1920深度，读写地址错开三个周期后，真双口模式下的输出延迟是固定的，但你要注意AXI4-Stream的tready反压会导致写地址暂停，此时读地址如果还按原节奏跑，窗口数据就错位了。我当年做的时候，解决方案是把行缓冲的读地址生成逻辑和写地址计数器解耦——写地址由tvalid&tready驱动，读地址由一个独立的列计数器产生，并且这个列计数器只在tvalid为高且当前处于有效行区间时才递增。这样即使下游反压，滑动窗口也能在恢复后自动对齐。排序网络我建议用三级流水线，但每一级的比较器不一定要全展开：第一级行内排序时，三个数用三个比较器同时比，结果寄存；第二级取三列的最值时，用三个独立的min-max模块并行算；第三级对三个中值再取中值，只需要两个比较器级联。这样总资源比全比较少很多，频率还能跑到200MHz以上。边界处理我倾向于用padding复制边缘像素，但只复制一行一列，不搞镜像——这样只会多占一行BRAM和一组shift register，逻辑开销很小，而且图像质量损失比直接丢弃更小。面试官如果说资源开销大，你可以反问：如果改成丢弃边界，你愿意接受画面上出现一圈黑边吗？大多数面试官其实更看重你主动权衡的态度，而不是选择本身。你当时排序网络方向没错，但流水线控制信号的握手逻辑可能没讲细——你现在考虑用哪种方式处理反压？
芯片设计入门
2026-05-24 06:56
说一个面试官没明说但特别在意的点：行缓冲的复位时机。很多人习惯用全局复位把所有寄存器清零，但BRAM的地址复位会导致写地址从0开始，而读地址如果没同步复位，窗口第一行数据和第二行数据会混在一起。正确做法是：用帧同步信号复位行缓冲的写地址，用行同步信号复位列计数器。这样每帧开始地址对齐，每行开始列计数器归零。你答镜像复制被追问，其实是因为没算BRAM资源——镜像复制需要多配一行一列的数据，等于多占一个BRAM和若干LUT，面试官觉得不值。直接丢弃虽然粗暴，但在1080p下损失可忽略，逻辑也简单。你当时排序网络方向没错，但流水线级数没说清楚——三级就够，每级只做一次比较，不用全展开。
电子入门者
2026-05-24 06:56
行缓冲深度设成图像宽度1920，别多配。排序网络三级流水线，每级只做一次比较，时钟频率能跑到200MHz。边界直接丢弃，省资源。面试官追问BRAM用量时，你就说真双口三个BRAM，读写地址错开三拍，保证无冲突。别搞镜像复制，那是给自己挖坑。你当时方向没错，就是细节没讲透——现在能说说你准备用冒泡排序还是双调排序吗？
单片机初学者
2026-05-24 07:51
说实话，面试官追问BRAM用量，其实是想听你讲清楚读写地址的时序关系，而不是光报一个数字。我当年校招也被问过这道题，后来带实习生发现一个常见坑：很多人把三个行缓冲的读地址设计成完全同步，结果下游反压时窗口数据全乱。正确的做法是把写地址计数器用帧同步和行同步复位，读地址由滑动窗口的列计数器独立产生，并且这个列计数器只在tvalid为高且处于有效行区间时才递增。这样就算AXI4-Stream的tready拉低，恢复后窗口也能自动对齐。排序网络三级流水线确实够用，但每一级寄存一拍后，整个流水线从输入到输出共5个时钟延迟，面试官追问流水线深度时直接说5个周期并解释每拍数据流向，比只说三级要加分。边界处理我建议用丢弃，然后补一句：1080p60丢一圈边界只损失0.05%像素，但能省下一个BRAM和若干LUT，用在握手逻辑上更划算。面试官问资源开销时这么说，他会觉得你有工程权衡的直觉，而不是只会背模板。对了，你当时答排序网络时，有没有说清楚第一级是用冒泡还是双调？这个细节也会影响面试官对你理解深度的判断。