FPGA线上课程平台|最全栈的FPGA学习平台|FPGA工程师认证培训
登录
首页-所有问题-其他-正文

芯片测试工程师,在量产测试(CP/FT)中,如何分析和定位‘测试良率偏低’的问题?是设计问题、工艺问题还是测试程序问题?

电子爱好者小李电子爱好者小李
其他
12小时前
0
0
1
刚入职芯片测试岗位,遇到芯片量产测试良率不达标的情况。面对海量的测试数据(Shmoo图、Bin分布),感觉无从下手。请问一套系统的分析思路是怎样的?如何初步判断是芯片设计缺陷(比如某个电路 corner 没过)、晶圆厂工艺波动,还是我们测试机台、测试程序(比如时序、电压设置)的问题?有哪些关键数据需要重点关注?
电子爱好者小李

电子爱好者小李

这家伙真懒,几个字都不愿写!
11600
分享:
芯片行业的‘算法工程师(硬件加速方向)’在日常工作中,与纯软件算法工程师和硬件设计工程师的协作模式是怎样的?上一篇
使用开源仿真器‘Verilator’进行大型数字IC/FPGA模块的仿真验证,在编译速度、调试便利性和功能覆盖率收集方面,与商业仿真器(如VCS)相比体验如何?下一篇
回答列表总数:9
  • 嵌入式菜鸟2024

    嵌入式菜鸟2024

    刚入职遇到良率问题确实头大,数据太多容易看花眼。我建议先别急着下结论,按这个顺序筛一遍:

    第一步,先看测试机台和环境稳不稳定。同一批芯片,换台同型号测试机跑一遍,或者用已知好的‘金片’上机验证。如果良率波动大,那可能是机台问题,比如电源噪声、接触不良。同时检查测试程序版本和硬件校准记录,排除低级错误。

    第二步,分析Bin分布。如果失效集中在某个特定测试项(比如只死在ADC测试),那很可能是设计或工艺问题;如果失效分散在各个测试项,那测试程序或硬件问题的可能性更大。

    第三步,看Shmoo图。如果Shmoo图边界模糊、窗口狭窄,或者同一晶圆上不同芯片的Shmoo图差异很大,那很可能遇到了工艺波动(比如阈值电压漂移)。如果Shmoo图整体偏移(比如所有芯片都在某个电压下失效),那可能是测试条件设置太严,或者设计余量不足。

    第四步,关联晶圆图。把失效芯片在晶圆上的位置画出来,如果呈现明显的区域分布(比如边缘一圈全坏),那基本是工艺问题;如果是随机分布,那可能是设计问题或测试问题。

    最后,如果怀疑设计问题,可以调出仿真数据,对比实际测试的corner情况。

    关键数据就盯住这几样:Bin分类统计、Shmoo图、晶圆图、测试日志里的error log。新手容易一头扎进细节,先抓大模式再深挖,效率会高很多。

    7小时前
  • 芯片设计新人

    芯片设计新人

    兄弟,我当年也经历过这个阶段,感觉数据多得能淹死人。我的经验是,先别急着下结论,动手做几个简单实验往往比空想更有效。

    第一步,把测试数据按批次、晶圆、测试机台分开看。如果某个机台或某个批次的良率特别低,那问题很可能出在测试环境或那批晶圆的工艺上。如果所有批次和机台都低,那设计缺陷的可能性就大了。

    第二步,抓几个失效芯片和几个良品芯片,做对比测试。重点测那些边际参数,比如把电源电压稍微调高或调低一点,把时钟频率放慢一点。如果失效芯片在稍微宽松的条件下就活了,那很可能是设计余量不够(设计问题)。如果怎么调都没反应,或者行为很奇怪,那可能是硬缺陷,来自工艺制造。

    测试程序问题有个常见的坑:程序里的延时(timing)设置可能和实际芯片的接口速度不匹配。特别是用高速测试机测相对低速的芯片时,那些setup/hold时间如果设得太紧,就会误杀良品。建议检查测试程序里关键信号的时序边沿,对比一下芯片数据手册的规范,看看有没有无意中设得比规格书更严。

    还有一个关键点是测试限值(test limits)。是不是有人手抖把限值收得太紧了?复查一下规格书,确保测试程序中用的上下限是正确的。

    总之,思路就是:先分大类(看数据分布),再做对比实验(调条件看反应),最后细查测试设置(程序、硬件)。这样一步步来,总能找到线索的。

    8小时前
  • 单片机学习者

    单片机学习者

    良率偏低确实让人头大,尤其是刚上手的时候。别慌,咱们可以按步骤来缩小范围。首先,你得看Bin分布,如果失效集中在某个特定的Bin(比如Bin8是功能失效),那很可能跟这个测试项相关的电路或测试条件有关。如果失效非常分散,啥Bin都有,那可能跟电源、时钟或者测试机台的整体性设置有关。

    然后,重点看Shmoo图。如果Shmoo图显示芯片在电压或时序的某个边界突然失效,而且边界很陡峭,那很可能是设计问题(比如某个路径的时序余量不足)。如果Shmoo图的边界模糊,或者同一片晶圆上不同芯片的边界漂移很大,那就要怀疑工艺波动了。

    测试程序问题怎么判断?一个很实用的方法是做重复性测试和交叉验证。比如,用同一颗芯片在同一个机台上多次测试,如果结果不稳定,可能是机台或接触问题;换一台同型号机台测,如果结果差异大,也可能是测试程序或硬件配置不一致。另外,检查测试程序里的时序和电压设置,特别是那些从设计仿真直接搬过来的参数,在实际测试环境下可能需要调整。

    关键数据除了Bin和Shmoo,还要关注晶圆图(Wafer Map)。如果失效芯片在晶圆上呈现明显的区域分布(比如集中在边缘或中心),那工艺问题的嫌疑就很大。如果分布随机,那设计或测试问题的可能性更高。

    最后,别忘了基础检查:探针卡或测试插座是否清洁?测试机台的校准是否过期?这些低级错误有时也会导致良率莫名其妙地掉。

    8小时前
  • 逻辑电路小白

    逻辑电路小白

    良率偏低时,我的习惯是先区分是‘系统性失效’还是‘随机失效’。系统性失效通常有规律,比如所有芯片都在某个测试向量失败,或者失效芯片在晶圆上呈现特定图案(边缘一圈、中心区域等)。随机失效则散布各处。对于系统性失效:如果失效模式一致(比如都卡在同一个测试点),重点怀疑测试程序或设计缺陷——可以检查测试时序是否太紧,或者设计在某个工艺角下确实无法工作。如果失效有空间规律(比如晶圆边缘失效多),大概率是工艺问题(刻蚀不均匀、热处理梯度等)。这时候要看WAT(晶圆允收测试)数据,看工艺参数是否偏移。对于随机失效:先排除测试机台接触问题(探针卡、load board),检查测试程序的稳定性(重复测试看结果是否一致)。关键数据:除了Shmoo和Bin分布,一定要拿到晶圆图(Wafer Map),看失效芯片的物理位置;对比CP和FT的良率,如果CP良率正常但FT低,可能是封装问题或测试条件不同。另外,看看失效芯片的扫描链(scan chain)测试结果,如果链本身是好的,那功能失效更可能是设计问题。

    10小时前
  • 单片机初学者

    单片机初学者

    刚入行遇到良率问题确实头大,数据太多容易看花眼。我建议先别急着下结论,按步骤缩小范围。第一步,先看测试数据本身有没有异常:同一批晶圆上,不同芯片的测试结果分布是否均匀?如果某些区域良率特别低,可能是工艺问题(比如CMP不均匀);如果分布杂乱,可能指向设计或测试程序。第二步,对比不同测试项:如果只是某个特定测试项(比如某个频率下的功能测试)良率低,而其他DC参数都正常,那很可能是测试条件太严或设计margin不够;如果多项参数同时漂移(比如Vddmin升高、Iddq变大),那工艺波动的嫌疑就大了。第三步,检查测试机台和程序:用已知好的golden芯片复测,看结果是否稳定;检查测试程序里的时序和电压设置,特别是那些接近设计极限的corner条件,有时候稍微放松一点timing良率就上来了,那可能就是设计余量不足。关键数据要看Shmoo图的边界是否清晰、Bin分布里有没有集中在某个失效Bin、以及同一晶圆上良率的空间分布图。先做这些,基本能有个方向。

    10小时前
  • 嵌入式开发小白

    嵌入式开发小白

    兄弟,这问题太经典了。良率低的时候,测试、设计、工艺经常互相“甩锅”。你得拿出数据说话,把自己摘清楚先。

    我分享个实战套路,就三步:隔离、对比、归因。

    1. 隔离测试环节:这是你的主场。首先,确保测试环境没问题。检查探针卡或测试座有没有污染、磨损?测试机的电源、时序校准最近做了吗?用标准器件或已知好芯片验证机台状态。然后,审视测试程序。重点怀疑那些边际条件(Margins)的设置,比如建立保持时间、电压的上下限。简单粗暴但有效的方法:把有问题的芯片,在测试程序里稍微放宽条件(比如电压提高0.05V,频率降低一点),看它能不能“救”回来。如果能,那很可能是测试条件太严或设计余量不够,而不是芯片本身硬缺陷。

    2. 对比分析数据:别只看总良率,下钻看每个测试子项(Test Item)的良率。哪个项 Fail 得多?如果集中在DC参数(如漏电、驱动能力),工艺或设计问题可能性大。如果集中在AC功能测试,可能与时序相关。再看 Wafer Map,用眼睛看!如果坏片像“满天星”随机分布,测试或设计问题概率高;如果坏片成“团”或集中在划片槽边缘,那基本跑不了是工艺问题(比如CMP不均匀,曝光异常)。

    3. 归因与沟通:做完上面两步,你心里大概有谱了。如果是测试条件太敏感,就拉上设计工程师一起 review Shmoo,看是不是设计在某个 corner 下真不行。如果是 Wafer Map 有明显 pattern,赶紧把图发给工艺工程师,他们一看就懂。记住,沟通时别直接下结论说“你们设计/工艺有问题”,而是说“数据上呈现出这个现象,我们一起来分析下可能的原因”。

    关键点:保存好原始测试数据,特别是失效芯片的原始捕获日志(Fail Log),里面有时钟周期级的失败信息,对设计分析极其有用。

    这个过程会很磨人,但也是成长最快的。加油!

    11小时前
  • 单片机入门生

    单片机入门生

    良率偏低确实让人头大,尤其刚接触时。别慌,先从测试数据本身入手,建立基线思维。

    第一步,看 Bin 分布图。重点关注失效 Bin 的集中度。如果失效集中在某个特定测试项(比如某个电源电压下的功能测试),那很可能是测试条件或程序问题;如果失效分散在多类测试项,且与芯片在晶圆上的位置(Wafer Map)有强相关性(比如边缘die全坏,中心die好),那工艺波动的嫌疑就很大。

    第二步,分析 Shmoo 图。对比良品和不良品的 Shmoo 边界。如果边界整体偏移(比如所有坏品都在电压偏低或频率偏高的区域失效),可能是设计余量不足(corner 问题)或工艺漂移。如果边界参差不齐,没有规律,要怀疑测试接触或机台稳定性。

    第三步,做交叉验证。用已知好的Golden Sample在多个测试机台、多个测试座(Socket)上复测,看结果是否一致。如果不一致,问题可能在测试硬件或程序。如果一致,再对比CP(晶圆测试)和FT(成品测试)的良率。如果CP良率正常,FT暴跌,可能是封装或FT测试条件更严导致。

    关键数据:Wafer Map(看空间分布)、各测试项的通过率明细、Shmoo 图的边界数据、测试机台的日志(有无报警)、以及同一批次的工艺监控数据(如果拿得到)。

    初步判断:设计问题往往有明确的电性特征(如特定电压/频率下失效);工艺问题常体现在参数分布偏移和空间相关性;测试程序问题则经常表现为条件敏感(改个时序就通过)或机台间差异。

    先按这个框架把数据过一遍,把问题范围缩小,再找设计或工艺同事会诊。

    11小时前
  • 硅农预备役2024

    硅农预备役2024

    新人遇到良率问题,感觉像大海捞针,我懂。分享一个我常用的、更偏向工程实践的排查流程,你可以像查案一样一步步来。

    1. 先确保“测量工具”没问题:这是最优先的。怀疑测试程序或机台时,最快的方法是找一些已知的好芯片(Golden Sample),用当前的测试程序再测一遍。如果好芯片都测失败了,那基本就是测试程序或硬件(如探针卡、负载板)的问题了。检查测试程序版本、时序参数(setup/hold time)、电压电平(VIH/VIL)设置有没有被意外改动。同时,看看测试机台的校准记录是否在有效期内。

    2. 分析失效的空间与时间规律:
    - 看Wafer Map:失效芯片是集中在晶圆边缘(Edge Die)吗?边缘失效通常和制造工艺有关,比如光刻不均匀、刻蚀或CMP工艺在边缘效应。是随机分布吗?随机点状失效可能指向缺陷(Defect),如颗粒污染。是成片或规律性分布吗?这可能和设计模块的布局或电源网络有关。
    - 看时间轴:良率是突然下降还是缓慢走低?突然下降很可能对应某次工艺变更、材料更换或测试程序更新。缓慢走低也许和机台老化、探针磨损有关。

    3. 深入电性参数:别只看Pass/Fail。关注那些模拟量或关键参数测试项的结果,比如电源电流(Idd)、漏电(Ileakage)、单元延迟(Delay)。把这些参数的分布图(Histogram)画出来,和以往的正常批次对比。如果整体分布发生了偏移(比如所有芯片的Idd都变大了),那是工艺问题的强信号。如果只是分布尾巴上的一些芯片失效,可能是设计对工艺波动过于敏感。

    4. 设计 vs. 工艺的初步判断窍门:
    - 如果问题在“速度”相关的测试项(高频失效),尝试降频测试。如果降频后就通过了,很可能是设计时序余量不足,或者工艺波动导致芯片速度变慢。
    - 如果问题在“直流”或“功耗”相关项(比如漏电大),并且和芯片在晶圆上的位置强相关,工艺问题的可能性更大。
    - 如果同一个设计,在其他晶圆厂(Fab)生产良率正常,那当前厂的问题就很明显了。

    记住,量产测试的数据是你的最强武器。系统性地对比(和好批次比、和设计仿真预期比)、分层排查(从测试硬件/程序,到晶圆级共性,再到芯片内部模块),就能逐渐缩小包围圈。多和Fab的工程师沟通,他们最了解工艺的细节和近期波动。

    12小时前
  • 逻辑设计新人

    逻辑设计新人

    良率偏低确实让人头大,尤其是刚接触的时候。别慌,先从测试数据本身入手,把问题范围缩小。

    第一步,看Bin分布。如果失效集中在某个或某几个特定的测试项(Bin),那问题很可能就出在这些测试项对应的电路模块或测试条件上。比如,所有失效芯片都在“存储器读写”测试项上挂掉,那就要重点怀疑存储器的设计或针对它的测试程序。如果失效非常分散,遍布多个不相关的测试项,那可能是更底层、更共性的问题,比如电源网络、时钟分布,或者工艺波动。

    第二步,结合Shmoo图分析。对失效集中的测试项,调出它的Shmoo图(扫描电压、频率、时序等参数)。如果Shmoo图显示,芯片在测试条件的一个边缘(比如电压偏低一点或频率偏高一点)才失效,而在正常条件中心区域是好的,那可能是设计余量(margin)不足,或者工艺漂移到了某个corner。如果Shmoo图显示,即使在很宽松的条件下芯片也失效,那就要高度怀疑是测试程序本身有问题,比如测试向量错了、时序设置根本不对、或者测量方法有误。

    第三步,交叉比对。对比不同晶圆(Wafer)、不同批次(Lot)的良率数据。如果问题只出现在某一批晶圆上,其他批次都正常,那工艺波动的嫌疑就很大。如果所有批次、所有晶圆都有相同模式的良率问题,那设计缺陷或测试程序问题的可能性就上升了。还可以对比不同测试机台(Tester)的结果,排除机台差异。

    关键数据:除了Bin分布和Shmoo,还要关注Wafer Map(看失效芯片在晶圆上的分布是随机、集中还是边缘?边缘集中可能和工艺有关),以及测试日志里有没有报错(比如仪器通信失败,那可能是硬件或程序问题)。

    初步判断:设计问题往往有“模式化”失效(特定功能/电路),且Shmoo边界敏感。工艺问题常伴随Wafer/批次特异性,以及参数(如Iddq、速度)的整体漂移。测试程序问题最“简单粗暴”:可能Shmoo图异常、或者换个程序版本就好了。

    最后,别单干。拉着设计工程师、产品工程师和工艺工程师一起看数据,他们的经验能帮你快速定位。

    12小时前
我要回答answer.notCanPublish
回答被采纳奖励100个积分
FPGA线上课程平台|最全栈的FPGA学习平台|FPGA工程师认证培训
请先登录