2026年,存算一体(Compute-in-Memory, CIM)架构正从学术原理验证迈向边缘AI场景的工程化落地,尤其在视觉处理领域展现出显著的能效潜力。然而,其商业化进程仍面临设计工具链缺失、工艺兼容性及算法映射复杂等核心挑战。本文基于公开技术综述与行业讨论,对CIM在边缘视觉AI中的优势、技术路线、集成方案及瓶颈进行系统梳理,旨在为FPGA、芯片及AI硬件从业者提供客观、可验证的参考信息。由于本文部分内容源自智能梳理与模型知识,读者应以IEEE IEDM、ISSCC等会议论文及企业官方披露为准,并注意交叉验证。
核心要点速览
- 存算一体(CIM)通过消除数据搬运功耗,在卷积、向量乘加等AI推理任务中能效比传统冯·诺依曼架构提升10-100倍。
- 边缘视觉AI(如摄像头实时目标识别、传感器端处理)被公认为CIM最早的商业化突破口。
- 主流存储技术路线包括SRAM、RRAM、MRAM,各自在精度、密度、非理想效应间存在权衡。
- SRAM基CIM宏单元精度高、与CMOS工艺兼容好,但密度低、静态功耗较大。
- RRAM基CIM密度高、非易失,但存在器件变异、耐久性及写入噪声等非理想效应。
- MRAM基CIM兼具非易失性与较高速度,但工艺成熟度与成本仍是障碍。
- CIM阵列需与边缘SoC中的数字逻辑(控制单元、后处理单元)高效集成,形成混合计算架构。
- 新兴非易失存储器(如RRAM、MRAM)与标准CMOS工艺的集成难度及额外成本是量产关键瓶颈。
- 设计工具链(EDA支持、仿真模型、编译器)缺失严重制约CIM芯片的快速迭代与部署。
- 算法映射复杂:不同CIM宏单元对神经网络层(如卷积、全连接、激活函数)的适配性差异大,需定制化映射策略。
- 国内外初创公司(如知存科技、千芯科技)及研究机构正加速CIM芯片的研发,但多数仍处于小批量试产或特定场景验证阶段。
- FPGA从业者可关注CIM与FPGA的混合架构探索,以及基于FPGA的CIM仿真加速平台。
存算一体架构的能效优势:原理与量化
传统冯·诺依曼架构中,数据在存储单元与计算单元之间的频繁搬运(即“存储墙”问题)是主要功耗来源。存算一体(CIM)通过直接在存储器内执行计算,从根本上消除了这一瓶颈。在AI推理任务中,尤其是卷积神经网络(CNN)的乘加运算,CIM架构的能效优势尤为突出。根据IEEE ISSCC及IEDM近年论文,典型SRAM基CIM宏单元在8位精度下能效可达10-100 TOPS/W,而传统数字加速器(如GPU、NPU)通常在1-10 TOPS/W量级。对于边缘视觉AI应用,如每秒处理30帧的1080p图像目标识别,CIM芯片可将系统功耗从数瓦降至毫瓦级别,从而支持电池供电的长期运行。
然而,能效优势的量化需谨慎:上述数据多基于特定宏单元测试芯片,实际系统级能效会因阵列规模、外围电路、数据格式转换及后处理逻辑而显著下降。读者在评估时应关注完整芯片(而非仅宏单元)的实测数据。
存储技术路线对比:SRAM、RRAM与MRAM
SRAM基CIM
SRAM(静态随机存取存储器)是当前最成熟的CIM实现载体。其优点包括:与标准CMOS工艺完全兼容(无需额外掩模或材料),单元设计成熟,读写速度快,且模拟计算精度较高(通常支持4-8位)。主要缺点在于:单元面积大(6T或8T结构),导致存储密度低;静态漏电功耗较大,不利于长时间待机场景。2026年,多家研究机构(如台积电、IMEC)展示了基于先进工艺节点(如5nm、3nm)的SRAM CIM宏单元,能效进一步提升,但密度问题仍制约其在边缘设备中的大规模部署。
RRAM基CIM
RRAM(阻变随机存取存储器)因其高密度(单元面积可小至4F²)、非易失性(断电后数据保留)及与CMOS后道工艺兼容性,被视为CIM的理想候选。然而,RRAM面临严重的非理想效应:器件电阻值变异(cycle-to-cycle及device-to-device)、耐久性有限(通常10⁶-10⁸次)、写入噪声及温度敏感性。这些因素导致模拟计算精度下降,尤其在多比特量化场景下。2026年,业界正通过材料工程(如HfO₂基、TaOₓ基)及纠错编码技术缓解上述问题,但量产良率仍是挑战。
MRAM基CIM
MRAM(磁随机存取存储器)基于自旋转移矩(STT)或自旋轨道矩(SOT)效应,兼具非易失性、高速度(纳秒级)及较高耐久性(>10¹⁵次)。其单元面积通常大于RRAM(约20-40F²),且与CMOS工艺集成需额外磁隧道结(MTJ)沉积步骤,成本较高。2026年,STT-MRAM已在嵌入式非易失存储器市场(如MCU、IoT芯片)取得一定份额,但用于CIM计算时,MTJ电阻值较小(通常几kΩ),导致读功耗较高且模拟计算动态范围受限。SOT-MRAM虽能效更优,但工艺成熟度更低。
CIM与边缘SoC的混合集成架构
在实际边缘视觉AI芯片中,CIM宏单元并非孤立工作,而是作为加速器与SoC中的传统数字逻辑(如RISC-V CPU、DSP、图像信号处理器ISP、后处理单元)紧密集成。典型的混合架构包括:
- 近存计算(Near-Memory Computing):CIM宏单元作为协处理器,通过高带宽总线与主存或SRAM缓存连接,适用于中等计算密度的任务。
- 存内计算宏单元阵列:将多个CIM宏单元(如128x128或256x256)排列成二维阵列,直接执行卷积层或全连接层的矩阵乘法,输出经模数转换器(ADC)转为数字信号,再交由数字逻辑进行激活函数、池化等后处理。
- 异构调度:由软件运行时(runtime)或编译器根据层类型(卷积、全连接、激活)及精度需求,动态将计算任务分配给CIM阵列或数字加速器,以优化能效与吞吐量。
这种混合集成对芯片设计者提出新挑战:CIM宏单元的模拟输出(电流或电压)需经高精度ADC转换为数字信号,ADC的功耗与面积占比可能高达30-50%,从而部分抵消CIM的能效优势。此外,CIM阵列与数字逻辑之间的时钟同步、数据格式转换及控制信号交互也需精心设计。
工艺兼容性挑战与商业化瓶颈
新兴非易失存储器(RRAM、MRAM)与标准CMOS工艺的集成是CIM量产化的核心障碍。具体挑战包括:
- 额外工艺步骤:RRAM需在金属互连层之间沉积阻变层(如HfO₂)及电极,MRAM需沉积MTJ多层膜,均需额外掩模版及沉积/刻蚀步骤,增加制造成本约10-30%。
- 热预算与兼容性:某些存储材料的沉积温度或退火条件可能与标准CMOS前端工艺冲突,影响晶体管性能。
- 良率与可靠性:RRAM/MRAM的器件变异及缺陷密度在先进节点(如7nm以下)更为突出,导致宏单元良率下降。
- 设计规则限制:CIM宏单元需遵守特定设计规则(如最小线宽、间距),可能限制阵列密度或模拟精度。
此外,设计工具链的缺失是另一大瓶颈。目前主流EDA工具(如Cadence、Synopsys)对CIM宏单元的支持有限,缺乏统一的仿真模型、版图生成工具及时序/功耗分析流程。编译器方面,将神经网络模型(如TensorFlow、PyTorch)高效映射到CIM阵列的自动化工具仍处于早期阶段,多数需手动调整层参数及量化策略。
对FPGA与数字IC从业者的启示
对于FPGA工程师及数字IC设计者,CIM架构的兴起带来以下机遇与挑战:
- FPGA作为CIM仿真平台:由于CIM芯片流片成本高、周期长,FPGA可被用于构建CIM行为级仿真器,加速算法映射与性能评估。例如,利用FPGA的BRAM及LUT模拟CIM宏单元的乘加运算,结合ADC模型,可快速验证不同精度及阵列规模下的系统性能。
- 混合架构中的数字逻辑设计:CIM阵列与数字控制单元、后处理单元(如激活函数、池化、非极大值抑制)的接口设计是数字IC工程师的新课题,需熟悉模拟-数字混合信号设计及高速ADC接口。
- 算法-硬件协同优化:CIM对神经网络层结构敏感,从业者需掌握模型量化(如INT4/INT8)、剪枝及知识蒸馏等压缩技术,以适配CIM宏单元的精度与容量限制。
- 关注开源工具链:如Google的XLS(加速线性代数)、LLVM-MLIR等开源编译器框架,可能成为未来CIM映射工具的基础。
综合评估表
| 观察维度 | 公开信息里能确定什么 | 仍需核实什么 | 对读者的行动建议 |
|---|---|---|---|
| 能效优势 | CIM在卷积、乘加运算中能效显著优于传统架构(10-100倍宏单元级) | 系统级能效数据(含ADC、外围电路)需从完整芯片实测获取 | 关注ISSCC/IEDM论文中的芯片实测数据,而非仅宏单元仿真 |
| 存储技术路线 | SRAM最成熟,RRAM密度高但非理想效应大,MRAM速度与耐久性优但成本高 | 不同路线的量产良率及成本对比数据(需来自代工厂或IDM) | 跟踪台积电、IMEC、三星等发布的工艺节点路线图 |
| 混合集成架构 | CIM阵列需与数字逻辑、ADC紧密集成,ADC功耗占比是关键 | 最佳ADC位数(如4-8位)及功耗优化方案仍在探索中 | 学习混合信号设计基础,关注低功耗ADC架构(如SAR ADC) |
| 工艺兼容性 | RRAM/MRAM需额外工艺步骤,增加成本10-30% | 先进节点(如5nm以下)的具体集成良率数据 | 阅读代工厂的CIM工艺设计套件(PDK)文档(如适用) |
| 设计工具链 | EDA支持有限,编译器自动化程度低 | 开源工具链(如XLS、MLIR)对CIM的适配进展 | 尝试用FPGA搭建CIM仿真器,参与开源项目贡献 |
| 商业化进展 | 初创公司(如知存科技、千芯科技)有小批量试产,但非大规模量产 | 具体客户落地案例、出货量及可靠性认证(如车规级) | 关注企业官网及行业展会(如MWC、CES)的产品发布 |
常见问题(FAQ)
Q:存算一体(CIM)与近存计算(Near-Memory Computing)有何区别?
A:近存计算将计算单元与存储单元物理上靠近(如通过3D堆叠或硅中介层),但数据仍需通过总线搬运,只是距离缩短;而存算一体直接在存储单元内部执行计算,数据无需离开存储阵列,能效更高,但设计复杂度也更大。
Q:CIM芯片是否完全取代传统数字加速器(如GPU、NPU)?
A:短期内不会。CIM在特定计算模式(如卷积、矩阵乘法)上能效优势明显,但难以处理控制密集型任务(如分支、循环)及高精度浮点运算。未来更可能是异构计算架构,即CIM加速特定层,数字逻辑处理其余部分。
Q:CIM宏单元的模拟计算精度如何保证?
A:精度受限于存储器件特性(如电阻变异、噪声)及ADC分辨率。常用方法包括:采用冗余校准、纠错编码、动态精度缩放(如混合精度INT4/INT8),以及训练时考虑硬件噪声的鲁棒性。
Q:FPGA能否直接实现CIM?
A:传统FPGA的查找表(LUT)和BRAM无法直接模拟CIM的模拟计算。但可利用FPGA的DSP切片和BRAM构建数字近似模型,用于算法映射验证及性能评估。部分研究尝试在FPGA上集成RRAM或MRAM单元,但尚未成熟。
Q:学习CIM需要哪些基础知识?
A:建议掌握:数字集成电路设计(Verilog/VHDL)、模拟电路基础(运放、ADC)、存储器原理(SRAM、RRAM、MRAM)、神经网络基础(CNN、量化)、以及芯片设计流程(RTL到GDS)。
Q:CIM芯片的功耗主要来自哪里?
A:除存储阵列的读写功耗外,ADC转换、数字控制逻辑、数据格式转换及I/O接口是主要功耗来源。在先进节点,静态漏电(尤其是SRAM)也不可忽视。
Q:2026年CIM芯片的量产情况如何?
A:据公开信息,SRAM基CIM芯片已有小批量试产(如知存科技WTM系列),但主要用于特定客户验证;RRAM/MRAM基CIM仍以研究芯片为主,量产时间表未明确。
Q:CIM对边缘视觉AI的延迟有何影响?
A:由于CIM消除了数据搬运,推理延迟可显著降低(尤其在小批量或单帧处理场景)。但ADC转换及数字后处理会引入额外延迟,整体延迟需根据具体架构评估。
Q:有哪些开源CIM设计资源?
A:目前开源资源有限,但可关注:UC Berkeley的CIM仿真框架(如CIM-Sim)、Google XLS项目(用于硬件生成)、以及GitHub上的CIM宏单元Verilog模型(需注意验证状态)。
参考与信息来源
- 智能热点梳理(模型知识):2026年存算一体(CIM)架构在边缘视觉AI处理中的能效优势与工艺适配性探讨。核验建议:搜索“Compute-in-Memory edge vision 2026”、“CIM SRAM AI inference”、“non-volatile memory based computing”。查阅IEEE国际电子器件会议(IEDM)和ISSCC上关于存算一体芯片的论文。关注国内外一些专注于存算一体技术的初创公司或研究机构(如知存科技、千芯科技等)发布的技术进展或产品路线图(需注意区分研发阶段与量产状态)。
技术附录
关键术语解释
- 存算一体(CIM):在存储单元内直接执行计算,避免数据搬运的架构。
- 宏单元(Macro):CIM芯片中的基本计算存储单元阵列,通常包含存储阵列、外围电路(如字线/位线驱动、ADC)及控制逻辑。
- TOPS/W:每瓦特功耗下可执行的万亿次操作数,衡量能效的常用指标。
- 非理想效应:存储器件在实际工作时的非理想行为,如电阻变异、噪声、耐久性下降等。
- ADC(模数转换器):将CIM宏单元的模拟输出(电流/电压)转换为数字信号的电路,其精度与功耗直接影响系统性能。
- RRAM/MRAM:阻变随机存取存储器/磁随机存取存储器,两种新兴非易失存储技术。
可复现实验建议
读者可尝试以下步骤,以加深对CIM的理解:
- 使用Python或MATLAB构建一个简化的CIM宏单元行为模型,模拟8x8 SRAM阵列执行矩阵乘法,并加入随机噪声以观察精度影响。
- 在FPGA上实现一个CIM仿真器,利用BRAM存储权重、DSP切片模拟乘加运算,并通过UART输出结果,与软件模型对比。
- 阅读一篇ISSCC 2025或2026的CIM论文(如“A 28nm 64Kb 6T SRAM Computing-in-Memory Macro with 8b ADC and 0.2-1.2V Operation”),复现其能效与精度曲线。
边界条件与风险提示
本文信息基于智能梳理与模型知识,部分数据(如能效比、成本比例)为近似值,实际数值可能因工艺、设计及测试条件而异。读者在决策或研究时,应以IEEE、ISSCC等权威会议论文及企业官方披露为准。CIM技术仍处于快速发展期,技术路线及商业化进程可能随时间变化,建议持续跟踪最新文献与行业动态。
进一步阅读建议
- IEEE International Solid-State Circuits Conference (ISSCC) 2025/2026 论文集中CIM相关章节。
- IEEE International Electron Devices Meeting (IEDM) 2025/2026 中关于RRAM/MRAM器件的最新进展。
- 知存科技官网及技术白皮书(注意区分研发与量产状态)。
- 千芯科技官网及产品路线图。
- Google XLS项目文档:https://github.com/google/xls






