3D-NAND 计算（下）-编程知识

3D-NAND 计算（下）

news/2025/3/12 1:47:27/文章来源:https://www.cnblogs.com/wujianming-110117/p/18677931

过去几年, 具有存算一体特性的 AI 芯片不断涌现, 工艺节点涵盖了 14—180 nm, 计算架构包括了近存计算、存内计算和神经形态计算, 应用场景覆盖了边缘端到云端设备. 在各种硬件方案中, 基于 3D-NAND 的神经形态芯片在芯片容量, CMOS 工艺兼容性和成本方面极具优势. 本文首先介绍了 3D-NAND 的基本结构和原理, 以及用于神经形态计算的优势和不足. 然后详细梳理了近几年关于 NAND 和 3D-NAND 用于神经形态计算的代表性工作, 重点介绍了其中的编码方式、前向传播原理和反向传播过程. 基于现有的工作, 考虑到 3D-NAND 的优势与不足, 如用于未来的神经形态计算, 3D-NAND 需要做的调整如下: 1) 器件层面. 用于数据存储的 3D NAND, 器件采用电荷俘获型晶体管 (CTL), 通过在栅极施加高幅值和长时程的脉宽 (>10 V, >100 µs), 利用 Fowler-Nordheim 隧穿效应, 在电荷俘获层中注入或擦除电子以改变阈值电压 (Vth ), 实现存储功能. 随擦写次数的增加, 隧穿绝缘层的晶格会被破坏甚至失效, 因此 CTL 的擦写次数有限. 低功耗是神经形态计算的特点, CTL 器件的操作功耗需要进一步优化. 目前国内外的一些研究机构, 探索了将氧化铪基铁电材料替代传统的氮化硅电荷俘获层 [57,58] , 利用铁电效应实现了器件的存储功能. 如果能将铁电技术成功地应用到 3D NAND 中, 能大幅提高器件的擦写次数, 并且降低操作功耗. G=G+ −G− 2) 结构层面. 1) CTL 晶体管是 3D NAND 的基本单元, 多个 CTL 器件组成一个 NAND string, 多个 string 组成一个 block, 多个 block 组成 3D NAND 结构. 在神经形态计算中, 突触和神经元是神经网络的基本单元. 2) 突触可由一个或多个 CTL 器件构成. 对于低精度的计算, 可采用幅值或者脉宽编码, 输入/输出均为模拟信号, 单个 CTL 突触即可满足模拟计算的需求, 电路结构简单原理直观. 对于高精度的计算, 则采用二值编码, 用多个 SLC 构建一个多 bit 精度的突触, 采用二进制计算方式. 3) 突触多采用差分对结构 , 为了避免正、负突触阈值电压达到最大而无法进一步更新权重, 3D NAND 中通常需要定期进行块擦除并重新赋予突触权重值. 2021 年, 首尔大学和 SK Hynix 合作开发了适用于神经形态计算的单个 CTL 器件的擦除方案, 避免了定期的块擦除 [59] . 3) 架构层面. 存储用途的 3D NAND 只涉及读、写、擦操作, 计算由外部的 CPU 负责. 读写按 block→string→CTL 的顺序串行操作. 区别于存储用途, 在用于神经形态计算的 3D NAND 中, 读操作增加了 MAC 运算, 外围电路需要配置大量的 ADC/DAC 和移位加法器等单元. 并且读写操作按神经网络的映射规则执行, 不一定按 block→ string→CTL 的顺序. 最后, 由于 3D-NAND 的专利特性, 厂商并未开放用户对芯片颗粒端口的权限. 目前的工作中, 前向传播过程和反向传播过程并未做硬件实现, 多数是基于厂商样片测得的存储单元特性以及读误差分布, 通过电路和软件层面上仿真得到的结果. 未来的工作应该考虑与厂商有更深入的交流合作, 在硬件层面执行前向传播、反向传播和权重更新, 更直接地展示 3D-NAND 在神经形态计算方面的应用潜力.