冯丹从三个方面介绍忆阻器的相关发展, 首先是市场需求, IDC预计, 到2020年全球的数据量将达到40ZB, 数据量强大, 另外一方面是对存储的需求, 包括高性能计算的存储需求, 以及各种各样的网络应用, 对存储的需求是速度更快. 例如12306, 春运时每天超过300亿次PV操作, 每秒并发访问1.3 GB的数据, 对内存的需求非常大, 包括大数据分析等都是放在内存里, 而大规模计算所需内存容量将是现在的1000倍, 内存需求以及供给存在巨大差距.
忆阻器RRAM最有希望取代DRAM
当前, DRAM以电容器中电荷量的多少来存储数据, 电容器必须设计的足够大以增加保留时间, 降低刷新频率, 这样就导致容量和能耗受限, 工艺制程难以下降, 而CPU性能的增长速度飞快, 内存容量的增长远低于CPU性能的增长速度, 也就是通常所说的内存强的问题, 另外是能耗问题, 随着容量的进一步增大, 泄漏功耗进一步的增加, 服务器40-50%能耗来自内存, DRAM的能耗中有40%来自刷新.
ITRS报告指出, DRAM很难在20nm技术结点以下保持可扩展性, DRAM工艺在达到X-nm之后将会停止, 当DRAM工艺到了几个纳米之后, 扩展性受限. 冯丹表示, 比较包括自旋转移在内的几种存储器, 其中最典型的代表就是忆阻变, 通过不断的研究发展, 当前的RRAM容量很大, 速度很快能耗很低, 所以也认为RRAM也是下一代代替DRAM的一个很好的选择.
以RRAM为例, 用忆阻器来做存储, 金属氧化物的存储器的主要原理, 首先就是在低阻态状态下, 存储器可以使导电丝断掉, 成为高阻态, 而这个操作时间是比较长的, 延迟较大, 同样在这种状态下, 再加上一定大小的电压, 就使得导电丝从高阻态变成了低阻态.
RRAM阵列的结构有两种, 一种是交叉点结构, 单晶体管单电阻 (1T1R) 阵列的结构是, 在每一个交叉点都需要一个访问晶体管, 以独立选通每一个单元. 但它的缺点也非常明显, 1T1R结构的RRAM的总芯片面积取决于晶体管占用的面积, 因此存储密度较低. Crossbar结构也颇受关注, 每一个存储单元位于水平的字线 (WL) 和垂直的位线 (BL) 的交叉点处. 每个单元占用的面积为4F² (F是技术特征尺寸) , 达到了单层阵列的理论最小值. 其优点是存储密度较高, 而存在互连线上的电压降和潜行电流路径, 造成读写性能下降, 能耗上升以及写干扰等问题则是其缺点所在, 很多的研究都是围绕这一类展开.
RRAM最大的缺点是其严重的器件级变化性, RRAM器件状态的转变需要通过给两端电极施加电压来控制氧离子在电场驱动下的漂移和在热驱动下的扩散两方面的运动, 使得导电丝的三维形貌难以调控, 再加上噪声的影响, 造成了器件级变化性. 器件级变化性是制造可靠的芯片产品的关键问题.
大容量, 计算与存储深度融合成为忆阻器的发展趋势
Crossbar结构的RRAM比1T1R结构的RRAM存储容量大, SLC的性能比MLC的性能高, 而RRAM原型芯片的存储容量由Mb级逐渐向Gb级发展, 技术结点逐渐缩小, 读写性能逐渐提高. 从容量和读写带宽的发展对比来看, RRAM虽发展较晚, 但存储容量增长迅速, 相比于PCRAM和STT-MRAM, RRAM在读写带宽当方面更具优势. 另一方面, 基于忆阻器的神经形态计算系统也在不断发展中, 有忆阻器构成的Crossbar阵列可用于加速神经形态计算中常见的矩阵向量乘法, 作为一种模拟计算, 要想提高计算精度就需要解决Crossbar阵列中互连导线上的电压降以及器件变化所导致的可靠性问题, 计算与存储已深度融合.
从器件变化性问题上看, 忆阻器的状态变化量近似服从对数正态分布. 对此, 需要预先测试阵列中所有忆阻器, 通过统计它们的阻值状态分布来得到变化性规律. 交换权重矩阵的两行或两列, 与此同时, 交换输入输出向量对应的元素, 使得较大的突触权重被映射到具有较小变化性的忆阻器中, 从而降低网络输出的变化性.
神经网络的计算规模比较大的时候, 传统的二维就要很多的阵列共同计算, 能耗增加, 采用三维结构之后, 柱状电机在同一平面, 这样就可以降低整个大规模的神经网络计算的能耗, 以及可以实现更低的延迟. 此外还可以实现逻辑预算, 以满足多变的计算需求.
基于AI的神经网络举证运算, 当容量不够时, 通过在过大容量的存储空间中做计算, 减少数据的移动, 能够获得更好的性能. 目前, 学术界和工业界已推出一些相应的样片, 但实际产品还是比较少的. 中芯国际和中科院微电子所合作开发了芯片, 今年1月, 美国Crossbar公司宣布与中芯国际合作开发的40nm工艺的3-D堆叠1TnR阵列的RRAM芯片正式出样, 忆阻器真正要到使用还需要经过一段阶段, 但是趋势就是大容量.
如何优化大容量RRAM性能?
由于线路电阻和电流泄露IR drop会减小施加在选定单元两端的电压值, 而ReRAM单元的RESET延迟和施加在其两端的电压值成指数级反比, IR drop会大大增加访问延迟, 为了减小电流泄露, 普遍采用半偏置写机制. 在缓解IR drop问题上, 双端接地电路设计 (DSGB) , 减小了wordline上的IR drop, 大大降低了RESET延迟, 对于8位写的512×512阵列而言, worst-case RESET延迟 682ns降到240ns .
采用区域划分的双端写驱动方法, 对于8位写的1024×1024阵列而言, 不使用DSWD机制的阵列IR drop严重, RESET延迟指数级增大. DSWD机制减小了bitline上的IR drop, 提升了512行以上单元的电压, 大大降低了RESET延迟.
离write driver近的行在bitline有着较小的IR drop, 访问延迟也较小; 而离write driver远的行访问延迟较大
将crosbar阵列根据不同行的不同延迟, 划分为快慢区域. 在基于有效电流路径的电压偏置方面, 选择离目标单元最近的外围电路对其施加写电压, 改善导线上的电压降, 降低写延迟; 分块对角区域划分: 缩小区域内单元访问延迟差异, 降低区域的写延迟, 不仅在电路方面, 针对TLC, 忆阻器RRAM可以用编码的方法提高性能.