馮丹: 憶阻器RRAM最有希望取代DRAM

日前, 一年一度的中國存儲峰會在北京如期舉行, '數據中流擊水, 浪遏飛舟' 是今年大會主題, 論道存儲未來, 讓數據釋放價值, 業界嘉賓圍繞中國及全球存儲市場的現狀與發展趨勢進行了深入解讀, 乾貨滿滿. 下午第三分論壇, 中國計算機協會資訊存儲專委會主任馮丹作為開場嘉賓, 就算存融合的憶阻器發展趨勢及RRAM (阻變存儲器) 性能優化方法展開主題演講. 馮丹表示, 當前憶阻器呈現出大容量, 計算與存儲深度融合的發展趨勢, 而RRAM容量很大, 速度快, 能耗低, RRAM也認為是下一代代替DRAM(動態隨機存儲器)的一個很好的選擇.

馮丹從三個方面介紹憶阻器的相關發展, 首先是市場需求, IDC預計, 到2020年全球的數據量將達到40ZB, 數據量強大, 另外一方面是對存儲的需求, 包括高性能計算的存儲需求, 以及各種各樣的網路應用, 對存儲的需求是速度更快. 例如12306, 春運時每天超過300億次PV操作, 每秒並發訪問1.3 GB的數據, 對記憶體的需求非常大, 包括大數據分析等都是放在記憶體裡, 而大規模計算所需記憶體容量將是現在的1000倍, 記憶體需求以及供給存在巨大差距.

憶阻器RRAM最有希望取代DRAM

當前, DRAM以電容器中電荷量的多少來存儲數據, 電容器必須設計的足夠大以增加保留時間, 降低刷新頻率, 這樣就導致容量和能耗受限, 工藝製程難以下降, 而CPU性能的增長速度飛快, 記憶體容量的增長遠低於CPU性能的增長速度, 也就是通常所說的記憶體強的問題, 另外是能耗問題, 隨著容量的進一步增大, 泄漏功耗進一步的增加, 伺服器40-50%能耗來自記憶體, DRAM的能耗中有40%來自刷新.

ITRS報告指出, DRAM很難在20nm技術結點以下保持可擴展性, DRAM工藝在達到X-nm之後將會停止, 當DRAM工藝到了幾個納米之後, 擴展性受限. 馮丹表示, 比較包括自旋轉移在內的幾種存儲器, 其中最典型的代表就是憶阻變, 通過不斷的研究發展, 當前的RRAM容量很大, 速度很快能耗很低, 所以也認為RRAM也是下一代代替DRAM的一個很好的選擇.

以RRAM為例, 用憶阻器來做存儲, 金屬氧化物的存儲器的主要原理, 首先就是在低阻態狀態下, 存儲器可以使導電絲斷掉, 成為高阻態, 而這個操作時間是比較長的, 延遲較大, 同樣在這種狀態下, 再加上一定大小的電壓, 就使得導電絲從高阻態變成了低阻態.

RRAM陣列的結構有兩種, 一種是交叉點結構, 單晶體管單電阻 (1T1R) 陣列的結構是, 在每一個交叉點都需要一個訪問晶體管, 以獨立選通每一個單元. 但它的缺點也非常明顯, 1T1R結構的RRAM的總晶片面積取決於晶體管佔用的面積, 因此存儲密度較低. Crossbar結構也頗受關注, 每一個存儲單元位於水平的字線 (WL) 和垂直的位線 (BL) 的交叉點處. 每個單元佔用的面積為4F² (F是技術特徵尺寸) , 達到了單層陣列的理論最小值. 其優點是存儲密度較高, 而存在互連線上的電壓降和潛行電流路徑, 造成讀寫性能下降, 能耗上升以及寫幹擾等問題則是其缺點所在, 很多的研究都是圍繞這一類展開.

RRAM最大的缺點是其嚴重的器件級變化性, RRAM器件狀態的轉變需要通過給兩端電極施加電壓來控制氧離子在電場驅動下的漂移和在熱驅動下的擴散兩方面的運動, 使得導電絲的三維形貌難以調控, 再加上雜訊的影響, 造成了器件級變化性. 器件級變化性是製造可靠的晶片產品的關鍵問題.

大容量, 計算與存儲深度融合成為憶阻器的發展趨勢

Crossbar結構的RRAM比1T1R結構的RRAM存儲容量大, SLC的性能比MLC的性能高, 而RRAM原型晶片的存儲容量由Mb級逐漸向Gb級發展, 技術結點逐漸縮小, 讀寫性能逐漸提高. 從容量和讀寫頻寬的發展對比來看, RRAM雖發展較晚, 但存儲容量增長迅速, 相比於PCRAM和STT-MRAM, RRAM在讀寫頻寬當方面更具優勢. 另一方面, 基於憶阻器的神經形態計算系統也在不斷髮展中, 有憶阻器構成的Crossbar陣列可用於加速神經形態計算中常見的矩陣向量乘法, 作為一種類比計算, 要想提高計算精度就需要解決Crossbar陣列中互連導線上的電壓降以及器件變化所導致的可靠性問題, 計算與存儲已深度融合.

從器件變化性問題上看, 憶阻器的狀態變化量近似服從對數常態分佈. 對此, 需要預先測試陣列中所有憶阻器, 通過統計它們的阻值狀態分布來得到變化性規律. 交換權重矩陣的兩行或兩列, 與此同時, 交換輸入輸出向量對應的元素, 使得較大的突觸權重被映射到具有較小變化性的憶阻器中, 從而降低網路輸出的變化性.

神經網路的計算規模比較大的時候, 傳統的二維就要很多的陣列共同計算, 能耗增加, 採用三維結構之後, 柱狀電機在同一平面, 這樣就可以降低整個大規模的神經網路計算的能耗, 以及可以實現更低的延遲. 此外還可以實現邏輯預算, 以滿足多變的計算需求.

基於AI的神經網路舉證運算, 當容量不夠時, 通過在過大容量的存儲空間中做計算, 減少數據的移動, 能夠獲得更好的性能. 目前, 學術界和工業界已推出一些相應的樣片, 但實際產品還是比較少的. 中芯國際和中科院微電子所合作開發了晶片, 今年1月, 美國Crossbar公司宣布與中芯國際合作開發的40nm工藝的3-D堆疊1TnR陣列的RRAM晶片正式出樣, 憶阻器真正要到使用還需要經過一段階段, 但是趨勢就是大容量.

如何優化大容量RRAM性能?

由於線路電阻和電流泄露IR drop會減小施加在選定單元兩端的電壓值, 而ReRAM單元的RESET延遲和施加在其兩端的電壓值成指數級反比, IR drop會大大增加訪問延遲, 為了減小電流泄露, 普遍採用半偏置寫機制. 在緩解IR drop問題上, 雙端接地電路設計 (DSGB) , 減小了wordline上的IR drop, 大大降低了RESET延遲, 對於8位寫的512×512陣列而言, worst-case RESET延遲 682ns降到240ns .

採用區域劃分的雙端寫驅動方法, 對於8位寫的1024×1024陣列而言, 不使用DSWD機制的陣列IR drop嚴重, RESET延遲指數級增大. DSWD機制減小了bitline上的IR drop, 提升了512行以上單元的電壓, 大大降低了RESET延遲.

離write driver近的行在bitline有著較小的IR drop, 訪問延遲也較小; 而離write driver遠的行訪問延遲較大

將crosbar陣列根據不同行的不同延遲, 劃分為快慢區域. 在基於有效電流路徑的電壓偏置方面, 選擇離目標單元最近的外圍電路對其施加寫電壓, 改善導線上的電壓降, 降低寫延遲; 分塊對角區域劃分: 縮小區域內單元訪問延遲差異, 降低區域的寫延遲, 不僅在電路方面, 針對TLC, 憶阻器RRAM可以用編碼的方法提高性能.

2016 GoodChinaBrand | ICP: 12011751 | China Exports