常見企業(yè)級SSD故障電源可靠性分析詳解
SSD技術(shù)概覽
固態(tài)驅(qū)動器(SSD)是采用固態(tài)半導(dǎo)體存儲器(如NAND閃存)而非傳統(tǒng)硬盤驅(qū)動器(HDD)中磁性元件來永久存儲信息的一種數(shù)據(jù)存儲設(shè)備。由于數(shù)據(jù)可隨機存取,不像HDD那樣受磁盤轉(zhuǎn)動和讀寫磁頭同步的影響,因此能加快SSD的輸入/輸出(I/O)性能。此外,HDD移動磁頭到準(zhǔn)確位置也要花上幾毫秒。
SSD的基本架構(gòu)包括SSD控制器/處理器、存儲器控制器、接口控制器、NAND閃存存儲器器件組、SDRAM緩存和接口連接器。
SSD沒有移動部件,大小與HDD相仿,而且支持標(biāo)準(zhǔn)的HDD接口,包括串行高級技術(shù)附件(SATA)、串行連接SCSI(SAS)、光纖通道(FC)等。由于不采用移動部件,因此SSD在更長的工作時間內(nèi)能保持更高的可靠性。
SSD還有一大優(yōu)勢,就是相對于HDD而言能顯著降低功耗。隨著存儲器容量的提升和價格的下降,SSD越來越成為富有吸引力的HDD替代方案。由于SSD速度更快,因此單位IOPS(每秒輸入/輸出操作)的成本低得多。隨著時間的推移,SSD在單位存儲容量(每千兆字節(jié))的成本方面也體現(xiàn)出更高的優(yōu)勢。分析人士預(yù)測SSD價格將繼續(xù)穩(wěn)步下降,從而進(jìn)一步推進(jìn)該技術(shù)在不同細(xì)分市場中的應(yīng)用。
企業(yè)級SSD
企業(yè)級SSD是當(dāng)前非易失性存儲的最高級別,在讀寫性能、散熱和能耗方面都較其它HDD替代方案有了長足的進(jìn)步。SSD作為存儲網(wǎng)絡(luò)加速器可讓企業(yè)應(yīng)用大受裨益,其中包括銀行和金融應(yīng)用、在線事務(wù)處理、前端Web服務(wù)器、搜索引擎、信息傳遞和高性能計算等。
由于企業(yè)級SSD與HDD插件兼容并支持標(biāo)準(zhǔn)的磁盤接口,因此能安裝在當(dāng)前使用企業(yè)HDD的大多數(shù)服務(wù)器平臺和磁盤陣列中。面向企業(yè)級存儲設(shè)備的主要性能參數(shù)是隨機讀寫IOPS(見表1)。
表1
企業(yè)級SSD可提供大容量存儲空間、高性能和高可靠性等規(guī)范,專門面向企業(yè)存儲市場,用于支持應(yīng)用加速。
圖1顯示了SATA接口企業(yè)級SSD的基本方框圖。其它可用接口還包括與HDD相兼容的串行連接SCSI(SAS)、光纖通道(FC)和PCIe等。
圖1:企業(yè)級SSD基本方框圖
以下各節(jié)將探討企業(yè)級SSD對SDRAM緩存的需求以及采用超級電容或鉭電容組在斷電時備份SDRAM緩存數(shù)據(jù)關(guān)鍵部分的當(dāng)前架構(gòu),如圖1所示。此外,我們還將討論這種實施方案的可靠性問題,并探討非易失性存儲器解決方案(nvSRAM)作為出色替代方案的使用問題。
對于SDRAM緩存的需求
NAND閃存存儲器是企業(yè)級SSD的基本存儲元件。由于架構(gòu)問題,NAND閃存存儲器的主要局限性在于其寫入速度無法匹配企業(yè)存儲系統(tǒng)的數(shù)據(jù)傳輸速度要求。由于數(shù)據(jù)傳輸速度超過了NAND閃存的寫入速度,因此企業(yè)級SSD的寫入性能可通過高速數(shù)據(jù)緩存加以提高。企業(yè)級SSD通常采用SDRAM作為緩存,保存并處理從存儲系統(tǒng)控制器接收到的數(shù)據(jù)流有關(guān)部分。此外,SDRAM也可保存企業(yè)級SSD元數(shù)據(jù)的工作副本,其中一部分必須根據(jù)用于寫入數(shù)據(jù)的塊的分配情況加以修改。元數(shù)據(jù)通常包括平均抹寫儲存區(qū)塊(wear leveling)、錯誤校正、轉(zhuǎn)換表、物理/邏輯地址映射、文件分配表等信息,并且需要每個文件的多次寫入操作。元數(shù)據(jù)要求隨著企業(yè)級SSD容量的增長而增長。
SDRAM緩存數(shù)據(jù)和元數(shù)據(jù)的電源故障備份
在企業(yè)存儲系統(tǒng)的數(shù)據(jù)傳輸操作中,比如說讀寫企業(yè)級SSD閃存存儲器的某個位置,包括存儲系統(tǒng)主機、SSD控制器、SDRAM緩存和NAND閃存存儲器等所有相關(guān)元件的電源系統(tǒng)必須有效工作,從而確保成功的事務(wù)處理。但是,電子系統(tǒng)很容易受到電壓峰值、斷電、浪涌、限電等供電中斷問題的影響,這可能導(dǎo)致潛在的數(shù)據(jù)丟失或損壞:
●傳輸?shù)介W存存儲器的緩存數(shù)據(jù)
●元數(shù)據(jù)
企業(yè)級SSD不能丟失已向存儲系統(tǒng)控制器報告為“提交給NAND閃存”的數(shù)據(jù)。企業(yè)級SAS/SATA市場制定了熱插拔規(guī)范,要求任何時候都不能丟失“被提交”的數(shù)據(jù),即使是突然斷電也不行。比如說熱插拔維護(hù)環(huán)節(jié)中操作人員誤操作卸下了錯誤的驅(qū)動器。
企業(yè)級SSD控制器向存儲系統(tǒng)控制器報告數(shù)據(jù)接收狀態(tài)有兩種機制。企業(yè)級SSD可工作在“寫通”模式下,也就是說只有在數(shù)據(jù)和修改的元數(shù)據(jù)安全地“提交”到NAND閃存存儲器時,企業(yè)級SSD控制器才會通知存儲系統(tǒng)控制器數(shù)據(jù)和修改的元數(shù)據(jù)已經(jīng)“被提交”.
此外,企業(yè)級SSD也能工作在“回寫”模式下,也就是某些數(shù)據(jù)流和/或相應(yīng)修改的元數(shù)據(jù)還沒有“提交”到閃存,但已經(jīng)向存儲系統(tǒng)控制器報告為“被提交”.任何向存儲系統(tǒng)控制器報告為“被提交”的數(shù)據(jù)在電源故障情況下都應(yīng)確保非易失性。企業(yè)級SSD緩存中的任何其它數(shù)據(jù)在電源故障情況下假定為丟失?!盎貙憽蹦J较鄬τ凇皩懲ā蹦J蕉阅艽蠓嵘S機IOPS性能,因此更受高隨機IOPS驅(qū)動器的青睞。
為了確?!盎貙憽睂嵤┓桨傅恼_\行,企業(yè)級SSD采用電源故障檢測電路監(jiān)控電源電壓,如果電壓降到預(yù)設(shè)閾值以下,就發(fā)送信號給SSD控制器。此外,我們還實施了二級電壓保持電路,確保驅(qū)動器在足夠長的時間內(nèi)有足夠的電力,能支持SDRAM緩存數(shù)據(jù)的備份。當(dāng)電源中斷時,二級電壓源在所需的持續(xù)時間內(nèi)提供所需的電力,從而從SDRAM向NAND閃存?zhèn)鬏攦?nèi)容。以下圖2顯示了用于企業(yè)級SSD的典型電源故障檢測電路方框圖。
二級電壓源可以是高容量超級電容,也可以是一組分立鉭電容。
超級電容
超級電容器(supercapacitor或ultracapacitor,抑或為雙電層電容器EDLC)是相對于任何其它可用電容類型能夠顯著提高能量密度的電容,并且可作為電池備份應(yīng)用中可靠的電池替代產(chǎn)品。
但是,超級電容器存在可靠性問題,已知其在長期可靠性方面存在不足,這一點跟鋁電解電容器比較相像。超級電容器的使用壽命有限,因為經(jīng)過一段時間在工作溫度下電解質(zhì)會從元件揮發(fā),從而造成元件磨損。超級電容器的性能會隨著電解質(zhì)的損失而逐漸下降,最后幾乎沒有什么警告甚至毫無警告就會徹底失效。此外,工作電壓越高、工作和非工作溫度環(huán)境越差,電解質(zhì)損失率也就越高。環(huán)境工作溫度每升高10℃,超級電容器的預(yù)期使用壽命就要削減大約一半。
超級電容器故障模式包括:
●電化學(xué)分解壓力過大造成單元開裂。
●電壓和溫度在單元內(nèi)部生成氣壓,隨時間推移慢慢增大,壓力達(dá)到一定極限,就會造成機械擴散通常是外殼槽開裂。
長期在較高工作溫度下使用,電解質(zhì)的水分蒸發(fā),等效串聯(lián)電阻(ESR)會增加?;竟收夏J骄褪荅SR增加的開裂模式。所有超級電容器都帶有警告信息:“使用此電容器時應(yīng)在設(shè)計中采用適當(dāng)?shù)陌踩胧?,包括冗余和保護(hù)措施等?!?/P>
分立電容器
分立電容器組可提供更可靠的選擇,但需要更小心的設(shè)計?;诜至㈦娙萜鞯谋3蛛娐凡捎貌⑿羞B接的分立電容器組。所用的分立電容器可以是鋁電容、鉭電容或鈮電容。它不像超級電容那么小型化,分立解決方案的電容尺寸比會占據(jù)大量板卡空間。此外,我們知道鉭電容對短路和冒煙故障比較敏感。
nvSRAM解決方案
非易失性SRAM(nvSRAM)對于企業(yè)級SSD的優(yōu)勢在于能無需使用或盡可能少用超級電容或分立電容組,并能通過單芯片的免電池非易失性RAM技術(shù)就能為傳輸中的SDRAM緩存數(shù)據(jù)和元數(shù)據(jù)可靠備份。以下簡要介紹nvSRAM的工作,隨后將介紹在企業(yè)級SSD中采用nvSRAM器件的具體細(xì)節(jié)。
非易失性SRAM(nvSRAM)
nvSRAM在單個器件中完美結(jié)合了兩大CMOS技術(shù):SRAM和SONOS非易失性技術(shù)。在正常加電系統(tǒng)工作條件下,nvSRAM就像傳統(tǒng)SRAM一樣工作。IC的SRAM部分以高達(dá)20ns的存取時間進(jìn)行讀寫,采用標(biāo)準(zhǔn)的異步SRAM信號和時序。如果出現(xiàn)電源故障,那么芯片可智能檢測到威脅,并自動將SRAM數(shù)據(jù)副本保存在非易失性存儲器中,而且能保持20年以上不改變。加電RECALL后,IC將數(shù)據(jù)副本返回到SRAM中,系統(tǒng)就能剛好從上次停止的地方重新開始工作,從而確??焖賁RAM絕不會丟失數(shù)據(jù)。
超級電容器相關(guān)文章:超級電容器原理
評論