軟錯(cuò)誤是如何損壞重要信息的?
軟錯(cuò)誤是指高能粒子與硅元素之間的相互作用而在半導(dǎo)體中造成的隨機(jī)、臨時(shí)的狀態(tài)改變或瞬變。隨著SRAM工藝的性能日益提高,越來越低的電壓和節(jié)點(diǎn)電容使得SRAM器件更易出現(xiàn)軟錯(cuò)誤。軟錯(cuò)誤不僅會(huì)損壞數(shù)據(jù),而且還有可能導(dǎo)致功能喪失和嚴(yán)重的系統(tǒng)故障。各種工業(yè)控制器、軍事裝備、網(wǎng)絡(luò)系統(tǒng)、醫(yī)療設(shè)備、汽車電子設(shè)備、服務(wù)器、手持設(shè)備和消費(fèi)類應(yīng)用都易受到軟錯(cuò)誤的傷害。一個(gè)未經(jīng)糾正的軟錯(cuò)誤有可能導(dǎo)致各類任務(wù)關(guān)鍵型應(yīng)用D如植入式醫(yī)療設(shè)備、軍用和汽車電子設(shè)備中使用的高端安全系統(tǒng)等D出現(xiàn)系統(tǒng)故障。
本文引用地址:http://www.ex-cimer.com/article/201610/306208.htm本文旨在解釋軟錯(cuò)誤是如何發(fā)生,以及如何破壞半導(dǎo)體存儲(chǔ)器中存儲(chǔ)的重要數(shù)據(jù)的。為此,本文將闡述軟錯(cuò)誤的來源以及它們的發(fā)生概率。此外,本文還將解釋軟錯(cuò)誤是如何影響存儲(chǔ)單元(每個(gè)單元存儲(chǔ)一個(gè)位)并導(dǎo)致它們改變狀態(tài)的。本文還將探究軟錯(cuò)誤的不同來源,以及用于消減其影響的技術(shù)-包括工藝和系統(tǒng)層面上的技術(shù)。最后,本文將簡(jiǎn)要描述存儲(chǔ)器中的片上糾錯(cuò)碼(ECC)是如何消減軟錯(cuò)誤影響的。
近年來,半導(dǎo)體技術(shù)取得了巨大進(jìn)步,但這種進(jìn)步也帶來了新的問題。當(dāng)今的CMOS工藝已縮至很小的尺寸,以至于地外輻射和芯片封裝正導(dǎo)致越來越多的故障。由于這些故障是可逆的,它們被稱為軟錯(cuò)誤。軟錯(cuò)誤首次出現(xiàn)于1978年,由于受鈾污染的封裝模塊,英特爾公司無法向ATT交付其生產(chǎn)的芯片。20世紀(jì)70年代,軟錯(cuò)誤主要與動(dòng)態(tài)RAM(DRAM)有關(guān),這是因?yàn)樗鼈兊男酒庋b材料含有微量的放射性污染物。
軟錯(cuò)誤是指高能粒子與硅元素之間的相互作用而在半導(dǎo)體中造成的隨機(jī)、臨時(shí)的狀態(tài)改變或瞬變。但與硬錯(cuò)誤不同的是,一個(gè)簡(jiǎn)單的復(fù)位/重寫操作可以恢復(fù)受影響器件的正常運(yùn)行。數(shù)字和模擬電路、傳輸線路和磁存儲(chǔ)器中都可能發(fā)生軟錯(cuò)誤,但半導(dǎo)體存儲(chǔ)器最易出現(xiàn)軟錯(cuò)誤,其原因是它們的單元尺寸較大,而且每個(gè)位保持某種狀態(tài)的時(shí)間較長(zhǎng)(因此增加了風(fēng)險(xiǎn))。 軟錯(cuò)誤有可能翻轉(zhuǎn)一個(gè)或多個(gè)位,這取決于誘發(fā)粒子到達(dá)器件時(shí)的能量。一個(gè)高能粒子與半導(dǎo)體襯底之間的相互作用將產(chǎn)生多個(gè)電子空穴對(duì)。它們?cè)诤谋M區(qū)中產(chǎn)生的電場(chǎng)將導(dǎo)致一次電荷漂移,從而導(dǎo)致電流擾動(dòng)。如果這個(gè)電流移動(dòng)的電荷跨越了存儲(chǔ)單元(每個(gè)單元存儲(chǔ)一個(gè)位)的臨界電荷,所存儲(chǔ)的數(shù)據(jù)就有可能翻轉(zhuǎn),從而導(dǎo)致下一次被讀取時(shí)出現(xiàn)錯(cuò)誤。
軟錯(cuò)誤分為兩級(jí)-芯片級(jí)和系統(tǒng)級(jí)。當(dāng)芯片中的放射性原子衰變并釋放出阿爾法粒子時(shí),芯片級(jí)軟錯(cuò)誤將發(fā)生。它們通常是由高能粒子的輻射導(dǎo)致的(在下文中解釋)。這些阿爾法粒子與某個(gè)存儲(chǔ)單元碰撞,從而導(dǎo)致其改變狀態(tài)。當(dāng)所傳輸?shù)臄?shù)據(jù)遇到噪聲時(shí),系統(tǒng)級(jí)軟性錯(cuò)誤將發(fā)生。這種錯(cuò)誤通常在數(shù)據(jù)位于總線而非存儲(chǔ)器中時(shí)發(fā)生??刂破鲗⒃肼暯庾x為數(shù)據(jù)。這個(gè)錯(cuò)誤數(shù)據(jù)最終被視為正確數(shù)據(jù),從而導(dǎo)致尋址或處理錯(cuò)誤。
用于衡量軟錯(cuò)誤發(fā)生率的軟錯(cuò)誤率(SER)決定了器件因高能粒子發(fā)生故障的概率。由于軟錯(cuò)誤是隨機(jī)的,軟錯(cuò)誤的發(fā)生并不決定存儲(chǔ)器的可靠性,而是決定其故障率。在那些采用了軟錯(cuò)誤應(yīng)對(duì)機(jī)制的系統(tǒng)中(主要是高安全性和高可靠性系統(tǒng)),如果一個(gè)軟錯(cuò)誤(被稱為“所檢測(cè)到的不可恢復(fù)的錯(cuò)誤”-DUE)被檢測(cè)到,系統(tǒng)將重啟,以避免損壞重要數(shù)據(jù)。如果未重啟,它最終將成為一次無記載數(shù)據(jù)損壞(SDC)。SDC要比DUE危險(xiǎn)得多,因?yàn)镾DC會(huì)導(dǎo)致數(shù)據(jù)丟失,而DUE只會(huì)導(dǎo)致系統(tǒng)在短時(shí)間內(nèi)不可用。在大量的消費(fèi)電子設(shè)備中,軟錯(cuò)誤的風(fēng)險(xiǎn)并不很大,它們更可能因軟件錯(cuò)誤或部件損耗發(fā)生故障。
軟錯(cuò)誤的發(fā)生概率取決于眾多因素,如入射粒子、撞擊區(qū)域和電路設(shè)計(jì)等。電容和電壓更高的電路更不容易出現(xiàn)軟錯(cuò)誤, 但這會(huì)招致更慢的邏輯門和更高的功耗。因此,隨著芯片工藝的不斷進(jìn)步,軟錯(cuò)誤的發(fā)生概率也越來越大。電容和電壓的組合被稱為臨界電荷(Qcrit)。它被定義為一次粒子撞擊導(dǎo)致電路發(fā)生故障所必需擁有的電荷。由于邏輯電路中的每個(gè)節(jié)點(diǎn)都有其獨(dú)特的電容和輸出距離,因此,Qcrit通常以節(jié)點(diǎn)為單位測(cè)量。此外還必須注意,Qcrit 會(huì)隨溫度緩慢變化。
電路軟錯(cuò)誤 = k X 通量 X 面積 X e-Qcrit/Qcoil
其中,k = 取決于具體工藝的常數(shù)
通量 =中子通量
面積 = 對(duì)軟錯(cuò)誤敏感的電路面積
Qcoll = 所采集電荷與所生成電荷的比率
該模型被稱為中子誘發(fā)型電路軟錯(cuò)誤的Hazucha Svensson模型。
導(dǎo)致軟錯(cuò)誤的原因
阿爾法粒子
阿爾法粒子由兩個(gè)質(zhì)子和兩個(gè)中子組成,類似于一個(gè)氦核。它們由放射性原子核在阿爾法衰變過程中釋放。 阿爾法粒子擁有數(shù)個(gè)MeV的動(dòng)能,低于中子。阿爾法粒子擁有一個(gè)致密的電荷層,在穿過半導(dǎo)體襯底時(shí)將產(chǎn)生多個(gè)電子空穴對(duì)。如果這種擾動(dòng)足夠強(qiáng),它就有可能翻轉(zhuǎn)某個(gè)位。由于這種情況通常只會(huì)持續(xù)幾分之一納秒,因此很難被檢測(cè)出。
芯片被封裝在含有微量放射性污染物的材料,如錫球或加工材料中。塑封材料、封裝和其它裝配材料中的微量鈾- 238、鈾- 232的放射性衰變會(huì)產(chǎn)生低能阿爾法粒子。然而,我們幾乎不可能維持實(shí)現(xiàn)大多數(shù)電路的可靠性能所需的理想材料純度(小于0.001次/小時(shí)/平方厘米)。微量的環(huán)氧樹脂可為芯片屏蔽阿爾法輻射,從而降低軟錯(cuò)誤的發(fā)生概率。
宇宙射線
制造商已設(shè)法控制了釋放阿爾法粒子的污染物,但他們卻無法抗擊宇宙輻射。事實(shí)上,在現(xiàn)代半導(dǎo)體器件中,宇宙射線是最可能導(dǎo)致軟錯(cuò)誤的原因。宇宙射線中的主要粒子通常不能抵達(dá)地球表面,但它們會(huì)產(chǎn)生一串高能次級(jí)粒子,其中大多數(shù)是高能中子。中子不帶電荷,因此不會(huì)導(dǎo)致軟錯(cuò)誤,但卻能被芯片中的原子核俘獲,從而生成阿爾法粒子,繼而導(dǎo)致軟錯(cuò)誤。中子所經(jīng)歷的衰減很小,可穿透厚達(dá)5英寸的混凝土。
由于大氣屏蔽效應(yīng)隨著海拔的升高而減弱,宇宙輻射將隨之增加。因此,飛機(jī)和衛(wèi)星中的存儲(chǔ)器模塊極易出現(xiàn)軟錯(cuò)誤,軟錯(cuò)誤率是地面模塊的數(shù)百倍甚至數(shù)千倍。此外,由于上述大氣屏蔽效應(yīng)的減弱,位于極地的存儲(chǔ)模塊也極易出現(xiàn)軟錯(cuò)誤。為減少軟錯(cuò)誤,高風(fēng)險(xiǎn)應(yīng)用中所使用的模塊需要經(jīng)過一個(gè)名為輻射硬化的工藝。盡管如此,由于生產(chǎn)輻射硬化芯片需要大量測(cè)試(和時(shí)間),它們一般都屬于舊的工藝節(jié)點(diǎn)。
熱中子
由于存在中子俘獲反應(yīng),欠缺動(dòng)能的中子是軟錯(cuò)誤的一個(gè)重要來源。(硼磷硅玻璃介電層中大量存在的)硼同位素(10B)原子核俘獲一個(gè)熱中子后將釋放一個(gè)阿爾法粒子、鋰原子核和伽馬射線。阿爾法粒子和鋰原子核都能導(dǎo)致軟錯(cuò)誤。硼在生產(chǎn)中被用于降低玻璃的融化溫度,因此具備更好的回流和整平特性。
在重要設(shè)計(jì)中,貧硼(只含11B)可用于降低軟錯(cuò)誤率,通過使用磷硅玻璃(PSG)氧化層替代硼磷硅玻璃(BPSG)來實(shí)現(xiàn)。貧硼對(duì)于腫瘤放射治療中使用的醫(yī)療電子設(shè)備尤其重要。中子和治療中使用的光子束相結(jié)合將形成一個(gè)熱中子通量,從而導(dǎo)致極高的軟錯(cuò)誤率。盡管如此,熱中子并非目前導(dǎo)致軟錯(cuò)誤的主要原因,制造商已通過150nm工藝節(jié)點(diǎn)消除了含硼酸介電層。
消減軟錯(cuò)誤的影響
改進(jìn)工藝和存儲(chǔ)單元布局
我們可以通過增加存儲(chǔ)單元中所存儲(chǔ)的臨界電荷提升存儲(chǔ)器的可靠性。此外,我們還可以使用一種可消減擴(kuò)散層厚度的工藝提高存儲(chǔ)器抵御軟錯(cuò)誤的能力。該工藝可縮短帶電粒子在存儲(chǔ)單元中存在的時(shí)間。三阱架構(gòu)也可用于將電荷驅(qū)離有源區(qū)。該工藝形成一個(gè)與 NMOS耗盡區(qū)相反的電場(chǎng),迫使電荷進(jìn)入襯底。它僅適用于NMOS區(qū)發(fā)生軟錯(cuò)誤的情況。
系統(tǒng)層面的消減技術(shù)
在系統(tǒng)層面上,設(shè)計(jì)人員可以使用外部糾錯(cuò)碼(ECC)邏輯消減軟錯(cuò)誤的影響。在該技術(shù)中,用戶使用額外的帶奇偶校驗(yàn)位的存儲(chǔ)芯片檢測(cè)和糾正錯(cuò)誤。正如人們所料,系統(tǒng)層面的消減技術(shù)較為昂貴,而且增加了FPGA軟件的復(fù)雜性。
改變芯片設(shè)計(jì)和架構(gòu)
這是抗擊軟錯(cuò)誤的最佳方法。芯片設(shè)計(jì)人員可以通過將ECC算法植入到芯片中消減軟錯(cuò)誤的影響。在寫操作時(shí),ECC編碼器算法為存儲(chǔ)器中存儲(chǔ)的每一個(gè)可尋址的數(shù)據(jù)字寫入奇偶校驗(yàn)位。在讀操作時(shí),ECC檢測(cè)算法使用奇偶校驗(yàn)位確定數(shù)據(jù)位是否已經(jīng)改變。如果出現(xiàn)單位錯(cuò)誤,ECC糾錯(cuò)算法將確定相關(guān)位的位置,然后通過將該數(shù)據(jù)位翻轉(zhuǎn)至其互補(bǔ)值協(xié)助糾錯(cuò)。
盡管如此,ECC不能獨(dú)立應(yīng)對(duì)多位翻轉(zhuǎn)錯(cuò)誤。因此,設(shè)計(jì)人員必須采用位交織技術(shù)。該技術(shù)組織位線的方法是將物理上相鄰的位映射到不同的字寄存器上。位交織距離將映射到同一個(gè)字寄存器上的兩個(gè)連續(xù)位分開。如果位交織距離大于一次多單元撞擊的擴(kuò)散范圍,它將在多個(gè)字中導(dǎo)致單位翻轉(zhuǎn),而不是在一個(gè)字中導(dǎo)致一次多位翻轉(zhuǎn)。
典型的位交織距離取決于具體工藝。中子測(cè)試和隨后的物理MPU分析用于確定每種工藝節(jié)點(diǎn)的安全交織距離。在一個(gè)位交織存儲(chǔ)器中,單位錯(cuò)誤糾正算法可用于檢測(cè)和糾正所有錯(cuò)誤。ECC算法僅適用于受影響數(shù)據(jù)字的副本。存儲(chǔ)器中的數(shù)據(jù)仍然含有已翻轉(zhuǎn)的位。如果存儲(chǔ)器中的這個(gè)已翻轉(zhuǎn)的位沒有被糾正,同一個(gè)數(shù)據(jù)字中的另一次位翻轉(zhuǎn)就可能導(dǎo)致一次多位翻轉(zhuǎn)。因此,ECC邏輯必須指示出單位翻轉(zhuǎn)的發(fā)生和糾錯(cuò)。然后,系統(tǒng)可以使用該信息識(shí)別該事件,并回寫糾正后的數(shù)據(jù)。這種技術(shù)被稱為存儲(chǔ)器刷洗技術(shù)。
隨著半導(dǎo)體芯片變得越來越小,發(fā)生軟錯(cuò)誤的風(fēng)險(xiǎn)也在不斷升高。存儲(chǔ)單元的Qcrit會(huì)隨著其尺寸的縮小而減少,這使得其更易翻轉(zhuǎn)。因此,很多專家預(yù)測(cè),軟錯(cuò)誤將成為這種趨勢(shì)的制約因素,而且最終將達(dá)到飽和點(diǎn),除非我們開發(fā)出能夠克服軟錯(cuò)誤的新技術(shù)。此外,隨著技術(shù)進(jìn)入人類生活的更多領(lǐng)域,人們對(duì)于可靠性的要求只會(huì)越來越高。這種趨勢(shì)催生了對(duì)存儲(chǔ)器模塊的片上ECC的需求。所有存儲(chǔ)器廠商都已開始推出具備片上ECC功能的芯片,以滿足市場(chǎng)對(duì)高可靠性存儲(chǔ)器的需求。SRAM領(lǐng)域的全球領(lǐng)導(dǎo)者賽普拉斯公司擁有一個(gè)基于ECC的異步SRAM系列,該系列是當(dāng)今市場(chǎng)上可靠性最高的異步SRAM。具備ECC功能的16Mbit異步SRAM已開始投產(chǎn),4Mbi版本也已開始提供樣品。
評(píng)論