從抗輻射到耐輻射:如何打造強韌耐輻射系統(tǒng)
微電子或集成電路 (IC) 是許多前沿應用的核心,其工藝進步直接影響各種應用的創(chuàng)新。但在機器人、太空探索、航空航天、核電站、精密檢測、醫(yī)學成像、甚至環(huán)境保護和食品安全等應用中,工藝的先進性并不是全部,“輻射”是這些領域的 IC 需要解決的核心問題。輻射可能會導致機器人發(fā)生故障,使醫(yī)學成像不準確,或者工業(yè)應用機器出現(xiàn)停轉等等。
本文引用地址:http://www.ex-cimer.com/article/202111/429731.htm對于 IC 設計師來說,在所有上述應用中,宇宙空間應該說是最具挑戰(zhàn)性的應用場景。失去地球大氣層的保護,電子系統(tǒng)在阿爾法 ( Alpha ) 和貝塔 ( Beta ) 粒子、伽馬 ( Gamma ) 和 X 射線以及銀河宇宙輻射等高能(電離)輻射面前,相當脆弱,所以能夠抗衡此類輻射的航空級IC 代表了防輻射IC 技術的塔尖。
電離輻射有足夠的能量讓電子脫離軌道。如果這個電子代表存儲器中的一個數(shù)位或總線接口上的一個值,該值就可能被改變或“翻轉”。這種狀況有多種叫法,包括單粒子效應 (SEE)、單粒子翻轉或單粒子閂鎖。無論具體叫什么,如果錯誤的數(shù)位發(fā)生翻轉,例如應用代碼中的指令或寄存器中的控制數(shù)位,整個系統(tǒng)就會崩潰。
耐輻射 (Radiation-tolerant)和抗輻射加固 (Radiation-hardened)的區(qū)別
為了在宇宙空間中運行,電子系統(tǒng)需要具有防范輻射風險的能力。某些 IC 制造商采用標準半導體晶圓中加入防護襯底的方式提供“ 加固 ( hardened ) ”組件。雖然抗輻射加固 IC 具有更強的耐輻射能力,但卻不能徹底免疫。與此同時,因為抗輻射芯片設計要求更復雜且產(chǎn)量更低,因而價格也明顯更加昂貴。
此外,即便所需要的組件可以被設計成抗輻射加固IC,因為其投產(chǎn)速度的滯后性,也阻礙了航天器設計人員對抗輻射加固 IC 選用。
在遭遇電離輻射時,除了采用抗輻射加固IC的設計方法提供抗輻射能力,設計人員還可以通過運用器件和設計方法進行檢測并予以糾正。
這就是所謂的耐輻射。
這種方法的主要優(yōu)勢在于,可以將大量組件都制作成耐輻射組件。例如,眾多存儲器技術采用糾錯碼技術來檢測和糾正存儲器內(nèi)的位翻轉。
三重模塊冗余
如果寄存器內(nèi)發(fā)生了位翻轉,或由存儲器檢索的數(shù)據(jù)在總線接口傳輸?shù)倪^程中發(fā)生了翻轉,對此類事件進行檢測則極為復雜。開發(fā)者通常使用三重模塊冗余技術?。╰riple modular redundancy, TMR)來檢測和糾正此類性質(zhì)的事件。通過TMR,主要電路采用完全相同的設計提供并行三冗余,由“票決”電路比較這些相同路徑的輸出,按少數(shù)服從多數(shù)的原則決定輸出。(參見圖 1)
如果其中一條電路遭遇影響輸出的事件,其輸出將不同于其余兩條電路的輸出。如果只使用兩條完全相同的電路進行比較,輸出不同將提示有事件發(fā)生,但無法辨別具體發(fā)生在哪條電路上。
哪個輸出是正確的?使用三條電路,可以確定正確的輸出(可以進行合理假設,在兩條電路上發(fā)生完全相同的 SEE 的概率基本為零)。
開發(fā)者隨即可以采納多數(shù)輸出或重新評估設備運行。大量 OEM 廠商對自己的設計采用定制 IC,因此為了實現(xiàn) TMR,他們在電路板上并行布局 IC 的三個副本并追加一個投票器 IC。
圖1 采用三模冗余的情況下,使用“票決”電路對并行的三個相同的電路開展評估,確保電路產(chǎn)生正確(大多數(shù))輸出
任務關鍵型 TMR
TMR 在對系統(tǒng)性能影響最?。ㄖ笗r延)的情況下提供高度的可靠性。然而,這種可靠性顯然有其代價。它增大了系統(tǒng)的占板面積、功耗和費用。鑒于各條電路的重要性并不均等,理想情況下,開發(fā)者希望僅在必要時使用 TMR。
以溫度傳感器為例。不常發(fā)生的數(shù)據(jù)點錯誤不會影響整體監(jiān)測性能,因為樣本可以隨時間平均,因此不必承擔三個傳感器或三個監(jiān)測電路帶來的附加費用。
除了在電路板上為電路創(chuàng)建三個副本以外,還有一種替代方法是在賽靈思 XQR Versal ACAP或自適應 SoC 等航天級可編程器件中實現(xiàn)電路。賽靈思軟硬件一體化可編程邏輯方法讓設計人員能夠在單個芯片中實現(xiàn)復雜的 TMR。無需并行布局三個 IC,單個可編程邏輯器件就能將三條電路和票決電路集成在一起。(參見圖 2)
圖2 如圖所示的賽靈思 XQR 航天級器件能將使用 TMR 的任務關鍵型電路實現(xiàn)在單個芯片中
使用可編程邏輯的主要優(yōu)勢在于設計人員能夠根據(jù)需要實現(xiàn) TMR。借助這種方法,任務關鍵型模塊能夠在無需復制非重要模塊的情況下,以最高可靠性實現(xiàn),從而避免推高成本和功耗。
此外,因為 ACAP 或 FPGA 中的自適應系統(tǒng)并非定制 IC 那樣在功能上是固定的,所以設計人員在推出新特性時可以避免因重新開發(fā)新 IC 而造成的延誤或成本。
隨著 AI 和機器學習技術不斷演進發(fā)展,成為電子系統(tǒng)不可或缺的組成部分,自適應靈活性也正在變得越來越重要。這意味著當新的 AI 推斷模型出現(xiàn)時,就可以通過軟件更新的方式來更新硬件系統(tǒng)。此外,這種更新還能用于在軌系統(tǒng),在部署后進一步提高它們的效率和性能。這是直到近期才具備的功能。
擦除
可編程邏輯和定制 IC 之間的差異在于 ACAP/FPGA 需要配置。通過配置,可以定義可編程器件的功能。配置數(shù)據(jù)存儲在基于 SRAM 的單元中,也被稱作配置 RAM 或簡稱 CRAM。因此,CARM 可能受輻射事件的影響,可能會改變可編程器件的既定“特性”。
擦除是一種用來保護配置存儲器單元的方法。器件有專門一部分通過使用校驗和分析,不斷對 CRAM 做逐幀檢查。如果檢測到輻射事件,就啟動重配置。器件“擦除”(即重新加載)被電離輻射損壞的配置幀。在糾正輻射事件后,再繼續(xù)處理。
需要注意的是,只有受影響的幀才需要擦除,整個系統(tǒng)則繼續(xù)不中斷地運行。此外,ACAP/FPGA 也能采用“盲擦除”。在采用盲擦除時,器件不會檢查是否有輻射事件發(fā)生,而是通過定期進行重配置,確保其處在已知的良性狀態(tài)下。這種方法非??煽?,因為它強制刷新 CRAM,甚至是在非必要時。
在之前的幾代產(chǎn)品中,賽靈思 CRAM 防范單事件翻轉的擦除機制是通過外接 IC實現(xiàn)的,而如今,該功能已經(jīng)作為一項功能,集成在 FPGA 的可編程邏輯中,或 ACAP 的專用處理器中。
就其本質(zhì)而言,電子產(chǎn)品不具備與生俱來的耐輻射能力。但是卻可以通過先進的設計方法,讓系統(tǒng)自動識別并改變輻射事件,提高系統(tǒng)的總體耐輻射能力,從而大幅提升可靠性和恢復能力。通過采用自適應平臺,設計人員可以運用三重模塊冗余技術和擦除技術,優(yōu)化系統(tǒng)成本,降低占板面積和功耗。
評論