抗輻射系統設計要領

作者 : Troy Jones,賽靈思(Xilinx)航太系統架構師

輻射是IC設計人員必須解決的關鍵問題。這是由於輻射可能導致機器人故障、醫學影像不準確或工業應用機器能力下降…

微電子或積體電路(IC)是許多先進應用的核心,其技術的進步直接影響著各種應用的創新。然而在機器人、太空探索、航空航太、核電廠、精密探測、醫學影像、環境保護,甚至是食品安全等應用中,擁有先進技術其實並不夠完善,且輻射是IC設計人員必須解決的關鍵問題。輻射可能導致機器人故障、醫學影像不準確或工業應用機器能力下降。

對於IC設計人員來說,在上述應用的太空環境中減緩輻射是最具挑戰性的。若沒有大氣層保護,電子系統就很容易受到高能輻射(游離輻射),包括α和β粒子、伽馬和X射線,以及銀河宇宙射線影響。因此,能夠抵消此類輻射的太空IC成為輻射防護IC的頂尖技術。

游離輻射有足夠的能量將電子從軌道上移開。當電子代表記憶體中的位元或匯流排介面上的值時,其值可被更改或「翻轉」。此類事件有許多名稱,包括單事件效應(Single-Event Effect,SEE)、單事件翻轉(Single-Event Upset,SEU)或單事件閂鎖(Single-Event Latch-up,SEL)。無論怎麼稱呼它,如果翻轉了錯誤的位元,例如在應用程式程式碼中的指令或暫存器中的控制位元,整個系統可能會失效。

輻射耐受性與抗輻射強化

為了在太空中運作,電子電力系統需要防止輻射事件。有些IC製造商提供「強化」元件以取代標準半導體晶圓,如絕緣基板。強化的IC對輻射事件的抵抗力更強,但並非能完全倖免。此外,由於它較複雜的設計和較低的產量,強化的IC成本要高出許多。

即使所需的元件可以被設計為強化IC,阻礙太空船設計者選擇強化IC的因素之一是等待強化元件投入生產所延遲的時間。設計人員利用檢測和糾正輻射效應的設備和技術(而非透過輻射強化)來防止游離輻射效應,即稱為輻射耐受性。此方法的主要優勢是能使許多元件具有輻射耐受性。例如:許多記憶體技術採用錯誤程式碼技術來檢測和糾正記憶體中的位元翻轉。

三重模組冗餘(Triple Modular Redundancy,TMR)

為考量檢測暫存器中的位元翻轉,或從記憶體中檢索的數據在傳輸到匯流排介面時發生翻轉所產生的複雜性,開發人員通常使用TMR來檢測和糾正此類事件。在TMR中,關鍵電路以相同的方式執行、同時進行三次,並以「多數決投票」電路比較這些相同路徑的輸出並選出多數答案(圖1)。

如果其中一個電路遇到影響輸出的事件,則該輸出將與其他兩個電路不同。若僅使用和比較兩個相同的電路,產出不同的輸出便能辨識發生的事件,而非辨識發生該事件的單個電路。哪一個是正確的?使用三個電路便能確保正確的輸出(假設兩個電路中出現相同SEE的機率為0)。

開發人員可以接受多數輸出或重新評估操作。許多OEM利用客製化IC進行設計,因此為了實現TMR,他們將三個IC複本平行放置在電路板上,並增加一個voter IC。

 

圖1:透過TMR,採用「多數決投票」電路對三個相同的平行電路進行評估,以確保電路產生正確的(多數)輸出。

 

關鍵任務TMR

TMR提供高度可靠性,同時對系統效能的影響(即延遲)最小。然而,這種可靠性是有代價的,它會增加系統佔用空間、功耗和成本。由於並非所有電路都同等重要,因此開發人員只會在必要時實施TMR。

試想一個溫度感測器,偶發的資料錯誤並不會影響整體監測,因為樣本可隨著時間取得平均值。因此無需負擔三個感測器或三個監控電路的額外費用。

在電路板上重複電路三次的另一種方法是在航太級可編程設計元件中(如Xilinx XQR Versal ACAP或自行調適SoC)實施電路。賽靈思整合的可編程設計邏輯方法使開發人員能夠在單晶片中完成複雜的TMR。一個可編程設計邏輯元件可將三個電路和多數決投票電路整合,而不是將三個IC平行放置(圖2)。

 

圖2:Xilinx XQR航太級元件實現在單晶片中採用TMR的關鍵任務電路。

 

使用可編程設計邏輯的其中一個主要優勢是設計人員可以只在必要時實施TMR。如此一來,就能以最高的可靠性實現關鍵任務模組,而無需重複不重要的模組,導致額外的成本和功耗。此外,由於在ACAP或FPGA中的自行調適系統在功能上並非像客製化IC一樣固定,因此設計人員可以導入新功能,而不會產生新IC的延遲或成本。

隨著不斷發展的人工智慧(AI)和機器學習技術成為電子系統中不可或缺的一部分,自行調適的能力也變得越來越重要,這意味著硬體系統可使用新的AI推論模型進行更新,如軟體更新。這些更新也可由軌道上的系統實施,即使在部署後也能提高其效率和效能,這些發展到近期才得以實現。

記憶體清洗

可編程設計邏輯和客製化IC之間的區別是ACAP或FPGA能善用使用配置。此配置定義了可編程設計元件將如何運作並被儲存在以SRAM為基礎的單元中,通常稱為配置RAM (或稱為CRAM)。因此,CRAM可能會受到輻射事件的影響,從而改變可編程設計元件的「特性」。

記憶體清洗是一種用於保護配置記憶體單元的方法。元件的專用區塊透過對每一影格進行檢驗和分析不斷地檢查CRAM。如果偵測到事件,則會啟動重新配置。該設備「清洗」(即重新載入)被游離輻射損壞的配置幀。糾正事件後,即可繼續運作。

請注意,只有受影響的影格需要清洗,而整個系統將持續運作。或者,ACAP或FPGA可以採用「盲清洗」。元件不會檢查事件,而是自行定期重新配置以確保處於良好狀態。這種方法相當有效,因為即使沒有必要,它也會強制CRAM重新整理。

前幾個世代,透過清洗達到Xilinx CRAM單事件緩解是在外部IC中實現的。現在,它是一個整合在FPGA可編程設計邏輯或ACAP專用處理器中的功能。

就其固有的性質而言,電子產品並不具有抗輻射性。透過先進的設計方法,系統可以辨識和糾正輻射事件,提高整體系統對輻射的耐受性,並顯著提升可靠性和彈性。透過自行調適平台,設計人員可以透過應用三元模組冗餘和清洗技術來優化系統成本、空間和功耗。


探測人體溫度的熱成像感測器


 

 

 

 

加入我們官方帳號LINE@,最新消息一手掌握!

發表評論