一個電源設置挽回百萬美元損失!

作者 : Samuel Kerem,EDN

光纖通訊網路的一個1,000W電源模組嚴重燒毀,就在一天前這個模組還能正常工作。公司高層選擇用10美元的元件修復,以避免重新部署所有電源模組需承擔的百萬美元成本…但經過3年卻又出現問題...

這個故事發生在好多年前了。

光纖通訊網路的一個1,000W電源模組(PM)嚴重燒毀,就在一天前這個模組還能正常工作呢。

每秒傳輸多Gb資料的網路突然中斷,這件事立刻引起了最高管理層的注意。我開始研究這些原本「必須」永久工作的電信系統電源模組。為達到永遠工作的目標,電源分配應採用冗餘設計:儘管一個電源模組就可以完成工作,還是使用兩個電源模組為同一機架供電,這樣在另一個電源模組發生故障時可以隨時切換。切換透過「熱插拔」完成,在熱插拔過程中機架不斷電。

將電源模組熱插拔到40~60V電信匯流排是一件棘手的事。流入模組的電流由一個板載MOSFET控制,要處理1kW,它必須完全打開或關閉。在插入模組時,從關閉到打開的瞬變必須快,但又不能太快,否則,為板載電容充電的輸入浪湧電流可能會使電信匯流排掉電。同一個MOSFET還兼作斷路器,如果懷疑是板子內短路,則反應必須快,但必須忽略電源環境中常見的「討厭」尖峰。

電源模組在部署之前已經通過了插入測試,但並沒有全面完成可怕的短路測試。事實證明,如果反應太慢,MOSFET就會短路。在現場,電源模組的一個電容發生了短路,隨後MOSFET出現了故障,數百安培電流流入電路板。幾秒鐘後,集線器就被煙霧包圍,主斷路器跳閘,大部分網路中斷。

為了修復這一故障,需要重新設計熱插拔時序(透過幾個電阻和電容設置)。儘管這聽起來就像計算其值一樣簡單,但這一任務卻十分重要。在由各種原因引起短路時,電源模組能夠以可控的方式停止運作並重啟,這證明了上述方法是有效的。

這時,最高管理層來到現場。當時已經部署了1,000多個電源模組,修復方案的零件成本為10美元,而召回、修改並重新部署所有電源模組的成本超過100萬美元,管理層決定繼續修復。我很感激領導的信任,公司已接近收支平衡點,必須節約每一分錢。

3年後,我收到一封讓我吃驚的電子郵件,郵件說那個電源模組現場可能存在遙測故障。遙測在幾周前就已經停了,但集線器工作正常,因此服務訪問延遲了。我們拿到的替換元件看起來沒什麼問題,但是一裝到測試架上馬上就開始冒煙。儘管當時不知道這個模組是不是修訂版,但憑直覺我感覺這個模組被改過。由於事關100萬美元,我不能讓自己「名聲掃地」。

我意識到許多人很快可能遇到同樣的問題,除非有奇蹟發生,接下來必須進行令人頭痛的計算。我不記得什麼時候發生過奇蹟,所以還是乖乖地跑到實驗室去查看電源模組。在衝向實驗室的路上,我一直在想是不是向公司賠償100萬美元的損失算了。我確實希望公司慈悲為懷,但即使免去90%的賠償仍會讓人不開心,一想到要損失這麼多錢,我的感覺就很不好。到了實驗室,我一眼就看到了測試機架上那塊冒煙的電源模組,但我將注意力集中在與測試機架相連的實驗室電源上。現在我的大腦開始高速運轉,檢查實驗室電源設置。問題找到了!…

 

…完整閱讀請連結EDN Taiwan網站

 

 

掃描或點擊QR Code立即加入 “EETimes技術論壇” Line 群組 !

 EET-Line技術論壇-QR

發表評論