AI加速器能促成綠色資料中心嗎?

作者 : Sally Ward-Foxton,EE Times歐洲特派記者

AI加速器可望提高AI處理的運算效率。隨著AI處理量的不斷增加,資料中心將會採用這些新的專用加速器。但是AI加速器可以節省能源嗎?究竟是總體用電量下降了,還是資料中心只不過利用同樣的功率實現了更多的運算?

由於大部分繁重的人工智慧(AI)任務都是在雲端完成,因此人們很容易忘記AI需要大量的運算資源及電力。

美國麻州大學阿默斯特分校(University of Massachusetts at Amherst)去年的一項研究發現,訓練一個大型自然語言處理(BERT)AI模型因消耗電力而產生的二氧化碳(CO2),相當於跨大西洋往返航班對每位乘客所產生的CO2。那只是一個模型,雖然是變換網路,但只需訓練一次。開發過程中通常會對模型進行多次調整和反覆訓練。如果將神經網路結構搜索(一種使用AI來調整模型的AutoML技術)加入一個大小適中的轉換器中,其CO2總排放量將爆升到幾乎與5輛美國汽車的終身排放量相同。

 

圖1:訓練一個大型的自然語言處理AI模型時,其消耗電力所產生的CO2相當於跨大西洋往返航班對每位乘客所產生的CO2

 

AI加速器可望提高AI處理的運算效率。隨著AI處理量的不斷增加,資料中心將會採用這些新的專用加速器。

但是AI加速器可以節省能源嗎?究竟是總體用電量下降了,還是資料中心只不過利用同樣的功率實現了更多的運算?

AI訓練策略

「AI運算使用多少的能量由幾個因素決定;」IBM Cognitive Systems技術運算副總裁David Turek解釋,「採取什麼樣的策略來訓練模型,會影響所消耗的能量。每瓦的運算量並不是特別有用的指標,因為有很多種不同的方法可以降低總能耗。」

他補充,整個系統架構和應用環境決定了實際上需要多少能源;「從模型訓練到模型部署,運算能力的不同等級直接影響其基礎架構,從而直接影響所消耗的能源。」

人們通常認為,AI系統中一次只訓練一個模型,然後將其部署到其他地方進行推理。事實並非如此,典型的AI系統會多次訓練很多模型,並且可能同時在多個模型上進行推理以獲得最佳結果。

完成部署後,有時會使用聯合式學習(federated learning)之類的技術,在邊緣而不是回到資料中心更新增量模型,需要消耗多少能量取決於在邊緣進行什麼處理。

換句話說,訓練特定的AI模型所消耗的能量並不是直接就可以確定的。「但資料中心的基礎設施是固定的,因此調整工作流程是節省能源的最好方法;」Turek說。

可能的方法有:將AI模型與傳統的高性能運算融合,以減少所需的總運算量;縮短完成一項工作所花的時間,以減少GPU等高能耗AI加速器硬體的使用;避免在資料中心使用聯合式學習之類的技術重複訓練。

Turek說:「這是從管理的角度來聰明地安排工作流程,利用最佳的方法為現有系統分配可用的能源。透過能源預算和能源消耗,營運商可以在其硬體基礎架構上進行調度分配。」

在更高的溫度下運作

由伺服器製造商Supermicro去年底發佈的資料中心環境實踐年度調查報告顯示,能源效率仍然有機會提高。Supermicro行銷和網路安全副總裁Michael McNerney表示,這些機會正在流失。

McNerney說:「我們認為一些基本的最佳實踐可以為客戶帶來很大價值。其中的一條是,相比傳統的資料中心環境,我們今天建構的系統可以在更高的溫度下運作,許多長期從事資料中心營運的人卻沒有意識到這一點。」

在目前的設備設計中,不再需要冷卻到23~25℃來確保性能和可靠性。一些「綠色」資料中心處於極端溫度下,即便是很小的變化,例如減少空調的使用,也可以節省能源。

 

圖2:現代伺服器和基礎設施可以在更高的溫度下運作,並且切換為多節點系統,降低了總能耗。

 

多節點系統是節省能源的另一種方法,其中多台伺服器在共用的基礎架構上運作,這種配置減少了所需的大型電源和風扇數量。多節點系統具有更高的能源效率,可以在更高的溫度下運作,並提供更高的功率密度。

Supermicro的調查還發現,目前每個機架的平均功率密度為15kW,伺服器進氣入口溫度為23.5℃,伺服器每4.1年更換一次。而在採用高度最佳化綠色設計的資料中心(佔受訪者的12%),每個機架的功率密度超過25kW,平均入口溫度為26.5℃,伺服器每2~3年更換一次。因此,Supermicro得出結論,大多數資料中心仍需繼續最佳化能效。

令人驚訝的是,大多數受訪者並不認為能耗是成功的關鍵指標。「我們已經看到,公司的設施預算與硬體及系統的資產購置成本是分開的,它們與人力成本也是分開的。我認為人們很清楚地知道這一點,但是並不會進行綜合考慮和最佳化;」McNerney說,「較大的資料中心更瞭解總營運成本,但若增加資產購置預算,能源預算就會減少,人們有時很難關聯這兩者。」

McNerneyt認為整個資料中心的功耗並不會很快下降。他說:「長期的發展趨勢是,一些線上服務的能耗會隨著效率的提升而改善,然而隨著5G和AI的逐漸普及,總體功耗仍將繼續增加。」

電費與能耗

Nvidia加速運算產品管理總監Paresh Kharya表示,資料中心營運者希望全面提高能效,因為電費佔其營運成本的25%。

能源使用效率(PUE)是一項廣泛使用的、用來衡量能源節約的指標,表示運算所消耗的能源與資料中心基礎設施消耗的總能源之比,目標是PUE等級為1。

Kharya說:「多年來,超大規模資料中心的PUE接近1或是1.1,非常有效。企業資料中心也取得了很大進步,大多數情況下,其PUE等級已經從大於2降到了遠遠低於2。」

超大規模資料中心採用最佳化的機架和散熱設計,可以大規模運作,其最佳化和使用複雜技術的能力是大多數企業資料中心不具備的。Kharya表示:「許多企業已開始採用這些創新技術,能源效率得到顯著的提高。」

由於各家公司關注的是電費而不是功耗,所以Kharya認為,執行任務所花費的時間是一個重要因素。「例如,在一台只有CPU的伺服器上訓練ResNet-50模型的影像辨識可能需要長達三周的時間,而配備Nvidia V100 GPU的伺服器可以在一天之內完成這一任務;」他補充。

「每台配備Nvidia GPU的伺服器比配備CPU的伺服器消耗更多的能源,但它完成任務的時間將大大縮短。因此,如果使用GPU加速器,用於完成AI處理的整體能耗將降低至原來的20到25分之一;」Kharya強調。

瞭解資料中心處理任務

英特爾(Intel)資料平台行銷總經理Allyson Klein表示,資料中心營運商會儘量確保所有系統高效運作,讓昂貴的基礎架構提供最大的運算能力。

「資料中心營運商的主要目標是使基礎架構的性能達到最好。」Klein說,「性能高低取決於系統和機架的等級,同時還需要整個資料中心協同工作,使每瓦性能達到最高。」

因此,為了部署合適的基礎架構來滿足性能和能耗要求,全面瞭解資料中心的工作負載非常重要。最理想的結果是運算容量更大、功耗更低,並且不會閒置基礎架構白白消耗電力。

究竟是在CPU中整合加速功能還是採用離散的加速器,這通常需要進行權衡。Klein說:「加速器會增加功耗,但如果它一直工作,則整體效率更高。如果加速器完成大量工作,利用率高,在客戶願意投資基礎設施的情況下,使用離散的加速器是較好的方法。如果不能一直使用加速器,則採用CPU的方法可能是更好的選擇,因為加速器經常會空閒下來,耗電卻不執行任何任務。」

Klein表示,在大多數部署中,AI只是數十萬種不同工作負載的一種。儘管英特爾提供了CPU和專用AI加速器(透過Habana Labs),但由於工作負載種類很多,從功耗和投資角度來看,Xeon Scalable(CPU)平台號稱是最高效的產品。

Klein說:「英特爾的AI策略建立在Xeon Scalable處理器的基礎之上,Xeon Scalable內部做了AI最佳化,並針對機器學習和深度學習進行了大量軟體最佳化。」

提高效率

儘管GPU等AI加速器能耗很大,但進行AI處理時,它們的高運算效率可以降低總能耗。AI處理在資料中心所佔比例越來越高,但資料中心日常處理的工作量仍然相當多元。

加速器使AI工作負載受益最大,CPU則繼續在超大規模和企業資料中心市場贏得席位,因為CPU應用更加靈活。隨著AI應用的不斷擴大,以及新的5G應用產生更多的非結構化資料,資料中心的能耗不太可能很快下降。

(參考原文:Can AI Accelerators Green the Data Center?,by Sally Ward-Foxton)

 

發表評論