看好深度學習加速器市場預計將達到250億美元的龐大商機,資料中心正積極為多款晶片展開實驗室測試,預計將在明年部署其中的一些晶片,並可能針對不同的工作負載挑選多款加速器。

目前為止,包括Graphcore、Habana、ThinCI和Wave Computing等50家供應商的AI晶片都在其客戶實驗室中進行測試。在日前於美國加州舉行的人工智慧硬體高峰會(AI Hardware Summit)上,來自這兩大陣營——晶片供應商及其資料中心客戶的代表們均表達了各自的立場。

微軟(Microsoft) Azure部門的傑出晶片工程師Marc Tremblay指出,一個逐漸明朗的問題是「沒有所謂的通用編譯器——這些晶片架構各不相同」。Marc Tremblay的部門負責管理超過1百萬台的伺服器。

微軟勾勒資料中心AI晶片版圖

該資料中心巨擘正在開發稱為Lotus的自家執行環境,可將人工智慧(AI)圖形映射至硬體語言。Facebook上週也推出一款通用的深度學習編譯器Glow,以支援其生態夥伴策略。

資料中心渴望能在AI性能方面實現重大飛躍進展,超越被譽為當今「訓練加速器之王」(the king of training accelerators)的輝達(Nvidia)運算架構Volta。Tremblay在發表專題演說時提到,「有些訓練任務在GPU上執行需要22天的時間,甚至還有超過2個月時間的,但我們希望儘快就會有答案。」

語音辨識應用程式(App)大約使用4,800萬個參數。研究人員正致力於研究神經網路;這些神經網路使用非對稱連接產生自己的模型,進一步將運算需求提升到新的層次。

Tremblay說:「我們需要10-50倍的頻寬,才足以支援更多深奧的神經網路出現。」。

針對16晶片的系統,當今的GPU價格高達40萬美元且功耗相當高,即使是交換器晶片也需要散熱片。他說,在晶片叢集上進行線性擴展「有時需要進行一些工程師不想做的任務。」

目前,微軟採用V100和上一代GPU,並密切「關注」Nvidia上週發佈的T4晶片。Tremblay指出,它看起來可望用於同時執行多個神經網路。

此外,微軟以及其他資料中心巨擘都在其x86 CPU上執行多種深度學習任務。「對我們來說,它通常是免費的,因為x86晶片並非一直在執行中。」他指出,軟體最佳化——例如英特爾(Intel) Cascade Lake中的新AI指令,將有助於推動多年的進展。

未來,資料中心可能會採用多個加速器,讓每個加速器分別映射到最適合的特定工作負載。Tremblay簡介了各種不同的語音、視覺、語言、搜尋和其他AI App,每一個App都各自具有延遲和吞吐量要求。

MS_landscape_x_800 微軟傑出晶片工程師Marc Tremblay介紹AI晶片發展現況(來源:Microsoft)

有些App使用多達20種類型的神經網路,使得跨不同神經網路模型的靈活性成為必備要求。範圍甚至包括對延遲敏感的Bing搜尋採用單個批次處理,而為其他App採用超過100個批次處理。因此,Tremblay為其測試的晶片分配了一個穩定的數字作為其靈活性的衡量標準。

他說:「新創公司先忽略安全和虛擬化等問題。他們並不需要從一開始就準備齊全,但最終我們都必須著手以成熟的CPU和GPU實現各種功能。」

他總結道,關於資料中心AI的好消息是「我們還有很長的路要走,但如今的進展令人難以置信......許多創新不斷湧現,AI的未來前景光明。」。

Wave Computing瞄準資料流系統

新創公司Wave Computing在會中介紹其資料流(dataflow)架構細節。如同其競爭對手Cerebras一樣,Wave將會銷售完整系統,因為要達到性能提升的目標需要的進展並不只是來自處理器。

具體來說,Wave目前的16nm處理器使用HMC記憶體上的15GByte/s埠,連接板上的4個晶片和系統上的4塊板子。記憶體及其互連是透過其處理器叢集串流圖形的關鍵,有助於避免處理器透過相對較窄的PCI Express匯流排饋入延遲。

Wave選擇HMC的部份原因出於權宜之計。該新創公司與HMC供應商美光(Micron)建立了策略聯盟,但對於一家規模相對較小的新創公司而言,競爭的HBM記憶體似乎過於複雜且風險高。

目前在金融、隨選視訊和製造業等市場約有6家公司正在測試用於其IT部門的部份機架。為了服務像微軟等大型資料中心,Wave需要一個全機架的系統,該系統將會採用基於HBM的下一代7nm處理器。

Wave_chip_x_800 Wave的首款系統使用HMC連接4個四路處理器板(來源:Wave Computing)

針對其關鍵的互連技術,該新創公司仍在研究如何從序列HMC轉換至平行的HBM記憶體。雖然HMC支援多個埠,但HBM通常配置一個執行高達307Gbytes/s的快速埠——1,024I/O中的每一接腳都支援2.4 Gbits/s的速度。

Wave最初關注的是企業用戶,因而發展成為其服務業務。該公司在菲律賓建立了一支20人的團隊,協助IT部門學習如何開發自家深度學習模型。有些大型資料中心的資料科學家經常自行處理數據。

有趣的是,Wave原本是在Tallwood Venture Capital育成中心的一支團隊,到了2009年才獨立出來,這時間大約是深度學習開始蓬勃發展的三年前。當時,該公司的目標在於打造能以高階語言編程的更高效率FPGA競爭方案,希望挑戰Tabula和Achronix。

Wave的深度學習處理器右途徑是讓圖形元素流經電路,並加以執行。Wave共同創辦人兼技術長Chris Nichol在主題演講中表示,它可以為任務設置最佳精確規格的指令,而電路在完成執行後會回到睡眠狀態。一位市場觀察家曾經發佈一份關於此系統架構的白皮書。 https://www.eetimes.com/document.asp?doc_id=1333538

Wave_system_x_800 Wave的處理器叢集,可讓圖形資料流經電路

Graphcore聚焦完整系統

Graphcore發表其採用236億個電晶體的Colossus,該晶片目標在於將整個神經網路模型保留於其300 Mbytes的晶片上記憶體。該新創公司聲稱可以在其1,216個核心上平行處理7,000個程式,每個核心都有100 GFlops的效能。

Colossus支援高達30 TBytes/s的內部記憶體頻寬,外部支援在80個通道上的2.5 TBits/s晶片到晶片間互連。在單個PCIe Gen4 x16板卡中封裝2個晶片,提供31.5 GByte/s的I/O性能。

針對該新創公司的架構或時間表,Cerebras執行長Andrew Feldman並未詳談,但他表示必須打造完整的系統。他在會中的一場專題討論中指出,「如果你做好了PCI介面卡,就可能受限於功率、散熱和I/O。」唯有提供完整的系統才不至於造成系統擴展的阻礙。

新的硬體將為新的AI工作負載鋪路,從而帶動更多需求。他說,深度學習「研究人員最擔心受限。他們有一連串的問題和想法,而且[今天發展相對較慢]的電腦也造成阻礙。」

至於產品,他說將會透過管理神經網路稀疏性,以提供1,000倍的性能提升。他說,該公司並不會使用任何奇特的技術,但確實需要新穎的核心、記憶體架構、編譯器、結構和技術,從而為資料中心冷卻系統以及降低功耗。

SambaNova Systems是另一家在會中首度亮相的新創公司。如同Cerebras、Graphcore和Wave一樣,SambaNova Systems擁有一支經驗豐富的架構師團隊,將基於史丹佛大學(Stanford University) Spatial的編譯器整合於其資料流晶片中。

編譯:Susan Hong

(參考原文:AI Chips Put to Data Center Tests,by Rick Merritt)