輝達(Nvidia)在其年度GPU技術大會(GTC 2018)發表多項系統級升級功能,以提升其繪圖處理器(GPU)在人工智慧(AI)神經網路訓練方面的性能,並與ARM合作將其技術擴展到推論領域。

針對可能會在2019年或之後推出的7nm GPU,Nvidia並未提供詳細的開發藍圖。不過,由於其他競爭對手——如AMD才剛進入這個領域、英特爾(Intel)預計要到明年後才會推出Nervana加速器,而新創公司Graphcore至今仍不動聲色,這讓Nvidia還有時間慢慢琢磨。就在幾個月前,英特爾和Graphcore都計劃在今年發佈量產晶片。

Nvidia的高階Tesla V100 GPU現可提供32GB HBM2 DRAM,較去年5月發佈時支援更高2倍的記憶體容量。此外,該公司還宣佈推出採用台積電(TSMC) 12nm FinFET製程製造的100W晶片——NVSwitch,支援18個NVLink 2.0埠,可鏈接16個GPU至共享記憶體。

Nvidia率先打造出可支援10kW功率與高達2 petaflops性能的強大AI訓練系統。其DGX-2在10U機箱中封裝了12組NVSwitch晶片和16組GPU,足以支援兩個Intel Xeon主機、Infiniband或乙太網路(Ethernet)以及多達60個固態硬碟(SSD)。

Cray、慧與科技(Hewlett Packard Enterprise;HPE)、IBM、聯想(Lenovo)、美超微(Supermicro)和泰安電腦(Tyan)等公司都已宣佈將在今年6月前開始出貨搭載這款32GB晶片的系統。甲骨文(Oracle)則計劃今年底在雲端服務中搭載該晶片。

Nvidia透過廣泛地升級記憶體、互連與軟體最佳化,以提高AI性能。Nvidia表示,它在兩天內完成FAIRSeq翻譯模型的訓練,較去年9月時採用8組GPU與16GB記憶體的測試提高了8倍。此外,SAP則指採用ResNet-152模型,使其於影像辨識方面取得10%的進展。

為了超越Nvidia,英特爾計劃在明年量產支援12組100Gbit/s鏈路的Nervana晶片,而Nvidia Volta則支援6個25Gbit/s NVLinks。Nervana晶片支援非同相記憶體,可在打造加速器叢集(包括環狀網路)時提供更大的靈活性,但在編程時將會更加困難。

為了簡化編碼作業,英特爾宣佈開放其Ngraph編譯器,目的在於來自第三方AI架構(如Google TensorFlow)的軟體轉變為可在英特爾Xeon、Nervana及其FPGA晶片上執行的程式碼。

英特爾和幾家資料中心合作夥伴正針對執行於加速器原型上的程式碼進行微調。該公司計劃在5月下旬的開發者大會上發佈其計劃細節,但預計要到明年之後才會量產晶片。屆時,Nvidia將英特爾計劃升級加速器開發藍圖的壓力,而必須儘快推出下一代晶片。

Tirias Research資深分析師Kevin Krewell說 :「目前的Nervana產品將成為一款真正的軟體開發工具。它是在英特爾收購該公司之前,以28nm製程技術打造的,因而不至於與Nvidia 12nm Volta設計相互競爭。」

他補充說,為Volta升級記憶體和NVSwitch,「讓Nvidia得以在競爭中保持領先。我們都期待採用更先進的下一代製程技術,但是,就量產出貨的晶片而言,Volta目前還沒有競爭對手。」

至於幾家新創公司,Wave Computing預計今年推出首款針對資料中心和開發人員打造的訓練系統。這一市場還有新的業者持續出現中。例如新創公司SambaNova Systems在獲得5,600萬美元的投資後首度在上週登場,其投資方包括Google的母公司Alphabet。SambaNova Systems的共同創辦人Kunle Olukotun之前還成立了新創公司Afara Websystems,並打造了Niagara伺服器處理器,後來被昇陽公司(Sun Microsystems)收購,而Oracle後來併購了昇陽。

20180328_Nvidia_NT01P1 Nvidia DGX-2將自第三季開始銷售

聯手ARM加速深度學習推論計劃

Nvidia目前在資料中心的神經網路模型訓練方面佔主導地位,但在網路邊緣的更廣泛推論領域仍是個新手。為了加強其市場地位,Nvidia和ARM展開合作,將Nvidia的開放來源硬體導入推論作業,成為ARM機器學習產品計劃的一部份。

Nvidia去年宣佈將開放其Xavier推論加速器IP,至今已發佈了多個RTL版本了。這些IP目前正面對來自益華(Cadence)、Ceva和新思科技(Synopsys)等公司的AI加速器競爭。

至於ARM將選擇哪一款Nvidia IP目前仍不清楚。ARM至今只是草擬了將AI晶片作為其廣泛Project Trillium的一部份。ARM目前僅透露計劃將其新興神經網路軟體移植到Nvidia IP上。

Nvidia負責Xavier的行動事業部門副總裁暨總經理Deepu Talla表示,他注意到業界開始使用免費的模組化IP設計多種晶片。然而,迄今為止還沒有人發佈相關資訊。

Nvidia希望在推論方面的努力能夠擴展到使用其機器學習軟體,該軟體同時也用於訓練AI模型。為此,該公司發佈了幾項更新其程式碼的計劃,並將其整合至第三方AI架構中。

此外,Nvidia最新的TensorRT 4 Runtime軟體也增強對於推論作業的支持,並整合於1.7版Google TensorFlow架構中。Nvidia還將該Runtime軟體與Kaldi語音架構、Windows ML和Matlab等整合在一起。

該公司並宣佈,上週推出的RTX光影追蹤軟體採用V100 Quadro GV100晶片,支援32GB記憶體和兩組NVLink。

該軟體可為遊戲、影片和設計模型提供更快速、更逼真的渲染,執行於Nvidia專有的API以及微軟(Microsoft)用於光線追蹤的DirectX,未來還將支援Vulkan。

Nvidia專業視覺化部門副總裁Bob Pette表示,相較於基於CPU的渲染,該軟體進一步提升了10倍到100倍;他並預計這一市場將在2020年達到超過20億美元的規模。

20180328_Nvidia_NT01P2 Nvidia執行長黃仁勳認為,GPU在AI效能方面已發展出超越摩爾定律以外的新方向(來源:Nvidia)

編譯:Susan Hong

(參考原文:Nvidia Taps Memory, Switch for AI,by Rick Merritt)