新興人工智慧(AI)產業內有超過40家公司以及8個研究機構,共同定義了一套名為MLPerf的標準化測試基準(benchmarks),以比較用來加速機器學習(ML)訓練與推論的不同晶片性能。在日前最新公佈的第二個訓練結果(0.6版)中,Nvidia與Google都展現了他們的能力,可將訓練一般AI應用的底層深度神經網路所需運算時間,從幾天減少至幾小時。

不過,要達到如此令人印象深刻之成果,所需付出的代價仍然讓人難以置信:請注意,用以執行這類訓練任務的Nvidia DGX-2H SuperPOD系統,零售價格估計達3,800萬美元(約11.7億台幣)。因此,Google試圖利用他們是唯一主要公有雲供應商的優勢,將AI超級運算以服務的形式提供給研究人員與AI開發者,而且都是使用該公司自家開發的張量處理器(TPU),做為Nvidia GPU以外的替代方案。

最新MLPerf測試結果真的非常棒,Nvidia與Google在6項「Max Scale」基準測試中的3項,都聲稱拿到第一名的成績。Nvidia利用所有DGX-2H系統內都相同的V100 TensorCore加速器,大幅減少作業時間(達80%)。現在很多晶片新創公司大概都得去向投資者解釋,為何他們預期超越Nvidia的性能優勢突然減弱,一切都是因為Nvidia的軟體實力以及生態系統。

當然,很多人第一個想到的問題是:「其他公司到哪去了?」目前全球雖然有超過40家公司正在開發AI專用加速器,不過其中大多數是推論晶片,而非模型訓練應用的晶片,Nvidia則在後者這個規模達數十億美元的市場佔據大部分市佔率。MLPerf準備在9月初為那些AI推論晶片公佈一份基準測試結果。

就算是打造AI訓練用晶片的公司,也會因為要參與這場基準測試馬拉松得付出的驚人成本而卻步,更別說其中有不少是新創公司。英特爾(Intel)有可能是其中一員,不過前提是他們能在今年稍晚完成被高度期待的Nervana NNP-T神經網路處理器開發。

那麼,誰「贏了」很重要嗎?既然那些公司能以大規模配置來執行測試基準,以最短的訓練時間將結果最大化,能得到第一或許意味著該團隊能結合上千個加速器來訓練網路,這是一項艱鉅的軟體工作。而因為兩家公司都銷售16晶片的配置,並將測試結果提供給MLPerf,筆者將標準化性能以表列方式呈現如下:

Google Nvidia results

Nvidia與Google的16個加速器系統MLPerf 0.6標準化性能測試結果。
(Moor Insights & Strategy)

我發現一個很有趣的地方,是Nvidia最佳的絕對性能是在較複雜的神經網路模型(強化學習以及以Mask R-CNN方法進行的重量級物件偵測),這或許展現了該公司的硬體編程能力以及靈活性,讓他們能持續跟上開發更新、更複雜與更深入模型的腳步。’

此外我也注意到Google很明智地決定用一張更大的網來籠絡TPU使用者,正努力支持除了Google的TensorFlow工具集以外、流行的PyTorch AI框架,這會消除兩個最大的市場推廣障礙之一;另一個障礙則是TPU在Google Compute Platform (GCP)的排他性。

最後,要回答「誰贏了重要嗎?」這個問題,或許只要看佈署模式。Google的TPU是在GCP中執行訓練之公有雲中不可忽視的力量,同時Nvidia則繼續為企業內部基礎建設及非GCP公有雲服務中提供優異性能,他們的靈活性能協助雲端運算供應商在很寬廣的工作負載(>500)內攤銷成本。我得說,Google TPU以試用版(beta) TPU V3 POD持續進化中,而Nvidia也能維持住廣泛的領導地位。

編譯:Judith Cheng

(參考原文: Google and Nvidia Post New AI Benchmarks,by Karl Freund,本文作者為市場研究機構Moor Insights & Strategy的機器學習與高性能運算市場資深分析師)