Google、百度(Baidu)與來自哈佛大學(Harvard University)、史丹佛大學(Stanford University)的研究人員合作,聯手為機器學習(machine learning)定義了一套新的測試基準(benchmark)——MLPerf。目前,包括超微(AMD)、英特爾(Intel)以及兩家人工智慧(AI)新創公司和另外兩所大學都表示支持MLPerf,最初版本預計將於8月份投入使用。

當今的硬體在執行神經網路作業時還無法達到業界所期望的性能標準。因此,一連串新的加速器陸續出現在市場上,但相關產業卻缺乏有效測量其性能表現的方法。

為了填補這一空白,MLPerf的第一個版本將專注於各種系統的訓練任務,包括從工作站到大型資料中心;這方面的任務一直是Google和百度等網路巨擘的最大痛點。後續發佈的版本將延伸至推論任務,最終並擴展至包括執行於嵌入式客戶端系統的版本。

百度深度學習資深研究員Greg Diamos舉例說,以訓練模型的大小及其資料組合來看,「為了訓練我們真正想要執行的一種模型,大約需要以我們所有的GPU執行約兩年的時間。」

Google Brain計劃的主任工程師Peter Mattson在5月2日的MLPerf發佈活動中說:「如果系統變得更快,我們就能更快地釋放機器學習的潛力。」

可在各種AI架構上執行的套件早期版本將在3個月內準備就緒。屆時,該組織的目標在於召集工作小組並打造出更完整的版本。

Mattson說:「我們最初稱其為版本0.5……這是經由一支研究小組完成的,現在我們希望開發社群能夠成功打造版本1.0,使其成為人人都能擁有的東西。我們鼓勵各種反饋…提出有關工作負載、基準定義與結果的建議,讓我們能迅速更新」基準。

20180504_AI_NT01P1

MLPerf的支持者與競爭者

大約有來自6家晶片公司、4家資料中心營運商與4所大學的35人都受邀參與了4月12舉行的秘密會議,先行審視了有關MLPerf基準的計劃。從那時起,組織者們開始努力爭取更多支持者。

其他宣佈支持MLPerf的單位還包括加州大學柏克萊分校(UC Berkeley)、明尼蘇達大學(University of Minnesota)和多倫多大學(University of Toronto),以及兩家AI新創公司SambaNova和Wave Computing。

去年12月,伺服器效能評測標準組織「交易處理效能委員會」(Transaction Processing Performance Council;TPC)宣佈正在組建一個定義AI基準的小組。Mattson說:「在此領域的幾個基準如今都參與了我們的計劃……為此領域聚焦於一個共同的基準,可望帶來長期的效益。」

中國搜尋巨擘百度最早採取行動,率先在2016年9月就發佈了DeepBench,這是一個開放源碼的底層測試基準,使用其工作負載進行訓練。Diamos表示,該公司現在將專注於針對應用層級性能的MLPerf。.

Diamos解釋說:「DeepBench專注於底層的編程介面,因為它們可以跨硬體移植,但為了取得更準確的指標,我們必須評估完整的應用程式(App)」,以及來自許多公司的工作負載。

最初,MLPerf將測量訓練模型的平均時間到最低限度的品質表現,可能以小時為單位。有鑑於這些工作是在大型伺服器陣列上執行的,可能不會回報每瓦性能。只要價格不至於隨著執行時間進展而變化,就會將工作成本納入考慮。

Nvidia的P100 Volta晶片將是該基準的一項參考標準,因為它已經廣泛地被資料中心用於訓練了。該組織打算每3個月更新一次發佈的結果。

MLPerf將使用兩種模式。針對商業用戶的封閉衡量指標將會指定一種使用模型和資料集,並限制關鍵參數(如批次大小)的值;針對研究人員的開放指標則設限較少,讓用戶能試驗該新途徑。

編譯:Susan Hong

(參考原文:AI Gets New Benchmark,by Rick Merritt)