IBM Research發表深度學習(deep learning)演算法的最新突破,據稱幾乎達到了理想微縮效率的神聖目標:新的分散式深度學習(DDL)軟體可隨著處理器的增加,實現趨近於線性加速的最佳效率。

如圖1所示,這一發展旨在為添加至IBM分散式深度學習演算法的每一個伺服器,實現類似的加速效率。

IBM研究人員兼IBM Research加速認知基礎設施部門總監Hillman Hunter認為,其目標在於「將與深度學習訓練有關的等待時間,從幾天或幾小時減少到幾分鐘或甚至幾秒鐘。」

Hunter在一篇有關這項深度學習發展的部落格文章中指出,「最受歡迎的深度學習架構開始擴展到伺服器中的多個繪圖處理器(GPU),而非使用GPU的多個伺服器。」IBM的開發團隊「為連接至數十個伺服器的上百個GPU加速器所需的龐大、複雜運算任務,編寫了自動化與最佳化其平行任務的軟體與演算法。」

20170913_IBM_NT31P1 深度學習演算法隨GPU增加而趨近於線性加速效率 (來源:IBM)

IBM聲稱,使用開放源碼的Caffe深度學習架構,可將最多達256個Nvidia Tesla P100 GPU添加至單一伺服器,最終達到了95%微縮效率的測試結果。這一測試結果可用於影像辨識學習,但預計也適用於類似的學習任務。IBM在50分鐘的訓練時間內達到了接近線性的微縮效率。在相同的訓練數據集時,Facebook Inc.先前曾經在60分鐘的訓練時間內實現89%的效率。

而在ImageNet-22k的數據組合下,IBM聲稱可在7個小時、750萬張影像的訓練中,達到了33.8%的驗證精確度;在相同的條件下,微軟(Microsoft Corp.)原先的記錄是在10天訓練中達到29.8%的準確率。IBM的處理器——PowerAI平台,可支援64節點的Power8叢集(加上256個Nvidia GPU),提供超過2PFLOPS的單精度浮點性能。

該公司正為PowerAI平台用戶免費提供其分散式深度學習套件,同時,還為第三方開發人員提供各種應用的編程介面,讓他們能選擇與其應用最相關的底層演算法。

編譯:Susan Hong

(參考原文:IBM Deep Learning Breaks Through,by R. Colin Johnson)