深度神經網路(DNN)就像遙遠地平線上的海嘯一樣湧來。

鑒於該技術的演算法和應用仍在演進中,目前還不清楚深度神經網路最終會帶來什麼變化。但是,迄今為止,它們在翻譯文本、辨識影像和語言方面所取得的成就,清楚地表明他們將重塑電腦設計,而這種變化正在半導體設計和製造方面發生同樣深刻的變化。

專為訓練DNN量身客製的第一批商用晶片將於今年上市。由於訓練新的神經網路模型可能需要幾週或幾個月的時間,因此,這些晶片可能是迄今為止最大、也最昂貴的大規模商用晶片。

新創公司追逐深度學習

業界可能會在今年看到來自新創公司Graphcore一款未使用DRAM的微處理器,以及一款來自其競爭對手——晶圓級整合先鋒Cerebras Systems的產品。英特爾(Intel)收購取得的2.5-D Nervana晶片已經在生產樣片了,其他十幾個處理器正在開發中。同時,從Arm到Western Digital (WD)等幾家晶片公司也在研究核心,以加速深層神經網路的推論部份。

「我認為2018年將是一場各種產品紛紛出爐的派對。」加州大學柏克萊分校(UC Berkeley)榮譽教授David Patterson表示:「我們剛剛開始看到許多公司開始評估一些想法。」

這個趨勢非常明顯,Patterson和共同作者John Hennessey在上個月發表有關運算的開創性文章最新版中,另外寫了一個新的篇章。作者對內部設計提供了深入的見解,例如Patterson針對Google TensorFlow處理器(TPU)以及蘋果(Apple)和Google最新智慧型手機晶片中的Microsoft Catapult FPGA和推理模組發表評論。

「這是電腦架構和封裝的復興,」Patterson說:「明年我們將會看到比過去十年更有趣的電腦。」

過去幾年來,深度神經網路的興起,讓創業投資(VC)的資金重新回到了半導體領域。 《EE Times》最近發表的新創公司評選計劃‘Silicon 60’中,列舉了七家與神經網路晶片有關的新創公司,其中包括兩個鮮為人知的名稱:中國北京的寒武紀科技(Cambricon Technologies)和美國德州的Mythic Inc.。

「我們看到基於新架構的新創公司爆增。我自己追蹤了15到20家......過去10到15年來,在任何一個細分領域中都不曾有超過15家的半導體公司同時湧現的事情」,連續創業家Chris Rowen說。他從Cadence Design Systems離職後,成立了一家公司Cognite Ventures,專注於神經網路軟體。

Rowen說:「Nvidia由於其強大的軟體地位,將難以與其在高階伺服器訓練方面競爭。而如果你去追求智慧型手機市場你會覺得自己瘋了,因為你必須在很多方面都做得出色。不過在高階或是低階的智慧型手機市場,還是可能會有一些機會。」

市場觀察家The Linley Group負責人Linley Gwennap表示,Nvidia最新的GPU (Volta)表現非常出色,他們調整了對於DNN的速度訓練。Gwennap說:「但我當然知道這還不見得是最好的設計。」

Gwennap說,英國Graphcore和美國Cerebras是在訓練晶片方面最值得觀察的兩家新創公司,因為他們籌集的資金最多,而且似乎擁有最好的團隊。由Google前晶片設計師創立的新創公司Groq聲稱,它將在2018年推出一款推理晶片,能在每秒運作效能和推論中以4倍的優勢擊敗競爭對手。

20180124_AI_NT02P1 英特爾Nervana是一款大型的線性代數加速器,位於矽中介層上,緊鄰四個8GB HBM2記憶體堆疊。(來源:Hennessy和Patterson合著的《Computer Architecture: A Quantitative Approach》

Intel的Nervana稱為Lake Crest (上圖),是最受關注的客製設計之一。它執行16位元矩陣操作,資料共用指令集提供的單個5位元指數。

如同Nvidia的Volta,Lake Crest邏輯元件位於台積電(TSMC)的CoWoS中介層上,緊鄰著四個HBM2高頻寬記憶體堆疊。這些晶片被設計成網狀,提供3-10倍於Volta的性能。

雖然去年微軟在DNN上使用了FPGA,但Patterson仍然對於這種方法持懷疑態度。「你為FPGA的靈活性付出了很多代價。但程式設計真的很難,」他說。

Gwennap在去年年底的一項分析中指出,DSP也將發揮作用。他說,Cadence、Ceva和Synopsys都提供針對神經網路的DSP核心。

加速器缺少共同基準

雖然晶片即將問世,但是架構師們還沒有決定如何評估。

就像RISC處理器的早期,Patterson回憶說,「每一家公司都會說,『你不能相信別人做的基準,但是你可以相信我的』,那不太好。」

那時,RISC供應商在SPEC基準測試中進行了合作。現在,DNN加速器需要自己定義的測試套件,涵蓋各種資料類型的訓練和推理以及獨立的或是叢集的晶片。

因此,由20多家主要伺服器和軟體製造商組成的「交易處理性能委員會」(TPC)在12月12日宣佈組建了一個工作組來定義機器學習的硬體和軟體基準。 TPC-AI委員會主席Raghu Nambiar表示,目標是創建無論加速器是CPU還是GPU都適用的測試。但是,這個團隊的成員名單和時間架構還處於變化中。

百度(Baidu)於2016年9月發佈了一個基於其深度學習工作負載的開放原始程式碼基準測試工具,使用32位元浮點數學進行訓練任務。它在六月份更新了DeepBench以涵蓋推理工作以及使用16位元數學。

美國哈佛大學(Harvard University)研究人員發表的Fathom套件中,定義了8個人工智慧(AI)工作負載支援整數和浮點數據。Patterson說:「這是一個開始,但是要成為一個讓人感覺舒適的全面基準測試套件,還需要更多的努力作。」他說:「如果我們努力打造一款好的測試基準,那麼所有投入工程的錢都會花得值得。」

除了基準之外,工程師還需要追蹤仍在演變中的神經網路演算法,以確保其設計不會被束之高閣。

高通(Qualcomm)下一代核心研發總監Karam Chatha表示:「軟體一直在變化中,但是你需要儘早把硬體拿出來,因為它會影響軟體——你不得不催促讓它發生。到目前為止,行動晶片供應商正在Snapdragon SoC的DSP和GPU核心上執行神經網路任務,但一些觀察家預計,它將為機器學習客製一個新的模組, 放在2019年的7nm Snapdragon SoC中。

20180124_AI_NT02P2 高通展示客製DNN加速器的研究範例,但它現在仍然使用通用DSP和GPU核心的軟體(來源:高通)

Patterson說:「市場將會決定哪種晶片最好。現實是殘酷的,但這是設計電腦讓人興奮之處。」

早期進入的業者已經進入這場機會競賽中。

例如,Facebook最近證明,透過大幅增加封裝到所謂批量大小的功能數,可以將訓練時間從一天縮短到一小時。對於試圖在本地SRAM中執行所有運作的Graphcore來說,這可能是個壞消息,因為這樣的設計雖然降低了外部DRAM的存取延遲,但也限制記憶體佔用空間。

Patterson說:「這是為小批量資料封包而設計的,但幾個月前的軟體結果表明你需要大量的資料。這顯示事情變化的速度有多快。」

另一方面,Rex Computing認為該公司正迎來一個有利的機遇。該新創公司的SoC最初是為高性能伺服器設計的,使用了一種新穎的暫存器記憶體。Rex Computing聯合創始人Thomas Sohmers說Rex的方法消除了在虛擬頁面表中快取資料的需求——因為這種使用GPU的技術會增加延遲。

因此,他說Rex的晶片性能比現在的GPU更好,特別是在處理普遍的矩陣/向量運算神經網路時。該新創公司計畫6月份推出搭載256核心的16nm SoC,希望能提供256Gflops/watt的運算能力。

與此同時,研究人員正試圖從32位元到1位元浮點和整數數學的一切可能,以找到最有效的方法來運算神經網路的結果。他們似乎同意的一點是,最好不要在不同的精確度之間轉換。

AI演算法仍處於發展初期

深度神經網路幾十年來一直在AI方面進行小部份的工作。從2012年開始,包括Facebook的Yann LeCun等研究人員開始使用特定類型的DNN辨識影像,最終以比人類更高的準確度顯示令人驚歎的結果。深度學習技術吸引了研究界,現在正高速發表論文,尋求新的突破。

DNN現在提供商業服務,如亞馬遜(Amazon)的Alexa和Google翻譯,以及Facebook的臉部辨識。網路巨擘及其全球競爭對手,正競相將這些技術應用於盡可能多的服務中,並期待找到殺手級應用。

微軟每年都會以AI為主題舉行兩次員工內部會議。最近一次有5,000人參加,前SPARC處理器架構師Marc Tremblay表示,他現在領導微軟在客製AI晶片和系統方面的工作。

專家坦承,他們沒法完全理解為什麼現有演算法能如此充份發揮。辯論主題是探討這些網路演算法的相對有效性,例如遞迴(RNN)和卷積(CNN)神經網路。同時,新的模式仍在發明之中。

AMD研究員Allen Rush在最近一次關於AI的IEEE研討會上說:「在未來五年內,演算法仍然極有可能發生改變。但我們打賭像矩陣乘法這樣的最底層演算法是不會改變的。」

這就是Google以TPU所做的賭注,最新版TPU針對訓練和推理工作。它本質上是一個大的乘法累加單元陣列,執行和儲存線性代數常式的結果。Nervana和Graphcore的晶片預計會隨之效仿。

哈佛大學前大腦研究人員Amir Khosrowshahi說,在神經網路方面取得的成就主要集中在AI領域。他曾經共同創辦了Nervana公司,目前是英特爾Nervana部門的技術長。他在IEEE研討會上表示:「由於深度學習非常成功,所以事實逐漸被掩蓋了。如今,每個人都在做卷積神經網路,但這是一場悲劇......不要以為現在發生的事情一年後就一定會有成果。」

20180124_AI_NT02P3 當今的DNN受到了許多關注,但僅代表更廣泛AI領域的一小部份(來源:Intel)

繼續閱讀:AI晶片大軍來襲( 下)

編譯:Mike Zhang