總部位於英國布里斯托(Bristol,UK)的新創公司Graphcore,開發了一款被稱為智慧處理單元(intelligence processing unit,IPU)的新型AI加速器;該公司在2016年在風險資本業者的支持下誕生,並在2018年12月進行的最後一輪融資募集了2億美元。

Graphcore估計市值達17億美元,被認為是西方半導體產業界唯一的「獨角獸」,其投資者包括Dell、Bosch、BMW、Microsoft和Samsung等巨擘。EE Times記者最近採訪了Graphcore執行長Nigel Toon (文章上方大圖右,左為Graphcore技術長Simon Knowles),暢談該公司願景、AI加速器市場以及AI領域未來發展。

EE Times:Graphcore的IPU晶片已經開始銷售了嗎?以什麼形式?

我們的產品已經量產出貨以取得營收,目前正在與極少數早期客戶合作。我們目前的主要產品是一款可插入伺服器的double-width、full-height 300W PCI Express卡,頂部連接器可以實現卡間互連。每一片Graphcore C2卡都配有兩顆Colossus IPU處理器晶片;該晶片本身,即IPU處理器,是迄今為止最複雜的處理器晶片──在16奈米單晶片上容納了240億個電晶體,每顆晶片可提供125 teraFLOPS運算力。

我們能在一個標準4U機箱中插入8張卡,卡間透過IPU鏈路互連。卡上的處理器能像是同一個處理單元般共同運作,提供雙petaFLOPS的運算力。IPU與CPU和GPU的運算架構不同,能為機器智慧提供更高效率的處理平台。這類運算模組能應用於雲端運算伺服器,也具備進駐自動駕駛車輛的潛力。

EE Times:Graphcore如何因應在資料中心執行深度學習軟體堆疊的挑戰?

在過去3、4年崛起的標準化深度學習框架,如TensorFlow和PyTorch,搭配ONNX等圖形描述子(graph descriptors),能支援某些框架之間的資料交換,讓開發人員快速設計神經網路;這些設計基本上是圖形框架,也就是說,它們描述了一種包括運算子(operators)和圖形內部元素連結的數學圖形。

而我們從這些高階框架中取得輸出並將其輸入到我們稱之為Poplar的軟體層;Poplar扮演我們的映射和編譯工具,採用高階框架圖形並將它們映射成為在IPU處理器上執行的完整運算圖形。每顆IPU處理器都有1,200個獨立的專用核心,以及機器學習所需的所有控制操作和超越函數(transcendental function)。每個IPU核心可執行多達六個程式執行緒;因此如果你有16顆處理器,在一個4U機箱中可以執行超過10萬個獨立的平行程式。

正是這種平行化水準,讓使用者可實現快速訓練模型並進行即時操作──這也讓我們能夠在自然語言處理以及理解自動駕駛車輛應用的視訊方面取得重大進展。因此,強大的平行處理能力真的非常重要。

有了Graphcore的IPU,能在處理器內部生成完整的機器學習模型。該處理器具有數百MB的RAM,可在處理器上以超過1.6GHz的速率全速運行;其中的延遲已被程式執行緒隱藏。若GPU內具備高頻寬記憶體(HBM)等記憶體技術,還能以更快的速度操控模型。

HBM可達到900GBps的記憶體頻寬,我們的單顆IPU處理器則可約45TB記憶體頻寬;因此一個4U機箱中若有16顆處理器,將帶來大量的記憶體頻寬──能平行運作成千上萬個程式執行緒;這是我們得以加快機器智慧任務執行速度的部分原因。

EE Times:與市面上領先的GPU方案相較,Graphcore的IPU性能表現如何?

這取決於任務。如果是執行用以分類靜態影像的前饋卷積神經網路(feed-forward convolutional neural networks),GPU的表現已經相當好,但IPU可以提供兩到三倍的性能優勢、有時甚至是五倍。對於更複雜的模型,例如有資料來回傳遞以嘗試理解情境(例如對話)的模型;由於資料被傳遞多次,需要非常快。對於這樣的應用,因為所有的模型都保存在我們的處理器中,IPU可以比GPU快很多,甚至可能快十倍、二十倍或者五十倍。

EE Times:Graphcore是否計畫將性能測試結果送交MLPerf或其他基準測試平台?

我們會這麼做;目前我們專注在與早期客戶合作,幫助他們解決實際問題,但我們會回過頭去做一些基準測試。基準測試平台的問題在於它們比較守舊,通常專注於標準的卷積神經網路(CNN),可是這個產業已經往前走了很大步。雖然基準測試是有用的相對衡量標準,但看到產品在實際應用上的真實性能表現也很重要。

創新發展可說日新月異,很難保證你不是「拿蘋果跟橘子比」;如果採用標準框架,(為了比較)在不同的系統上進行嘗試也很容易。

EE Times:Graphcore的IPU晶片在推論與訓練上都適用嗎?

是的,你可以用相同IPU晶片進行推論或訓練;從架構的角度來看,這對我們非常重要,因為隨著機器學習演進,系統將能夠從經驗中學習。推論性能表現的關鍵包括低延遲、能使用小模型、小批次(small batches),以及可能會嘗試導入稀疏性(sparsity)的訓練模型;IPU可以有效地完成所有這些事情。

因此在一個4U機箱中,16顆IPU共同合作協作進行訓練,每顆IPU可以執行獨立的推論任務,並由一個CPU上執行的虛擬機來控制,最終你會得到一個可用於訓練的硬體。因此一旦模型被訓練、佈署,隨著模型演進且我們開始想要從經驗中學習時,就可以採用相同硬體。。

EE Times:在人才方面,Graphcore將如何培養軟體開發工程師,就像是競爭對手Nvidia為CUDA技術所做的?

Graphcore的映射和編譯工具Poplar雖然在某種程度上與CUDA差不多,但實際上是一種程式語言,不是在較低層級描述圖形的框架。你可以在Poplar中描述一種新型的卷積函數,或一種新型的遞迴神經網路層,將之視為高階框架中的函式庫元素(library element)。我們可提供各種高階運算子與函式庫元素,還有許多低階運算子;你可以輕鬆將之互連以創建新的函式庫元素,或者是如果你想做一些完全創新的事情,可以使用Poplar C ++環境創建自己的東西。

我們希望大家分享他們的創新讓其他人使用。如果你檢視Google的TPU或NVIDIA的GPU,會發現很多函式庫元素都是封閉的黑盒子,無法看到它們是如何打造;但而我們的是開放的,人們可以進行修改並擴展,我們希望建立的是這樣的一個開放社群。

EE Times:在AI領域,Graphcore面對的是包括Google、百度(Baidu)、Nvidia、Intel,以及據說也在開發自家晶片的資料中心巨擘Facebook、阿里巴巴(Alibaba)等對手。Graphcore將如何與那些公司競爭?如果資料中心業者開發自己的AI加速器,市場競爭態勢又將如何變化?

我認為會有三個主要市場。首先是一個相當簡單的小型加速器市場,通常是以應用於手機的IP核心形式來提供;我們知道一些手機大廠已經在進行這類開發,但我們沒有參與這個市場。

還有一個是類似ASIC元件的市場;舉例來說,某家公司擁有具備大量用戶的特定工作負載──或許他們經營一個很大的社交網路──他們可以在一顆晶片中創建一個非常具體的功能,然後在資料中心佈署該晶片以加速執行此功能。這種ASIC類型方案市場也會很大,但我們也沒有參與。

我們在做的是一種通用處理器,可以讓你用來做許多不同的事情,而且是以驚人的效率。如果該技術應用於雲端運算環境,能非常輕鬆地解決問題,而且功能多樣、容易編程,並帶來極具效益的結果…我們相信這是一種能在市場上致勝的技術。

人們打造專屬ASIC類型晶片的事實,幾乎可證明GPU並非市場所需。市場需要的是一種更高效益、容易使用、為機器智慧量身打造的處理器,這正是我們所做的。我們認為通用IPU有機會形成迄今最大的一個市場類別,透過為以上所有問題從零開始打造一種更高效益的解決方案,我們相信我們能主導該領域的產業標準。

EE Times:在AI加速器市場儼然成為領導者的GPU,其實在一開始並不是為了這個目的而設計,您認為它會繼續佔據主流地位嗎?

如果只是要做基本的前饋卷積神經網路,GPU是很不錯的解決方案,但隨著網路變得越來越複雜,人們需要全新的解決方案──這也是為何他們要用ASIC和FPGA。

我們接觸過的所有創新者都說,使用GPU會阻礙阻礙他們的創新,而如果仔細看一下他們正在做的模型種類,會發現他們主要採用的是CNN形式,因為遞迴神經網路和其他種類結構,例如強化學習,不能很妥善地映射在GPU。研究領域因為缺乏夠好的硬體平台而受限,這也是為什麼我們要將IPU推向市場。

EE Times:Graphcore會進入企業應用市場嗎?如果答案是肯定的,你們要如何在競爭對手環伺的該市場脫穎而出?

企業應用市場很有意思,特別是當很多公司正嘗試進行真正的深度學習──我們對這個部分特別感興趣,也並專注於此。問題是,我們該如何接觸這類客戶?他們遍佈全球,分散在不同的垂直市場;對於新創公司來說,這是一個很難進入的市場。

但我們的策略可以說相當「狡猾」──我們與Dell建立了密切的合作關係;Dell是我們公司的投資者,透過與他們合作,我們順利地進入企業應用市場,並透過多種不同形式將我們的技術提供給客戶。舉例來說,我們的產品可能是4U規格一體化IPU伺服器,也可能是內建單片IPU PCI卡的工作站;我們有很多不同的選項瞄準這個市場,我們也已取得管道。

EE Times:恭喜你們成為西方半導體界的唯一「獨角獸」;擁有如此高的身價,Graphcore將如何確保投資者獲得良好的投資報酬?

擁有很高的估計市值對我們的公司來說是好事,因為那是公司業務模式的有力驗證,而且能讓我們可以籌集到大量資金。我們現在擁有具備驚人成長速度的「火力」,這非常重要,因為我們所在的是一個新興市場;這種動力將在未來的兩至三年內發揮作用,我們得在這段時間內跑得非常快,以成為市場上的領先者。

本文原刊於電子工程專輯雜誌2019年7月號;責編:Judith Cheng

(參考原文: Graphcore CEO Touts 'Most Complex Processor' Ever ,by Sally Ward-Foxton)