總部在美國矽谷的新創公司Cerebras將於近日舉行的年度Hot Chips大會上,展出號稱「世界最大」的半導體元件,是一款採用16奈米製程、與晶圓片尺寸相當的處理器陣列,目標是取代Nvidia的GPU在訓練神經網路方面的主導地位。這顆總面積達到46,225mm2的晶片功耗為15kW,內含40萬個核心,已經在至少一家匿名客戶的少數系統中運作。

此外在Hot Chips大會上,華為(Huawei)、英特爾(Intel)和另一家新創公司Habana將詳細介紹他們用於訓練神經網路的晶片;他們都把Nvidia當作競爭對手,後者去年售出了大約價值30億美元的GPU,用於支援對硬體性能極端渴望的新興應用。

英特爾的1.1 GHz Spring Crest旨在透過將64個28G串列/解串列器(serdes),整合16個112Gbps通道,連結多達1,024顆晶片;專有互連(proprietary interconnect)是一種直接的無協議鏈路,無需通過外部HBM2記憶體,從而能夠以相對快速的方式跨越多個處理器和主機擴散大型神經網路。而Cerebras的方法藉由在一片晶圓上集合所有核心、記憶體和互連,速度將更快,並且能整合到同一個機體。

Cerebras從資深投資者募集了超過2億美元資金,志在成為第一家將晶圓級整合技術商業化、開創封裝和晶圓處理新技術的公司,押注人工智慧(AI)訓練市場,認為該市場將從七家超大規模資料中心業者,擴展到數以百計、涵蓋製藥到金融科技等希望自己保有資料集的公司。

晶片如何運作?

Cerebras的元件在7x12陣列中包含84個區塊(tiles),每個區塊包含約4,800個核心,用於AI的稀疏線性代數(sparse linear algebra);此外每個區塊都有48 KB的SRAM,是唯一的記憶體資源。單級階層(single-level hierarchy)結構加快了處理速度,因為訓練程式幾乎不需要跨核心共用記憶體。與單個Nvidia GPU相比,晶片上總共18GB的SRAM容量是龐大的,但與Cerebras的目標競爭系統相比較卻很小。

該公司不願對該元件的頻率發表評論,該頻率可能很低,才有助於功率管理與散熱需求。Cerebras執行長兼創辦人Andrew Feldman表示,該公司的資深工程師「先前已經完成了2~3 GHz晶片,但這不是終極目標——超頻帶來的報酬還不如增加核心。」

Feldman不願評論Cerebras計畫出售的機架系統成本、設計或產品藍圖,但表示其裝置性能將相當於一個擁有1,000顆Nvidia GPU、需要花數月時間建置的資料中心,而且所需空間與功耗僅後者的2~3%。

20190820_Cerebras_NT01P1

Cerebras元件比Nvidia GPU,以及用於AI訓練的任何其他競爭對手晶片大得多。
(來源:Cerebras)

這家新創公司將於11月在美國舉行的年度超級電腦展(SC 19)上講解該系統,介紹其性能和測試基準(benchmarks)資料;這對於所有與會者來說這將是歷史性的一刻──上一次有類似的成就發表是在1980年代,由已故美國知名半導體企業家Gene Amdahl創辦的超級電腦新秀Trinity以3.5吋晶圓實現。

Cerebras的編譯器將攝取TensorFlow或Pytorch模型,將其轉換為機器語言,並使用微程式庫將神經網路層映射到該巨型晶片的各個區域;這有一部份是透過在核心上編寫指令並配置連結區塊的網狀網路來實現。

「我們把整個網路功能保留在晶片上;」 Feldman表示:「其他所有人都在壓縮網路功能,以至於花費更多時間來回傳輸數據;」常見的做法是透過速度緩慢的外部互連與記憶體溝通。

Cerebras的174名工程師中,有將近三分之二是軟體開發人員,顯見AI和編譯器程式碼的複雜程度;Feldman表示,在第一批商業系統投入使用之前,他們將面臨「一大堆問答(Q&A)」。

如何在市場上競爭?

市場研究機構Moor Insights & Strategy.的AI和高階系統分析師Karl Freund說:「如果他們能夠讓這種晶圓發揮作用,將是一大突破;他們正在解決的問題很難,但也並非不切實際,因此我認為他們會在明年的某個時候達成目標。」

Cerebras面臨Nvidia在AI加速器市場估計超過九成的壟斷地位,而該公司的16奈米產品將與Nvidia的7奈米Ampere GPU同時問世。此外,在Hot Chips大會上,英特爾將介紹其28核心Spring Crest平台,新創公司Habana將展示一款8核心訓練處理器,華為也將介紹其訓練晶片;英國新創Graphcore的1,200核心晶片更是已經取得Dell的3億美元融資和支持。

「人們正在進行各種嘗試——核心有多大,決定了記憶體和頻寬有多大,以及它們是如何連結的;正確的組合究竟是怎麼樣,還有待觀察;」另一家市場研究機構Linley Group的分析師Linley Gwennap指出,現階段很少人引用性能量測指標數據(預計在10月底之前,MLPerf會提供Spring Crest和Habana的訓練數據)。

Gwennap補充,人工智慧軟體還存在許多未知數,例如晶片能夠支援多少次TensorFlow的運作,還有是否能在廣泛的神經網路類型上都表現良好。

開創性的晶圓級整合

為了實現晶圓級元件,Cerebras得一一克服在良率、功耗和發熱等方面的挑戰;該公司已申請了約30項專利,其中有6項已正式取得。舉例來說,典型的台積電12吋晶圓可能內含「數量適中的100個左右缺陷,」 Feldman表示。Cerebras賦予Swarm互連備援鏈路(redundant link),可繞過有缺陷的區塊,並分配「略高於1%的區塊作為備用。」

迄今該公司已經生產了100多片晶圓,都能以可接受的水準運作。為了供電和冷卻,Cerebras還自己設計電路板和冷卻板,為每個區塊直接提供電力和水冷。該機架包括一個閉迴路系統,用於水的空氣冷卻。Cerebras還與合作夥伴共同設計了一台用於處理和對齊晶圓的機器; Feldman表示:「我們公司擁有流體學、材料學專家,也有製造工程師。」

這家新創公司還與台積電合作,發明了一種方法,將其互連放置在區塊之間的切割道(scribe lines)內,這個區域通常被保留,作為裸晶之間的隔離區。

20190820_Cerebras_NT01P2

一種特別設計的電路板和冷卻板,垂直地將電力和冷卻水輸送到每顆晶片上。
(來源:Cerebras)

打造一台電腦的全新方法

Cerebras打算在年度超級電腦大會上發表其系統,意味著該公司的晶圓級元件看好遠遠超越七家超大規模資料中心業者以外的市場。

至於AI訓練,「起初我們認為全球將有200家客戶,但我們已將該預估數字修改為1,000家;」Feldman表示:「不管我們到哪裡,都發現擁有大量資料集的公司不希望將資料保留在Google雲端,因為其運作單次訓練的費用可能高達15萬美元。」

車廠、藥廠、石油和天然氣探勘業者以及金融業者,將能自己進行AI訓練。Feldman指出:「超大規模資料中心是一個重要的細分市場,但它們遠不及整體市場的一半。」

Cerebras的投資人之一Fred Weber是曾參與AMD Opteron處理器開發的工程經理,他認為晶圓級整合(wafer-scale integration,WSI)甚至具備更大的潛力;他設想將其運用於傳統高性能運算任務,如訊號處理、天氣預報、軟體模擬/硬體模擬(simulation/emulation)甚至網路切換。

「科技領域經常出現一些有趣的良性循環(virtuous cycles),例如摩爾定律(Moore’s Law),你可以縮小晶片而會有人付錢——每一代演進都很困難,但你知道這是值得的;」Weber表示:「晶圓級整合可能也很類似,它要解決的問題很難,但並非不可能,而且現在有了訓練需求,就有商業性的理由去完成它。」

他說補充指出,WSI「一直是我非常感興趣的領域,因為我任職於Kendall Square Research (EETT編按:一家1980年代成立的超級電腦公司)時,主要就是研究大型平行電腦;」也就是說,「人AI訓練並非利基型應用。我們正處於『AI能做什麼?』這個命題的最開始,因為它是一個通用平台。我非常看好AI是一種運算典範(paradigm)而非應用。」

Weber表示,在這方面,「Cerebras是我參與眾多新創公司中最有趣的,因為他們的解決方案既是AI機器,又是一種打造電腦的全新方式。」

編譯:Luffy Liu,EE Times China;責編:Judith Cheng

(參考原文:Startup Spins Whole Wafer for AI,by Rick Merritt)