市場新秀要以光學運算晶片顛覆AI加速器市場

作者 : Sally Ward-Foxton,EE Times歐洲特派記者

從美國麻省理工學院(MIT)獨立、專注為AI加速應用開發光學運算處理器的新創公司Lightmatter展示了一款處理器測試晶片,利用矽光子和MEMS技術,由毫瓦等級的雷射光源供電,能以光速(在矽晶片中)執行矩陣向量乘法;該運算速度比現今的電晶體結構晶片(包括最新款GPU)高數個等級,而且功耗非常低...

一家從美國麻省理工學院(MIT)獨立、專注為AI加速應用開發光學運算處理器的新創公司Lightmatter,在8月下旬舉行的第32屆Hot Chips大會上展示了一款測試晶片。該處理器利用矽光子和MEMS技術,由毫瓦(milliwatt)等級的雷射光源供電,能以光速(在矽晶片中)執行矩陣向量乘法;該運算速度比現今的電晶體結構晶片(包括最新款GPU)高數個等級,而且功耗非常低。

Lightmatter意欲藉由展示該測試晶片來證明其處理器設計方法是可靠的;該公司是最早推出專門用於AI推論工作負載之光學運算(矽光子)晶片的業者之一。Lightmatter預計於2021年秋天推出首款商用產品,會是以此次展示之測試晶片為基礎的後繼產品──配備光學運算晶片的PCIe卡,專為資料中心的AI推論工作負載量身打造。

 

Lightmatter的PCIe卡之矽光子晶片,光源透過光纖進入。

(圖片來源:Lightmatter

 

矽光子技術──透過矽晶片傳播光──的進展使複雜的晶片上結構成為可能,而且這種結構可以被控制,以一種與傳統電晶體電子結構完全不同的方式來執行MAC運作。由於電晶體結構的晶片已達Dennard縮放定律的極限,其單位面積內的功耗不斷增加,散熱技術的實際限制也跟不上更大尺寸晶片的需求,這為具備節能優勢的其他不同技術提供了發展空間。

Lightmatter執行長Nick Harris在Hot Chips大會前接受《EE Times》採訪時表示:「我們透過一種完全不同的物理方法迴避整個能量縮放問題──利用光。這意味著我們能以一套不同的規則進行微縮,所以(光學運算)可以更快、能耗更低。」

那麼,光學運算究竟速度能有多快,能耗低到多少?對此Harris表示:「我們可以降低20倍現有AI資料中心的能耗,將實際佔據電路板的面積縮減5倍。而這只是我們正在打造的第一代產品,接下來還有很長的產品藍圖。」

Harris強調,此次測試晶片只是用於展示該技術,其基準測試表現還不算好;不過他堅信,在實際應用中,Lightmatter的量產晶片將擊敗AI加速器市場領導者──Nvidia的Ampere A100。根據他的說法,在執行BERT和Resnet-50推論模型的工作負載時,Lightmatter的晶片能效是A100的20倍,處理量則至少是5倍。」

晶片設計

Lightmatter的晶片實際上包含兩顆垂直堆疊的裸晶:在上方的是一顆12奈米製程ASIC,包含記憶體以及負責協調控制下方的90奈米製程光學運算晶片。這兩顆裸晶都是委託GlobalFoundries採用標準CMOS製程生產。

這種光子處理器具有一個64×64光子矩陣向量乘積運算器(photonic matrix vector product calculator);資料可以在不到200皮秒(picoseconds)的時間於整個晶片內傳播,比耗費多個時脈週期的電晶體運算快了幾個等級。該運算引擎由50mW雷射驅動。

根據Harris提供的資訊,這種低功耗光學運算晶片的優點之一,是能與控制/記憶體ASIC一起3D堆疊;而電晶體結構的運算晶片會散發大量的熱。Harris指出,堆疊的晶片縮短了ASIC上運算元儲存(operand store)與光子晶片上運算單元之間的跡線長度──從資料轉換器到光學運算引擎總佈線長度不到1mm──並改善了延遲和功耗。

「它有良好的正回饋迴路(positive feedback loop),」Harris表示:「低功耗使堆疊成為可能,堆疊又能節省更多功率。」

 

Lightmatter的「晶片」實際上包含兩顆以3D封裝堆疊的裸晶;上方是具備記憶體和控制功能的12奈米ASIC,下方是充當運算引擎的90奈米矽光子元件。

(圖片來源:Lightmatter

 

藉由數位類比訊號轉換器(DAC)接收數位輸入訊號,將其轉換為類比電壓,並採用該電壓來驅動雷射(這種技術已經在光纖傳輸器被廣泛採用);來自雷射的光進入運算陣列,其運算單元為馬赫曾德爾干涉儀(Mach Zehnder Interferometer,MZI)。進入MZI的同調光(Coherent light)被分成兩半,每一半的相位調整幅度不同。

將具有不同相位的訊號組合會導致相長或相消的干涉,從而有效調變通過MZI的光亮度(該調變可被視為乘法運算)。在波導(waveguides,即承載光的「線路」)相遇的地方,訊號被有效疊加。這就是光學MAC的基本原理。從運算陣列輸出的光到達光電二極體,其訊號再透過ADC饋送,以介接其餘的數位電路。

 

Lightmatter的光學運算陣列有DAC和ADC功能區塊前後包夾,以介接其餘的數位電路。

(圖片來源:Lightmatter

 

MZI中的關鍵運作是以機械手段實現光相位的改變。Lightmatter工程副總裁Carl Ramey在Hot Chips大會上的簡報中解釋,光子晶片採用了奈米光學機電系統(nano-optical electromechanical system,NOEMS),類似MEMS元件,其波導結構藉由下方的蝕刻懸吊,然後透過對其上方和下方的電容板(capacitor plates)添加電荷來偏轉,從而成功地按照所需的量改變光相位。

「NOEMS元件具有一些令人驚訝的特性,」Ramey表示:「它們損耗極低,靜態功耗幾乎為零。我們簡單載入一些電子在小型電容器上,幾乎不會有任何洩漏──因為電容夠小,致動所需的動態功率也非常小。這種結構也能以相對較高的速度致動,最高可達數百MHz。」

節能特性

Ramey指出,Lightmatter的展示晶片具備64×64運算單元,而且很容易擴展。「這與電晶體脈動陣列(systolic array)類似,運算量隨著面積線性擴增,延遲也隨陣列尺寸而變化。在典型的流水線電晶體設計中,從左至右共需要64個時脈週期來執行運作。我們的延遲也會隨陣列尺寸而擴展,但是運算速度高了三個等級。因此,即使是1,000乘以1,000的陣列,延遲也遠低於1奈秒(nanosecond)。」

有趣的是,光學運算陣列消耗的功率與面積的平方根成比例,這是因為功耗主要歸因於資料轉換。「每添加一個新單元到陣列中,只需付出功率的平方根代價,就能獲得更高性能;」Ramey表示:「因此當我們的晶片越大,實際上效率就會越高。這與電子系統完全不同──遵循線性縮放定律的電子系統是性能越高,功耗就越大。」

除了與運算相關的能耗,還有與在晶片內移動資料相關的能量(今日的大型電晶體AI晶片在資料移動時功耗可達50W至100W)。藉由光學運算,以光學方式移動資料意味著不再需要電源,這能節省龐大能源。而結果是一個運作功率低於3W的元件,這是其他運算方法每次執行推論運作所消耗之能量的一小部分。

多工處理

光學運算的另一個有趣之處是其多工處理能力。與光通訊中使用的技術類似,光學運算可以將多個獨立的資料流編碼到不同波長的光路上,同時饋入運算引擎。這意味著光學運算晶片能同時執行多個AI推論任務。

「這是光學運算相當獨特的能力;這意味只需要一個實體資源,單一處理器,卻等同於一個處理器陣列。」此外Harris表示,雖然指定光譜(1310至1600nm)理論上可以支援至少1,000個通道,但受到目前相對不成熟的雷射技術限制,目前只有8個通道。

展現光學運算的可行性

Lightmatter當前的目標客戶是資料中心,包括更進一步向外擴展的高性能運算應用;未來也可能會向其他應用領域發展,例如自動駕駛應用亦為其遠期目標,不過Harris坦承這個領域所需的可靠性工程會是「一項艱鉅的任務。」

Lightmatter有一套完整的軟體堆疊,能與TensorFlow或Pytorch整合;Harris表示,他們的目標是在兩種機器學習框架中實現隨插即用。該公司成立於2017年,目前在美國麻州波士頓(Boston)有46名員工;此外擁有30項專利,並已經從Google Ventures等投資機構籌集了3,300萬美元的資金。

對於這家新創公司來說,首要的挑戰可能是讓那些抱持懷疑態度的客戶接受光學運算的概念;對此Harris打算怎麼做?他表示:「這是一項艱鉅的挑戰。自1960年代以來,運算史上從沒有任何一種技術能取代電子電晶體;人們嘗試過,但都沒有成功。我想這將人們第一次看到該種情況發生,我們推銷它的方式就是證明它是可行的。」

 

本文同步刊登於《電子工程專輯》雜誌2020年10月號

責編:Judith Cheng

(參考原文:Optical Compute Promises Game-Changing AI Performance,by Sally Ward-Foxton)

 

掃描或點擊QR Code立即加入 “EETimes技術論壇” Line 群組 !

 EET-Line技術論壇-QR

發表評論