隨著人工智慧(AI)、機器學習和5G等要求快速運算、高頻寬和低延遲技術的迅速發展,以及摩爾定律進程的減緩,半導體產業正向新的運算架構演進。

如果說1986年到2003年間,是摩爾定律的黃金時期,那麼2003年到2015年間就是業界拼處理器核心數的時代,然而當大家發現增加核心數也不再能提高處理效能時,專用型整合電路——如ASIC和FPGA開始以效率和能耗的優勢成為主角。

Achronix_P1 (來源:Achronix)

「目前能提升能耗比和運算力的唯一途徑,就是專用化。」Achronix市場行銷副總裁Steve Mensor說,「未來的微處理器都會包含多個專用功能域核心,專職處理某一類型的運算任務,但他們的表現絕對好於現在各種處理器採用的通用核心。」

拿當前最火熱的AI和機器學習應用來說,常見的運算平台有四種——CPU、GPU、FPGA和ASIC。他們各有特點和優勢,目前採用最多的還是兼顧靈活性和能效的GPU和FPGA,但在價格和可塑性上FPGA更有優勢。

Achronix_P2 Achronix市場行銷副總裁Steve Mensor

Achronix日前正式推出其第四代嵌入式FPGA產品Speedcore™Gen4 eFPGA IP,以支援客戶將FPGA功能整合於其SoC之中,該eFPGA獨立元件將在明年上半年量產,採用台積電(TSMC)最新7nm製程。據悉,他們也是是第一家向SoC開發公司提供量產eFPGA IP的公司。

Speedcore Gen4將性能提高了60%、功耗降低了50%、晶片面積減少65%,同時保留了原有的Speedcore eFPGA IP功能,即可將可編程硬體加速功能導入廣泛的運算、網路和儲存應用,實現介面協議橋接/轉換、演算法加速和數據封包處理,提供了以前僅在ASIC中才能實現的硬體加速平衡。

Achronix_P3

在Speedcore Gen4架構中,Achronix將機器學習處理器(MLP)添加到Speedcore可提供的資源邏輯庫單元模組中。MLP模組是一種高度靈活的運算引擎,它與記憶體緊密耦合,從而為人工智慧和機器學習(AI/ML)和高數據頻寬應用的爆炸式需求,提供了支持。

解決頻寬爆炸問題

固定和無線網路頻寬的急劇增加,加上處理能力向邊緣等進行重新分配,以及數十億物聯網裝置的出現,將給傳統網路和運算基礎設施帶來壓力。這種新的處理模式意味著每秒將有數十億到數兆次的運算。傳統雲端和企業資料中心運算資源和通訊基礎設施無法跟上數據速率的指數級成長、快速變化的安全協議以及許多新的網路和連接要求。

Achronix亞太區總經理羅煒亮表示,傳統的多核心CPU和SoC無法在沒有輔助的情況下獨立滿足這些要求,因而它們需要硬體加速器,通常是可重新編程的硬體加速器,用來預處理和卸載運算,以便提高系統的整體運算性能。經過最佳化後的Speedcore Gen4 eFPGA已經可以滿足這些應用需求。

舉例來說,不久前美光(Micron)官方宣佈其最新、最快的GDDR6記憶體,Steve表示這將成為支援Achronix 7nm製程獨立FPGA晶片的首選高性能記憶體。 GDDR6針對包括機器學習等諸多要求嚴苛的應用進行了最佳化,這些應用需要multi-terabit的記憶體頻寬,從而使Achronix在提供FPGA方案時,其成本能夠比其他記憶體解決方案的FPGA更低一半。

這種新的聯合解決方案可因應很多深度神經網路中的固有挑戰,包括儲存大數據集、重權參數和記憶體啟動;底層硬體需要在處理器和記憶體之間儲存、處理和快速移動數據。此外,因為機器學習演算法總是在不斷地調整改變,所以需要可編程性來更加有效地實現設計。Achronix的下一代FPGA目前是唯一支援GDDR6記憶體的FPGA系列產品。

全新模組加速AI/機器學習

除了運算和網路基礎設施的通用要求之外,AI/機器學習還對高密度和針對性運算產生了顯著增加的需求。與以前的Achronix FPGA產品相比,新的Achronix機器學習處理器(MLP)利用了AI/機器學習處理的特定屬性,並將這些應用的性能提高了300%。這是通過多種架構性創新來實現的,這些創新可以同時提高每個時鐘週期的性能和操作次數。

這款新的MLP是一個完整的AI/機器學習運算引擎,支援定點和多個浮點數格式和精度。每個機器學習處理器包括一個循環暫存器文件(Cyclical Register File),用來儲存重用的權重或數據。各個機器學習處理器與相鄰的機器學習處理器單元模組和更大的記憶體單元模組緊密耦合,以提供最高的處理性能、每秒最高的操作次數和最低的功率分集。這些機器學習處理器支援各種定點和浮點格式,包括Bfloat16、16位元、半精度、24位元和單元區塊浮點。用戶可以透過為其應用選擇最佳精度來實現精度和性能的均衡。

為了補充機器學習處理器並提高AI/機器學習的運算密度,Speedcore Gen4查找表(LUT)可以實現比任何獨立FPGA晶片產品高出兩倍的乘法器。獨立的FPGA晶片在21個查找表可以中實現6x6乘法器,而Speedcore Gen4僅需在11個LUT中就可實現相同的功能,並可在1 GHz的速率上工作。

架構性創新提高系統性能

與上一代Speedcore產品相比,新的Speedcore Gen4架構實現了多項創新,從而可將系統整體性能提高60%。其中查找表的所有方面都得到了增強,以支援使用最少的資源來實現各種功能,從而可縮減面積和功耗並提高性能。其中的更改包括將ALU的大小加倍、將每個LUT的暫存器數量加倍、支持7位函數和一些8位函數以及為移位暫存器提供的專用高速連接。

Achronix_P4

其中的路由架構也藉由一種獨立的專用匯流排路由結構得到了增強。此外,在該路由結構中還有專用的匯流排多工器,可有效地創建分佈式可配置的交換網路。這為高頻寬和低延遲應用提供了最佳的解決方案,並首次實現了將網路最佳化應用於FPGA互連。

Achronix_P5

對於已量產的Speedcore架構,Achronix可在6週內為客戶配置並提供Speedcore eFPGA IP和支持文件。採用台積電7nm製程節點的Speedcore Gen4將於2019年上半年投入量產。Achronix還將於2019年下半年提供用於台積電16nm和12nm製程節點的Speedcore Gen4 eFPGA IP。

今年,Achronix搬入了更大的新總部辦公室,人員方面增加了50%。公司在美國、歐洲和中國都設有銷售辦公室和代表處,在印度班加羅爾設有一間研發和設計辦公室。Steve表示,當前公司產品最大的應用市場在中國,未來也會在這一市場投入更多的精力和資源。