新晶片技術全面靠攏AI!

作者 : Brian Santo,EE Times美國版主編

從Google TensorFlow、APU、NPU到BPU等專為AI而生的新型處理器,到小晶片以及多晶片封裝,甚至是量子運算,在日前於ISSCC上揭露的先進晶片技術,無論對於電路設計還是AI都同樣重要...

Google開始嘗試以機器學習(ML)在IC設計中執行佈局與繞線(place-and-route),並正逐漸取得不錯的成果。在日前於美國加州舉行的國際固態電路研討會(ISSCC)上揭露的這一事實,無論對於電路設計還是人工智慧(AI)都是同樣重要的。

多年來,AI一直是電子產業中的頭號大事,這一發展方向(伴隨創投與頭條新聞)也不斷吸引著大量的半導體研究。因此,今年的ISSCC主題很自然的就訂為「IC技術啟動AI時代」(Integrated Circuits Powering the AI Era),而一開幕的大會議程也在致力於描繪AI如何改寫整個半導體樣貌。

開場會議的幾位發言人解釋了AI的具體需求,例如,驅動專為AI應用而設計的新型處理器(以及CPU和GPU);促進結構創新,包括小晶片(chiplets)、多晶片封裝與中介層;甚至是影響著量子運算的發展。

大會的第一位發言人是Google AI負責人Jeff Dean,他簡介了機器學習的最新內容。過去一年多以來,Dean持續以各種形式發表演講,引導產業針對ML佈局與繞線工具的更多討論。

Google, ML, P1

比較針對佈局與繞線ASIC設計的專家經驗與低功耗ML加速晶片的結果。但Google故意遮掉了部分影像…(來源:Google Research/ISSCC)

他首先簡要介紹AI和ML的歷史,從1995年機器如何學習玩西洋棋開始,到讓機器學會在棋賽中脫穎而出,現在已經可以在《星海爭霸》(StarCraft)等複雜的視訊遊戲取得斐然成績。ML還被用於醫學成像、機器人技術、電腦視覺、自動駕駛車、神經科學、農業以及天氣預報等領域。

數十年來推動運算發展的基本思維是,問題越大,需要的處理能力就越強大,而擁有的處理能力越強,所能解決的問題就越重大。長久以來,這一概念都適用於以AI解決種種問題。

而當問題的領域日益擴展到過於廣泛而無法解決時,根本就不可能再光靠聚集更多CPU(和/或GPU)的能力來解決。

而AI/ML則不需要典型的CPU/GPU能力。其所需的數學運算可能更簡單,而所要求的精度則要低得多。對於這一類應用的瞭解帶來了實際的影響:專用於AI/ML的處理器並不必像CPU/GPU那樣複雜。

這是導致專用處理器為推論而生的看法之一。例如Google TensorFlow,如今已發展到第三代了。儘管普遍預期Google不久將推出第四代TensorFlow,但如果您指望在今年ISSCC上透露任何相關資訊的話,希望可就破滅了。

除了推論所需的精度較低之外,業界也發現「訓練」(training)的精度要求也較低些——這是相對較新的發現。AI/ML處理器可能相對較簡單,因而也較便宜,而且,目前的AI/ML處理器即使用於大量資料集上,也有足夠強大的能力進行快速訓練。Dean解釋,這些都讓ML更易於進一步推向網路邊緣,例如語音辨識應用。2019年,Google曾為此開發一款可執行於智慧型手機上的小型產品。

每一種AI應用(自動駕駛、醫療成像、棋奕遊戲)都是調整一款專用AI/ML系統而學習來的結果。每一種應用基本上都有一個AI。因此,下一個問題是:是否可能讓AI在學會一件事後,看看它是否能將學到的東西應用於其他類似任務?

Dean說:「提出這個問題是因為我們開始考慮將其用於ASIC設計中的佈局與繞線。佈局和繞線的規模遠遠大於下棋遊戲。雖然問題的規模更大,但卻沒有像下圍棋時一樣清楚的目標。」

Google為佈局與繞線建立了一個學習模型,然後著手確定該工具是否可以通用化推廣。它能從一個設計上學到知識並應用於前所未有的新設計中嗎?答案很明確是肯定的。

Dean說:「此外,至今的各種嘗試都獲得了超前的成果。它的成果比人為的好一點,有時甚至更好得多。」

Google, ML chart

Google採用幾個不同模組的測試電路,比較使用ML教自己佈局和繞線ASIC設計的AI性能。此外,並在漸進式間隔的額外調整後,比較相同ML與商用工具的性能。(來源:Google Research/ISSCC)

其優點包括在極短的時間內執行佈局與繞線。完成這項任務可能需要花費人類專家數週的時間,但ML佈局與繞線通常可在24小時內完成相同的工作,而且其佈局時的線長通常較短。ML繞線器在自動佈局繞線工具方面的表現也十分出色。

Dean說,ML還可擴展到IC設計過程中的其他部份,包括使用ML協助產生測試用例,以更充份地利用ASIC設計驗證中的狀態空間,也許還可以用ML來改進高層級的綜合以達到最佳化設計。

然而,這對於ML的意義與加速IC設計進度的意義一樣重要。如果一個ML可以在一個類別中進行概括(gernralize),那麼可以在其他類別中進行概括嗎?

「未來的ML模型會是什麼樣子?」Dean問:「我們可以訓練一種模型來概推至相似的任務嗎?理想情況下,我們需要一種可以學習完成數千或數百萬項任務的模型。」

人工智慧物聯網(AIoT)

聯發科技(MediaTek)資深副總經理陸國宏談到了AI如何改變幾乎與Internet連接的有事物,同時,人工智慧物聯網(AIoT)將從數十億台裝置迅速發展,預計到2030年,全球將有3,500億台連網裝置。

AI之所以走向邊緣,部份原因在於其能力所及,其他原因還包括為了減輕資料中心日益增加的處理負載、讓網路流量最小化等需求,以及某些應用需要使用本地處理或最適合於與本地處理搭配使用。

本地處理必須快速、專為AI運算而設計,而且還必須極其節能。

這些本質上是新的處理器類別。陸國宏稱其為AI處理單元(APU),有的人則稱其為神經處理單元(NPU)、大腦處理單元(BPU)等名稱。他說,例如,一個APU可能不如CPU靈活,但由於是專用的,所以APU能以更低55倍的功率加速20倍之多。

陸國宏表示,APU開發人員正開發以3TOPS/Watt實現1TOPS性能的裝置。他相信以10TOPS/W達到10TOPS性能是可以實現的,而且最終可能以30TOPS/W的速度達到100TOPS運算效能。

聯發科研究人員也在ISSCC上發表另一篇論文,提出「以7奈米5G智慧型手機SoC為多功能AI應用實現3.4~13.3TOPS/W 3.6TOPS雙核心深度學習加速器」(3.4 to 13.3TOPS/W 3.6 TOPS Dual-Core Deep Learning Accelerator for Versatile AI Applications in a 7nm 5G Smartphone SoC.)

這畢竟是7奈米(nm)技術。隨著摩爾定律(Moore’s Law)的曲線進展到較小的製程節點,至少要再前進一步,例如從目前的7nm到5nm,才可能提高性能。陸國宏認為摩爾定律仍然適用。

然而,也不是沒有限制。電晶體的數量隨著整合度的增加而增加,並繼續遵循經典的摩爾定律曲線,「但每電晶體成本卻並未遵循這一規則。」。此外,由於晶片設計的複雜性以及製程步驟變得越來越複雜,導致先進裝置的成本飛漲,從而使較小的公司無法導入新技術製程,更別提還有產量問題了。

陸國宏說,解決其中許多問題的常見方案是採用像小晶片之類的技術。他說:「這可能比摩爾定律的表現更好。」但無論是小晶片還是其他架構方法,都意味著在互連方面的挑戰。

系統技術「協同最佳化」

Imec高速類比RF計劃經理Nadine Collaert更進一步探討這場會議的主題,包括如何解決分離裸晶的必要,以及為未來的晶片找到可替代的結構和架構。她稱此為系統技術協同最佳化(system technology co-optimization或STOC)。

她解釋說,摩爾定律可能持續多年,但是微縮CMOS越來越困難。她用FinFET、奈米片等越來越複雜的元件結構示例來說明,這些元件確實都有助於在晶片級進一步實現CMOS微縮。

imec, ISSCC

Imec展示可在SOI基底上以奈米脊形生長III-V材料的能力。(來源:Imec/ISSCC)

然而,最終業界還是需要一種新方法。她解釋說,「我們相信3D技術是最好的方法。這包括使用線接合的多晶片封裝,甚至是在元件級,也可以與其他標準單元進行精細連接。」

如果要搞清楚哪一種技術可用,必須根據可用選件的屬性來匹配系統要求。 「這將是一個複雜的過程,」Collaert說,而且將會對於EDA供應商帶來壓力,要求其提供可讓設計人員能夠權衡其選擇的工具。

特別是無線通訊系統的前端模組挑戰更大。「通常,這些都是最多樣化的系統——許多不同元件各自採用不同技術,而且隨著使用更多的天線、功率放大器(PA)和濾波器,還會變得更複雜。」

業界正朝著更高的頻率和更高的效率邁進。選擇之一是將III-V材料(例如GaN和SiC)與CMOS結合使用,以獲得兩種材料的優勢。這可以透過3D整合來完成,她舉例說像是在絕緣上覆矽(SOI)基底上生長具有III-V材料的3D奈米脊等,「但這還有待執行很多工作才能實現。」

至於記憶體?Collaert說:「諸如AI和ML等新應用正推動開發藍圖進展。」這些應用需要快速存取記憶體。「目前業界開始關注於記憶體中運算,但隨著邏輯和記憶體之間的距離越來越近,當然更重要的就是採用3D封裝。」

未來,在先進應用中採用快閃記體(Flash)將可堆疊更多層。此外,還必須改善在這些記憶體中的通道電流。「為此,我們必須研究通道遷移性,這又意味著必須研究III-V材料。」同時,透過擴展來研究將矽層與III-V材料層堆疊在一起的3D架構。

而在DRAM方面,電容正從圓柱狀逐漸成長為支柱狀,這是邁向3D之路的另一種改變。其他記憶體選項包括用於替代快取的磁性記憶體和3D儲存級記憶體。Collaert指出,Imec展示了一種垂直鐵電場效電晶體(FeFET),但目前正進行更多研究中。

她說,這些記憶體的發展都是在ML架構下進行的。AI正在蓬勃發展,其中許多都在雲端,但由種種原因正準備將其移到邊緣,從而節省部份能耗。」Imec認為可能達到10,000 TOPS/W的效能。

「微縮仍在持續中。一切都還沒結束呢!」她總結說:「新的記憶體可能還不在開發藍圖的規劃中,但可能會在ML中擴展應用。」

量子運算

IBM Research總監Dario Gil為此次大會總結了「下一步路在何方」,他說這正是廣義的AI之路,而且幾乎可以肯定將在量子電腦上實現。此外,他並強調最大的好處可能來自於搭配位元(數位處理)、神經元(AI)和量子位元(量子運算)的互補使用。

他指出,IBM在2016年開放了第一台量子電腦的雲端存取權限,現在可以存取15台量子電腦了,包括其最新的53量子位元的量子電腦。

編譯:Susan Hong

(參考原文:All Processing Bends Toward AI ,by Brian Santo)

發表評論