接續前文: 2018年AI晶片爆發倒數計時(上)  

以GPU為代表的圖形處理器確實推動了第一波的深度學習的浪潮,現在專用AI晶片正推動第二波浪潮。包括蘋果(Apple)、華為(Huawei)、Intel、NVIDIA、Google和一些新創公司都相繼推出了基於神經網路演算法的專用ASIC晶片。

如果你認為蘋果和華為在手機晶片中搭載“AI”單元模組僅僅是為了尋找新的賣點那就錯了。雲端到終端確實能帶來真正的好處,比如功耗和成本的降低,效率的提升等。華為麒麟晶片市場總監周晨認為,在雲端進行AI運算的方式,如增加模型的大小和層數並不是真正的方向。AI開始從雲端往終端遷移會把運算量和網路大小減少100倍,也會減少對網路頻寬的需求。

「隨著算力的提升和演算法的優化,最後會形成一個很好的甜蜜點;」華為麒麟晶片市場總監周晨表示:「終端的性能現在是瓶頸,大批公司雖然水準參差不齊,但是都在往晶片端走,如何解決相容性問題,如何讓演算法更流暢,成為大家關注的焦點。」

周晨表示,從2017年的資料來看,AI的算力中雲端佔了95%,終端只佔5%,這兩點的巨大差距會帶來很大的成長空間。對於華為麒麟,因為是一家硬體平台公司,自然更偏向用硬體的方式來做,提供通用性的加速器,從而滿足大部分的演算法需求。目前跑演算法大概有兩種方式:一種是用CPU跑純軟體,另一種是透過硬體加速器來固定演算法。此外,從AI運算的需求本身來看,大部分是運算密度要求很高的行為,也需要用非常高效的硬體方式去做。周晨認為,從晶片的發展歷史來看,很多演算法一旦穩定成熟下來就會固定用硬體來做。

對於華為的下一代AI晶片,周晨沒有透露太具體的規格或參數,但他表示,後面兩代的產品定義經明確,基本上有幾個方向不會變:第一是算力會持續上漲;第二是專注在通用的AI運算平台上,持續將AI運算能力開放給更多開發者;第三是AI晶片的工藝會越來越先進,更新速度可能會比摩爾定律還要快。「當我們把算力釋放出去以後,可能會有一大票應用能力提升。這會產生正向迴圈,會有越來越多的開發者做一些新的好的體驗;」周晨表示,AI本身是一種技術,但是未來的價值會體現在有多少開發者來開發出相關的應用。

賽靈思(Xilinx)全球銷售和市場部亞太及日本地區高級總監周海天認為,雖然目前有很多的晶片架構都針對AI,但在AI發展初期的一些應用上,在還沒找到最優的演算法和性能的時候,絕對是FPGA更合適:「尤其是未來兩、三年,當然不是說我們現有的產品拿出去就可以了,我們也在不斷的專注這一塊。」

周海天表示,賽靈思目前也在不斷的做一些介面、通用協定的固化,再引入SoC,固化記憶體驅動,隨著AI的發展和成熟,一些關鍵的模組也可以在FPGA產品裡固化,可以推出相應的FPGA base;他認為,其實不同的晶片架構都有一定的優勢,現在的處理器產品可以很容易開發處理器平台,處理器也有它的瓶頸,所以現在GPU過去幾年是非常成功的,但是也碰到一些功耗和挑戰。但是GPU的優勢也是很好的產品開發工具和程式庫。

但是在FPGA上,除了可程式設計的優勢,隨著演算法的演進,將一些硬體架構做一些優化和改變,而不用等硬體變化;周海天表示:「再加上過去我們開發的時候,要從原始程式碼去起步,這是我們這兩年的改變,我們不斷提到硬體平台還有庫和高端的設計語言,也就是跟GPU一樣的開發流程。」

周海天指出,針對一些TPU和ASIC,這些專門的AI晶片好處是更加的集中,但也有個缺點,就是它需要非常成熟的演算法,因此,AI晶片往往是固化了兩年前的演算法。而隨著AI的演進,尤其是演算法的發展和變化是非常快的。

周海天表示,隨著AI應用的發展, 最近幾年AI演算法正在不斷的演進,硬體架構也在隨之不斷的變化。「兩三年前我們認為要用浮點運算,在神經網路中達到一定比例。隨著演算法的成熟,我們發現不一定要用浮點運算,用定點運算也可以。」他認為,這種改變可能就一年的時間,而FPGA非常容易快速的回應演算法的改變。

深鑒科技CEO姚頌認為,從AI晶片所處的發展階段來看, CPU、GPU和FPGA等通用晶片是目前AI領域的主要晶片,而針對神經網路演算法的專用晶片ASIC也正在被眾多AI公司陸續推出,並且由於專用晶片能夠更好的根據場景及行業進行定向優化,所以目前有種趨勢:專用晶片有望在今後數年內取代通用晶片所不能完全覆蓋到的領域,而成為AI晶片的主力。同時隨著大資料、演算法和算力的不斷反覆運算演進,市場對智慧硬體(晶片)的要求也會越來越高,對應的研發成本會面臨新的挑戰。

Intel執行長科再奇(Brian Krzanich)認為,當前的AI革命實際上是一種計算的革新。自從積體電路問世以來,Intel一直是突破計算限制的核心力量。

「我們的產品路線圖讓我們正在超越去年設定的目標:即到2020年,深度學習訓練的性能可以提高100倍。Arm戰略聯盟業務發展總監金勇斌認為,針對終端的晶片設計有幾個特點:一是功耗不能大,二是硬體的效率要非常高,三是運算模型要針對終端特點來客製化。在以往GPU在AI計算領域取得了非常好的成績,目前各大廠商都在做各種架構的專用加速器,有的基於DSP、有的基於GPU。

金勇斌認為,GPU的功耗比較高,因此他不認為GPU能夠解決終端的效能和成本平衡問題。包括DSP、FPGA都有各自的優點和缺點。從靈活性和效能的平衡來看,在AI應用場景中,比較通用的神經網路以及卷積運算,特定的硬體加速器優勢會比DSP和GPU效能更高。 「我們認為未來一個相對通用演算法的硬體加速器加上CPU的架構會越來越流行;」 金勇斌表示,CPU比較靈活但效率不高,加速器效率高但不夠靈活。因此可以針對不同的特點採用不同的硬體,比如深度學習的卷積運算需求相對固定,就可以採用硬體加速器;而很多針對終端的應用演算法需要高度的可靈活程式設計性,就可以採用CPU。

CEVA公司視覺產品市場主管Liran Bar也認為,CPU或GPU這樣的通用技術相比專用AI處理器來說性能更低卻功耗更高,因此不再是能有效地滿足AI要求的可行技術。

AI將朝終端(邊緣)轉移

聯發科技CTO辦公室協理林宗瑤表示,如果說AI的發展前期主要集中在雲端(Cloud),那麼接下來的發展趨勢將會往終端(Edge)轉移。這個轉移有四大好處:第一是終端的回應速度大大提升,比如針對一些車載系統的智慧應用,如ADAS應用,如果透過雲端運算處理,再把資料從雲端傳回來的速度會比較慢;第二是如果把資料放到雲端,隱私也非常容易暴露;第三是目前的上傳流量資費成本也很高。第四是相對伺服器端,終端的功耗會更低。

實際上目前雲端伺服器的用電量已經達到全球電力的5%。從環保節能的角度來看,AI從雲端往終端的遷移也會是一個潮流。NeuroPilot採用的就是APU (Artificial intelligence Processing Unit)的方式,把目前已知的比較固定的80~90種演算法固定到APU中,剩下一些一直演進的10個演算法會放到CPU中,從而兼顧彈性和效率。「獨立的DSP會有一個好處,功耗效能會比較好,比如Google的TPU效率比較好,但是彈性比較低;」 林宗瑤表示,APU將會包含已獲得IP授權的DSP,未來也可能採用其他廠商的。

比特大陸產品戰略總監湯煒偉認為,到2020年AI專用晶片的數量將超過GPU,這符合行業的發展趨勢。湯煒偉認為,無論是運算需求還是能耗成本來看,目前的雲端算力都難以滿足未來龐大的運算需求。

「在雲端,深度學習的架構更加困難,在終端CPU參與許多的搬運和調度,但是受限於功耗,在手機裡不能超過2瓦,在攝像頭裡可能最多10瓦的一個功耗,非常受限於前段功耗的限制。我們面臨著巨大的深度學習計算規模,也面臨晶片技術的挑戰,怎麼應對?」 湯煒偉表示,當初比特幣挖礦也走過從CPU到GPU再到專用晶片的路,因此比特大陸認為深度學習也會走類似的路,會從CPU過渡到最新的ASIC,也就是TPU。

啟英泰倫科技總經理高君效表示,AI晶片和傳統晶片不一樣,其基於特定的差異化架構,通過異構計算能提供非常高性能的平行計算能力。當前AI晶片已經從整合多核心CPU或DSP、用軟體方式支援各種神經網路演算法的方式,轉變為設計專用的NPU處理器來完成神經網路的平行運算,最大化地發揮硬體的運算能力。同時,隨著技術的進一步發展和AI碎片化應用需求的進一步提升,AI晶片也會從通用的NPU處理器核,向應用場景進行覆蓋。

中科創達副總裁楊宇欣則認為,應針對不同的應用場景區別對待。比如手機這種單一市場做AI肯定是SoC為主,但是對於一些安防、工業應用等量不大的市場,這種單獨做SoC不值,用FPGA來做可以比較靈活。「面向比較碎片化的市場,就可以採用單獨的輔助處理器配合主晶片去滿足客戶需求;」 楊宇欣表示,中科創達不會傾向於某一個晶片架構,而是根據不同的應用場景和功耗綜合考慮。

AI生態成熟,IC工程師失業?

從雲端到終端,從傳統行業到AI,如何滿足不同演算法應用及生態圈的差異化需求成為AI晶片商的難點和重點。

對於AI生態的構建,基於開放生態的Arm自然有自己的“秘笈”。Arm的金勇斌表示,在傳統領域,各廠商會基於Arm的CPU和GPU來做晶片,Arm會圍繞CPU為核心來構建子系統。到了AI產業,則需要在通用平台上構建一個更靈活的生態系統。由於AI的系統是非常碎片化的,因此需要整合演算法和硬體公司的資源。

2016年,Arm生態系統加速器安創空間聯合全志科技、地平線機器人發起了AI實驗室OPEN AI LAB,主要目的就是不僅和晶片合作夥伴,還要把很多OEM和終端、演算法、App應用商拉到聯盟中來。「只有把晶片、模組、演算法、設備製造、部署場景需求的公司放到一起,通過充分交流和協作,最後才會試探出很多垂直場景出來;」 金勇斌表示,對於中國本土的一些白牌企業,他們的製造能力、物流控制、供應鏈能力是很強的,產品週期很快,他們也想利用現有的生態快速做出設備來。OPEN AI LAB也在想辦法尋找演算法公司以賦能這些公司。

與Arm不同,Intel更多採用自身投資來構建AI生態。2016年Intel收購了Nervana Systems,作為電腦架構師和神經科學家的Rao也隨即加入Intel。作為Nervana的執行長兼聯合創始人,他帶領Nervana成為深度學習領域中公認的領導廠商,比如投資像Mighty AI、Data Robot和Lumiata這樣的新創公司,並為那些幫助推進人工智慧發展的企業投資超過10億美元,透過Intel自身的投資組合,來投資Intel深度學習技術,以加快處理複雜流程與資料密集型流程的速度,例如影像識別和自然語言處理。

比特大陸也在透過投資加速AI領域佈局。2017年12月,比特大陸集團宣佈收購智慧型機器人公司北京蘿蔔科技有限公司資產,打造機器人產品線「新物種」,加強「蘿小逗」系列機器人的開發。比特大陸CEO詹克團表示,收購後,比特大陸集團會加大對機器人產品線的研發投入,在比特大陸人工智慧晶片和演算法技術的支援下,“新物種”系列智慧型機器人產品將會更加豐富,功能也將更加強大。

20180305_AIchips_NT61P1

比特大陸旗下的「蘿小逗」機器人
(來源:https://sophon.ai/product/robot.html;比特大陸官網)

以前聯發科技針對客戶主要提供“Turnkey”交鑰匙方案,而到了AI生態圈與傳統的CPU生態圈有了很大的不同,AI平台要適應的終端包括手機、數位電視、智慧語音終端、車載、IoT設備等,這些都需要花時間來進行重新構建。據介紹,聯發科技希望憑藉 NeuroPilot AI平臺成為終端AI的推動者(Edge AI enabler)。

NeuroPilot AI平台支援目前市面上主流的AI架構,包括Google的TensorFlow、Caffe、Amazon的MXNet、Sony的NNabla等。作業系統方面,聯發科技同時支援Android與Linux系統。除了提供人工智慧處理器,聯發科技也將推出NeuroPilot SDK,讓開發者得以更為便利地採用聯發科技晶片,為消費型設備打造AI應用程式與功能。

「以CPU為例,基本上都和特定的OS捆綁,不管是微軟還是安卓都是獨佔。但是AI不一樣,開發者可以用不同的運算單元來運行演算法,可以用CPU,也可以用GPU、DSP來支援,不會被某個硬體綁死;」 林宗瑤認為,現在做AI的公司可能在某些節點會有些技術,但佈局不夠廣,而終端AI的產品線只有佈局夠廣,才會產生重大的影響:「能夠同時擁有這麼多產品線的,放眼全球也就聯發科技能做到。」

「我們不會提供單獨的AI晶片,因為以現在很多客戶的能力很難支援單獨的CPU、GPU運算開發;」林宗瑤表示,對於一些中小客戶來說,因為研發能力有限,光是提供一個單獨的AI晶片還不夠。此外,聯發科技還會針對客戶提供可攜性和客製化需求。對於手機客戶和普通消費者來說,更關心的是AI硬體能搭配什麼樣的應用。目前主流的AI相關應用包括面部識別、面部美化、場景檢測、手勢檢測、系統性能、語音辨識等,有些功能比如人臉解鎖和支付,需要跟軟體做整合,避免安全性的問題。林宗瑤表示,NeuroPilot人工智慧平台會支持目前市面上大多數常用的App應用,例如,智慧照相功能、語音及影像偵測或辨識等,也會針對一些專業性合作夥伴如商湯、曠視、思必馳、科大訊飛、有道等提供客製化需求。

「我們預期在2018年針對方案提供商提供功能,2019年會有很多App有AI功能進來;」 林宗瑤表示,過去MTK提供的是Turnkey方案,現在提供AI平台將開放給所有的合作夥伴以及非專業的使用者。所以MTK會提供開發者友善SDK工具套件,未來會更強調工具套件的重要性,這個工具套件是面向系統級的級別。

在火熱的AI領域,更快速的推出高品質AI應用是搶佔市場先機的最好手段。華為日前針對工程師舉行了「華為Hi AI能力開放公開課」,將幫助嘗試投身AI領域的企業和開發者,提升技術人員競爭力,促進產業技術的提升,共同推動AI生態的發展。

什麼是華為HiAI呢?據瞭解,HiAI行動運算平台開放三層的能力,分別為雲端能力開放(Huawei HiAI Services)、端側應用能力開放(Huawei HiAI Engine)和端側晶片能力開放(Huawei HiAI Accelerator)。

其中,底層Huawei HiAI Accelerator是HiAI晶片能力開放的核心內容,能夠快速轉化和遷移已有模型,借助NPU的加速獲得最佳性能,主要依靠麒麟晶片實現。華為HiAI引擎的目標,通過開放應用層API,使能開發者在不懂AI演算法的情況下也能開發高品質AI應用,完全聚焦在應用的體驗和業務實踐上,而不是聚焦在後端大量的模型訓練和演算法上。

啟英泰倫科技總經理高君效表示,AI生態系統主要分為三個領域:基礎層、技術層、應用層。Chipintelli的主要研究方向是人工智慧晶片及演算法和產品整體解決方案,囊括了晶片、神經網路演算法、大資料處理、語音辨識、自然語言處理等核心技術,橫跨基礎層和技術層兩個領域,主要服務于應用層的終端設備,如智慧家電、智慧照明、智慧汽車、智慧型機器人、專用智慧硬體等領域。

在AI生態圈中,中科創達給自己的定位是嵌入式人工智慧的一個賦能者;中科創達副總裁楊宇欣表示,雖然目前各大網際網路公司都在投入AI技術研發,希望透過雲端來提高AI能力,但很多傳統產業資料是不開放的,這時候特別需要提供技術和解決方案的客戶,中科創達的生態構建主要透過投資一些感測器和應用演算法的團隊來做。

「比如我們投過BELLUS 3D,就是我們做的人臉3D重建公司,還有一家PreceptIn,是做雙目深度視覺感測器,給無人車、機器人提供雙目的測距演算法和模組。有我們投了一家叫黑芝麻,主要做車相關的演算法;」楊宇欣表示,對很多的垂直產業來講,機器視覺的演算法有很多不同的應用場景,這些場景需要很多的演算法。中科創達建立了一整套AI的演算法平台,能夠快速的訓練和生成演算法,所以中科創達不但與商湯等演算法公司有合作,也類似於華為的麒麟970合作,來進行演算法的優化。

另一個賦能者是賽靈思。「透過提供一些共通的硬體、軟體庫,我們希望幫助用戶完成80%的基礎設計,用戶則可以專注在剩下的演算法研發、應用優化等工作上;」 周海天指出,在AI生態圈,賽靈思的客戶已經不僅是做邏輯、硬體開發了,往往是需要做軟體層面開發。軟體堆疊使得FPGA可以進入更多的市場;「我們其實希望讓不懂硬體開發的客戶也可以應用到我們的產品。」他認為目前主要的雲服務廠商已經廣泛使用FPGA服務,透過完整的加速堆疊支援軟體發展,以及針對嵌入式系統的FPGA設計的軟體驅動工具和方法,賽靈思面向的將不再只是硬體工程師。

在AI的生態佈局上,目前賽靈思與非常多的合作夥伴合作,同時也入股了深鑒科技,主要開發車載相關的嵌入式視覺應用演算法。目前賽靈思與一些客戶共同推出雲端平台,比如華為推出華為雲,是賽靈思、華為、深鑒科技一起推動的;周海天表示,賽靈思未來會針對一些特殊的應用,如汽車自動駕駛等佈局一些演算法公司,同時也會與很多公司進行合作:「我們絕對是AI生態的一個關鍵技術環節,我們可以提供一個核心的AI技術給生態圈,給AI更加普遍的應用。」

AI將如何改變晶片業?

AI作為一種技術或工具,正在深深的影響和改變各行各業。那麼AI對於晶片設計業本身有沒有影響呢?

啟英泰倫科技總經理高君效認為,網際網路時代造就了Google、Facebook以及BAT等巨頭。隨著AI從雲端向終端的轉移,各大半導體巨頭紛紛將AI作為佈局重點,半導體產業無疑將會首先受益。而由於AI晶片的數位邏輯規模很大,也會推動半導體製程往更高的節點邁進,以獲得更佳的面積成本和功耗。最後,隨著AI行管晶片公司越來越多,也會產生更多的關聯設計服務公司,產業的發展會促進相關人員的就業,提供更多的工作崗位。

眼擎科技CEO朱繼志認為,從橫向來看,AI產業就像一個大腦,各個產業是器官,大腦是給各個產業賦能的行業,驅動很多工業、汽車、醫療等器官產業升級,帶來很多新的機會和挑戰,給大家賦予大腦,影響是很大的,之前說過,AI是軟體驅動硬體,將來的產業結構將發生變化,軟體定義,軟硬融合會更加明顯;縱向來看,對上游晶片企業也會有很大的影響。

AI的本質是演算法驅動晶片,算力、演算法、資料三個重點需求會重新定義設計;越來越多的軟體公司,硬體公司,在新的一輪晶片的競爭當中都會參與進來,傳統晶片公司的地位雖然穩定,但會面臨挑戰;在這個過程當中,需要更多種類,更加靈活的IP。

金勇斌則認為,目前還沒看到哪個前端的半導體對AI的製程產生顛覆性的需求,目前深度學習的加速器效率應該追求合適而並不是先進製程。「主要還是看應用需求,如果追求極致的效能比,當然製程越先進越好,但是如果考慮到成本後也沒有競爭性;」金勇斌認為,成本對於AI終端的普及很重要,因此就算是在40nm的晶片上也可以做出合適的AI晶片。

當然,AI影響到的不僅是晶片公司,還包括上游的EDA公司。Cadence Design Systems等EDA供應商早在1990年代初就開始研究機器學習。Cadence研發部資深總監David White表示,這項技術於2013年首次導入於其產品中,採用Virtuoso的一個版本,並利用分析和資料探勘為寄生參數擷取創建機器學習模型。在2017年5月份,Cadence推出了業界首款獨立完整的神經網路DSP - Cadence Tensilica Vision C5 DSP。主要面向對神經網路計算能力有極高要求的視覺設備、雷達/光學雷達和融合感測器等應用。

截至目前為止,Cadence已經為其工具提供超過110萬種機器學習模型了,用於加速長時間的計算。下一個階段的產品開發就是佈局與繞線工具,使其得以向人類設計師學習,並推薦可加速運轉時間的優化方案。

White解釋,這些解決方案可能結合使用本地和基於雲端的處理,以利用平行系統和大型資料集。在工具方面,Cadence一直在研究如何將人工智慧、機器學習應用到類比、數位、驗證產品線中。Cadence中國區總經理徐昀認為,晶片設計有很多經驗的積累和很多重複勞動,都可以透過神經網路演算法和機器學習來得到改善,這可能是未來晶片設計的一個大方向。

「人工智慧需要資料來餵養,我們現在遇到的挑戰是怎麼拿到資料,這需要與客戶和整個行業一起來探討推動;」徐昀表示,未來在做晶片或系統的模擬時,機器也會通過慢慢學習達到系統優化,直至有很少的人工干預,在推進過程中,Cadence將為使用者提供相應介面,也可以接入到協力廠商的介面。

在一年一度的DesignCon大會上,Synopsys研發總監Sashi Obilisetty表示,在先進製程節點上,採用現有演算法的全域繞線(global routing)工具已經達到極限了,因此他們開始降低晶片資料速率,以實現時序收斂。她補充,台積電(TSMC)去年使用機器學習預測全域繞線,使得速度提高了40MHz;Nvidia則用機器學習來提供晶片設計的全面覆蓋,同時減少模擬。參加這場專題討論的專家們說,他們看到了業界存在著使用各種機器學習技術實現自動化特定決策和優化整體設計流程的許多機會。

具體而言,研究人員正探索以更快速度的AI模型取代當今模擬器的機會;AI可以在EDA工具(有時是指旋鈕)中設置幾十種選項,協助加速自動化過程。除了由Amazon、Google和Facebook圖片搜索和語音辨識服務推廣的神經網路模型以外,晶片研究人員也使用了資料探勘、統計學習和其他工具。

最後,隨著EDA工具進入AI時代,IC設計工程師會失業嗎?對此徐昀表示:「需要考慮為什麼企業需要工程師,而不是人工智慧。工程師能夠為企業提供哪些不一樣的東西?這個關鍵在於工程師要把握好自己的定位,要增加核心競爭力,特別是在整個晶片的規劃、對設計/驗證的全域觀上。畢竟藝術創作是不可替代的。」

本文原刊於EE Times China;責編:Judith Cheng