「早些年,大家聚在一起說人工智慧(AI)晶片,談的都是規劃和理想,因為沒有具體的產品。而現在,誰還在檯面上大談理想,卻拿不出一個實際的產品,就要受到別人的質疑。」一位元不願具名的AI晶片業內人士對國際電子商情記者如此說道。

其實該業內人士的觀點,的確反映了當前AI晶片產業的一些現狀。經過幾年時間的沉澱,真正有實力的企業開始推出產品。

在由中國智東西、AWE和極果共同主辦的GTIC 2019全球AI晶片創新峰會上,來自中外的專家和企業家齊聚一堂,圍繞「AI芯生態˙產業新格局」主題做了精彩的演講,國際電子商情記者摘取了個別演講嘉賓的核心言論。

魏少軍:AI Chip 0.5至 2.0的演變

中國半導體產業協會IC設計分會理事長、清華大學微納電子系教授魏少軍表示,當前的AI服務基本都在雲端上,很少出現在其他地方,其原因在於先驅者們在雲上做了大量工作,這些工作包括:智慧家庭、影像認知、智慧醫療、AI翻譯等。

不過,從「雲」走向「邊(Edge)」是必然的現象。魏少軍舉例表示,Google在2018年峰會上提出,無論怎樣的AI都要從現實社會中攝取,把原始資料轉化成語義化的資料,再讓Cloud來處理。「這是必然現象。」他也補充,「目前,AI走向邊緣的過程主要以”通用”為主驅動力,但是從未來幾年發展看,終端應用為主或將占主導地位,專用AI晶片將起到非常重要的引領作用,這也是未來發展的重要方向。」

20190322NT61P1

另外,魏少軍還談到「軟體定義晶片」的話題,他從軟、硬體的可程式設計性來切入。「最好的架構能解決能量效率的問題,什麼樣的晶片具備這樣的架構?我們把軟、硬體的可程式設計性分為四個象限。傳統的CPU、DSP在第二象限,專用積體電路在第三象限,FPGA、EPLD在第四象限。第一個象限具備很好的軟、硬體可程式設計性,如果這兩者都成立,就是軟體定義晶片。」

最後,魏少軍暢談了AI Chip 2.0的願景以及實現路徑。「AI Chip 0.5是非常早期的階段,像英特爾(Intel)CPU、Nvidia GPU、ADI的DSP,這些產品不是作為AI Chip而出現的;AI Chip 1.0包括Google的TPU、MIT Eyeriss、Nvidia SCNN、KAIST UNPU,這類產品專門為AI設計,是一種領域專用的東西或某種拓展。AI Chip 1.5開始探索通用性,像Tsing Micro Thinker、Wave Computing DPU都屬於1.5,它們具備半通用、可重構、可配置的特性,也可能兼顧了兩個內容;而AI Chip 2.0到今天為止還沒有答案,也許是通用、自我調整、具備智慧化的東西。」他說道。

李維興:5G成就AI,AI成就5G

高通(Qualcomm)技術副總裁李維興圍繞著終端側AI介紹了高通對AI、雲端、終端側的看法和產品規劃。他的核心觀點是:5G和AI的關係密不可分,一方的進步推動另一方的發展。

20190322NT61P2

2018年,高通正式成立Qualcomm AI研究院,關注AI產品研發、製造,以及與合作夥伴的項目。截至今日,高通共發佈了四代AI平台。第一代Snapdragon 820是高通首個針對AI 引擎的平台,用CPU的方式將AI的使用場景呈現;第二代Snapdragon 835支持Caffe 2,透過它支援神經網路的SDK開始使用CPU、GPU、DSP。第三代Snapdragon 845支持的專案非常多,對iOS端的支持將AI的運算做到更最佳化。

20190322NT61P3

第四代Snapdragon 855整合了Kryo 485 CPU、Adreno 640 GPU、Hexagon 690處理器、Snapdragon X24數據機、全新的Spectra 380 ISP以及Wi-Fi、藍牙模組、安全模組等。在AI方面,855支持第四代多核新Qualcomm AI引擎AI Engine,可實現7 TOPs運算,性能是845的三倍。值得注意的是,Hexagon 690處理器增添了一個全新設計的Hexagon張量加速器,四個Hexagon向量擴展核新,還增加了四執行緒標量核新。基於此,Snapdragon 855成為2019全球5G發佈重要的平台。

他還認為,AI訓練、推理可在雲端做,也可往終端走。「大家對與雲相關的使用場景都非常振奮,但後續的規模化需要與半導體及軟體產業提供聯結的使用機會。感測器一定在邊緣,即時接觸也在邊緣。如何保持工廠和汽車自動化的個性化,保護好隱私,維持可靠性?將AI運算分佈到全網是必然趨勢。」

最後,李維興表示,5G可將AI從雲端加上邊緣化,AI的使用場景可將5G的商業模式開發出來。研發、投資,將無線、通訊、邊緣運算通過感知、推理、行動的過程中反覆運算是高通在5G+AI領域上可為業界做出的貢獻。

Andrew Grant:AI晶片方案助力自動駕駛

Imagination Technologies視覺及AI部門資深總監Andrew Grant為現場觀眾描述了雲端的工作,還解釋了智慧物聯網和邊緣設備的如何運作原理。他表示,在智慧攝影鏡頭監控、智慧駕駛,以及其他更多的領域都會使用到邊緣設備,其演講主要圍繞這些領域展開。

20190322NT61P4

Imagination的AI晶片方案可以針對監控攝影鏡頭、智慧汽車,以及智慧城市的邊緣設備進行拓展。Andrew 認為,當前智慧汽車是非常熱的話題,神經網路在汽車上的應用,可讓ADAS、汽車自動化、攝影鏡頭監測等性能得到明顯提升,而精准地辨識前方路況,需要車載配件以及神經網路相互協調工作。

20190322NT61P5

在智慧汽車上,Imagination的PowerVR可支援自動駕駛的路徑規劃、道路標誌辨識、導航、司機疲勞監測預警等功能,當汽車與攝影鏡頭透過車聯網連接在一起時,在車聯網的輔助下,智慧交通將成為可能。不過,自動駕駛水準從最低級到最高級也代表著越來越高的要求、越來越強大的功能,其所需的算力也將漲至500+Tops,這需要低能耗、高運算力的晶片。

同時,Grant以智慧相機為例,探討了邊緣與雲的關係。他表示,單一的智慧相機能檢測到移動的物體,但不能區別鳥和可疑的人。如果它在神經網路和加速器上面,就可以把這個視訊放在神經網路上,就能知道他們在做什麼。這就是邊緣更強大帶來的益處,這個邊緣可以去幫助雲端,同時雲也可以幫助邊緣。

未來在車上可能會有6~12個螢幕,這需要訓練GPU,讓汽車可去運行8個獨立的處理器。並且,當一個處理器壞掉,也不影響其他處理器的運行。「相互獨立運作非常重要,能帶來更好的性能,使系統更加靈活,這應該是未來的主流。」Grant表示:「不同的處理器、CPU、解決方案都是非常重要的,但是我們認為的GPU還有神經網路的加速器,把二者結合會帶來更好的結果。」

最後,Grant強調,PowerVR的處理速度是行動CPU的100+倍。Imagination PowerVR 3NX IP的單核心設計支持0.6~10Tops的運算性能,透過多核新結構最多提供高達160Tops的運算性能,可以滿足對運算力要求的汽車領域的需求。

˙自駕車議題正火熱,繼智慧型手機後,車聯網被視為未來龐大商機的重要重要突破,重要應用與搶攤商機,不可錯過這次龍頭廠商齊聚一堂,與國際記者論壇暢談的機會!請盡速報名2019車聯網應用與技術研討會

戴金權:大資料分析可與AI統一

英特爾資深工程師、大資料技術全球CTO戴金權表示,英特爾一直致力於提供從端到端,包括設備端、邊緣、網路到資料中心端到端完整的解決方案或者運算架構。為此,他重點介紹了英特爾的開放原始碼專案Analytics Zoo。

20190322NT61P6

「我們在英特爾做了很多工作,包括Analytics Zoo項目,該專案能夠將大資料分析和AI統一。此前,在大資料分析和AI當中,沒有一種解決方案能夠解決所有問題。」他表示。

直到今日,英特爾的Xeon伺服器仍是大資料分析和AI的基礎架構。包括Cascade Lake,Xeon可擴展處理器,以及一些新功能的支持,構成了一個非常基礎、應用廣泛的AI+大資料分析的應用平台。

那麼,如何在基礎的平台上利用Apache Spark來構建AI?英特爾開發、開放了基於Apache Spark分散式深度學習的框架BigDL。BigDL在大資料的平台上提供了一個原生的深度學習的影像,可讓使用者直接在現有大資料Spark上運作深度學習的應用,同時為底層大規模分散式硬體集群做了大量的最佳化。

對於大多數使用者來說,尤其在生產系統當中,基於Apache Spark這樣的大資料集群仍然是生產資料、大量硬體資源的聚集地。更高效利用這些生產資料和硬體資源,能夠支援新的AI的應用。

王孝斌:HiAI 2.0的現狀及優勢

華為無線終端晶片業務部副總經理王孝斌分享了華為在端側AI、HiAI上的進展情況。端側的機器學習會讓手機越來越智慧,預計到2022年,80%的手機會具備端側AI的能力。

20190322NT61P7

HiAI是基於整合NPU使用專業的指令集和運算庫,高效執行神經網路的運算元。在AI時代,專業的NPU張量運算最適合AI的應用。HiAI採用了很多種最佳化方法,儘量將運算在本地完成,由此實現快速簡潔有效的推理預算。

去年,華為推出了HiAI 2.0,跟著麒麟980發貨,目前服務的消費者已經超過了6,000萬。據悉,HiAI 2.0平台包括HiAI Foundation晶片能力、HiAI Engine應用能力與HiAI Service服務能力,分別對應的是晶片、端、雲上的開放平台。

在晶片能力方面,因為麒麟980的關係,HiAI 2.0平台的AI運算力更強。以影像辨識為例,麒麟970的每分鐘圖片辨識率為2,000張,而麒麟980則增加到4,500張。HiAI2.0能夠支援輪廓、姿態細細微性的物理辨識,可進行視訊的處理,做到了精準象素級的分割。

另外,HiAI2.0還具備以下優勢:演算法方面有較大提升,支持的運算元數增加到了147個;支援當下幾乎所有的主流模型,包括TensorFlow、CoreML、Caffe2、ONNX、PaddlePaddle、MindSpore等;在工具鏈方面也有提升;在相容性方面可相容INT8。同時,HiAI 2.0的開發週期也有了非常大的提升。晶片級Foundation開發週期縮短到一個星期,基於雲端的Service由週期縮短到1天,HiAI Engine週期縮短到一個小時。

歐陽劍:2019年「昆侖」將在內部大規模使用

百度主任架構師歐陽劍介紹了百度近年來在AI晶片上的工作,重點講述了百度「昆侖」晶片。

20190322NT61P8

「AI時代的摩爾定律非常高,在資料和模型複雜度方面,每兩年就有量子級的提高。此背景下,專用處理器是必經之路。」歐陽劍並介紹,過去的百度一直在探索一條適合自己發展的AI處理器的路。2011年左右,做GE FPGA的架構器;2013年,在FPGA基礎上誕生了性能AI處理器;2017年,基於FPGA架構的AI處理器具備了CT tops性能,並有了1,000+片FPGA的部署規模。同年,百度提出了XPU的架構,該架構是普適的AI運算架構,可用在雲端、自動駕駛、邊緣運算,具有很高的運算能力、高通用性、靈活性;2018年,百度發佈了「昆侖」,其性能比之前提高了30倍。

「昆侖」晶片基於三星(Samsung)14nm製程,有很高的記憶體頻寬,性能達到260tops,具有極大的通用性和靈活性,該晶片既能做訓練也可做預測。未來百度將會把昆侖應用於自動駕駛領域,利用XPU強大的運算能力和車載配件共同推動自動駕駛汽車的發展。歐陽劍還透露,2019年昆侖將會在百度內部大規模使用。

Chris Nicol:將AI從資料中心擴展至邊緣設備

Wave computing資深副總裁兼CTO Chris Nicol介紹了Wave研發的DPU。據瞭解,Wave的DPU晶片,可將軟體接入到晶片,能存取外部記憶體上的資料資訊。DPU晶片內部整合了大量Cluster,每個Cluster內包含8個DPU運算單元、16個處理元素和記憶體。其中,處理單元用全域非同步、局部同步設計實現,沒有時脈訊號,由資料流程驅動,處理單元與CGRA可同時執行運算。

20190322NT61P9

Chris還提到了聯合學習,在資料中心訓練一個大型模型,將其分佈到不同的邊緣設備上。邊緣設備也具備訓練的能力,可在資料中心訓練好的模型基礎上持續訓練學習,同時邊緣設備可將後續學習的結果再傳回資料中心,有助於資料中心模型的進一步分析和訓練。未來,Wave將把AI從資料中心擴展到邊緣設備。

錢誠:寒武紀目標是做到端雲一體

寒武紀副總裁錢誠表示,目前在雲端做智慧處理要解決的問題最終可以歸結為能效比的瓶頸問題,已有的ASIC、ASIP、FPGA、GPU、CPU的能效大約集中在每秒100~1,000億次能效比區間,再往上非常困難。

現在瓶頸有三方面的問題:1.摩爾定律等物理定律功效漸漸減弱,現在設計在相同面積的情況下功耗是上升的。2.多核心平行方面漸漸成為瓶頸,比如說現在做超級系統就50%左右的平行效率。3.應用場景發生變化,雲端的重要性已經變得越來越突出。

這需要性能功耗比高、通用性強的晶片。實際上,當晶片設計得越通用其能效就越低,要同時滿足這兩個條件非常困難。為解決這個問題,現在業界的做法是主要集中在領域專用的架構。這個架構需要支援非常高的性能功耗比,採用的電路都是領域專用。不過又要兼顧通用性,無法做到像CPU一樣對所有運算具備強有力的加速,只適合在某一領域裡對某一大類的演算法做加速,這就是現在的領域專用架構。

寒武紀的目標是希望能夠在雲端做到端雲一體。很多端以後都會發展成多元具像的具體設備,比如:手機可以是流覽器、閱讀器、收音機、電視、搖控器等。這些設備顯然是需要通用的智慧處理能力,同時要使雲端訓練好的模型和框架嚴絲合縫地移植到具體的終端設備上,現在很多設備做不到,希望未來的端雲一體能做到。

本文為姊妹刊國際電子商情原創文章