中國(guó)如何在AI芯片實(shí)現(xiàn)彎道超車？

瀏覽：時(shí)間：2022-12-04

縱觀芯片的歷史，雖然我國(guó)長(zhǎng)期處于追趕態(tài)勢(shì)，但與發(fā)達(dá)國(guó)家差距仍然非常大。芯片到底是什么？又是如何一步一步發(fā)展到AI智能芯片的程度的？本文以芯片到AI智能芯片的發(fā)展歷史為軌跡，來了解下AI智能芯片的“前世今生”。

經(jīng)過長(zhǎng)期的發(fā)展和探索，在近幾年人工智能不斷取得突破性的進(jìn)展，無論是人臉識(shí)別、語音識(shí)別、機(jī)器翻譯、視頻監(jiān)控，還是交通規(guī)劃、無人駕駛、智能陪伴、輿情監(jiān)控、智慧農(nóng)業(yè)等，人工智能似乎涵蓋了人類生產(chǎn)生活的方方面面。未來是人工智能的時(shí)代，作為實(shí)現(xiàn)人工智能技術(shù)的重要基石，AI智能擁有巨大的產(chǎn)業(yè)價(jià)值和戰(zhàn)略地位。

AI智能芯片其實(shí)是屬于高端芯片的一類，近兩年在中美貿(mào)易爭(zhēng)端的背景下，我國(guó)的芯片產(chǎn)業(yè)被頻頻“點(diǎn)穴”，這也讓我們開始重視芯片的發(fā)展。別看一塊小小的芯片，內(nèi)部集成數(shù)以億計(jì)的電路，廣泛用于電腦、手機(jī)、家電、汽車、高鐵、電網(wǎng)、醫(yī)療儀器、機(jī)器人、工業(yè)控制等各種電子產(chǎn)品和系統(tǒng)，它是各國(guó)競(jìng)相角逐的“國(guó)之重器”,也是一個(gè)國(guó)家高端制造能力的綜合體現(xiàn)。如果沒有芯片，中國(guó)的許多高端行業(yè)的發(fā)展均會(huì)收到限制，這也是美國(guó)要“圍堵”我們的重要原因。

概述芯片的起源史

我們看到的小小芯片，卻演繹著這個(gè)世界尖端的科技，它遍布了消費(fèi)電子、汽車電子、工業(yè)自動(dòng)化、金融系統(tǒng)、國(guó)防軍工等各個(gè)領(lǐng)域，為各行各業(yè)實(shí)現(xiàn)信息化、智能化奠定了基礎(chǔ)，芯片的發(fā)展正在改變著這個(gè)世界。

關(guān)于芯片的發(fā)展可以追溯到晶體管的誕生。在1947年，科學(xué)家威廉·肖克利、約翰·巴頓和沃特·布拉頓三人在美國(guó)貝爾實(shí)驗(yàn)室發(fā)明了全球第一個(gè)晶體管，他們也因此共同榮獲了1956年諾貝爾物理學(xué)獎(jiǎng)。在這之前人類已經(jīng)發(fā)明了電子管，在1942使用了17468只電子管、7200只電阻、10000只電容、50萬條線，耗電量150千瓦制造了第一臺(tái)計(jì)算機(jī)，這是一個(gè)占地150平方米、重達(dá)30噸的龐然大物。如果可以把這些分立器件和線路集中制作在一塊介質(zhì)基片上，可以大大縮小體積，提高可靠性，這就是初期集成電路的構(gòu)想。晶體管的出現(xiàn)使這種想法成為了可能，它替代了真空管的功能，很快為電子計(jì)算機(jī)所用，它把電子管做的計(jì)算機(jī)縮小為幾個(gè)機(jī)柜。

1958年，在德州儀器（Texas Instruments，TI）就職的杰克·基爾比以鍺（Ge）襯底，將幾個(gè)晶體管、電阻、電容連接在一起，成功研制出世界上第一塊集成電路。雖然看起來并不美觀，但事實(shí)證明，其工作效能要比使用離散的部件要高得多。時(shí)隔42年之后杰克·基爾比也因此榮獲諾貝爾物理學(xué)獎(jiǎng)。在杰克·基爾發(fā)明基于鍺的集成電路后的幾個(gè)月，羅伯特·諾伊斯相繼發(fā)明了基于硅（Si）的集成電路，當(dāng)今半導(dǎo)體大多數(shù)應(yīng)用的就是基于硅的集成電路。

集成電路的產(chǎn)生使得所有元件在結(jié)構(gòu)上已組成一個(gè)整體，使電子元件向著微小型化、低功耗、智能化和高可靠性方面邁進(jìn)了一大步。芯片即是將集成電路制作在一小塊半導(dǎo)體芯片上，然后封裝在一個(gè)管殼內(nèi)，成為具有所需電路功能的微型結(jié)構(gòu)。

如今隨著工藝的不斷發(fā)展，芯片的集成度越來越高，按照戈登·摩爾1965年提出的摩爾定律的發(fā)展趨勢(shì)——一個(gè)芯片上的晶體管數(shù)量大約每18-24個(gè)月翻一倍，制程從0.5、0.35微米、0.25微米、0.18微米、0.15微米、0.13微米、90納米、65納米、45納米、32納米、28納米、22納米、14納米，一直發(fā)展到現(xiàn)在的10納米、7納米、5納米……近幾年，業(yè)界開始面臨著摩爾定律失效的問題，因?yàn)殡S著硅片上線路密度的增加，其復(fù)雜性和差錯(cuò)率也將呈指數(shù)增長(zhǎng)，科學(xué)家們正在思考從其他途徑來維持摩爾定律的發(fā)展趨勢(shì)。

處理器芯片的發(fā)展史

形形色色芯片種類繁多，但不外乎模擬芯片和數(shù)字芯片。模擬芯片用于測(cè)量模擬世界的一切感知，比如圖像、聲音、觸感、溫度、濕度等都可以歸到其中。數(shù)字芯片則包含處理器（CPU、GPU、MCU、DSP等）、存儲(chǔ)器（DRAM、NAND Flash、NOR Flash）和邏輯IC（手機(jī)基帶、以太網(wǎng)芯片）等等。

在電子信息技術(shù)快速發(fā)展的今天，我們的身邊離不開PC、手機(jī)、平板、數(shù)碼相機(jī)、汽車電子、家用電器，這些電子產(chǎn)品之所以能夠與人交互，是因?yàn)樗鼈兊膬?nèi)部都使用到了一種芯片——處理器。在不同的應(yīng)用場(chǎng)景下誕生了各種類型的處理器，它們有不同的運(yùn)算速度、不一樣的成本、不一樣的架構(gòu)、不一樣的功能。讓我們打開時(shí)間長(zhǎng)廊了解當(dāng)前最熱門的幾類處理器的發(fā)展歷史。

CPU（Central Processing Unit）是大家最不陌生的，我們現(xiàn)在所認(rèn)識(shí)的CPU是一塊超大規(guī)模的集成電路，在對(duì)計(jì)算性能要求較高的PC和服務(wù)器中廣泛應(yīng)用。但是CPU的發(fā)展并不是一觸而就的，簡(jiǎn)單來說可以映射為Intel公司的發(fā)展歷史。

1968年7月，羅伯特·諾伊斯和戈登·摩爾從Fairchild Semiconductor（仙童半導(dǎo)體/飛兆半導(dǎo)體）公司辭職，在硅谷創(chuàng)辦了Intel（英特爾）公司，Intel為源自Integrated Electronics（集成電子）的縮寫，分別選取了Integrated的“Int”以及Electronics中的“el”。當(dāng)時(shí)戈登·摩爾是Fairchild的研發(fā)負(fù)責(zé)人，也正是著名的摩爾定律奠定者，而羅伯特·諾伊斯更是領(lǐng)袖級(jí)的人物，被視為“硅谷之父”。從此偉大的Intel開啟了PC市場(chǎng)的輝煌，在這50年的處理器發(fā)展史上，Intel啟到了至關(guān)重要的推動(dòng)作用。

Intel的第一款處理器是于1971年開發(fā)的4位微處理器4004，它片內(nèi)只集成了2250個(gè)晶體管，晶體管之間的距離是10微米，只能執(zhí)行4位運(yùn)算，組頻只有0.74MHz。當(dāng)時(shí)是一家日本計(jì)算器公司找Intel定制設(shè)計(jì)微處理器系統(tǒng)用于公司的打印式計(jì)算器產(chǎn)品上，Intel把4004作為CPU，組合RAM芯片4001、ROM芯片4002以及寄存器芯片4003，推出了MCS-4世界上首個(gè)商用微處理器系統(tǒng)。由于Intel交付延期的原因，退還了該公司部分費(fèi)用，但是達(dá)成了可以在計(jì)算器之外的市場(chǎng)自由出售4004芯片的協(xié)議，這是具有劃時(shí)代的意義的，自此Intel正式進(jìn)軍處理器市場(chǎng)，從4004開始不斷壯大。

1972年推出8008，處理能力是4004的兩倍，可處理8位數(shù)據(jù)、組頻2MHz，集成晶體管的數(shù)量達(dá)到3500個(gè)。

1974年推出8080，不但具備更復(fù)雜的指令集，還采用了40針封裝，兩項(xiàng)革新極大的改變了微處理器行業(yè)。

1978年推出8086，可處理16位數(shù)據(jù)、組頻5MHz，這就是首顆x86芯片。IBM在自己首臺(tái)PC中采用了8086的精簡(jiǎn)版8088，而這臺(tái)PC被尊為PC之父。

之后相繼推出了80286、80386、80486，直到1993年推出Pentium處理器，從此Intel不再以數(shù)字命名處理器。Pentium是x86系列一大革新，它采用了0.60微米制造工藝技術(shù)，晶體管數(shù)大幅提高到320萬個(gè)，增強(qiáng)了浮點(diǎn)運(yùn)算功能、并把十年未變的工作電壓降至3.3V，性能達(dá)到了工作站處理器的水平。

隨后十年里，Intel又推出了很多代的Pentium處理器，到現(xiàn)在大家普遍使用的CPU已經(jīng)發(fā)展為core系列i3\i5\i7，Intel在不斷地技術(shù)創(chuàng)新中推動(dòng)著處理器的革新升級(jí)，從微米到納米制程、從4位到64位處理、從幾千個(gè)晶體管到幾億個(gè)、從幾百K到幾G的組頻……為世界各地的用戶帶來更加精彩的體驗(yàn)。

如同每臺(tái)PC都有一個(gè)作為大腦的CPU在指揮一樣，在工業(yè)控制器、醫(yī)療儀器、家用電器、便攜式設(shè)備中也都有一個(gè)“大腦”在擔(dān)負(fù)著控制、運(yùn)算、信號(hào)轉(zhuǎn)換及處理、通信等工作。在PC中僅僅一個(gè)CPU是不夠的，還需要內(nèi)存、硬盤等外設(shè)的協(xié)作，這使得PC的體積很大。其中的原因是一個(gè)芯片單位面積的門電路數(shù)量是有限的，為了滿足高性能只能把芯片內(nèi)所有的晶體管都設(shè)計(jì)為CPU。當(dāng)我們?yōu)榱俗非蟾◇w積而允許犧牲性能時(shí)，就可以將CPU、存儲(chǔ)器、I/O……集成在一個(gè)芯片上，這樣減小了系統(tǒng)的尺寸，降低設(shè)備的成本，這類處理器就發(fā)展成了MCU（Microcontroller Unit）。MCU正適合在消費(fèi)電子、工業(yè)控制、汽車電子、消費(fèi)電子等領(lǐng)域廣泛應(yīng)用。

MCU經(jīng)過不斷地研究和發(fā)展，歷經(jīng)了從4位、8位、16位到現(xiàn)在32位的發(fā)展歷史。不過早期的MCU發(fā)展仍然是以Intel設(shè)計(jì)的4位、8位、16位微處理器為軌跡，直到ARM處理器的橫空出現(xiàn)。

1978年，由奧地利籍物理學(xué)博士赫爾曼·豪澤（Hermann Hauser）和他的一個(gè)朋友，名叫Chris Curry的工程師，在英國(guó)劍橋創(chuàng)辦了CPU公司（Cambridge Processing Unit），主要業(yè)務(wù)是在當(dāng)?shù)厥袌?chǎng)設(shè)計(jì)和制造電子設(shè)備，他們的第一代產(chǎn)品Acorn System 1居然是做******機(jī)的微控制器系統(tǒng)。

隨著公司經(jīng)營(yíng)逐漸步入正軌后，在1979年，CPU公司改名為Acorn Computer Ltd（Acorn計(jì)算機(jī)公司）。Acorn公司的機(jī)遇來自于1981年的一個(gè)項(xiàng)目，當(dāng)時(shí)英國(guó)政府與英國(guó)廣播公司BBC展開了一個(gè)計(jì)劃，他們計(jì)劃在整個(gè)英國(guó)播放一套提高電腦普及水平的節(jié)目，并且政府會(huì)出資一半費(fèi)用為英國(guó)的每一間教室購(gòu)置一臺(tái)電腦，他們希望Acorn公司能生產(chǎn)一款與之相配套的電腦。

這對(duì)Acorn公司是一個(gè)難得的機(jī)遇，同時(shí)也是一個(gè)巨大的挑戰(zhàn)，因?yàn)樗麄冊(cè)谶x擇CPU時(shí)陷入了困境。當(dāng)時(shí)，CPU的發(fā)展潮流正在從8位變成16位，起先Acorn公司打算使用美國(guó)國(guó)家半導(dǎo)體或者摩托羅拉公司的16位芯片，但是評(píng)估后發(fā)現(xiàn)芯片執(zhí)行速度太慢，售價(jià)也太貴。于是轉(zhuǎn)而向Intel尋求合作，希望對(duì)方提供關(guān)于80286處理器的設(shè)計(jì)資料和一些樣品，但是遭到了Intel的拒絕，備受打擊的Acorn公司決定自主研發(fā)芯片。

當(dāng)時(shí)來自劍橋大學(xué)的計(jì)算機(jī)科學(xué)家Sophie Wilson和Steve Furber芯片研發(fā)負(fù)責(zé)人，前者主攻指令集開發(fā)，后者負(fù)責(zé)芯片設(shè)計(jì)。他們采用了美國(guó)加州大學(xué)伯克利分校的David Patterson教授在1979年提出了RISC指令集架構(gòu)，這恰好可以滿足他們的需求。

RISC（reduced instruction set computer）簡(jiǎn)化的指令集是相對(duì)于Intel在內(nèi)的處理器所采用的CISC（complex instruction set computer）復(fù)雜指令集的一個(gè)概念。隨著CISC指令集的發(fā)展，有越來越多的指令加入其中，但實(shí)際上整個(gè)程序的80％只使用了約20％的指令，剩余20％的程序卻使用了80％的指令。David Patterson教授主張硬件應(yīng)該專心加速常用的指令，較為復(fù)雜的指令則利用常用的指令去組合。這樣一來RISC精簡(jiǎn)了CISC指令種類和格式，簡(jiǎn)化尋址方式，達(dá)到省電高效的效果。

在1985年Acorn推出了他們自己的第一代32位、6MHz的處理器ARM1（Acorn RISC Machine），對(duì)標(biāo)的是Intel的80286處理器，不過就在同一年，Intel發(fā)布了80386使得ARM1完全處于劣勢(shì)地位。由于ARM采用了RISC精簡(jiǎn)指令集，所以功耗小、價(jià)格便宜，特別合適移動(dòng)設(shè)備，正好可以選擇與Intel不同的設(shè)計(jì)路線——Intel持續(xù)邁向x86高效能設(shè)計(jì)，ARM則專注于低成本、低功耗的研發(fā)方向。

之后Acorn陸續(xù)推出了ARM2、ARM3等幾個(gè)系列。由于適合于移動(dòng)設(shè)備，因此在1990年，Acorn與蘋果一起成立了一家ARM（Advanced RISC Machines）公司，蘋果投了150萬英鎊，芯片廠商VLSI投了25萬英鎊，Acorn本身以150萬英鎊的知識(shí)產(chǎn)權(quán)和12名工程師入股。此時(shí)ARM做出了一個(gè)改變產(chǎn)品策略的決定——不再生產(chǎn)芯片，而以授權(quán)的方式，將芯片設(shè)計(jì)方案轉(zhuǎn)讓給其他公司，收取一次性技術(shù)授權(quán)費(fèi)用和版稅提成。正是這種模式，開創(chuàng)了屬于ARM的全新時(shí)代，形成了一個(gè)以ARM為核心的生態(tài)圈。

1991年，ARM將產(chǎn)品授權(quán)給英國(guó)GEC Plessey半導(dǎo)體公司。1993年，ARM將產(chǎn)品授權(quán)給Cirrus Logic和德州儀器（Texas Instruments，TI）。此后，包括三星、夏普等公司都參與到了這種授權(quán)模式中，與ARM創(chuàng)建了合作關(guān)系，到目前為止ARM合作社區(qū)包含了1200多位伙伴。

ARM的真正爆發(fā)還是得益于移動(dòng)手機(jī)的爆發(fā)，特別是Iphone的熱銷，于是全球移動(dòng)應(yīng)用都徹底綁定在ARM指令集上，除了蘋果應(yīng)用外，谷歌推出了Android系統(tǒng)，也是基于ARM指令集，就連intel的聯(lián)盟微軟公司，也宣布Windows8平臺(tái)將支持ARM架構(gòu)，這使ARM在移動(dòng)設(shè)備市場(chǎng)的份額超過90%。

當(dāng)前ARM處理器家族成員以Cortex命名，分別為Cortex-A、Cortex-R、Cortex-M，它們?cè)谔匦陨厢槍?duì)于不同的應(yīng)用場(chǎng)景。Cortex-A針對(duì)智能手機(jī)、平板電腦這類消費(fèi)娛樂產(chǎn)品，Cortex-R面向如汽車制動(dòng)系統(tǒng)、動(dòng)力傳動(dòng)這類解決方案，Cortex-M系列面向針對(duì)成本和功耗敏感的微控制器領(lǐng)域應(yīng)用。

可見ARM和是Intel截然相反的戰(zhàn)略路線，Intel一直以來堅(jiān)持全產(chǎn)業(yè)鏈商業(yè)模式，而ARM是開放的合作共贏模式，無論如何他們都是當(dāng)今處理器領(lǐng)域的巨人。

從CPU發(fā)展出來處理器除了MCU之外，另外比較熱門有DSP（Digital Signal Processing/Processor）數(shù)字信號(hào)處理和FPGA（Field－Programmable Gate Array）現(xiàn)場(chǎng)可編程門陣列。

DSP主要應(yīng)用于數(shù)字信號(hào)處理這門新興的學(xué)科技術(shù)。在DSP出現(xiàn)之前數(shù)字信號(hào)處理是依靠微處理器來完成的，隨著越來越龐大信息量，微處理器無法滿足快速傅立葉變換、數(shù)字濾波、矩陣運(yùn)算等需要大量乘加法運(yùn)算參與的高速信號(hào)處理，于是迫切的需要一類快速處理數(shù)字信號(hào)的處理器芯片。

1979年美國(guó)Intel公司發(fā)布的商用可編程器件2920是DSP芯片的一個(gè)主要里程碑，不過內(nèi)部并沒有現(xiàn)代DSP芯片所必須有的單周期乘法器。在1980年，日本NEC公司推出的mPD7720是第一個(gè)具有硬件乘法器的商用DSP芯片，從而被認(rèn)為是第一塊單片DSP。

隨著大規(guī)模集成電路技術(shù)和半導(dǎo)體技術(shù)的發(fā)展，DSP朝著高速度、低功耗、功能強(qiáng)大等方向快速提高，推動(dòng)著數(shù)字信號(hào)處理技術(shù)在各個(gè)研究領(lǐng)域中廣泛的應(yīng)用。美國(guó)德州儀器公司（Texas Instruments，TI）在1982年推出TMS32010及其系列產(chǎn)品，運(yùn)算速度已經(jīng)比微處理器快了幾十倍，到目前無論是運(yùn)算速度、存儲(chǔ)容量，還是系統(tǒng)集成度都已經(jīng)有了質(zhì)的飛躍，不僅在通信、計(jì)算機(jī)領(lǐng)域大顯身手，而且逐漸滲透到人們的日常生活領(lǐng)域。

FPGA主要針對(duì)于定制專用集成電路（ASIC）的應(yīng)用。早期設(shè)計(jì)師希望ASIC的設(shè)計(jì)周期盡可能短，最好是在實(shí)驗(yàn)室里設(shè)計(jì)出合適的芯片，并且立即投入實(shí)際應(yīng)用之中，于是出現(xiàn)了現(xiàn)場(chǎng)可編程邏輯器件(FPLD)。FPGA則是在PAL、GAL、CPLD等可編程器件的基礎(chǔ)上進(jìn)一步發(fā)展的產(chǎn)物。

1985年，Xilinx公司推出的全球第一款FPGA產(chǎn)品XC2064，采樣用2μm工藝，包含64個(gè)邏輯模塊和85000個(gè)晶體管，門數(shù)量不超過1000個(gè)。到了2007年，F(xiàn)PGA業(yè)界雙雄Xilinx和Altera公司推出了采用最新65nm工藝的FPGA產(chǎn)品，其門數(shù)量已經(jīng)達(dá)到千萬級(jí)，晶體管個(gè)數(shù)更是超過10億個(gè)。隨后的工藝從150nm 、130nm、90nm、65nm……FPGA也在不斷地緊跟并推動(dòng)著半導(dǎo)體工藝的進(jìn)步。

FPGA相比于CPU、MCU來說，它利用門電路直接并行運(yùn)算，速度非?？?，同時(shí)可以通過編程語言自由定義門電路和存儲(chǔ)器之間的布線，定制芯片方案，目前是AI芯片非常合適的方案之一。

AI智能芯片的崛起史

對(duì)于AI芯片可以理解為面向 AI應(yīng)用的處理器芯片，它屬于AI和處理器芯片兩大領(lǐng)域的結(jié)合。當(dāng)前隨著人工智能的蓬勃發(fā)展，AI芯片已經(jīng)成為了最炙手可熱的投資領(lǐng)域，除了Intel、Nvidia、ARM這些老牌的芯片廠商外，Google、Facebook、微軟這樣的互聯(lián)網(wǎng)公司也進(jìn)軍AI芯片市場(chǎng)。

AI應(yīng)用中通常包括基于深度神經(jīng)網(wǎng)絡(luò)的各類算法，以及圖像識(shí)別、視頻檢索、語音識(shí)別、聲紋檢測(cè)、搜索發(fā)動(dòng)機(jī)優(yōu)化、自動(dòng)駕駛等任務(wù)，其中最關(guān)鍵的能力是“訓(xùn)練”和“推理”，而“訓(xùn)練”是從海量的數(shù)據(jù)中完成特征的學(xué)習(xí)，這需要極高的計(jì)算性能和較高的精度。為了支持AI的計(jì)算性能和精度，理想的AI芯片需要具備高度并行的處理能力，支持各種數(shù)據(jù)類型的浮點(diǎn)計(jì)算，以及用于存儲(chǔ)海量數(shù)據(jù)的存儲(chǔ)器帶寬。

目前適合AI的處理器有GPU（graphics processing unit）、FPGA（field-programmable gate array）、DSP（digital signal processing）和ASIC（application specific integrated circuits）等，業(yè)界各大廠商他們結(jié)合自身的特點(diǎn)推出了不同的方案，目前主要有兩種設(shè)計(jì)思路：利用已有的GPU、FPGA、DSP、多核處理器等芯片實(shí)現(xiàn)；設(shè)計(jì)專用的ASIC芯片實(shí)現(xiàn)。這也成為了爭(zhēng)論的焦點(diǎn)——哪個(gè)AI芯片方案是最佳的選擇？

GPU是圖形處理器，它的核數(shù)遠(yuǎn)超過CPU，由多核組成的大規(guī)模并行計(jì)算架構(gòu)專用于同時(shí)處理多重任務(wù)。深度神經(jīng)網(wǎng)絡(luò)的訓(xùn)練過程中計(jì)算量極大，而且數(shù)據(jù)和運(yùn)算是高度并行的，GPU具備進(jìn)行海量數(shù)據(jù)并行運(yùn)算的能力并且為浮點(diǎn)矢量運(yùn)算配備了大量計(jì)算資源，與深度學(xué)習(xí)的需求不謀而合，因此最先被引入運(yùn)行深度學(xué)習(xí)算法，成為高性能計(jì)算領(lǐng)域的主力芯片之一。Intel雖然也有GPU，但主要為集成顯卡使用。Nvidia一直在獨(dú)立顯卡領(lǐng)域具有絕對(duì)優(yōu)勢(shì)，因此Nvidia的GPU是目前應(yīng)用最廣的通用AI硬件計(jì)算平臺(tái)，在人工智能領(lǐng)域無疑已占據(jù)足夠的優(yōu)勢(shì)。

Nvidia依靠自己在AI領(lǐng)域創(chuàng)建的優(yōu)勢(shì)，開發(fā)出CUDA平臺(tái)，提供了cuDNN、NCCL、cuBLAS等諸多SDK為合作伙伴提供開發(fā)工具，逐步讓眾多合作伙伴熟悉這種生態(tài)，進(jìn)一步鞏固它在AI領(lǐng)域的領(lǐng)導(dǎo)地位。Nvidia的芯片應(yīng)用十分普遍，現(xiàn)在所有的AI軟件庫都支持使用CUDA加速，包括谷歌的Tensorflow，F(xiàn)acebook的Caffe，亞馬遜的MXNet等。當(dāng)然Nvidia的GPU在復(fù)雜程序邏輯控制上仍然存在劣勢(shì)，需要使用高性能CPU配合來構(gòu)成完整的AI系統(tǒng)。為了彌補(bǔ)自己在CPU方面的弱勢(shì)，在2019年宣布其用于超級(jí)計(jì)算機(jī)的加速平臺(tái)將對(duì)ARM架構(gòu)CPU支持，計(jì)劃利用其芯片與使用ARM架構(gòu)的CPU協(xié)作打造應(yīng)用人工智能的超級(jí)計(jì)算機(jī)。

ASIC是一種為專用目的而定制設(shè)計(jì)的芯片，在大規(guī)模量產(chǎn)的情況下相比于FPGA性能更強(qiáng)、體積更小、功耗更低、成本更低、可靠性更髙等優(yōu)點(diǎn)。近年來越來越多的公司開始采用ASIC芯片進(jìn)行深度學(xué)習(xí)算法加速，其中最為突出的是 Google為機(jī)器學(xué)習(xí)定制的專用處理器芯片TPU（Tensor Processor Unit），它支持256×256個(gè)矩陣乘法單元、非線性神經(jīng)元計(jì)算單元等模塊，專為Google的深度學(xué)習(xí)框架TensorFlow而設(shè)計(jì)。

TPU受到業(yè)界的關(guān)注是從Google的AlphaGo大顯神威后開始，最新一代 AlphaGo Zero已經(jīng)將CPU結(jié)合GPU搭建方案升級(jí)為了TPU。在2018年Google I/O開發(fā)者大會(huì)上正式發(fā)布了TPU3.0，其性能宣稱比去年的TUP2.0提升8倍之多，達(dá)到每秒1000萬億次浮點(diǎn)計(jì)算，比同時(shí)期的GPU或CPU平均提速15~30倍，能效比提升30~80倍。

FPGA其實(shí)也是一種定制芯片，在靈活度方面，它介于CPU、GPU等通用處理器和專用集成電路ASIC之間，它不像專用集成電路ASIC那樣由芯片廠商固化編程，而是在硬件固定的前提下，允許設(shè)計(jì)者靈活使用軟件進(jìn)行編程，因此它的開發(fā)周期比ASIC短，不過相對(duì)于批量出貨ASIC，單個(gè)FPGA的成本會(huì)更高。在性能方面，F(xiàn)PGA與 GPU相比，具備更強(qiáng)的計(jì)算能力和更低的功耗。以FPGA方案為代表的廠商主要有Intel和Xilinx。

Intel已經(jīng)錯(cuò)失了移動(dòng)設(shè)備的崛起，不想再錯(cuò)過對(duì)AI芯片領(lǐng)域的布局。為了增強(qiáng)在AI芯片領(lǐng)域的競(jìng)爭(zhēng)力,2015年12月Intel斥資167億美元收購(gòu)了Altera公司，這是Intel有史以來金額最大的一次收購(gòu)，意味著Intel希望實(shí)現(xiàn)CPU和FPGA深層次結(jié)合來布局AI芯片市場(chǎng)。2017年Intel又收購(gòu)Mobileye，希望通過集成AI算法以獲得關(guān)鍵的優(yōu)勢(shì)。2018年，Intel宣布收購(gòu)芯片制造商eASIC，提高FPGA速度，降低FPGA成本和能耗需求。Intel通過霸氣的購(gòu)買將自己提升到AI芯片“玩家”的前列。當(dāng)前Intel有兩套FPGA的戰(zhàn)略：打造CPU+FPGA混合器件，讓FPGA與處理器協(xié)同工作；基于Arria FPGA或Stratix FPGA打造可編程加速卡。微軟在2018年的Build大會(huì)上公布的Project Brainwave深度學(xué)習(xí)加速平臺(tái)，就是基于Intel Arria FPGA和Stratix FPGA芯片所打造的。

Xilinx是FPGA芯片技術(shù)的開創(chuàng)者，從2011年起，Xilinx提出全編程的理念，作為FPGA行業(yè)長(zhǎng)期的霸主，Xilinx擁有超過2萬家下游客戶，其中亞馬遜AWS、以及中國(guó)的BAT云服務(wù)巨頭都推出了專門的云端 FPGA 實(shí)例來支持 AI 應(yīng)用。2018年Xilinx重磅推出全新一代AI芯片架構(gòu)ACAP，重磅推出全新一代AI芯片架構(gòu)ACAP，以及采用ACAP架構(gòu)的首款代號(hào)為Everest的AI芯片，將正面 “宣戰(zhàn)”Intel和Nvidia。同年Xilinx收購(gòu)國(guó)內(nèi)三大AI芯片獨(dú)角獸之一的北京深鑒科技有限公司，該公司主攻終端人工智能，所采用基于FPGA來設(shè)計(jì)深度學(xué)習(xí)的加速器架構(gòu)，可以靈活擴(kuò)展用于服務(wù)器端和嵌入式端。

另外DSP芯片主要用于處理視覺系統(tǒng)如圖像、視頻等方面的任務(wù)，在自動(dòng)駕駛、安防監(jiān)控、無人機(jī)和移動(dòng)終端等領(lǐng)域最為常見。眾核處理器采用將多個(gè)處理核心集成在一起的處理器架構(gòu)，主要面向高性能計(jì)算領(lǐng)域，作為CPU的協(xié)處理器存在，比如IBM CELL、Kalray MPPA和Intel Xeon Phi都是典型的眾核處理器。

總結(jié)

AI智能芯片未來的發(fā)展勢(shì)不可擋，從芯片的歷史來看，目前AI智能芯片仍然處于初期階段，未來在架構(gòu)和設(shè)計(jì)理念上仍然有巨大的突破空間，這也提供給了我國(guó)“彎道超車”的機(jī)會(huì)，在國(guó)家“2025中國(guó)智造”的指引下，國(guó)內(nèi)的科技巨頭阿里巴巴、騰訊、百度和華為都參與進(jìn)來，在全力發(fā)展自己AI智能芯片以突破“重圍”，讓我們一起拭目以待。

活動(dòng)推薦：“5G場(chǎng)景應(yīng)用研討沙龍”

2019年6月6日，工信部向中國(guó)電信、中國(guó)移動(dòng)、中國(guó)聯(lián)通、中國(guó)廣電發(fā)放5G商用牌照，中國(guó)也正式進(jìn)入5G商用元年。中國(guó)信息通信研究院也發(fā)布了《5G經(jīng)濟(jì)社會(huì)影響白皮書》，白皮書預(yù)測(cè)，到2030年，5G有望帶動(dòng)我國(guó)直接經(jīng)濟(jì)產(chǎn)出6.3萬億元、經(jīng)濟(jì)增加值2.9萬億元、就業(yè)機(jī)會(huì)800萬個(gè)。為充分發(fā)揮5G潛能，相關(guān)部門應(yīng)未雨綢繆，超前部署網(wǎng)絡(luò)基礎(chǔ)設(shè)施。因此，在2019年5G技術(shù)賦能下，商業(yè)應(yīng)用場(chǎng)景的落地受到行業(yè)內(nèi)外人士的廣泛關(guān)注。億歐聯(lián)合京東物流將在8月16日舉辦一場(chǎng)以“5G賦能商用落地”為主題的沙龍，意在邀請(qǐng)各位專家學(xué)者共同探討5G應(yīng)用落地發(fā)展現(xiàn)狀與未來趨勢(shì)，旨在為行業(yè)內(nèi)外人士提供一個(gè)交流學(xué)習(xí)的資源共享平臺(tái)?；顒?dòng)詳情請(qǐng)戳：https://www.iyiou.com/post/ad/id/848

上一篇: GF用12nm FinFET工藝制造出新級(jí)別ARM 3D芯片

下一篇: 吃百家飯，臺(tái)積電今年主推0.11微米芯片