日前,武漢城市人工智能(AI)計(jì)算中心建成投用,媒體在報(bào)道該中心算力時(shí)稱:“中心一期建設(shè)規(guī)模100P FLOPS人工智能算力……其算力相當(dāng)于5萬(wàn)臺(tái)高性能計(jì)算機(jī)。”該報(bào)道一出,引發(fā)高性能計(jì)算領(lǐng)域?qū)<谊P(guān)注。相關(guān)專家對(duì)《中國(guó)科學(xué)報(bào)》表示,該報(bào)道內(nèi)容對(duì)“超級(jí)計(jì)算機(jī)”與“智能計(jì)算機(jī)”認(rèn)識(shí)不清、概念混淆,極易引發(fā)誤導(dǎo)。
中國(guó)科學(xué)院計(jì)算技術(shù)研究所研究員、中國(guó)計(jì)算機(jī)學(xué)會(huì)高性能計(jì)算專業(yè)委員會(huì)秘書長(zhǎng)張?jiān)迫嬖V《中國(guó)科學(xué)報(bào)》:“智能計(jì)算機(jī)不是超級(jí)計(jì)算機(jī),兩者的概念應(yīng)該區(qū)分清楚,否則可能會(huì)引起行業(yè)混亂。”
超級(jí)計(jì)算機(jī)還是智能計(jì)算機(jī)
目前業(yè)界用于衡量超級(jí)計(jì)算的Linpack測(cè)試,測(cè)試的是超級(jí)計(jì)算機(jī)的“雙精度浮點(diǎn)運(yùn)算能力”,即64位浮點(diǎn)數(shù)字的計(jì)算(FP64)。在以二進(jìn)制所表示的數(shù)字精度中,還有單精度(32位,F(xiàn)P32)、半精度(16位,F(xiàn)P16)以及整數(shù)類型(如INT8、INT4)等。數(shù)字位數(shù)越高,意味著人們可以在更大范圍的數(shù)值內(nèi)體現(xiàn)兩個(gè)數(shù)值的變化,從而實(shí)現(xiàn)更精確計(jì)算。
與許多科學(xué)計(jì)算等不同,AI所需的計(jì)算力不需要太高精度。“比如一些AI應(yīng)用需要處理的對(duì)象是語(yǔ)音、圖片或視頻,運(yùn)行低精度計(jì)算甚至整型計(jì)算即可完成推理或訓(xùn)練。”張?jiān)迫f(shuō),這種專用計(jì)算機(jī)處理AI算法速度快、能耗低,這是由其特點(diǎn)決定的。
智能計(jì)算機(jī)是一種專用算力,在推理或訓(xùn)練等智能計(jì)算方面的確表現(xiàn)出色,但由于AI推理或訓(xùn)練一般僅用到單精度甚至半精度計(jì)算、整型計(jì)算,多數(shù)智能計(jì)算機(jī)并不具備高精度數(shù)值計(jì)算能力,這也限制其在AI計(jì)算之外的應(yīng)用場(chǎng)景使用。
而超級(jí)計(jì)算機(jī)是一種通用算力,其設(shè)計(jì)目標(biāo)是提供完備、復(fù)雜的計(jì)算能力,在高精度計(jì)算方面能力更強(qiáng)、應(yīng)用范圍更廣,比如科學(xué)家常使用超級(jí)計(jì)算機(jī)進(jìn)行行星模擬、新材料開(kāi)發(fā)、分子藥物設(shè)計(jì)、基因分析等科學(xué)計(jì)算和大數(shù)據(jù)處理。
中國(guó)工程院院士陳左寧曾形象地將使用超級(jí)計(jì)算機(jī)做AI計(jì)算比喻成“大馬拉小車”,來(lái)說(shuō)明超級(jí)計(jì)算雖然“十項(xiàng)全能”,但畢竟不是為AI量身打造。智能計(jì)算機(jī)由此興起。
此前曾一度熱炒的AI與超算融合,其實(shí)正是將改良的計(jì)算機(jī)“AI專用化”,嚴(yán)格意義上來(lái)說(shuō),它們已經(jīng)不再屬于傳統(tǒng)超算范疇。
“現(xiàn)在不論超級(jí)計(jì)算中心落成還是智能計(jì)算中心,都宣稱算力是多少‘FLOPS’,其實(shí)這個(gè)單位是‘每秒浮點(diǎn)運(yùn)算能力’,而一些智能計(jì)算機(jī)的單位其實(shí)是‘OPS’——每秒操作次數(shù)。如果不加區(qū)別地報(bào)道,大家很容易誤認(rèn)為是同一種計(jì)算精度、同一種計(jì)算能力。”張?jiān)迫f(shuō),這也導(dǎo)致一些地方以為花了小錢建了世界頂級(jí)的“大超級(jí)計(jì)算”,好像占了便宜;等項(xiàng)目上了馬,將項(xiàng)目介紹給超算業(yè)內(nèi)人士時(shí),才恍然大悟。
用新指標(biāo)引導(dǎo)行業(yè)健康發(fā)展
張?jiān)迫嬖V記者,除了混淆智能計(jì)算機(jī)和超級(jí)計(jì)算機(jī)之外,業(yè)內(nèi)還存在另外一種誤導(dǎo)。
“有些廠商還會(huì)模糊智能計(jì)算機(jī)的推理性能和訓(xùn)練性能。”張?jiān)迫嬖V《中國(guó)科學(xué)報(bào)》,“與推理相比,訓(xùn)練性能往往需要計(jì)算精度高一些,比如32位甚至64位;而大部分性能‘耀眼’的AI芯片,往往指的是其推理性能,而且可能只是理論值。”
對(duì)于AI計(jì)算而言,訓(xùn)練性能往往更重要——許多智能模型正是依賴于此。張?jiān)迫f(shuō),訓(xùn)練模型的計(jì)算量與參數(shù)量成正比,而且需要反復(fù)迭代,直到達(dá)到理想的效果。
如果要畫一張AI所需算力的示意圖,“推理”位于算力矩陣的最下層,因?yàn)榘刖人懔Γ‵P16)或整型算力(如INT8)即可滿足推理需要;排在其上的是“訓(xùn)練”,一般需要使用單精度算力(FP32)或半精度算力(FP16);對(duì)算力需求最高的是類腦“模擬”,它需要雙精度算力(FP64)和低精度算力同時(shí)支持。
“混淆傳統(tǒng)超級(jí)計(jì)算與智能計(jì)算、混淆智能計(jì)算的訓(xùn)練性能和推理性能,這兩種情況都可能會(huì)導(dǎo)致用戶或地方政府錯(cuò)誤決策——他們本意是建設(shè)強(qiáng)大的計(jì)算集群,最后卻只建成了一臺(tái)只有推理性能的機(jī)器。”張?jiān)迫f(shuō)。
對(duì)此,張?jiān)迫J(rèn)為,需要一個(gè)簡(jiǎn)單、有效的指標(biāo)來(lái)幫助判斷系統(tǒng)的AI算力和整個(gè)高性能AI領(lǐng)域的發(fā)展?fàn)顩r,從而防止行業(yè)亂象。
2020年11月,張?jiān)迫?lián)合清華大學(xué)教授陳文光、美國(guó)阿貢國(guó)家實(shí)驗(yàn)室研究員Pavan Balaji和瑞士蘇黎世聯(lián)邦理工學(xué)院教授Torsten Hoefler,與ACM SIGHPC China委員會(huì)共同發(fā)起了基于AIPerf大規(guī)模AI算力基準(zhǔn)評(píng)測(cè)程序的“國(guó)際人工智能性能算力500排行榜”。記者注意到,這一榜單的算力單位是OPS。
“超級(jí)計(jì)算與AI計(jì)算,一碼歸一碼,需要一個(gè)新的標(biāo)尺來(lái)引導(dǎo)AI計(jì)算行業(yè)走上健康發(fā)展的道路。”張?jiān)迫f(shuō)。
國(guó)產(chǎn)AI芯片正待奮起直追
算力始于芯片。在AI芯片賽道上,我國(guó)擁有華為(昇騰)、百度昆侖、燧原等芯片設(shè)計(jì)企業(yè),但即便如此,國(guó)內(nèi)的智能計(jì)算機(jī)仍很少能繞過(guò)美國(guó)GPU巨頭英偉達(dá)。
這是一個(gè)無(wú)奈的現(xiàn)實(shí):國(guó)內(nèi)上馬諸多智能計(jì)算中心,英偉達(dá)是切切實(shí)實(shí)的受益者。
“專門做智能計(jì)算的AI芯片,只要核數(shù)足夠多、主頻足夠高,就可以實(shí)現(xiàn)速度更快、在低精度計(jì)算中高出幾個(gè)量級(jí)的性能。但如果某個(gè)計(jì)算集群既需要高精度計(jì)算又需要低精度計(jì)算,這對(duì)AI芯片的要求就高了。”張?jiān)迫f(shuō),英偉達(dá)的GPU各種精度的計(jì)算能力都很突出、比較均衡。這也是大部分國(guó)產(chǎn)AI芯片難以與英偉達(dá)GPU硬碰硬的原因之一。
不過(guò),國(guó)產(chǎn)AI芯片并非完全沒(méi)有機(jī)會(huì)。
首先,當(dāng)下我國(guó)的算力基礎(chǔ)設(shè)施,都有強(qiáng)烈的國(guó)產(chǎn)化意愿。即便英偉達(dá)、英特爾等巨頭虎踞龍盤,但基于綜合成本、生態(tài)等各類因素,國(guó)產(chǎn)化的大潮仍不可阻擋。
其次,就AI當(dāng)前發(fā)展而言,場(chǎng)景、數(shù)據(jù)、模型、算力缺一不可,這也就意味著,中國(guó)將是未來(lái)全球AI算力富集地。AI芯片作為核心需要,不可能被一種形態(tài)、一種生態(tài)所壟斷,寒武紀(jì)、昇騰等國(guó)產(chǎn)AI芯片的佼佼者仍坐擁巨大發(fā)展空間。
專家認(rèn)為,雖然芯片是算力的主要來(lái)源和最根本的物質(zhì)基礎(chǔ),但是算力的生產(chǎn)、聚合、調(diào)度和釋放是一個(gè)完整過(guò)程,需要復(fù)雜系統(tǒng)的軟硬件生態(tài)共同配合,才能實(shí)現(xiàn)“有效算力”。因此,不能只關(guān)注芯片的單一性能指標(biāo),更要注重上層軟件應(yīng)用生態(tài)。
沒(méi)有巨大算力無(wú)法發(fā)展AI?
在算力概念被混淆的背后,是AI計(jì)算有如脫韁野馬一般瘋長(zhǎng)的算力需求。
由多位硅谷“大亨”聯(lián)合建立的人工智能非營(yíng)利組織OpenAI,在2020年5月推出了其新一代無(wú)監(jiān)督的轉(zhuǎn)化語(yǔ)言模型GPT-3,目前已有1750億參數(shù),訓(xùn)練數(shù)據(jù)量達(dá)到45TB(約1萬(wàn)億單詞量)。
GPT-3模型目前已經(jīng)在語(yǔ)義搜索、文本生成、內(nèi)容理解、機(jī)器翻譯等方面取得重大突破。其最大價(jià)值是證實(shí)了機(jī)器在無(wú)監(jiān)督下的自我學(xué)習(xí)能力,驗(yàn)證了純粹通過(guò)擴(kuò)大規(guī)模即可實(shí)現(xiàn)性能提升。
更壯觀的是,萬(wàn)億參數(shù)模型已經(jīng)在路上。6月初,北京智源人工智能研究院發(fā)布了“悟道2.0”,宣稱達(dá)到1.75萬(wàn)億參數(shù),超過(guò)之前由谷歌發(fā)布的Switch Transformer,成為全球最大的預(yù)訓(xùn)練模型。
迅猛增長(zhǎng)的參數(shù)體量,也意味著更高的計(jì)算需求——有的可能需要數(shù)千塊GPU來(lái)提供必要的算力。張?jiān)迫f(shuō),類似GPT這樣的巨模型,對(duì)算力的需求“不是鬧著玩的”。
難道,沒(méi)有巨大算力就無(wú)法發(fā)展AI嗎?
張?jiān)迫J(rèn)為,在目前AI的發(fā)展階段(感知智能和認(rèn)知智能)中,算力仍然是第一位的。
他的理由是,發(fā)展AI可以通過(guò)算力提升、算法革命等途徑進(jìn)行,但在“資本導(dǎo)向”的現(xiàn)階段,相比不確定性的算法模型突破,算力提升是個(gè)更容易的選擇。
但必須要指出的是,運(yùn)用巨大算力并不是人工智能發(fā)展的唯一方向,GPT-3這樣的巨模型同樣存在缺陷,如缺乏常識(shí)等;而探索人腦奧妙機(jī)理,實(shí)現(xiàn)小數(shù)據(jù)學(xué)習(xí)、遷移學(xué)習(xí)也是重要手段。
畢竟,大腦的功耗只有20瓦左右,創(chuàng)建低能耗的智能系統(tǒng)或許是更重要的努力方向。
來(lái)源:《中國(guó)科學(xué)報(bào)》