當(dāng)前,人工智能發(fā)展借助深度學(xué)習(xí)技術(shù)突破得到了全面關(guān)注和助力推動(dòng),各國(guó)政府高度重視、資本熱潮仍在加碼,各界對(duì)其成為發(fā)展熱點(diǎn)也達(dá)成了共識(shí)。本文旨在分析深度學(xué)習(xí)技術(shù)現(xiàn)狀,研判深度學(xué)習(xí)發(fā)展趨勢(shì),并針對(duì)我國(guó)的技術(shù)水平提出發(fā)展建議。
一、深度學(xué)習(xí)技術(shù)現(xiàn)狀
深度學(xué)習(xí)是本輪人工智能爆發(fā)的關(guān)鍵技術(shù)。人工智能技術(shù)在計(jì)算機(jī)視覺(jué)和自然語(yǔ)言處理等領(lǐng)域取得的突破性進(jìn)展,使得人工智能迎來(lái)新一輪爆發(fā)式發(fā)展。而深度學(xué)習(xí)是實(shí)現(xiàn)這些突破性進(jìn)展的關(guān)鍵技術(shù)。其中,基于深度卷積網(wǎng)絡(luò)的圖像分類(lèi)技術(shù)已超過(guò)人眼的準(zhǔn)確率,基于深度神經(jīng)網(wǎng)絡(luò)的語(yǔ)音識(shí)別技術(shù)已達(dá)到95%的準(zhǔn)確率,基于深度神經(jīng)網(wǎng)絡(luò)的機(jī)器翻譯技術(shù)已接近人類(lèi)的平均翻譯水平。準(zhǔn)確率的大幅提升使得計(jì)算機(jī)視覺(jué)和自然語(yǔ)言處理進(jìn)入產(chǎn)業(yè)化階段,帶來(lái)新產(chǎn)業(yè)的興起。
深度學(xué)習(xí)是大數(shù)據(jù)時(shí)代的算法利器,成為近幾年的研究熱點(diǎn)。和傳統(tǒng)的機(jī)器學(xué)習(xí)算法相比,深度學(xué)習(xí)技術(shù)有著兩方面的優(yōu)勢(shì)。一是深度學(xué)習(xí)技術(shù)可隨著數(shù)據(jù)規(guī)模的增加不斷提升其性能,而傳統(tǒng)機(jī)器學(xué)習(xí)算法難以利用海量數(shù)據(jù)持續(xù)提升其性能。二是深度學(xué)習(xí)技術(shù)可以從數(shù)據(jù)中直接提取特征,削減了對(duì)每一個(gè)問(wèn)題設(shè)計(jì)特征提取器的工作,而傳統(tǒng)機(jī)器學(xué)習(xí)算法需要人工提取特征。因此,深度學(xué)習(xí)成為大數(shù)據(jù)時(shí)代的熱點(diǎn)技術(shù),學(xué)術(shù)界和產(chǎn)業(yè)界都對(duì)深度學(xué)習(xí)展開(kāi)了大量的研究和實(shí)踐工作。
深度學(xué)習(xí)各類(lèi)模型全面賦能基礎(chǔ)應(yīng)用。卷積神經(jīng)網(wǎng)絡(luò)和循環(huán)神經(jīng)網(wǎng)絡(luò)是兩類(lèi)獲得廣泛應(yīng)用的深度神經(jīng)網(wǎng)絡(luò)模型。計(jì)算機(jī)視覺(jué)和自然語(yǔ)言處理是人工智能兩大基礎(chǔ)應(yīng)用。卷積神經(jīng)網(wǎng)絡(luò)廣泛應(yīng)用于計(jì)算機(jī)視覺(jué)領(lǐng)域,在圖像分類(lèi)、目標(biāo)檢測(cè)、語(yǔ)義分割等任務(wù)上的表現(xiàn)大大超越傳統(tǒng)方法。循環(huán)神經(jīng)網(wǎng)絡(luò)適合解決序列信息相關(guān)問(wèn)題,已廣泛應(yīng)用于自然語(yǔ)言處理領(lǐng)域,如語(yǔ)音識(shí)別、機(jī)器翻譯、對(duì)話系統(tǒng)等。
深度學(xué)習(xí)技術(shù)仍不完美,有待于進(jìn)一步提升。一是深度神經(jīng)網(wǎng)絡(luò)的模型復(fù)雜度高,巨量的參數(shù)導(dǎo)致模型尺寸大,難以部署到移動(dòng)終端設(shè)備。二是模型訓(xùn)練所需的數(shù)據(jù)量大,而訓(xùn)練數(shù)據(jù)樣本獲取、標(biāo)注成本高,有些場(chǎng)景樣本難以獲取。三是應(yīng)用門(mén)檻高,算法建模及調(diào)參過(guò)程復(fù)雜繁瑣、算法設(shè)計(jì)周期長(zhǎng)、系統(tǒng)實(shí)施維護(hù)困難。四是缺乏因果推理能力,圖靈獎(jiǎng)得主、貝葉斯網(wǎng)絡(luò)之父Judea Pearl指出當(dāng)前的深度學(xué)習(xí)不過(guò)只是“曲線擬合”。五是存在可解釋性問(wèn)題,由于內(nèi)部的參數(shù)共享和復(fù)雜的特征抽取與組合,很難解釋模型到底學(xué)習(xí)到了什么,但出于安全性考慮以及倫理和法律的需要,算法的可解釋性又是十分必要的。因此,深度學(xué)習(xí)仍需解決以上問(wèn)題。
二、深度學(xué)習(xí)發(fā)展趨勢(shì)
深度神經(jīng)網(wǎng)絡(luò)呈現(xiàn)層數(shù)越來(lái)越深,結(jié)構(gòu)越來(lái)越復(fù)雜的發(fā)展趨勢(shì)。為了不斷提升深度神經(jīng)網(wǎng)絡(luò)的性能,業(yè)界從網(wǎng)絡(luò)深度和網(wǎng)絡(luò)結(jié)構(gòu)兩方面持續(xù)進(jìn)行探索。神經(jīng)網(wǎng)絡(luò)的層數(shù)已擴(kuò)展到上百層甚至上千層,隨著網(wǎng)絡(luò)層數(shù)的不斷加深,其學(xué)習(xí)效果也越來(lái)越好,2015年微軟提出的ResNet以152層的網(wǎng)絡(luò)深度在圖像分類(lèi)任務(wù)上準(zhǔn)確率首次超過(guò)人眼。新的網(wǎng)絡(luò)設(shè)計(jì)結(jié)構(gòu)不斷被提出,使得神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)越來(lái)越復(fù)雜。如:2014年谷歌提出了Inception網(wǎng)絡(luò)結(jié)構(gòu)、2015年微軟提出了殘差網(wǎng)絡(luò)結(jié)構(gòu)、2016年黃高等人提出了密集連接網(wǎng)絡(luò)結(jié)構(gòu),這些網(wǎng)絡(luò)結(jié)構(gòu)設(shè)計(jì)不斷提升了深度神經(jīng)網(wǎng)絡(luò)的性能。
深度神經(jīng)網(wǎng)絡(luò)節(jié)點(diǎn)功能不斷豐富。為了克服目前神經(jīng)網(wǎng)絡(luò)存在的局限性,業(yè)界探索并提出了新型神經(jīng)網(wǎng)絡(luò)節(jié)點(diǎn),使得神經(jīng)網(wǎng)絡(luò)的功能越來(lái)越豐富。2017年,杰弗里?辛頓提出了膠囊網(wǎng)絡(luò)的概念,采用膠囊作為網(wǎng)絡(luò)節(jié)點(diǎn),理論上更接近人腦的行為,旨在克服卷積神經(jīng)網(wǎng)絡(luò)沒(méi)有空間分層和推理能力等局限性。2018年,DeepMind、谷歌大腦、MIT的學(xué)者聯(lián)合提出了圖網(wǎng)絡(luò)的概念,定義了一類(lèi)新的模塊,具有關(guān)系歸納偏置功能,旨在賦予深度學(xué)習(xí)因果推理的能力。
深度神經(jīng)網(wǎng)絡(luò)工程化應(yīng)用技術(shù)不斷深化。深度神經(jīng)網(wǎng)絡(luò)模型大都具有上億的參數(shù)量和數(shù)百兆的占用空間,運(yùn)算量大,難以部署到智能手機(jī)、攝像頭和可穿戴設(shè)備等性能和資源受限的終端類(lèi)設(shè)備。為了解決這個(gè)問(wèn)題,業(yè)界采用模型壓縮技術(shù)降低模型參數(shù)量和尺寸,減少運(yùn)算量。目前采用的模型壓縮方法包括對(duì)已訓(xùn)練好的模型做修剪(如剪枝、權(quán)值共享和量化等)和設(shè)計(jì)更精細(xì)的模型(如MobileNet等)兩類(lèi)。深度學(xué)習(xí)算法建模及調(diào)參過(guò)程繁瑣,應(yīng)用門(mén)檻高。為了降低深度學(xué)習(xí)的應(yīng)用門(mén)檻,業(yè)界提出了自動(dòng)化機(jī)器學(xué)習(xí)(AutoML)技術(shù),可實(shí)現(xiàn)深度神經(jīng)網(wǎng)絡(luò)的自動(dòng)化設(shè)計(jì),簡(jiǎn)化使用流程。
深度學(xué)習(xí)與多種機(jī)器學(xué)習(xí)技術(shù)不斷融合發(fā)展。深度學(xué)習(xí)與強(qiáng)化學(xué)習(xí)融合發(fā)展誕生的深度強(qiáng)化學(xué)習(xí)技術(shù),結(jié)合了深度學(xué)習(xí)的感知能力和強(qiáng)化學(xué)習(xí)的決策能力,克服了強(qiáng)化學(xué)習(xí)只適用于狀態(tài)為離散且低維的缺陷,可直接從高維原始數(shù)據(jù)學(xué)習(xí)控制策略。為了降低深度神經(jīng)網(wǎng)絡(luò)模型訓(xùn)練所需的數(shù)據(jù)量,業(yè)界引入了遷移學(xué)習(xí)的思想,從而誕生了深度遷移學(xué)習(xí)技術(shù)。遷移學(xué)習(xí)是指利用數(shù)據(jù)、任務(wù)或模型之間的相似性,將在舊領(lǐng)域?qū)W習(xí)過(guò)的模型,應(yīng)用于新領(lǐng)域的一種學(xué)習(xí)過(guò)程。通過(guò)將訓(xùn)練好的模型遷移到類(lèi)似場(chǎng)景,實(shí)現(xiàn)只需少量的訓(xùn)練數(shù)據(jù)就可以達(dá)到較好的效果。
三、未來(lái)發(fā)展建議
加強(qiáng)圖網(wǎng)絡(luò)、深度強(qiáng)化學(xué)習(xí)以及生成式對(duì)抗網(wǎng)絡(luò)等前沿技術(shù)研究。由于我國(guó)在深度學(xué)習(xí)領(lǐng)域缺乏重大原創(chuàng)性研究成果,基礎(chǔ)理論研究貢獻(xiàn)不足,如膠囊網(wǎng)絡(luò)、圖網(wǎng)絡(luò)等創(chuàng)新性、原創(chuàng)性概念是由美國(guó)專(zhuān)家提出,我國(guó)研究貢獻(xiàn)不足。在深度強(qiáng)化學(xué)習(xí)方面,目前最新的研究成果大都是由DeepMind和OpenAI等國(guó)外公司的研究人員提出,我國(guó)尚沒(méi)有突破性研究成果。近幾年的研究熱點(diǎn)生成式對(duì)抗網(wǎng)絡(luò)(GAN)是由美國(guó)的研究人員Goodfellow提出,并且谷歌、facebook、twitter和蘋(píng)果等公司紛紛提出了各種改進(jìn)和應(yīng)用模型,有力推動(dòng)了GAN技術(shù)的發(fā)展,而我國(guó)在這方面取得的研究成果較少。因此,應(yīng)鼓勵(lì)科研院所及企業(yè)加強(qiáng)深度神經(jīng)網(wǎng)絡(luò)與因果推理模型結(jié)合、生成式對(duì)抗網(wǎng)絡(luò)以及深度強(qiáng)化學(xué)習(xí)等前沿技術(shù)的研究,提出更多原創(chuàng)性研究成果,增強(qiáng)全球?qū)W術(shù)研究影響力。
加快自動(dòng)化機(jī)器學(xué)習(xí)、模型壓縮等深度學(xué)習(xí)應(yīng)用技術(shù)研究。依托國(guó)內(nèi)的市場(chǎng)優(yōu)勢(shì)和企業(yè)的成長(zhǎng)優(yōu)勢(shì),針對(duì)具有我國(guó)特色的個(gè)性化應(yīng)用需求,加快對(duì)深度學(xué)習(xí)應(yīng)用技術(shù)的研究。加強(qiáng)對(duì)自動(dòng)化機(jī)器學(xué)習(xí)、模型壓縮等技術(shù)的研究,加快深度學(xué)習(xí)的工程化落地應(yīng)用。加強(qiáng)深度學(xué)習(xí)在計(jì)算機(jī)視覺(jué)領(lǐng)域應(yīng)用研究,進(jìn)一步提升目標(biāo)識(shí)別等視覺(jué)任務(wù)的準(zhǔn)確率,以及在實(shí)際應(yīng)用場(chǎng)景中的性能。加強(qiáng)深度學(xué)習(xí)在自然語(yǔ)言處理領(lǐng)域的應(yīng)用研究,提出性能更優(yōu)的算法模型,提升機(jī)器翻譯、對(duì)話系統(tǒng)等應(yīng)用的性能。
作者簡(jiǎn)介
趙強(qiáng),工學(xué)碩士,高級(jí)工程師,現(xiàn)就職于中國(guó)信息通信研究院云計(jì)算與大數(shù)據(jù)研究所人工智能部。主要對(duì)人工智能的技術(shù)、應(yīng)用與產(chǎn)業(yè)開(kāi)展研究,并進(jìn)行相關(guān)系統(tǒng)軟件的設(shè)計(jì)與研發(fā)。研究成果獲批國(guó)家發(fā)明專(zhuān)利4項(xiàng),軟件著作權(quán)5項(xiàng)。
聯(lián)系方式:zhaoqiang@caict.ac.cn
來(lái)源:中國(guó)信息通信研究院CAICT