編者按
人類視聽覺認(rèn)知機(jī)理研究是認(rèn)知科學(xué)的重要組成部分,而人類視聽覺信息的機(jī)器理解與計(jì)算一直是人工智能領(lǐng)域的主要研究內(nèi)容,在國民經(jīng)濟(jì)、社會發(fā)展和國家安全等領(lǐng)域中扮演著十分重要的角色。
2008年,國家自然科學(xué)基金委員會(以下簡稱自然科學(xué)基金委)設(shè)立了重大研究計(jì)劃“視聽覺信息的認(rèn)知計(jì)算”,旨在發(fā)展和構(gòu)建新的認(rèn)知計(jì)算模型與算法,為提高計(jì)算機(jī)對非結(jié)構(gòu)感知信息與海量異構(gòu)信息的理解能力和計(jì)算效率提供科學(xué)支撐。
實(shí)施10年來,該重大研究計(jì)劃取得了豐碩成果。本期基金版將總結(jié)該重大研究計(jì)劃的經(jīng)驗(yàn),展示其取得的成績。
當(dāng)前,人們對于人工智能也許并不陌生,因?yàn)閺膸啄昵伴_始,相關(guān)新聞就時(shí)常見諸報(bào)端:AlphaGo在圍棋比賽中戰(zhàn)勝人類冠軍李世石和柯潔、無人駕駛汽車獲發(fā)測試牌照即將上路、越來越多高校成立人工智能學(xué)院和研究院……
簡言之,人工智能就是讓機(jī)器能像人那樣理解、思考和學(xué)習(xí),即用計(jì)算機(jī)模擬人的智能。它涵蓋認(rèn)知與推理(包含各種物理和社會常識)、計(jì)算機(jī)視覺、自然語言理解與交流(包含聽覺)、機(jī)器學(xué)習(xí)等廣泛的學(xué)科領(lǐng)域。因此可以說,視聽覺信息的認(rèn)知計(jì)算是人工智能重要研究內(nèi)容,理解人類視聽覺認(rèn)知并建立可計(jì)算視聽覺認(rèn)知模型對人工智能的核心算法具有重大的啟示意義。
來自上世紀(jì)的設(shè)想
但如果將時(shí)間回?fù)苤炼昵埃妼θ斯ぶ悄艿恼J(rèn)識既沒有如此深刻,也不像如今這樣對它抱有那么大的期待。甚至在上世紀(jì)九十年代初,面對全球范圍內(nèi)現(xiàn)代PC的出現(xiàn)和普及,人工智能由于發(fā)展不及預(yù)期導(dǎo)致遇到資金困難等難題,經(jīng)歷了一場寒冬。不過,這個(gè)在當(dāng)時(shí)看似“無人問津”的領(lǐng)域引起了中國工程院院士、西安交通大學(xué)教授鄭南寧的注意。
“為什么人工智能會遭遇寒冬?我們面臨的挑戰(zhàn)是什么?”上世紀(jì)90年代初,中國工程院院士、西安交通大學(xué)教授鄭南寧對這個(gè)問題進(jìn)行了深入思考。
“1999年,‘視聽覺信息的認(rèn)知計(jì)算’重大研究計(jì)劃立項(xiàng)的前期思考和頂層設(shè)計(jì)工作就開始了。”該重大研究計(jì)劃指導(dǎo)專家組組長鄭南寧告訴《中國科學(xué)報(bào)》,但由于科學(xué)家們最初并沒有形成基本的共識,因此歷經(jīng)9年艱辛的研究積累和多次探討,在自然科學(xué)基金委和專家們的共同努力下,才終于在2008年正式啟動(dòng)了這一重大研究計(jì)劃,“這是我國在人工智能基礎(chǔ)研究領(lǐng)域發(fā)展的里程碑之一,標(biāo)志著中國人工智能科學(xué)研究‘國家隊(duì)’的正式組建”。
“本重大研究計(jì)劃在立項(xiàng)伊始,人工智能技術(shù)還未形成當(dāng)今席卷全球范圍的研究熱潮,足以體現(xiàn)出自然科學(xué)基金委與相關(guān)專家的學(xué)術(shù)洞察力和戰(zhàn)略前瞻眼光。”回首往事,鄭南寧欣慰地說。通過這一重大研究計(jì)劃的資助,我國在人工智能領(lǐng)域從理論、方法、技術(shù)到應(yīng)用都得到了蓬勃發(fā)展。
讓基礎(chǔ)研究走出實(shí)驗(yàn)室
立項(xiàng)之初,為確保國家安全與公共安全、推動(dòng)信息服務(wù)及相關(guān)產(chǎn)業(yè)發(fā)展以及提高國民生活和健康水平,研究人員確定了“視聽覺信息的認(rèn)知計(jì)算”重大研究計(jì)劃的目標(biāo),即研究并構(gòu)建新的計(jì)算模型與計(jì)算方法,提高計(jì)算機(jī)對非結(jié)構(gòu)化視聽覺感知信息的理解能力和海量異構(gòu)信息的處理效率,克服圖像、語音和文本(語言)信息處理所面臨的瓶頸困難。
如何才能實(shí)現(xiàn)這一目標(biāo)?在鄭南寧看來,這需要從人類的視聽覺認(rèn)知機(jī)理出發(fā)。“圍繞認(rèn)知過程的‘表達(dá)’與‘計(jì)算’這一基本科學(xué)問題,我們重點(diǎn)開展了‘感知特征的提取、表達(dá)與整合’‘感知數(shù)據(jù)的機(jī)器學(xué)習(xí)與理解’和‘多模態(tài)信息協(xié)同計(jì)算’三個(gè)核心科學(xué)問題的研究。”
“計(jì)算機(jī)對感知信息不能有效處理,根本原因則是不能對真實(shí)場景的基本特征進(jìn)行可靠提取,缺乏對真實(shí)場景基本特征的一般表達(dá)方式以及對不同模態(tài)下信息特征有效整合的理論。”他指出,雖然機(jī)器學(xué)習(xí)和人工神經(jīng)網(wǎng)絡(luò)等方法近年來在高維數(shù)據(jù)可視化、特征提取、數(shù)據(jù)聚類與特征子空間分析等方面取得了重要進(jìn)展,但非結(jié)構(gòu)化數(shù)據(jù)本質(zhì)維數(shù)的確定仍然是一個(gè)公開的難題;現(xiàn)有的信息處理方法主要是針對單模態(tài)的,對多模態(tài)信息的處理還基本上停留在將各種單模態(tài)信息的處理結(jié)果在決策層面上進(jìn)行融合。“正是因?yàn)檫@些基本問題沒有得到解決,計(jì)算機(jī)才只能處理比較理想狀態(tài)下的一些簡單問題,很難處理現(xiàn)實(shí)世界中的復(fù)雜問題。”
通過對上述三個(gè)核心科學(xué)問題的研究,十年來,該重大研究計(jì)劃在認(rèn)知機(jī)理和模型、視聽覺信息處理、自然語言(漢語)理解等方面取得了一系列標(biāo)志性成果。
例如在視覺認(rèn)知機(jī)理方面,研究人員提出了知覺物體的拓?fù)鋵W(xué)定義和注意瞬脫的拓?fù)鋵W(xué)解釋等基礎(chǔ)理論和模型;在視聽覺信息處理與計(jì)算方面,建立了視覺注意力統(tǒng)計(jì)學(xué)習(xí)計(jì)算模型和顯著性目標(biāo)檢測新理論;在漢語自然語言理解方面,創(chuàng)建了一種新的語義計(jì)算理論框架,成功研發(fā)了一系列面向公共安全的語言交互系統(tǒng)。
據(jù)不完全統(tǒng)計(jì),截至2018年9月,該重大研究計(jì)劃共發(fā)表學(xué)術(shù)論文2255篇,申請國家發(fā)明專利532項(xiàng)。其中,在認(rèn)知和信息科學(xué)相關(guān)領(lǐng)域的國際權(quán)威期刊上發(fā)表論文163篇,包括在影響因子5.0以上期刊發(fā)表論文50余篇。
“特別值得一提的是,為了進(jìn)一步推動(dòng)研究工作走出實(shí)驗(yàn)室、產(chǎn)生原創(chuàng)性重大成果,本重大研究計(jì)劃創(chuàng)建了兩個(gè)比賽平臺,即‘中國智能車未來挑戰(zhàn)賽’和‘中國腦—機(jī)接口比賽’,并組織了10屆‘中國智能車未來挑戰(zhàn)賽’和2屆‘中國腦—機(jī)接口比賽’。”鄭南寧介紹道,通過在真實(shí)的物理環(huán)境中驗(yàn)證理論成果,解決實(shí)際環(huán)境中復(fù)雜認(rèn)知和智能行為決策等問題,改變了簡單的論文匯總或?qū)嶒?yàn)室成果演示的傳統(tǒng)模式,促進(jìn)了應(yīng)用基礎(chǔ)研究與物理可實(shí)現(xiàn)系統(tǒng)的有機(jī)結(jié)合。
而這也為我國培養(yǎng)和造就了一大批計(jì)算機(jī)視覺、腦機(jī)接口、無人駕駛技術(shù)和人工智能等方面的優(yōu)秀中青年人才。鄭南寧說:“尤其是‘中國智能車未來挑戰(zhàn)賽’,歷經(jīng)10年的摸索和實(shí)踐,業(yè)已成為中國無人車研發(fā)的重要品牌,培養(yǎng)了一大批本領(lǐng)域優(yōu)秀的中青年科技骨干,是當(dāng)之無愧的中國無人車研發(fā)‘黃埔軍校’。”
加強(qiáng)學(xué)科交叉共融
人類視聽覺認(rèn)知機(jī)理研究是認(rèn)知科學(xué)的重要組成部分,而人類視聽覺信息的機(jī)器理解與計(jì)算一直是人工智能領(lǐng)域主的要研究內(nèi)容。可以說,自立項(xiàng)之日起,“視聽覺信息的認(rèn)知計(jì)算”重大研究計(jì)劃就帶有明顯的學(xué)科交叉屬性,比如信息科學(xué)、神經(jīng)科學(xué)、認(rèn)知心理學(xué)、數(shù)理科學(xué)等學(xué)科的交叉——而這也是鄭南寧十年來感受頗深的地方。
“我們所談的科學(xué)問題普遍性越強(qiáng),它所牽涉的交叉性就越強(qiáng)。要解決基礎(chǔ)科學(xué)問題,必須走學(xué)科交叉這條路。”鄭南寧介紹說,該重大研究計(jì)劃以“認(rèn)知計(jì)算和腦機(jī)接口”和“無人駕駛與智能測試”兩方面為切入點(diǎn),共部署了5個(gè)集成項(xiàng)目,根據(jù)承擔(dān)集成項(xiàng)目的10個(gè)項(xiàng)目組的不完全統(tǒng)計(jì),論文分別發(fā)表在信息科學(xué)、認(rèn)知科學(xué)、心理學(xué)、神經(jīng)科學(xué)、物理學(xué)、生命科學(xué)等領(lǐng)域的國際核心學(xué)術(shù)刊物上,“充分體現(xiàn)了多學(xué)科交叉的特點(diǎn)和我們研究工作的學(xué)術(shù)水平,另外,自然科學(xué)基金委信息學(xué)部在重大研究計(jì)劃實(shí)施的管理機(jī)制創(chuàng)新方面,也為不同領(lǐng)域?qū)<业暮献髁㈨?xiàng)創(chuàng)造了寬松的環(huán)境” 。
比如,視覺注意機(jī)制是生物視覺的一個(gè)重要特性,早期的研究主要集中在心理學(xué)、認(rèn)知科學(xué)和神經(jīng)生理學(xué)等領(lǐng)域,上世紀(jì)80年代后,這一課題引起了計(jì)算機(jī)視覺、人工智能等領(lǐng)域?qū)W者的重視。該重大研究計(jì)劃針對自主式車輛視覺導(dǎo)航的需要,多個(gè)課題組對此問題開展了深入的研究,在計(jì)算視覺與生物視覺結(jié)合方面開展了深入的多學(xué)科交叉,取得一批重要學(xué)術(shù)成果:清華大學(xué)在人機(jī)駕駛模型融合研究方面,開展了駕駛員感知信息處理與融合的認(rèn)知機(jī)制研究;吉林大學(xué)模擬真實(shí)駕駛員對預(yù)期軌跡信息的認(rèn)知處理機(jī)理,研究無人駕駛車輛的局部路徑規(guī)劃問題;西安交通大學(xué)研究了視覺注意機(jī)制建模問題,成為視覺注意力檢測的代表性工作。
不過,在鄭南寧看來,研究者的學(xué)科交叉還有待進(jìn)一步深入。
“一方面,學(xué)科交叉取決于學(xué)者的熱情,這是根本因素。同時(shí),也要有自上而下的組織。”不過他指出,從實(shí)際情況來看,這兩方面都有所不足,“研究者應(yīng)該更多地去主動(dòng)思考科學(xué)問題背后的學(xué)科交叉需求,對于研究中存在的一些急功近利,也需要去改變”。
實(shí)際上,不僅解決科學(xué)問題需要學(xué)科交叉,應(yīng)對人工智能所帶來的深刻的社會問題,也同樣需要學(xué)科交叉。“因?yàn)槿斯ぶ悄苣:宋锢憩F(xiàn)實(shí)、數(shù)據(jù)和個(gè)人的界限,延伸出復(fù)雜的倫理、法律和安全問題。人工智能的逐漸普及和深度應(yīng)用一定會給人們帶來心理的影響,進(jìn)而產(chǎn)生社會人文風(fēng)險(xiǎn),這已不是傳統(tǒng)的工程安全方法能夠解決的問題了。因此在這些領(lǐng)域,人文社會學(xué)科和哲學(xué)學(xué)科將會大有作為。”鄭南寧說。
摘自《中國科學(xué)報(bào)》