對(duì)于結(jié)構(gòu)化信息的處理能力,機(jī)器遠(yuǎn)遠(yuǎn)超過(guò)人,比如說(shuō)一些報(bào)表;但對(duì)于非結(jié)構(gòu)化的信息,比如說(shuō)聽(tīng)覺(jué)信息,人要遠(yuǎn)遠(yuǎn)強(qiáng)于機(jī)器人,比如人可快速在人群里找到熟悉的朋友。盡管機(jī)器的計(jì)算速度提升比較快,但計(jì)算機(jī)的認(rèn)知能力還非常落后,它的認(rèn)知能力甚至不及一個(gè)三歲小孩。
“如果有一天你坐在車?yán)锩?,沒(méi)有駕駛員,或者駕駛員沒(méi)有把握方向盤,千萬(wàn)不要震驚,因?yàn)槲覀円呀?jīng)進(jìn)入了一個(gè)無(wú)人駕駛時(shí)代”,這是清華大學(xué)教授、863計(jì)劃專家組成員孫富春教授在CCF-GAIR大會(huì)上演講的開(kāi)場(chǎng)白。
他還不無(wú)自豪的介紹了其創(chuàng)辦的中國(guó)智能車未來(lái)挑戰(zhàn)賽取得的成就:“你可能難以想象,從長(zhǎng)沙到武漢2800多公里的路段里,有雨天也有晴天,人工干預(yù)僅僅占整個(gè)路段的0.75%;從北京到天津150多公里的路段里,沒(méi)有人工干預(yù),實(shí)現(xiàn)全程的自主駕駛……”
作為國(guó)家自然科學(xué)基金委員會(huì)重大研究計(jì)劃“視聽(tīng)覺(jué)信息的認(rèn)知計(jì)算”指導(dǎo)專家組的一員,孫富春教授介紹,該研究計(jì)劃在2000年披露,經(jīng)過(guò)8年的論證,直到2008年才在國(guó)家自然基金委立項(xiàng),至今走過(guò)8年,要感謝許許多多人。
“視聽(tīng)覺(jué)信息的認(rèn)知計(jì)算”研究計(jì)劃
視聽(tīng)覺(jué)信息首先是“看到”。上帝對(duì)人特別青睞,從眼睛到微曲的皮層,我們經(jīng)歷的是感知部分和信息處理部分,還有連接二者的中間環(huán)節(jié)。這么長(zhǎng)的路徑,觸覺(jué)、聽(tīng)覺(jué)等其他感覺(jué)是沒(méi)辦法做到的,所以眼睛被稱為心靈的窗戶。
視聽(tīng)覺(jué)信息研究對(duì)象
數(shù)據(jù)顯示,人類獲取外界的信息80%來(lái)自視覺(jué),而且,大腦皮層的60%都與視覺(jué)相關(guān)。當(dāng)然,聽(tīng)覺(jué)也是非常重要的部分。
先鋒科學(xué)家揭示,自然圖像經(jīng)過(guò)稀疏編碼以后的基函數(shù)與微曲的皮層細(xì)胞感受的反應(yīng)特性是一致的。這一發(fā)現(xiàn)也為未來(lái)通過(guò)稀疏編碼的方式來(lái)研究視覺(jué)編碼奠定了理論基礎(chǔ)。
據(jù)孫教授介紹,在專家組近年的研究中,發(fā)現(xiàn)觸覺(jué)與視覺(jué)是同構(gòu)的(讓人想到盲人和失聰者的眼睛特別好)。未來(lái)可以通過(guò)人工攝像機(jī)把視覺(jué)編碼變成觸覺(jué)編碼,讓盲人感受到外部的世界(這兩年也已經(jīng)有人工視網(wǎng)膜的出現(xiàn))。
專家組還發(fā)現(xiàn),語(yǔ)音在稀疏編碼下的去燥特性、增強(qiáng)特性非常好。語(yǔ)音是否也具有與觸覺(jué)一樣的底層結(jié)構(gòu)呢?這正是需要研究的問(wèn)題。
所以,本計(jì)劃中的“視聽(tīng)覺(jué)信息”研究對(duì)象主要是指與人視聽(tīng)覺(jué)感知相關(guān)的圖像、語(yǔ)音以及文本信息,目的是促進(jìn)計(jì)算機(jī)對(duì)這類信息實(shí)現(xiàn)有效的處理和理解。
機(jī)器認(rèn)知能力不如三歲小孩
事實(shí)上,日常生活中視聽(tīng)覺(jué)信息非常多,有各種各樣的工具(信息器)比如手機(jī)、攝像機(jī)、網(wǎng)絡(luò)攝像機(jī)、衛(wèi)星遙感等來(lái)捕捉這些信息。
網(wǎng)絡(luò)產(chǎn)生前,大家生活在二元世界里,彼時(shí)的機(jī)器人智能都是局部的;如今在網(wǎng)絡(luò)世界中,機(jī)器人完全可以實(shí)現(xiàn)全局智能。比如自動(dòng)駕駛汽車可以在網(wǎng)上找到一條路徑,通過(guò)地圖規(guī)劃路徑,借助攝像機(jī)的形態(tài)識(shí)別找到我們今天的會(huì)場(chǎng),這就是網(wǎng)絡(luò)的神奇。
網(wǎng)絡(luò)上有海量的視聽(tīng)覺(jué)感知數(shù)據(jù)。如何有效地快速地發(fā)現(xiàn)這些數(shù)據(jù),通過(guò)及時(shí)有效的處理把它變成可用的知識(shí),這是無(wú)人駕駛研究中非常重要的部分。
目前,對(duì)于結(jié)構(gòu)化信息的處理能力,機(jī)器遠(yuǎn)遠(yuǎn)超過(guò)人,比如說(shuō)一些報(bào)表;但對(duì)于非結(jié)構(gòu)化的信息,比如說(shuō)聽(tīng)覺(jué)信息,人要遠(yuǎn)遠(yuǎn)強(qiáng)于機(jī)器人,比如人可快速在人群里找到熟悉的朋友,有人駕駛汽車可以在任意非常復(fù)雜的環(huán)境中進(jìn)行駕駛,而無(wú)人駕駛目前還辦不到。
盡管機(jī)器的計(jì)算速度提升比較快,但計(jì)算機(jī)的認(rèn)知能力還非常落后,它的認(rèn)知能力甚至不及一個(gè)三歲小孩。
兩大挑戰(zhàn)和三大基本科學(xué)問(wèn)題
8年來(lái),我們的目的就是研究人類視聽(tīng)覺(jué)的認(rèn)知機(jī)理,發(fā)展新的高效計(jì)算模型,提高計(jì)算機(jī)對(duì)與人視聽(tīng)覺(jué)感知相關(guān)的圖像、語(yǔ)音和文本信息的理解能力和處理效率,在無(wú)人駕駛的平臺(tái)上進(jìn)行驗(yàn)證。目前,圍繞認(rèn)知過(guò)程的表達(dá)與計(jì)算有兩大挑戰(zhàn)和三大基本科學(xué)問(wèn)題。
兩大挑戰(zhàn):
1、復(fù)雜感知信息的理解
2、海量異構(gòu)信息的計(jì)算。
三大基本科學(xué)問(wèn)題:
1、感知基本特征的提取、表達(dá)和整合,主要是要探索人力視聽(tīng)覺(jué)信息基本特征的提取、表達(dá)與整合機(jī)理,為建立相關(guān)高效計(jì)算模型奠定基礎(chǔ)。
2、感知數(shù)據(jù)的機(jī)器學(xué)習(xí)與理解,主要圍繞圖像、語(yǔ)音和語(yǔ)言數(shù)據(jù)的非結(jié)構(gòu)化和半結(jié)構(gòu)化特點(diǎn)使計(jì)算機(jī)難以實(shí)現(xiàn)從數(shù)據(jù)層到語(yǔ)義層的轉(zhuǎn)化,建立新的機(jī)器學(xué)習(xí)方法是實(shí)現(xiàn)這種轉(zhuǎn)化的有效途徑。
3、關(guān)于跨模態(tài)信息的協(xié)同計(jì)算。
目前,三個(gè)關(guān)鍵技術(shù)都取得了突破,比如在視聽(tīng)覺(jué)信息的協(xié)同計(jì)算、自然語(yǔ)言的理解與視聽(tīng)覺(jué)認(rèn)知相關(guān)的腦機(jī)接口方面,已經(jīng)建立無(wú)人駕駛平臺(tái)、腦機(jī)接口平臺(tái)和搜索引擎;還創(chuàng)建了無(wú)人車未來(lái)挑戰(zhàn)賽以及腦機(jī)接口比賽兩個(gè)國(guó)際性的賽事;同時(shí)收獲了國(guó)際科學(xué)獎(jiǎng)項(xiàng)。
孫富春在演講中提到,“我們還把腦機(jī)接口用在無(wú)人駕駛方面,通過(guò)腦控來(lái)控制無(wú)人車的運(yùn)動(dòng)。另外還通過(guò)腦機(jī)接口實(shí)現(xiàn)自動(dòng)泊車。目前,在非浸入式腦機(jī)接口方面,中國(guó)處于世界領(lǐng)先地位”。
駕駛腦
在孫富春教授看來(lái),駕駛腦是專家組這些年研究的突出成果,它主要的工作是模擬人的駕駛經(jīng)驗(yàn),學(xué)習(xí)人眼和聽(tīng)覺(jué)的感知進(jìn)行表達(dá)和融合,在環(huán)境中作出決策。
當(dāng)然,這個(gè)過(guò)程中要去掉人在駕駛過(guò)程的一些情緒的影響。
人的性格決定他開(kāi)車是保守還是張揚(yáng);長(zhǎng)期記憶區(qū)存儲(chǔ)人在長(zhǎng)期駕駛過(guò)程里形成的經(jīng)驗(yàn)和技巧;動(dòng)機(jī)就是完成出行任務(wù)從起點(diǎn)到終點(diǎn)的一次性路徑規(guī)劃;短期記憶主要表示駕駛員的選擇性注意,僅僅關(guān)注剛剛過(guò)去的以及當(dāng)前的周邊駕駛態(tài)勢(shì)。
拒絕人腦中的情緒部分進(jìn)入駕駛腦,永遠(yuǎn)不會(huì)因情緒而分散注意力,機(jī)器始終專注。
我們的眼睛、耳朵可以感知外面的環(huán)境,比如說(shuō)在哪里,這旁邊有沒(méi)有障礙和目標(biāo),通過(guò)長(zhǎng)期記憶區(qū)來(lái)決策這種情況下我應(yīng)該如何駕駛,這叫行動(dòng)。
然后把行動(dòng)的信息和感知信息進(jìn)行比對(duì),確認(rèn)是不是達(dá)到了效果,就形成這樣一個(gè)閉環(huán):從動(dòng)態(tài)感知到態(tài)勢(shì)分析、自主決策到精確的控制和行動(dòng)。
駕駛腦感知域、認(rèn)知域及行動(dòng)域的工作閉環(huán)
這里面還有一個(gè)很重要的概念就是路權(quán):行進(jìn)過(guò)程中車本身占有的空間。在這個(gè)基礎(chǔ)上形成了自主決策。比如速度應(yīng)該有多少變化,轉(zhuǎn)角應(yīng)該多大的變化,形成決策記憶池。通過(guò)控制模塊控制無(wú)人車,從感知到?jīng)Q策再到控制,形成閉環(huán)。
駕駛腦是通過(guò)英偉達(dá)的Drive PX實(shí)現(xiàn)的自動(dòng)駕駛硬件系統(tǒng)。
無(wú)人車未來(lái)挑戰(zhàn)賽
據(jù)悉,從2009年開(kāi)始到去年,該項(xiàng)賽事總共舉辦了7次比賽:
無(wú)人車挑戰(zhàn)賽歷程
從比賽的結(jié)果來(lái)看,人工干預(yù)最后基本取消,速度是越來(lái)越快,比賽也從局限的封閉道路越來(lái)越走向真實(shí)的道路環(huán)境里面。
回顧這8年來(lái),孫富春教授指出下面這些工作對(duì)他們的幫助很大:
第一是認(rèn)知機(jī)理研究成果,如何形成可計(jì)算的模型,這個(gè)我們探索了很多的方法,還需要進(jìn)一步地完善。
第二是在環(huán)境感知的拓?fù)浣Y(jié)構(gòu)信息如何在認(rèn)知過(guò)程中表達(dá)與理解,探索新興的多模態(tài)傳感器。其中包括:
1、聲音、視頻信息的集成。
2、人機(jī)智能混合問(wèn)題,這個(gè)也是剛剛國(guó)家提到的人工智能2.0版本,我們要研究人機(jī)混合的智能系統(tǒng)。
3、借助這個(gè)平臺(tái)發(fā)表更多的關(guān)于認(rèn)知科學(xué)方面的成果,將自然語(yǔ)言理解和腦機(jī)接口集成到無(wú)人車的平臺(tái)上,讓成果走出實(shí)驗(yàn)室。
第三是通過(guò)無(wú)人車平臺(tái)取得的重大進(jìn)展,進(jìn)一步促進(jìn)創(chuàng)新,引領(lǐng)無(wú)人車產(chǎn)業(yè)的發(fā)展。
尾聲,孫富春教授以詩(shī)為寄:“人機(jī)仿造勝奴仆,親我勞耕續(xù)史書(shū)”。
摘自 雷鋒網(wǎng)