來源: 科技日報 作者: 馮衛東 劉霞
請讀者朋友們先靜下心來想想,你能想到的最沮喪、最棘手或者簡單說來最煩惱的問題是什么?接下來,你再想想什么技術可以解決這些問題。為此,美國麻省理工學院(MIT)的《技術評論》雜志為讀者朋友們遴選出了2013年的10大突破性技術,這些技術為解決問題而生,將會極大地擴展人類的潛能,也最有可能改變世界的面貌。
《技術評論》雜志的編輯在文章中指出,今年,我們首次用“突破性技術”來代替以往的“新興技術”。我們對突破性技術的定義非常簡單:能讓人們以新方式使用技術的進展。它或許是一種為人們提供有用接口的直觀設計(比如智能手表);或者是使腦損傷患者能重新形成記憶的實驗設備(比如記憶植入物)。有些技術可能對經濟持續穩定的發展至關重要(比如3D打印技術和超級電網);而另外一些技術則可能會改變我們的溝通方式(比如臨時社交媒體)或者與我們的未來密切相關(比如產前DNA測序)。有些技術是工程師們天才創意的結晶;而有些技術則是科學家們對長期困擾他們的問題所采取的諸多嘗試的集大成者(比如深度學習和超高效太陽能電池)。總而言之,我們希望這份年度技術榜單不僅能告訴人們需要知道這些技術;也借此對提出這些創意的人致以崇高敬意。
這些突破性技術中,深度學習位居榜首,其余九個分別是:超級電網、記憶植入物、藍領機器人、智能手表、產前DNA測序、3D打印技術、臨時社交媒體、來自廉價手機的龐大數據和超高效太陽能電池,我們希望這些技術能為我們繪制出一幅比較全面的科技發展現狀圖。
(一)深度學習:讓機器學會思考和做決定
現在的機器擁有超強的計算能力,能識別對象并實時翻譯講話。人工智能終將變得越來越聰明。
重要性:如果計算機能夠可靠地識別模式并對外部世界的發展趨勢給出正確推論,那么,它可以更有效地幫助人類。
突破:這種人工智能方法可以放之四海而皆準,廣泛應用于多個領域。
重要參與者:谷歌公司、微軟公司、IBM公司、加拿大多倫多大學的杰弗里•辛頓教授。
美國發明家、預言家雷•庫茲韋爾曾發明了盲人閱讀機、音樂合成器和語音識別系統。2012年7月,庫茲韋爾拜訪了谷歌公司的首席執行官拉里•佩奇,但他的目的并非為了找工作。庫茲韋爾是一名受人尊敬的發明家,也在變成研究機器智能的未來學家。他想與已經看過他即將出版的《如何創建思維》這本書手稿的佩奇討論此書,他對佩奇表示,他想創辦一家公司來實現自己的想法——建造一臺真正的智能計算機:能夠理解語言,接著進行推論然后自己做出決定。
很顯然,這樣一種嘗試需要谷歌公司海量的數據庫和無與倫比的計算能力。佩奇對庫茲韋爾說:“我可以給你一些權限,讓你使用我們公司的數據庫和計算機,但是,靠一家公司單打獨斗,很難做成這件事。”因此,佩奇建議除了自己開公司,從沒有在其他公司工作過的庫茲韋爾加入谷歌。庫茲韋爾很快做出了決定:今年2月,他正式入職谷歌,成為該公司的工程部主管。庫茲韋爾說:“50多年來,我專注研究人工智能就是為了這一刻。”
吸引庫茲韋爾的不僅包括谷歌公司的計算資源,而且,也包括該公司在人工智能的新領域——深度學習方面所取得的令人驚嘆的進步。深度學習軟件試圖模擬大腦新皮質內神經元的活動,新皮質是哺乳動物大腦皮質的一部分,在腦半球頂層,大約2到4毫米厚,分為6層,占據大腦80%的這些皺褶正是人類思想的發源地。深度學習軟件能非常真切地學會識別用數字形式表示的聲音、圖像和其他數據的不同模式。
幾十年前,就有科學家提出了深度學習的基本思路:軟件能用人造“神經網絡”來模擬大腦新皮質中的神經元陣列,幾十年來,研究這一領域的科學家們可謂喜憂摻半。但是,得益于數學公式的改進和計算能力的提升,計算機科學家現在能為更多虛擬神經元建立模型。
隨著科學家們的研究不斷深入,現在,這些軟件在語音和圖像識別方面取得了可喜的進步。去年6月,谷歌研發的一套深度學習系統證明,其在YouTube視頻的1000萬張圖像中識別出諸如貓等物體的準確度為此前任何一個圖像識別系統的兩倍。谷歌還利用該技術,降低了其最新研發的安卓(Android)手機軟件的語音識別的錯誤率。去年10月,微軟首席研究官里克•拉希德在中國演講期間,向與會來賓演示了一款令人驚嘆不已的語音軟件。該軟件可將拉希德的口頭發言轉錄成英文文本,錯誤率僅為7%,之后,再將英文文本翻譯成漢語文本,然后模仿他的口音用普通話說出那些文本。同樣在去年10月份,一個由三名研究生和兩位教授組成的團隊贏得了化學與制藥公司默克公司舉辦的一場競賽,競賽的主旨是鑒別出可導致新藥的分子,該團隊正是采用深度學習的方法,將目標對準那些最有可能與靶標綁定的分子,從而取得了成功。
谷歌目前已經成為一塊極富吸引力的磁鐵,吸引著全球研究深度學習和相關的人工智能領域專家紛至沓來。2013年3月,谷歌收購了由加拿大多倫多大學計算機科學教授杰弗里•希頓創立的深度學習企業DNNresearch,希頓也曾獲得過默克大獎。希頓目前將自己的時間一分為二:一半給大學;一半給谷歌。辛頓表示,他計劃“將這一領域的理念提取出來,用來解決實際問題——諸如圖像識別、搜索、自然語言理解等方面的問題”。
上述研究進展時刻在提醒人工智能研究領域的專家們:科幻小說和電影中出現的機器終將出現在現實生活中。的確,機器智能已滲透到各行各業并在逐步改變這些行業的面貌,從通訊、計算到醫療、制造以及運輸等,不一而足。IBM研究的超級計算機Watson在美國著名的智力比賽中獲勝讓這一切得以彰顯。Watson也使用了一些深度學習技術,而且,科學家們現在也在訓練它幫助醫生做決定。微軟也在手機操作系統Windows Phone和Bing語音搜索中用到了深度學習技術。
然而,要想將深度學習技術從語音和圖像識別領域擴展到其他應用領域則需要科學家們在概念和軟件上做出更大突破,而且還需要計算能力的進一步增強。或許,在幾年內,我們不會看到計算機能自己思考,但幾十年內或許可以。微軟美國研究院的院長皮特•李說,深度學習已經引發了人工智能領域很多新的大挑戰。
建造大腦
當然,有挑戰就會有人想解決辦法,一直有一些富有競爭力的方法來應對這些挑戰。現在,人們已經可以將現實世界的信息和規則“喂給”計算機,為了做到這一點,需要程序員們不辭辛勞地編寫這方面的軟件。這會耗費大量人力物力,但是,系統仍然無法處理模糊數據,這些程序的使用范圍僅限于一些受控的應用領域,諸如手機的菜單系統等,該系統要求你通過說出特定的詞語來提要求。
人工智能領域出現后不久,神經網絡也于上世紀50年代開始興起。神經網絡似乎很有前景,因為它們試圖模擬大腦的工作方式,盡管采用的是一種非常簡化的形式。程序能標示出一套虛擬的神經元然后隨機給它們分配數值或者“權值”,以讓它們之間相互關聯。這些“權值”決定了每個模擬的神經元的反應——用數值輸出0和1來表示,通過這種方式可以對圖像中的邊框或者藍色陰影、話語中的一個音素的某個能級等特征進行數字化表達。
程序員需要訓練神經網絡通過用含有這些物體的圖像或含有這些因素的聲波的數字化后的版本來探測一個物體或者音素。如果該網絡無法精確地識別某個特定的模式,將會有一個算法來調整這些權值。這種訓練的最終目的是讓網絡能夠持續一致地識別出語音或者圖像中的這種模式,也就是說,識別出每句語音中的音素“d”或者每幅圖像中的狗,這同小孩子通過觀察人們稱作狗的動物的頭型、行為以及毛皮、吠聲等等來認識狗如出一轍。
但是,早期的神經網絡一次能模擬的神經元的數量有限,因此,它們無法識別出復雜程度很高的模式,這種情況一直持續到上世紀70年代。
在上世紀80年代中期,辛頓和其他人使用所謂的“深度”模型,引發了神經網絡研究的新一輪復興,深度模型能更好地利用軟件模擬多層神經網絡。但是,這一技術仍然需要大量的人力投入:程序員們不得不在將數據填入神經元網絡前給每個數據貼上標簽。而且,復雜的語音或者圖像識別所要求的計算能力彼時也讓人望塵莫及。
在過去十年里,辛頓和其他研究人員才終于做出了一些根本性的概念上突破。2006年,辛頓研發出了一種更有效地訓練單層神經元的方法。即第一層網絡學習一些基本的特征,諸如圖像的邊緣或者聲音的最小單元等。它通過發現那些出現頻率反常高的數字化后的像素或者聲波組合來做到這一點。一旦第一層精確地識別出這些特征,那么,它將被“喂給”第二層,以便第二層訓練自己識別更復雜的特征,諸如邊角或者聲音單位的組合等等。這一過程在多層之間不斷重復,直到該系統能夠可靠地識別出音素或者對象為止。
就像上面提到的圖像中的貓。去年6月,谷歌演示了迄今最大的神經網絡,其擁有超過10億個節點。美國斯坦福大學的計算機科學教授安德魯•恩格和谷歌的科學家杰夫•迪恩讓系統從1000萬個隨機選擇的YouTube視頻上挑出了貓的圖像。在該軟件模型中,一個模擬的神經元主要注意貓的圖像。其他神經元則專注于人臉、黃色的花朵以及其他物體的圖像。因為深層學習擁有的強大功能,盡管此前并沒有人給這些圖像貼上標簽,該系統還是識別出了這些互不相干的對象。
然而,讓某些人工智能專家深感震驚的是深度學習在圖像識別領域所取得的驚人成就。該系統可以給YouTube視頻中的對象分類,并添加主題,準確率達16%,盡管聽起來并不是很高,但與以前的方法相比,準確率提高了70%。迪恩強調稱,要知道,YouTube視頻中的對象總共有2.2萬個類別,大部分人都無法做到這一點。當該系統被要求將圖像分成1000多個常見類別時,準確率一下子飆升到50%。
大數據
在實驗中訓練多層虛擬神經元占用了谷歌公司的1.6萬臺計算機處理器,谷歌公司研發這些計算基礎設施的目的是用于搜索引擎和其他服務。機器學習新興公司Vicarious的聯合創始人迪利普•喬治稱,人工智能領域最近取得的進步80%要歸功于計算能力的增強。
然而,谷歌龐大的數據中心深度學習飛速發展只是這枚硬幣的一面,谷歌的操作策略則是這枚硬幣的另一面,這些操作策略就是,將計算任務分開,讓不同的計算機執行不同的操作以便很快完成這些任務。這是迪恩早期的研究成果,迪恩已在谷歌工作了14年。這一策略讓深度學習神經網絡的訓練速度大大提高,使谷歌能夠運行更大的網絡并朝這些網絡填入更多數據。
而且,深度學習也提高了智能手機上聲音搜索軟件的性能。直到去年,谷歌的安卓(Android)手機軟件使用的方法還會弄錯很多單詞的意思。但是,在準備于去年7月發布新安卓系統的過程中,迪恩領導的研究團隊用基于深度學習的系統取代了部分語音系統。因為多層神經元能對一個聲音的多種變形進行更精確的訓練,所以,該系統能更可靠地對各種支離破碎的聲音進行識別,尤其是在地鐵等嘈雜環境中的聲音。因為新系統能夠更好地理解話語所表達的真實意義,因此,返回的結果可能也會更加精確。幾乎一夜之間,錯誤率下降到了25%,結果好得出乎人意料之外,有些評論家現在甚至認為安卓的語音搜索功能比蘋果手機最著名的Siri語音助手還要更智能。
盡管上述諸多進展令人歡欣鼓舞,但是,并非每個人都認為深度學習會助推人工智能超越人腦。有些批評家表示,深度學習和人工智能從根本上忽略了大腦生物學的很多方面,太過于注重計算能力。
其中一個批評來自手提微型電腦Treo的發明者、PalmComputing公司的創辦人杰夫•霍金斯,2004年,霍金斯就出版了《人工智能的未來》一書,主要討論大腦如何工作以及如何為建造智能機器提供引導。
霍金斯上一個風險投資是Numenta公司,這是一個令人興奮的新公司,它試圖建立像人腦一樣的計算機,該公司正在研發一種機器學習系統,其在生物學上受到了深度學習理論的啟發,但并不使用深度學習。Numenta的系統能夠幫助預測能源消耗模式以及諸如風車等機器失敗的可能性。
霍金斯表示,深度學習無法解釋時間的概念。他說,大腦會處理傳感數據流,而且,人類的學習依靠回憶模式序列:當你觀察到一只貓在做某些有意思事情的視頻,有意義的是運動本身,而非谷歌在實驗中使用到的一系列靜止圖像。霍金斯說:“谷歌的態度是,數據彌補了一切。”
不過,即使數據不能彌補一切,諸如谷歌等公司用來解決這些問題的計算資源也不會被棄置。深度學習的支持者們強調說,這些數據非常關鍵,因為大腦本身比今天的任何一個神經網絡都要復雜得多。他們表示:“人類需要很多計算資源來使思想更好地工作。”
敢問未來之路在何方?
盡管谷歌對深度學習的未來應用并不那么確定,但是,其前景確實慢慢在發酵。顯然,更好的圖像搜索能夠幫助YouTube。而且,迪恩表示,深度學習模型能使用語音數據來更快地訓練系統識別其他語音數據。更復雜的圖像識別技術有望使谷歌的自行駕駛汽車表現更好。而且,深度學習和人工智能軟件也將幫助谷歌和其廣告客戶更好地了解人們的想法與需求,從而對廣告營銷產生重大影響。
上述美好暢想正是吸引庫茲韋爾的魅力所在,65歲的庫茲韋爾多年來一直潛心研究智能機器。在高中階段,他就編寫軟件使計算機能夠制造出不同形式的音樂,并于1965年在電視秀節目《我有一個秘密》中進行了演示。從那時起,他的發明囊括了多個第一:第一臺盲人閱讀器;第一個可以對要打印的任何字體的文本進行掃描并數字化的軟件;第一個能再造交響樂器的聲音的音樂合成器;第一個具備大型詞典的對話識別系統。
他現在的設想是,未來,人們的手機通訊錄中會有一個“網絡朋友”,可以在用戶允許的情況下閱讀電子郵件、追蹤用戶的一舉一動,因此,當你有任何問題時,他都會告訴你答案。這并非他在谷歌的直接目的,但是,這一目的與谷歌聯合創始人謝爾蓋•布林的目標相吻合。在公司成立之初,布林就表示,他想建造《2001太空漫游》中人工智能電腦HAL9000(HAL9000作為太空船的總控制電腦,既具有電腦對任務的絕對服從及精確性,又具有人類思維甚至感情,它在太空旅行中設計害死了除戴維之外的所有宇航員,最后戴維讓其停止運行)那樣的智能機器,唯一不同的是,他制造出來的機器不會殺人。
庫茲韋爾目前的目標是幫助計算機理解甚至表達自然語言。他說:“我的使命是讓計算機對自然語言有足夠的理解力,然后來做有用的事情——更好地進行搜索、更好地回答問題。”最終,他希望制造出比IBM公司的Watson更好的機器——盡管他很欣賞Watson表現出的理解能力和快速反應能力。
庫茲韋爾并不僅僅專注于深度學習,盡管他承認他的語音識別方法也同樣基于大腦如何工作的理論。他想給單詞、詞組以及句子的本來意義建模,包括容易讓計算機犯錯的模糊意義。他說:“我想尋找一種圖畫式的方式來表達語言的語義。”
這就需要一種更綜合的方式來用圖表表示句子的句法。谷歌也在使用這種分析方法改進翻譯中的語法。更好地理解自然語言將需要計算機能夠掌握我們人類認為是常識的意思。為此,庫茲韋爾將會用到谷歌的知識圖譜——谷歌對大約7億個主題、方位、人等進行的分類以及它們之間的幾十億個關系。知識圖譜去年投入使用,會給搜索者提供問題的答案而非只有鏈接。
最終,庫茲韋爾計劃用深度學習算法來幫助計算機處理“語言中的軟邊界和模糊內容”。這聽起來令人有點望而卻步,實際情況也的確如此。他說:“理解自然語言并非像搜索那樣,是一個在某個時刻就可以完成的任務,它是一個永遠也無法完成的計劃。”
盡管庫茲韋爾的設想可能需要多年才能變成現實,在可見的未來,深度學習可以在語音和圖像識別之外的其他領域找到用武之地。首先,在藥物發現方面——辛頓的團隊在默克大賽中取得大獎就證明了這一點。
情況還不止于此,微軟公司的皮特•李說,深度學習可以應用于機器視覺方面,機器視覺就是用機器代替人眼來做測量和判斷,這一技術可以將成像應用于工業檢測和機器人視覺引導等方面。他也預想私人傳感器的出現——深度神經網絡能夠用來預測可能會出現的醫療問題。而且,貫穿整個城市的傳感器提供的數據可能會讓深度學習系統預測什么地方可能會出現交通擁堵。
在一個企圖為人腦建模這樣富有深遠影響力的領域,一項技術并不能解決所有問題,這一點難以避免。但現在,深度學習正在引領人工智能的發展方向,迪恩說:“對于我們理解世界來說,深度學習真的是一個非常強大的工具。”
(二)超級電網:出了問題也不怕
瑞士ABB集團新研發的斷路器可以實現長距離的直流電輸出構想,且適用于現有地區及國家的電網中,可以在5毫秒內切斷相當于整個核電廠輸出功率的巨大電流,速度之快相當于蜜蜂振翅一次;電流之大相當于100萬歐洲人的用電。這種大功率的斷路器有望使直流電網變得更實用。
重要性:直流電網可能會因此變得更高效,而且,也能廣泛地同風力發電廠和太陽能發電站連接到一起。
突破:第一臺實用的混合式高壓直流斷路器。斷路器指能夠關合、承載和開斷正常回路條件下的電流,并能關合、在規定的時間內承載和開斷異常回路條件(包括短路條件)下電流的開關裝置。
重要參與者:瑞士ABB集團、德國西門子公司、美國電力研究院(EPRI)、美國通用原子公司。
高壓的直流電輸電線能夠有效地在幾千公里內以及水下長距離傳輸電力,其性能遠勝目前在輸電網中廣泛使用的交流線。但是100多年以來,交流電線一直占據主流,因為高壓的直流電只能用于點對點傳輸,而無法形成穩定的電力系統所需要的集成電網。
去年12月,瑞士的ABB公司正式宣布,他們在高壓直流斷路器研發領域獲得突破性進展,他們研發出了一種實用的高壓直流電斷路器,能將出現問題的部分電網切斷,從而保證電網的其他部分正常工作。這一創新進展解決了直流電網所面臨的主要技術障礙,為打造高效可靠的直流電力供應系統翻開了新的篇章。
清潔能源如太陽能、水力發電等,不是位于偏遠的高山、沙漠,就是自家屋頂。遺憾的是,既有的交流電系統無法妥善解決遠距離傳輸的電力損失,而直流輸電技術是最佳解決之道。高壓直流輸電技術可實現水力電廠的遠距電力傳輸、離岸風電與太陽能并網及不同地區之間點對點的互相連接。
如此一來,來自于撒哈拉沙漠的太陽能就可以為多云的德國提供電力;來自于歐洲各地的風能也可以在夜間點亮電燈,從而照亮城市的夜空。結果,將會有更多可靠的可再生能源,同仇敵愾地與化石能源競爭,改變目前各種可再生能源單槍匹馬同化石能源作戰的現狀。
除了持續發展混合式直流斷路器之外,ABB同時也建立了高壓直流電網模擬中心,為未來電網系統進行先期研究。