“剛才發生了什么”
2018年12月2日,CASP會場上彌漫著一種困惑的氣氛。CASP是結構預測關鍵評價(Critical Assessment of Structure Prediction)的縮寫,它是一項兩年一度旨在預測蛋白質3D結構的競賽。預測蛋白質的形狀可以讓我們更好地理解它在細胞中的作用,以及診斷和治療由于蛋白質錯誤折疊引發的阿爾茨海默病、帕金森病、亨廷頓病和囊腫性纖維化等疾病。但是,蛋白質如何把其很長的氨基酸鏈折疊為緊致的3D形狀依然是生物學中最重要的未解問題之一。
CASP成立于1994年,被稱作蛋白質折疊領域的肯塔基德比馬賽。每隔兩年,這個領域的頂尖研究小組就會參加這一“賽馬”盛會,比較各自的最佳方法,為整個領域建立新的基準。然后,研究人員就回到各自的實驗室,研究他人的方法,改進和發展自己的方法,以期在兩年后賽出好成績。
在 2018年的會議上發生了兩件非同尋常的事情。首先,正如組織者所言,“計算方法在預測蛋白質結構的能力上取得了無與倫比的進步”。客觀來說,這場競賽取得的進步大體相當于通常需要兩次競賽才能取得的進步。其次,這一巨大飛躍并非是由該領域的科學家完成的。獲勝的團隊對于大家而言是完全陌生的。
過去幾年,人工智能在許多領域內都系統性地超越了人類專家,2018年的CASP競賽結果只是其中一個例子。這些進展已經促成一種共識:正在發生的人工智能革命將會改變幾乎每一個行業,創造巨大的社會和經濟機會以及同樣多的挑戰。整個社會都將要面對人工智能時代的到來,它們也許會超越甚至取代人類醫生、司機、士兵和銀行業者。我們需要問的是:人工智能將會如何影響科學?這些改變對科學家又意味著什么?
這波人工智能浪潮有什么不同
當前人工智能革命的核心技術是深度學習,更為專業的叫法是深度神經網絡。盡管人工智能專家對于許多事情都還沒有形成共識,包括這一領域究竟是應該被稱作“人工智能”還是“機器學習”,但是學術圈內外都意識到這確實是“下一個大事件”。
深度學習確實有效,這一點應該說已經得到了驗證。2012年以來,深度學習已經在多到讓我們難以記錄的領域內擊敗原有的機器學習方法。這些進展無疑已經改變了圖像與語音識別、問答系統和機器翻譯等典型的計算機科學領域。深度神經網絡也在其他更廣泛的領域突破了原有的記錄,這些領域包括藥物活性預測、粒子加速器數據分析、大腦回路重構以及基因突變和表達的預測。
最為重要的是,這并非漸進式的改善,而是性能上的跳躍性提升。2012年,深度學習在 ImageNet 挑戰賽首次驚艷亮相,這一賽事是圖像目標識別領域的旗艦性年度競賽。與當時最好的其他方法相比,深度學習方法的誤差率幾乎減小了一半。此后,深度學習算法的性能快速逼近人類水平。在圍棋和日本將旗等策略游戲、強調合作的多人電子游戲和經常要虛張聲勢的得州撲克游戲等場景中,深度學習的表現甚至已經超越了人類專家。深度學習在 2018年的CASP會議上的表現為它又贏得了一枚超越人類表現的獎章:它在預測蛋白質的3D結構方面打敗了所有的科學家。
簡而言之,人工智能幫助我們發現數據中那些隱含的、不確定的模式和結構。這些模式對于人類而言是易于發現的(例如,在一幅圖像中,貓的位置),但是對于計算機而言一直是很困難的。更為精確的表述是,人們通常難以把這類任務轉換為計算機任務,而人工智能讓機器可以用一種奇特的方式自己來做這種轉換。
盡管人工智能浪潮席卷全球,近期的主要進展其實都有賴于一個方法:監督學習。該方法要求只給算法提供兩組信息:大量的輸入,也被稱作“訓練數據” 以及為了給輸入分類所用到的清晰的指令(“標記”)。例如,如果目標是識別垃圾郵件,那么就給算法提供數百萬的郵件并告知其中每個郵件是否是垃圾郵件。然后算法就會仔細檢查數據以確定垃圾郵件的特征。在這一學習任務完成后,如果給算法輸入一封新郵件,算法就會告訴你該郵件是否看上去是垃圾郵件。
深度學習的魔力在于它無須人工輸入就能找出數據的最佳表示方式,這是因為它包含許多中間層,并且其中的每一層都會根據標記給出數據的一種表示和轉換方式。只要層數足夠多,深度神經網絡就有可能很好地揭示隱藏在數據中的極為錯綜復雜的結構或模式。更值得注意的是,深度神經網絡完全是靠自己發現這些模式的。我們可以把深度神經網絡具有不同層想象為它擁有了能夠調節數百萬旋鈕的靈活性。只要給系統提供指引清晰且足夠多的數據,它就能夠自動調節所有的旋鈕以找出表示數據的最佳方式。
當前的人工智能與以往有什么不同?畢竟 20 多年前 IBM 的國際象棋程序深藍(Deep Blue)就擊敗了當時的世界冠軍卡斯帕羅夫(Garry Kasparov)。過去的人工智能依賴的是缺乏智能的精細計算。深藍擊敗卡斯帕羅夫是因為它每秒可以估測2億個位置,從而預判哪一步最有可能獲勝。這種人工智能在面對圍棋和蛋白質折疊這類更為復雜的游戲時就無能為力了,因為它無法處理所有的可能性。
然而,深度學習卻在這些領域取得了巨大的成功。2016年,DeepMind研究團隊設計的 AlphaGo在5輪比賽中擊敗了圍棋世界冠軍李世石。它取得勝利并非靠評估每一種可能的走法,而是靠研究人類棋手完成的棋局以學習何種走法有可能獲勝或失敗。
但是,既然機器系統已經能夠向自身學習,那么為什么還要向人類學習呢? 這也正是深度學習真正有趣的地方。僅僅在 AlphaGo 戰勝人類棋手一年之后, DeepMind 就研發出了 AlphaZero,其厲害之處在于它只知道圍棋規則而沒有任何先驗知識和數據輸入。換句話說,它是真正從零開始,通過不停地與自己對弈而自學成才。AlphaZero 既是圍棋大師,也是國際象棋和日本將棋大師,它擊敗了所有的人類棋手和計算機程序。
最為重要的是,由于AlphaZero沒有學習人類棋手的對局,它的下法也與人類棋手不同。它更像一個外星人,展示了一種人類大師以前從未見過的直覺和見解。圍棋世界冠軍柯潔甚至感嘆人工智能就像“上帝”一樣在下棋。確實,它的那些復雜而又優美的下法都沒有依靠人類知識。而且AlphaZero是以超人類的速度習得這一技藝的:只需4小時的國際象棋訓練和8小時的圍棋訓練,它的能力就能超過已有的最好程序。
再想想那些數字。我們把變化最多也是研究最多的人類游戲的規則告知人工智能算法,算法自己只是基于規則和棋盤就學會了下棋的策略。像所有的初學者一樣,它在一開始也會犯各種愚蠢的錯誤。但是當你回過神來再去看的時候,它已經是史上最佳棋手了。
如果深度學習能夠在人類自己的棋盤游戲上擊敗人類,對于復雜問題找到先前想象不到的答案,那么它將會如何影響致力于促進創新的科學呢?
更智能的人工智能,更多的創造性創新
人工智能可通過兩種主要的途徑影響我們從事科學的方式。一種方式類似于谷歌對互聯網的影響:人工智能將會極大地改進信息的獲取,優化科學的各個方面,包括從信息獲取到科學家目前所從事的許多過程的自動化。這是一種理想的情形,因為大多數科學家都期望能夠實現日常工作的自動化,從而可以聚焦于創造性的活動。另一種途徑更像 AlphaGo 對圍棋的影響:人工智能系統能夠對于復雜問題快速給出創造性的答案。人工智能也許有一天會在反烏托邦式的世界里取代我們這些科學家,以一種我們今天難以想象的速度和精度推動科學進步。
組織信息
人工智能已經推動了現代社會的許多方面。每次你在谷歌搜索中輸入一個搜索查詢,人工智能就會在萬維網上查找并猜測你的真實需求。當你打開臉書應用的時候,人工智能會決定把哪個朋友的更新首先呈現給你。當你在亞馬遜上購物時,人工智能會給你推薦一些你可能會喜歡的商品,盡管這些商品在你的購物車中從未出現過。我們周邊的設備中也出現越來越多的人工智能。當你拿著智能手機拍照時,人工智能會自動圈住面部并調整焦距以獲得最佳效果。當你對 Siri、Alexa 和Cortana 這樣的“個人助理”說話時,需要人工智能把你說的話轉換為文字。
科學的哪些方面能夠由這類人工智能加以擴展?首先,我們應該都清楚,現在發表的文獻的數量已經多到無法全部追蹤。人工智能能否給出個性化的論文閱讀推薦?人工智能能否連貫地總結這些文章的內容摘要,提取與我們相關的關鍵發現,生成該領域關鍵進展的快報風格的文摘?人工智能這些新的能力將幫助研究人員擴展他們獲得知識的深度和質量,并幫助他們發現新的研究可能性。
對于科學領域的決策者而言,人工智能能夠提供更為全面的“天際線掃描”能力,提出戰略投資的領域,識別出有可能帶來科學變革的想法,甚至組建變革性的科研團隊。出版商也可以使用深度學習找到論文的審稿人,或者自動識別論文中的錯誤和矛盾,從而減少人工評審的負擔。
其中的一些應用看上去遙不可及,特別是如果我們想要達到科學家和決策者所期望的精度和可靠性的話。但是,真實情況是,盡管技術已經在過去 20 年極大地重塑了人類社會,但可以促進科學過程的技術卻未有實質性進展。如果你對此表示懷疑的話,你可以看看“美國國家自然科學基金會”的項目提交頁面,或者是 ScholarOne 論文投審稿系統,它們看上去還像是當初互聯網發展初期的那些早已過時的網站。
求解科學問題
人工智能有一天能否幫助我們提出和求解基本的科學問題?通過以單個科學家根本無法實現的方式整合各種信息,人工智能系統能否幫助科學家更快地得到更具創造性的、更好的解答?它是否也能提出新的假設,甚至新的研究領域?
我們已經在這方面看到了一些令人鼓舞的早期進展。例如,研究人員已經把深度學習用于醫學診斷,開發出各種視網膜病變的分類算法,其精度已經與人類專家相當。另一個例子是,一個經過訓練的人工智能算法對良性和惡性皮膚病的分類精度,已經達到經專業認證的皮膚病醫生的水準。在急診室里,深度學習現在可以幫助我們判定一個病人的CT掃描是否顯示他有中風的跡象。新的人工智能算法不僅使識別這些信號的精度可以媲美醫學專家,更為重要的是,它的速度是人類的150倍!
當然,還有讓CASP與會人員充滿敬畏的AlphaFold深度學習系統。在CASP競賽中,每個參賽隊伍拿到的是90個蛋白質的氨基酸的線性序列,這些蛋白質的3D形狀已知但是沒有公開發表。參賽隊伍要計算出蛋白質是如何折疊的。通過篩選過去已知的蛋白質折疊模式,AlphaFold的平均預測精度超過了所有其他97支參賽隊伍。
這些人工智能技術的成功運用都具備了深度學習的兩個基本要素:大量的訓練數據和清晰的分類方式。例如,為了檢測皮膚癌,研究人員給算法輸入數百萬的皮膚病變的圖像,并告知算法每一幅圖像對應的是良性還是惡性病變。由于算法與皮膚病專家所受的訓練是不一樣的,算法也許看不到皮膚病專家所看到的一些模式,但這也意味著,人工智能系統也可能看到一些皮膚病專家所看不到的模式。
哪些科學領域能從這些進展中收益最多呢?我們還是再看看深度學習的兩個基本要素:大量的數據以及可用于標記數據的清晰邊界。這意味著那些最能從人工智能技術直接受益的科學領域需要足夠的窄,從而能夠有清晰的數據標記策略。這些領域還要足夠的深,使得人工智能系統以科學家無法做到的方式看到所有的數據以發現新的結果。
最為重要的是,盡管機器正在快速改進精度和效率,但科學最為激動人心的未來既不屬于人類也不屬于機器,而是有賴于兩者之間的戰略伙伴關系。
人工智能與人類智能
我們再來看一下 AlphaFold。通過采用新技術,科學家在沒有專門知識和專業領域訓練的情況下,就能夠超越該領域基于傳統技術的所有專家。這個例子提出了一個重要的問題:如果把最新的技術與研究人員的專業技能結合起來會如何?
未來科學學研究的一個關鍵領域就涉及人工智能的集成,從而使得機器和人腦能夠協同工作。我們期盼人工智能能夠以一種人類合作者無法達到的能力擴展科學家的認知,而這將會給科學帶來深遠的影響。
我們想到了一個近期的例子。為了應對科學目前所面對的“可重復性危機” 的挑戰,研究人員使用深度學習來揭示科學論文表述中,表征強科學發現和弱科學發現的模式。2015 年,“可重復性項目:心理學”(RPP)分析了頂尖心理學期刊上的 100 篇論文,使用與論文原始研究一樣的方法人工檢測了其可重復性,結果發現其中有 61 篇未能通過可重復性檢測。此后,在心理學、經濟學、金融學和醫學等領域的研究也得到了類似的結果。
為此,研究人員把人工智能與人類智能相結合以估算可重復性。研究人員使用經過嚴格的人工可重復性檢測的96項研究,用它們來訓練神經網絡去估測一篇論文的可重復性的概率,并使用249項其他研究來檢測訓練后的模型的泛化能力。結果是激動人心的:該模型的平均曲線下面積(AUC)達到0.72,表明其預測精度顯著高于完全隨機的推斷。為了把這一結果與專業評審人所提供的預測信息進行比較,研究人員用同樣的數據和訓練過程來訓練一個新的人工智能模型,但是只使用評審人的評價指標,發現這一基于評審人指標的模型的AUC只有0.68,表明其預測精度顯著低于基于內容表述的模型。這些研究表明人工智能依賴于專業評審人未掌握的特征信息。事實上,盡管人們通常基于論文中的統計報告評價其價值,人工智能則更為精確地表明,論文中的表述文本事實上具有更多人們以前沒有挖掘的解釋能力。極為重要的是,把從表述模型和評審人指標模型所得到的信息相結合,也就是說,把機器和人類見解相結合,就可以得到具有最高精度的新的人工智能模型(AUC=0.74)。
對模型預測能力背后的機制進行分析,我們發現那些顯而易見的因素,諸如單詞或短語的出現頻率、寫作風格、學科、期刊、作者身份或主題等,并不能解釋結果。而人工智能系統是基于復雜的語義關系網絡來預測可重復性的。盡管科學論文中的文字要比其匯報的統計信息多出幾個數量級,論文的文本在科學學研究中至今還幾乎沒有被發掘。算法現在可以利用論文的全文來檢測人類專家可能忽視的一些新模式以及證據不那么強的科學發現。
這個例子凸顯了一種新型的,并且也許是可怕的人機伙伴關系。盡管機器比人更善于閱讀并消化更多的信息,當前的人工智能應用還是屬于“弱人工智能”, 它們只能處理特定的問題。從這點來看,目前的人工智能系統很像洗衣機。它們可以洗滌你扔進去的任何衣服,卻完全不知如何清洗碗碟。你需要用洗碗機完成后一任務。類似的,我們能夠建造特別擅長預測蛋白質折疊的人工智能系統,但該系統卻不能做任何別的事情。相反地,人類具有學習、推理以及機器沒有的創造性思維能力。
諾貝爾物理學獎得主弗蘭克·維爾澤克(Frank Wilczek)有一個著名的預測, 100 年后最好的物理學家將會是機器。類似于 AlphaFold 這樣的進展給這一預測帶來一絲曙光。但是這一預測也過于簡化了:科學不僅只是求解明確定義的問題。最令人尊敬的科學家往往是那些提出新問題和開辟新的研究領域的人,那些意識到工具和知識的累積已經足以使突破性的發現應運而生的人。這讓大眾意識到進入這些新領域并迎接所帶來的挑戰的時機已經成熟。因此,科學不僅是關于問題求解,它也是關于直覺、發現新前沿的能力,前往前沿的勇氣以及領導力。
人工智能在求解人類提出的問題方面已經取得巨大進展。它甚至還有可能在現有知識和范式的框架內形成新的假說。人工智能有一天是否會發展到這種地步:它感受到了創造一個新理論的必要,比如進化論或量子力學,然后孜孜不倦地為之奮斗?目前而言,還看不出人工智能具有這種能力,許多人工智能專家甚至懷疑人工智能是否存在這種可能。因此,我們現在還難以宣稱機器會在未來掌握科學的主導權。未來最為激動人心的發現需要人機之間的戰略合作。的確,如果我們基于各自的能力分配任務,科學家與機器的協同工作有可能極大推動科學進步,減少人類的盲點,并在此過程中革新科學的實踐。
廣告
但是,我們需要意識到,當前人工智能的一個主要缺陷在于它是個黑箱。它確實表現很好,但是沒有人知道原因——這可能是一個大問題,特別是在科學中。考慮一下亞馬遜采用人工智能挑選雇員這個案例。亞馬遜從2014年開始采用計算機算法來評審應聘者的簡歷。這一實驗性的人工智能工具用1星到5星給應聘者打分,很像消費者給亞馬遜上的商品做星級評價。乍看起來,這像是人力資源部門的福音。你給它100份簡歷,它立刻告訴你排在前5位的應聘者。但是,公司很快就意識到這個新算法對女性應聘者的歧視。這個算法是用公司10年間所收到的簡歷來訓練的,而那些簡歷絕大部分來自男性。因此,算法很快就學習到要向男性應聘者傾斜,而對包含“女性”一詞的簡歷扣分,并降低了兩所女子學院畢業生的等級。
這一案例并非意味著人工智能不能正確處理事情,畢竟,人工智能系統嚴格執行了它受訓來完成的工作。我們讓它查看數百萬份以前的簡歷,其中包括了拒掉的和錄用的人,并使用這一信息以發現未來的雇員。亞馬遜的失敗其實表明, 隨著我們的工具的精度和復雜性的增加,它們會放大并進一步固化人類已有的偏差。這意味著隨著科學學的進展,人們需要更好地理解我們所建立的工具和計量指標中的偏差以及因果關系。
來源:《新浪科技》