尋找新粒子
上世紀(jì)80年代末,正當(dāng)“神經(jīng)網(wǎng)絡(luò)”這一術(shù)語捕獲了公眾的想象力時(shí),粒子物理學(xué)家開始“玩弄”起人工智能。他們的領(lǐng)域很適合應(yīng)用人工智能和機(jī)器學(xué)習(xí)算法,因?yàn)閹缀趺宽?xiàng)試驗(yàn)均聚焦于從復(fù)雜粒子探測器獲取的不計(jì)其數(shù)的類似數(shù)據(jù)中尋找微妙的空間模式,而這正是人工智能擅長的事情。“我們花了好幾年時(shí)間才說服人們,人工智能并不是一種神秘的把戲。”最早擁抱此項(xiàng)技術(shù)的物理學(xué)家之一、美國費(fèi)米國家加速器實(shí)驗(yàn)室研究人員Boaz Klima表示。
粒子物理學(xué)家力圖使帶有巨大能量的亞原子粒子相撞以迸發(fā)出獨(dú)特的新物質(zhì)微粒,從而理解宇宙的內(nèi)部運(yùn)作。例如,2012年,利用全球最大質(zhì)子對撞機(jī)——位于瑞士的大型強(qiáng)子對撞機(jī)(LHC)開展研究的團(tuán)隊(duì)發(fā)現(xiàn)了預(yù)期已久的希格斯玻色子。這是一種轉(zhuǎn)瞬即逝的粒子,對于物理學(xué)家解釋所有其他基本粒子如何獲得質(zhì)量至關(guān)重要。
不過,此類奇特粒子并非自帶標(biāo)簽。在LHC,幾乎約10億次對撞才出現(xiàn)1個(gè)希格斯玻色子。與此同時(shí),它會(huì)在十億分之一皮秒內(nèi)衰變成諸如光子對等其他粒子。為“重現(xiàn)”希格斯玻色子,物理學(xué)家必須認(rèn)出所有那些更加常見的粒子。然而,典型碰撞中產(chǎn)生的成群的不相關(guān)粒子使此項(xiàng)工作變得更加艱難。
費(fèi)米實(shí)驗(yàn)室物理學(xué)家Pushpalatha Bhat介紹說,諸如神經(jīng)網(wǎng)絡(luò)等算法擅長從背景中篩選信號(hào)。在粒子探測器(一般是由各種傳感器構(gòu)成的巨型筒狀集合體)中,光子通常在被稱為電磁量能器的子系統(tǒng)中創(chuàng)建粒子束。電子和強(qiáng)子也是這樣產(chǎn)生的,但它們的束流和光子稍微有些不同。機(jī)器學(xué)習(xí)算法通過發(fā)現(xiàn)描述束流的多個(gè)變量之間的相關(guān)性,將它們區(qū)別開來。此類算法還能幫助區(qū)分希格斯玻色子衰退產(chǎn)生的光子對。“這是一個(gè)公認(rèn)的大海撈針式的問題。”Bhat表示,“這也是為何我們要從數(shù)據(jù)中提取盡可能多的信息。”
然而,機(jī)器學(xué)習(xí)并未完全占領(lǐng)這個(gè)領(lǐng)域。物理學(xué)家仍然主要依靠對基礎(chǔ)物理的理解來斷定如何搜索數(shù)據(jù),以尋找新粒子和現(xiàn)象存在的跡象。不過,勞倫斯伯克利國家實(shí)驗(yàn)室計(jì)算機(jī)專家Paolo Calafiura表示,人工智能可能正變得愈發(fā)重要。到2024年,研究人員計(jì)劃升級LHC,從而使其碰撞率提高10倍。Calafiura介紹說,到那時(shí),機(jī)器學(xué)習(xí)將在應(yīng)對數(shù)據(jù)洪流時(shí)發(fā)揮至關(guān)重要的作用。
分析公眾情緒
伴隨著每年幾十億用戶以及數(shù)千億條推特和帖子的產(chǎn)生,社交媒體已將大數(shù)據(jù)帶入社會(huì)科學(xué)。同時(shí),心理學(xué)家Martin Seligman表示,它還為利用人工智能收集人類傳播產(chǎn)生的意義創(chuàng)造了史無前例的機(jī)遇。在賓夕法尼亞大學(xué)正向心理學(xué)中心,Seligman同來自“全球福祉項(xiàng)目”的20多名心理學(xué)家、內(nèi)科醫(yī)生和計(jì)算機(jī)專家,利用機(jī)器學(xué)習(xí)和自然語言處理篩選大量數(shù)據(jù),以估量公眾的情感和身體健康。
傳統(tǒng)上,這是通過調(diào)查實(shí)現(xiàn)的。不過,Seligman表示,社交媒體數(shù)據(jù)“比較低調(diào)”、花費(fèi)較少,而且獲得的數(shù)據(jù)要高出好幾個(gè)數(shù)量級。雖然此類數(shù)據(jù)也很散亂,但人工智能提供了一種強(qiáng)有力的獲取模式。
在一項(xiàng)最新研究中,Seligman和同事分析了2.9萬名自我評估患有抑郁癥的臉書用戶更新的內(nèi)容。利用來自其中2.8萬名用戶的數(shù)據(jù),機(jī)器學(xué)習(xí)算法發(fā)現(xiàn)了更新內(nèi)容中的詞語和抑郁癥水平之間的關(guān)聯(lián)。隨后,它能僅基于更新的內(nèi)容,成功估量出其他用戶的抑郁癥水平。
在另一項(xiàng)研究中,該團(tuán)隊(duì)通過分析1.48億條推特,預(yù)測了縣級心臟病死亡率。事實(shí)證明,同憤怒和負(fù)面情緒相關(guān)的詞語是危險(xiǎn)因素。和基于諸如吸煙、糖尿病等10項(xiàng)主要危險(xiǎn)因素的預(yù)測相比,這項(xiàng)來自社交媒體的預(yù)測同實(shí)際死亡率匹配得更加緊密。與此同時(shí),研究人員利用社交媒體預(yù)測了個(gè)性、收入和政治意識(shí)形態(tài),并且研究了住院治療、神秘體驗(yàn)和刻板印象。該團(tuán)隊(duì)甚至利用從推特上推斷出的福利、抑郁癥、信任和五大人格特征,創(chuàng)建了一幅為美國每個(gè)縣作出標(biāo)識(shí)的地圖。
“在分析語言及其同心理學(xué)的聯(lián)系方面,一場革命正在上演。”得克薩斯大學(xué)社會(huì)心理學(xué)家James Pennebaker表示。Pennebaker關(guān)注的并非內(nèi)容,而是風(fēng)格。他發(fā)現(xiàn),在申請大學(xué)入學(xué)短文中虛詞的使用能預(yù)測成績。冠詞和介詞象征著分析性思維并且預(yù)示了更好的成績,代詞和副詞象征著敘事性思維并且預(yù)示了較差的成績。Pennebaker還發(fā)現(xiàn)了證據(jù),表明1728年的劇本《雙重背叛》的大部分內(nèi)容可能由莎士比亞撰寫。機(jī)器學(xué)習(xí)算法基于諸如認(rèn)知復(fù)雜性和罕見詞等因素,將該劇本同莎士比亞的其他作品進(jìn)行了匹配。“現(xiàn)在,我們可以分析你貼出甚至撰寫的任何內(nèi)容。”Pennebaker表示,結(jié)果是“獲得了關(guān)于人們是什么樣子的愈發(fā)豐富的畫面”。
探尋自閉癥根源
對于遺傳學(xué)家來說,自閉癥是一項(xiàng)棘手的挑戰(zhàn)。遺傳定律表明,它擁有強(qiáng)大的遺傳因素。然而,已知在自閉癥中起到一定作用的許多基因的變體只能解釋約20%的病例。尋找可能影響自閉癥的其他變體,需要從關(guān)于2.5萬個(gè)其他人類基因及其周圍DNA的數(shù)據(jù)中搜尋線索。對于人類研究者來說,這是一項(xiàng)艱巨的任務(wù)。為此,普林斯頓大學(xué)計(jì)算生物學(xué)家Olga Troyanskaya和紐約西蒙斯基金會(huì)取得了人工智能工具的支持。
Troyanskaya將關(guān)于哪些基因在特定人類細(xì)胞中活躍、蛋白如何相互作用以及轉(zhuǎn)錄因子結(jié)合位點(diǎn)和其他關(guān)鍵基因組特征位于哪里的上百個(gè)數(shù)據(jù)集結(jié)合在一起。隨后,她的團(tuán)隊(duì)利用機(jī)器學(xué)習(xí)構(gòu)建了基因相互作用的地圖,并且將已得到確認(rèn)的較少自閉癥危險(xiǎn)基因同上百個(gè)涉及自閉癥的其他未知基因進(jìn)行了比對,以尋找它們的相似性。此項(xiàng)研究標(biāo)記了另外2500個(gè)可能同自閉癥相關(guān)的基因。相關(guān)成果在去年發(fā)表于《自然—神經(jīng)科學(xué)》雜志。
不過,正如遺傳學(xué)家最近意識(shí)到的,基因并不是孤立地發(fā)揮作用。它們的行為受到上百萬個(gè)附近非編碼堿基的影響。這些非編碼堿基同DNA結(jié)合蛋白以及其他因素相互作用。確認(rèn)哪些非編碼變體可能影響附近的自閉癥基因是一個(gè)更加棘手的問題。Troyanskaya的研究生Jian Zhou正在利用人工智能解決這一難題。
為訓(xùn)練程序(一個(gè)深度學(xué)習(xí)系統(tǒng)),Zhou將其暴露在“DNA元件百科全書”和“表觀基因組學(xué)路線圖”收集的數(shù)據(jù)中。這兩個(gè)項(xiàng)目對上萬個(gè)非編碼DNA位點(diǎn)如何影響附近基因進(jìn)行了梳理。Zhou利用的系統(tǒng)學(xué)習(xí)了在評估未知非編碼DNA的潛在活性時(shí)應(yīng)該尋找哪些特征。
當(dāng)Zhou和Troyanskaya于2015年10月在《自然—方法學(xué)》雜志上描述了這個(gè)名為DeepSEA的項(xiàng)目時(shí),加州大學(xué)爾灣分校計(jì)算機(jī)專家Xiaohui Xie將其稱為“將深度學(xué)習(xí)應(yīng)用于基因組學(xué)的里程碑”。目前,該研究團(tuán)隊(duì)正通過DeepSEA研究自閉癥患者父母的基因組,以期對非編碼堿基的影響進(jìn)行排序。
摘自《中國科學(xué)報(bào)》