尋找新粒子
上世紀(jì)80年代末,正當(dāng)“神經(jīng)網(wǎng)絡(luò)”這一術(shù)語捕獲了公眾的想象力時,粒子物理學(xué)家開始“玩弄”起人工智能。他們的領(lǐng)域很適合應(yīng)用人工智能和機器學(xué)習(xí)算法,因為幾乎每項試驗均聚焦于從復(fù)雜粒子探測器獲取的不計其數(shù)的類似數(shù)據(jù)中尋找微妙的空間模式,而這正是人工智能擅長的事情?!拔覀兓撕脦啄陼r間才說服人們,人工智能并不是一種神秘的把戲?!弊钤鐡肀Т隧椉夹g(shù)的物理學(xué)家之一、美國費米國家加速器實驗室研究人員Boaz Klima表示。
粒子物理學(xué)家力圖使帶有巨大能量的亞原子粒子相撞以迸發(fā)出獨特的新物質(zhì)微粒,從而理解宇宙的內(nèi)部運作。例如,2012年,利用全球最大質(zhì)子對撞機——位于瑞士的大型強子對撞機(LHC)開展研究的團隊發(fā)現(xiàn)了預(yù)期已久的希格斯玻色子。這是一種轉(zhuǎn)瞬即逝的粒子,對于物理學(xué)家解釋所有其他基本粒子如何獲得質(zhì)量至關(guān)重要。
不過,此類奇特粒子并非自帶標(biāo)簽。在LHC,幾乎約10億次對撞才出現(xiàn)1個希格斯玻色子。與此同時,它會在十億分之一皮秒內(nèi)衰變成諸如光子對等其他粒子。為“重現(xiàn)”希格斯玻色子,物理學(xué)家必須認(rèn)出所有那些更加常見的粒子。然而,典型碰撞中產(chǎn)生的成群的不相關(guān)粒子使此項工作變得更加艱難。
費米實驗室物理學(xué)家Pushpalatha Bhat介紹說,諸如神經(jīng)網(wǎng)絡(luò)等算法擅長從背景中篩選信號。在粒子探測器(一般是由各種傳感器構(gòu)成的巨型筒狀集合體)中,光子通常在被稱為電磁量能器的子系統(tǒng)中創(chuàng)建粒子束。電子和強子也是這樣產(chǎn)生的,但它們的束流和光子稍微有些不同。機器學(xué)習(xí)算法通過發(fā)現(xiàn)描述束流的多個變量之間的相關(guān)性,將它們區(qū)別開來。此類算法還能幫助區(qū)分希格斯玻色子衰退產(chǎn)生的光子對。“這是一個公認(rèn)的大海撈針式的問題?!盉hat表示,“這也是為何我們要從數(shù)據(jù)中提取盡可能多的信息?!?/p>
然而,機器學(xué)習(xí)并未完全占領(lǐng)這個領(lǐng)域。物理學(xué)家仍然主要依靠對基礎(chǔ)物理的理解來斷定如何搜索數(shù)據(jù),以尋找新粒子和現(xiàn)象存在的跡象。不過,勞倫斯伯克利國家實驗室計算機專家Paolo Calafiura表示,人工智能可能正變得愈發(fā)重要。到2024年,研究人員計劃升級LHC,從而使其碰撞率提高10倍。Calafiura介紹說,到那時,機器學(xué)習(xí)將在應(yīng)對數(shù)據(jù)洪流時發(fā)揮至關(guān)重要的作用。
分析公眾情緒
伴隨著每年幾十億用戶以及數(shù)千億條推特和帖子的產(chǎn)生,社交媒體已將大數(shù)據(jù)帶入社會科學(xué)。同時,心理學(xué)家Martin Seligman表示,它還為利用人工智能收集人類傳播產(chǎn)生的意義創(chuàng)造了史無前例的機遇。在賓夕法尼亞大學(xué)正向心理學(xué)中心,Seligman同來自“全球福祉項目”的20多名心理學(xué)家、內(nèi)科醫(yī)生和計算機專家,利用機器學(xué)習(xí)和自然語言處理篩選大量數(shù)據(jù),以估量公眾的情感和身體健康。
傳統(tǒng)上,這是通過調(diào)查實現(xiàn)的。不過,Seligman表示,社交媒體數(shù)據(jù)“比較低調(diào)”、花費較少,而且獲得的數(shù)據(jù)要高出好幾個數(shù)量級。雖然此類數(shù)據(jù)也很散亂,但人工智能提供了一種強有力的獲取模式。
在一項最新研究中,Seligman和同事分析了2.9萬名自我評估患有抑郁癥的臉書用戶更新的內(nèi)容。利用來自其中2.8萬名用戶的數(shù)據(jù),機器學(xué)習(xí)算法發(fā)現(xiàn)了更新內(nèi)容中的詞語和抑郁癥水平之間的關(guān)聯(lián)。隨后,它能僅基于更新的內(nèi)容,成功估量出其他用戶的抑郁癥水平。
在另一項研究中,該團隊通過分析1.48億條推特,預(yù)測了縣級心臟病死亡率。事實證明,同憤怒和負(fù)面情緒相關(guān)的詞語是危險因素。和基于諸如吸煙、糖尿病等10項主要危險因素的預(yù)測相比,這項來自社交媒體的預(yù)測同實際死亡率匹配得更加緊密。與此同時,研究人員利用社交媒體預(yù)測了個性、收入和政治意識形態(tài),并且研究了住院治療、神秘體驗和刻板印象。該團隊甚至利用從推特上推斷出的福利、抑郁癥、信任和五大人格特征,創(chuàng)建了一幅為美國每個縣作出標(biāo)識的地圖。
“在分析語言及其同心理學(xué)的聯(lián)系方面,一場革命正在上演。”得克薩斯大學(xué)社會心理學(xué)家James Pennebaker表示。Pennebaker關(guān)注的并非內(nèi)容,而是風(fēng)格。他發(fā)現(xiàn),在申請大學(xué)入學(xué)短文中虛詞的使用能預(yù)測成績。冠詞和介詞象征著分析性思維并且預(yù)示了更好的成績,代詞和副詞象征著敘事性思維并且預(yù)示了較差的成績。Pennebaker還發(fā)現(xiàn)了證據(jù),表明1728年的劇本《雙重背叛》的大部分內(nèi)容可能由莎士比亞撰寫。機器學(xué)習(xí)算法基于諸如認(rèn)知復(fù)雜性和罕見詞等因素,將該劇本同莎士比亞的其他作品進行了匹配?!艾F(xiàn)在,我們可以分析你貼出甚至撰寫的任何內(nèi)容?!盤ennebaker表示,結(jié)果是“獲得了關(guān)于人們是什么樣子的愈發(fā)豐富的畫面”。
探尋自閉癥根源
對于遺傳學(xué)家來說,自閉癥是一項棘手的挑戰(zhàn)。遺傳定律表明,它擁有強大的遺傳因素。然而,已知在自閉癥中起到一定作用的許多基因的變體只能解釋約20%的病例。尋找可能影響自閉癥的其他變體,需要從關(guān)于2.5萬個其他人類基因及其周圍DNA的數(shù)據(jù)中搜尋線索。對于人類研究者來說,這是一項艱巨的任務(wù)。為此,普林斯頓大學(xué)計算生物學(xué)家Olga Troyanskaya和紐約西蒙斯基金會取得了人工智能工具的支持。
Troyanskaya將關(guān)于哪些基因在特定人類細(xì)胞中活躍、蛋白如何相互作用以及轉(zhuǎn)錄因子結(jié)合位點和其他關(guān)鍵基因組特征位于哪里的上百個數(shù)據(jù)集結(jié)合在一起。隨后,她的團隊利用機器學(xué)習(xí)構(gòu)建了基因相互作用的地圖,并且將已得到確認(rèn)的較少自閉癥危險基因同上百個涉及自閉癥的其他未知基因進行了比對,以尋找它們的相似性。此項研究標(biāo)記了另外2500個可能同自閉癥相關(guān)的基因。相關(guān)成果在去年發(fā)表于《自然—神經(jīng)科學(xué)》雜志。
不過,正如遺傳學(xué)家最近意識到的,基因并不是孤立地發(fā)揮作用。它們的行為受到上百萬個附近非編碼堿基的影響。這些非編碼堿基同DNA結(jié)合蛋白以及其他因素相互作用。確認(rèn)哪些非編碼變體可能影響附近的自閉癥基因是一個更加棘手的問題。Troyanskaya的研究生Jian Zhou正在利用人工智能解決這一難題。
為訓(xùn)練程序(一個深度學(xué)習(xí)系統(tǒng)),Zhou將其暴露在“DNA元件百科全書”和“表觀基因組學(xué)路線圖”收集的數(shù)據(jù)中。這兩個項目對上萬個非編碼DNA位點如何影響附近基因進行了梳理。Zhou利用的系統(tǒng)學(xué)習(xí)了在評估未知非編碼DNA的潛在活性時應(yīng)該尋找哪些特征。
當(dāng)Zhou和Troyanskaya于2015年10月在《自然—方法學(xué)》雜志上描述了這個名為DeepSEA的項目時,加州大學(xué)爾灣分校計算機專家Xiaohui Xie將其稱為“將深度學(xué)習(xí)應(yīng)用于基因組學(xué)的里程碑”。目前,該研究團隊正通過DeepSEA研究自閉癥患者父母的基因組,以期對非編碼堿基的影響進行排序。
摘自《中國科學(xué)報》