尋找新粒子
上世紀80年代末,正當“神經網絡”這一術語捕獲了公眾的想象力時,粒子物理學家開始“玩弄”起人工智能。他們的領域很適合應用人工智能和機器學習算法,因為幾乎每項試驗均聚焦于從復雜粒子探測器獲取的不計其數的類似數據中尋找微妙的空間模式,而這正是人工智能擅長的事情。“我們花了好幾年時間才說服人們,人工智能并不是一種神秘的把戲。”最早擁抱此項技術的物理學家之一、美國費米國家加速器實驗室研究人員Boaz Klima表示。
粒子物理學家力圖使帶有巨大能量的亞原子粒子相撞以迸發出獨特的新物質微粒,從而理解宇宙的內部運作。例如,2012年,利用全球最大質子對撞機——位于瑞士的大型強子對撞機(LHC)開展研究的團隊發現了預期已久的希格斯玻色子。這是一種轉瞬即逝的粒子,對于物理學家解釋所有其他基本粒子如何獲得質量至關重要。
不過,此類奇特粒子并非自帶標簽。在LHC,幾乎約10億次對撞才出現1個希格斯玻色子。與此同時,它會在十億分之一皮秒內衰變成諸如光子對等其他粒子。為“重現”希格斯玻色子,物理學家必須認出所有那些更加常見的粒子。然而,典型碰撞中產生的成群的不相關粒子使此項工作變得更加艱難。
費米實驗室物理學家Pushpalatha Bhat介紹說,諸如神經網絡等算法擅長從背景中篩選信號。在粒子探測器(一般是由各種傳感器構成的巨型筒狀集合體)中,光子通常在被稱為電磁量能器的子系統中創建粒子束。電子和強子也是這樣產生的,但它們的束流和光子稍微有些不同。機器學習算法通過發現描述束流的多個變量之間的相關性,將它們區別開來。此類算法還能幫助區分希格斯玻色子衰退產生的光子對。“這是一個公認的大海撈針式的問題。”Bhat表示,“這也是為何我們要從數據中提取盡可能多的信息。”
然而,機器學習并未完全占領這個領域。物理學家仍然主要依靠對基礎物理的理解來斷定如何搜索數據,以尋找新粒子和現象存在的跡象。不過,勞倫斯伯克利國家實驗室計算機專家Paolo Calafiura表示,人工智能可能正變得愈發重要。到2024年,研究人員計劃升級LHC,從而使其碰撞率提高10倍。Calafiura介紹說,到那時,機器學習將在應對數據洪流時發揮至關重要的作用。
分析公眾情緒
伴隨著每年幾十億用戶以及數千億條推特和帖子的產生,社交媒體已將大數據帶入社會科學。同時,心理學家Martin Seligman表示,它還為利用人工智能收集人類傳播產生的意義創造了史無前例的機遇。在賓夕法尼亞大學正向心理學中心,Seligman同來自“全球福祉項目”的20多名心理學家、內科醫生和計算機專家,利用機器學習和自然語言處理篩選大量數據,以估量公眾的情感和身體健康。
傳統上,這是通過調查實現的。不過,Seligman表示,社交媒體數據“比較低調”、花費較少,而且獲得的數據要高出好幾個數量級。雖然此類數據也很散亂,但人工智能提供了一種強有力的獲取模式。
在一項最新研究中,Seligman和同事分析了2.9萬名自我評估患有抑郁癥的臉書用戶更新的內容。利用來自其中2.8萬名用戶的數據,機器學習算法發現了更新內容中的詞語和抑郁癥水平之間的關聯。隨后,它能僅基于更新的內容,成功估量出其他用戶的抑郁癥水平。
在另一項研究中,該團隊通過分析1.48億條推特,預測了縣級心臟病死亡率。事實證明,同憤怒和負面情緒相關的詞語是危險因素。和基于諸如吸煙、糖尿病等10項主要危險因素的預測相比,這項來自社交媒體的預測同實際死亡率匹配得更加緊密。與此同時,研究人員利用社交媒體預測了個性、收入和政治意識形態,并且研究了住院治療、神秘體驗和刻板印象。該團隊甚至利用從推特上推斷出的福利、抑郁癥、信任和五大人格特征,創建了一幅為美國每個縣作出標識的地圖。
“在分析語言及其同心理學的聯系方面,一場革命正在上演。”得克薩斯大學社會心理學家James Pennebaker表示。Pennebaker關注的并非內容,而是風格。他發現,在申請大學入學短文中虛詞的使用能預測成績。冠詞和介詞象征著分析性思維并且預示了更好的成績,代詞和副詞象征著敘事性思維并且預示了較差的成績。Pennebaker還發現了證據,表明1728年的劇本《雙重背叛》的大部分內容可能由莎士比亞撰寫。機器學習算法基于諸如認知復雜性和罕見詞等因素,將該劇本同莎士比亞的其他作品進行了匹配。“現在,我們可以分析你貼出甚至撰寫的任何內容。”Pennebaker表示,結果是“獲得了關于人們是什么樣子的愈發豐富的畫面”。
探尋自閉癥根源
對于遺傳學家來說,自閉癥是一項棘手的挑戰。遺傳定律表明,它擁有強大的遺傳因素。然而,已知在自閉癥中起到一定作用的許多基因的變體只能解釋約20%的病例。尋找可能影響自閉癥的其他變體,需要從關于2.5萬個其他人類基因及其周圍DNA的數據中搜尋線索。對于人類研究者來說,這是一項艱巨的任務。為此,普林斯頓大學計算生物學家Olga Troyanskaya和紐約西蒙斯基金會取得了人工智能工具的支持。
Troyanskaya將關于哪些基因在特定人類細胞中活躍、蛋白如何相互作用以及轉錄因子結合位點和其他關鍵基因組特征位于哪里的上百個數據集結合在一起。隨后,她的團隊利用機器學習構建了基因相互作用的地圖,并且將已得到確認的較少自閉癥危險基因同上百個涉及自閉癥的其他未知基因進行了比對,以尋找它們的相似性。此項研究標記了另外2500個可能同自閉癥相關的基因。相關成果在去年發表于《自然—神經科學》雜志。
不過,正如遺傳學家最近意識到的,基因并不是孤立地發揮作用。它們的行為受到上百萬個附近非編碼堿基的影響。這些非編碼堿基同DNA結合蛋白以及其他因素相互作用。確認哪些非編碼變體可能影響附近的自閉癥基因是一個更加棘手的問題。Troyanskaya的研究生Jian Zhou正在利用人工智能解決這一難題。
為訓練程序(一個深度學習系統),Zhou將其暴露在“DNA元件百科全書”和“表觀基因組學路線圖”收集的數據中。這兩個項目對上萬個非編碼DNA位點如何影響附近基因進行了梳理。Zhou利用的系統學習了在評估未知非編碼DNA的潛在活性時應該尋找哪些特征。
當Zhou和Troyanskaya于2015年10月在《自然—方法學》雜志上描述了這個名為DeepSEA的項目時,加州大學爾灣分校計算機專家Xiaohui Xie將其稱為“將深度學習應用于基因組學的里程碑”。目前,該研究團隊正通過DeepSEA研究自閉癥患者父母的基因組,以期對非編碼堿基的影響進行排序。
摘自《中國科學報》