国产欧美日韩精品a在线观看-国产欧美日韩精品一区二区三区-国产欧美日韩精品综合-国产欧美中文字幕-一区二区三区精品国产-一区二区三区精品国产欧美

ACS880-07C
關(guān)注中國(guó)自動(dòng)化產(chǎn)業(yè)發(fā)展的先行者!
CAIAC 2025
2024
工業(yè)智能邊緣計(jì)算2024年會(huì)
2023年工業(yè)安全大會(huì)
OICT公益講堂
當(dāng)前位置:首頁(yè) >> 資訊 >> 行業(yè)資訊

資訊頻道

首個(gè)知識(shí)與數(shù)據(jù)聯(lián)合驅(qū)動(dòng)的多物種生命基礎(chǔ)大模型GeneCompass
  • 點(diǎn)擊數(shù):468     發(fā)布時(shí)間:2024-10-25 21:57:51
  • 分享到:
近年來(lái),大語(yǔ)言模型(LLMs)已在自然語(yǔ)言處理、計(jì)算機(jī)視覺(jué)等通用領(lǐng)域引發(fā)了新一輪技術(shù)革命,進(jìn)而通過(guò)與不同自然學(xué)科分支的融合形成了人工智能驅(qū)動(dòng)的科學(xué)研究新范式。在生命科學(xué)領(lǐng)域,單細(xì)胞組學(xué)技術(shù)的突破產(chǎn)生了大量不同物種細(xì)胞的基因表達(dá)譜數(shù)據(jù),形成了海量的生命“語(yǔ)料”。

近年來(lái),大語(yǔ)言模型(LLMs)已在自然語(yǔ)言處理、計(jì)算機(jī)視覺(jué)等通用領(lǐng)域引發(fā)了新一輪技術(shù)革命,進(jìn)而通過(guò)與不同自然學(xué)科分支的融合形成了人工智能驅(qū)動(dòng)的科學(xué)研究新范式。在生命科學(xué)領(lǐng)域,單細(xì)胞組學(xué)技術(shù)的突破產(chǎn)生了大量不同物種細(xì)胞的基因表達(dá)譜數(shù)據(jù),形成了海量的生命“語(yǔ)料”。如果把基因表達(dá)值看作單詞,它們組合在一起就構(gòu)成了細(xì)胞“句子”,進(jìn)而形成了組織“段落”和器官“文章”,而不同物種可以看作生命“語(yǔ)種”。利用LLMs相關(guān)技術(shù)學(xué)習(xí)和理解這些生命“語(yǔ)料”,有望構(gòu)建系統(tǒng)精準(zhǔn)破解基因密碼的生命基礎(chǔ)大模型,探索生命普遍存在的基因調(diào)控機(jī)制,增進(jìn)理解生命底層共性規(guī)律并創(chuàng)新各種重大疾病的診療手段。

中國(guó)科學(xué)院動(dòng)物研究所、中國(guó)科學(xué)院自動(dòng)化研究所、中國(guó)科學(xué)院計(jì)算技術(shù)研究所、中國(guó)科學(xué)院計(jì)算機(jī)網(wǎng)絡(luò)信息中心、中國(guó)科學(xué)院數(shù)學(xué)與系統(tǒng)科學(xué)研究院等組成多學(xué)科交叉研究團(tuán)隊(duì)在生命科學(xué)人工智能(AI for Life Science)研究方面取得了重要突破,于2024年10月發(fā)表在生命科學(xué)領(lǐng)域頂級(jí)期刊Cell Research上。

論文建立了世界首個(gè)知識(shí)與數(shù)據(jù)聯(lián)合驅(qū)動(dòng)的多物種生命基礎(chǔ)大模型GeneCompass,同時(shí)處理了人類和小鼠兩個(gè)物種的轉(zhuǎn)錄組數(shù)據(jù),包含了超過(guò)1.26億個(gè)單細(xì)胞并覆蓋3.6萬(wàn)個(gè)基因,融合了啟動(dòng)子序列、基因共表達(dá)關(guān)系、基因家族標(biāo)注和基因調(diào)控關(guān)系等四種先驗(yàn)知識(shí)。GeneCompass的參數(shù)量超過(guò)1.3億,實(shí)現(xiàn)了對(duì)基因表達(dá)調(diào)控規(guī)律的全景式學(xué)習(xí)理解,同時(shí)支持細(xì)胞狀態(tài)變化預(yù)測(cè)及多種生命過(guò)程的精準(zhǔn)分析,展示了人工智能賦能生命科學(xué)研究的強(qiáng)大能力和巨大潛力。

模型架構(gòu):知識(shí)嵌入的生命基礎(chǔ)大模型GeneCompass

GeneCompass是國(guó)際上首個(gè)融入先驗(yàn)知識(shí)的預(yù)訓(xùn)練基礎(chǔ)大模型,發(fā)展了知識(shí)與數(shù)據(jù)聯(lián)合驅(qū)動(dòng)的新范式。GeneCompass采用gene2vec、DNABert等工具將啟動(dòng)子序列、已知基因調(diào)控網(wǎng)絡(luò)、基因家族信息和基因共表達(dá)關(guān)系等四種生物學(xué)先驗(yàn)知識(shí)進(jìn)行編碼,在單細(xì)胞轉(zhuǎn)錄組的基因ID和表達(dá)值基礎(chǔ)上加入人類注釋信息編碼,提高了對(duì)生物數(shù)據(jù)間復(fù)雜特征關(guān)聯(lián)關(guān)系的理解。通過(guò)訓(xùn)練整合了不同物種的數(shù)據(jù)信息及先驗(yàn)知識(shí),GeneCompass顯著提升了多種下游任務(wù)的性能,有望進(jìn)一步提高傳統(tǒng)生物學(xué)研究的效率和精準(zhǔn)性,為尚無(wú)法突破的復(fù)雜生命科學(xué)難題帶來(lái)新的切入點(diǎn)。

GeneCompass采用基于Transformer的深度學(xué)習(xí)架構(gòu),通過(guò)擴(kuò)展傳統(tǒng)的掩碼語(yǔ)言模型Masked Auto Encoder(MAE)方式進(jìn)行預(yù)訓(xùn)練,根據(jù)單細(xì)胞轉(zhuǎn)錄組的上下文同時(shí)預(yù)測(cè)掩碼的基因ID及其表達(dá)值,捕獲不同基因之間在不同細(xì)胞背景下的長(zhǎng)程動(dòng)態(tài)關(guān)聯(lián),通過(guò)多任務(wù)聯(lián)合預(yù)訓(xùn)練形成更加細(xì)粒度的生命基礎(chǔ)大模型。預(yù)訓(xùn)練完成后,GeneCompass進(jìn)一步應(yīng)用于多種下游任務(wù),對(duì)單細(xì)胞轉(zhuǎn)錄組數(shù)據(jù)進(jìn)行編碼,支撐細(xì)胞類型標(biāo)注、基因擾動(dòng)預(yù)測(cè)、藥物反應(yīng)預(yù)測(cè)和基因調(diào)控關(guān)系預(yù)測(cè)等多種任務(wù)。

GeneCompass模型架構(gòu)

規(guī)模效應(yīng):多物種聯(lián)合訓(xùn)練捕獲生物共性進(jìn)化保守規(guī)律

研究人員發(fā)現(xiàn)基于大規(guī)模跨物種數(shù)據(jù)的預(yù)訓(xùn)練模型對(duì)于單物種的子任務(wù)符合尺度定律(scaling law):即較大規(guī)模的多物種預(yù)訓(xùn)練數(shù)據(jù)量較單一物種數(shù)據(jù)量產(chǎn)生更優(yōu)異的預(yù)訓(xùn)練表征,并進(jìn)一步提高下游任務(wù)的性能。這一發(fā)現(xiàn)顯示了物種間存在保守的基因調(diào)控規(guī)律,并且這些規(guī)律能夠被預(yù)訓(xùn)練模型學(xué)習(xí)理解。這同時(shí)預(yù)示著隨物種和數(shù)據(jù)的擴(kuò)展,模型性能有望進(jìn)一步提升。

研究結(jié)果:GeneCompass具有跨物種表征能力

研究人員對(duì)人類和小鼠同一細(xì)胞類型(心肌細(xì)胞)中同源基因和非同源基因的GeneCompass編碼進(jìn)行了相似性分析,可以看出相較于非同源基因,不同物種的同源基因具有更相似的編碼,同源基因在人類和小鼠之間也具有相似的基因調(diào)控關(guān)系。

研究人員將GeneCompass編碼后的基因嵌入與跨物種細(xì)胞類型標(biāo)注的當(dāng)前最優(yōu)方法CAME進(jìn)行結(jié)合,發(fā)現(xiàn)在多種細(xì)胞尤其是視網(wǎng)膜細(xì)胞中,GeneCompass能夠顯著提升跨物種細(xì)胞類型標(biāo)注的精度。這些結(jié)果都展示了GeneCompass通過(guò)多物種聯(lián)合預(yù)訓(xùn)練獲得了生命底層的共性規(guī)律,增強(qiáng)了基因表征的能力。

在基因擾動(dòng)預(yù)測(cè)、藥物反應(yīng)預(yù)測(cè)、基因調(diào)控預(yù)測(cè)、藥物劑量反應(yīng)預(yù)測(cè)、劑量敏感基因預(yù)測(cè)等多種下游任務(wù)中GeneCompass模型均展現(xiàn)出強(qiáng)大的功能。

綜上所述,作為迄今為止最大規(guī)模的、具有知識(shí)嵌入的跨物種預(yù)訓(xùn)練生命基礎(chǔ)大模型,GeneCompass可實(shí)現(xiàn)多個(gè)跨物種下游任務(wù)的遷移學(xué)習(xí),并在細(xì)胞類型注釋、定量基因擾動(dòng)預(yù)測(cè)、藥物敏感性分析等多個(gè)任務(wù)中取得比現(xiàn)有方法更優(yōu)的性能。這充分展示了基于多物種無(wú)標(biāo)注大數(shù)據(jù)預(yù)訓(xùn)練,再利用不同子任務(wù)數(shù)據(jù)進(jìn)行模型微調(diào)的策略優(yōu)勢(shì),有望成為實(shí)現(xiàn)基因-細(xì)胞特征相關(guān)聯(lián)的各種生物問(wèn)題分析預(yù)測(cè)的通用解決方案。

中國(guó)科學(xué)院自動(dòng)化所劉國(guó)樂(lè)和江潔與合作單位的楊曉東、馮桂海、卜德超、王鵬飛、陳述白、楊沁蒙等為文章共同第一作者。自動(dòng)化所楊戈研究員,劉靜研究員與合作單位李鑫研究員、陳益強(qiáng)研究員、李非研究員、周元春研究員、趙屹研究員為共同通訊作者。


論文鏈接

代碼鏈接


來(lái)源:中國(guó)科學(xué)院自動(dòng)化研究所



熱點(diǎn)新聞

推薦產(chǎn)品

x
  • 在線反饋
1.我有以下需求:



2.詳細(xì)的需求:
姓名:
單位:
電話:
郵件:
主站蜘蛛池模板: 午夜精品久视频在线观看| 色综合久久88色综合天天提莫| 黄色美女视频免费| 美女很黄很黄| 男人使劲躁女人视频小v| 亚洲一级毛片免观看| 99精品久久秒播无毒不卡| 成人美女网| 狠狠色丁香婷婷综合久久片| 日韩一级片播放| 武松金莲肉体交战在线观看| 97在线视频观看| 99免费在线观看| 黄色片成年人| 精品国产精品| 韩日黄色片| 男女福利| 农村三级孕妇视频在线| 欧美成人免费全部观看天天性色| 亚洲成年人网址| 亚洲国产伦理| 在线观看精品国产| 在线色网址| 亚洲视频在线观看免费| 亚洲欧美日本国产| 亚洲加勒比在线| 手机免费看a| 亚洲欧美国产中文| 亚洲www| 手机在线看a| 日本亚欧乱色视频在线观看| 亚洲精品手机在线| 午夜两性视频免费看| 一本三道a无线码一区v| 成人a毛片手机免费播放| 成人久久18免费网站| 99精品久久久久久久免费看蜜月| 80岁色老头69av| 亚洲日本欧美在线| 天堂在线视频网站| 欧美一级免费在线观看|