国产欧美日韩精品a在线观看-国产欧美日韩精品一区二区三区-国产欧美日韩精品综合-国产欧美中文字幕-一区二区三区精品国产-一区二区三区精品国产欧美

ACS880-07C
關注中國自動化產業發展的先行者!
CAIAC 2025
2024
工業智能邊緣計算2024年會
2023年工業安全大會
OICT公益講堂
當前位置:首頁 >> 資訊 >> 行業資訊

資訊頻道

首個知識與數據聯合驅動的多物種生命基礎大模型GeneCompass
  • 點擊數:470     發布時間:2024-10-25 21:57:51
  • 分享到:
近年來,大語言模型(LLMs)已在自然語言處理、計算機視覺等通用領域引發了新一輪技術革命,進而通過與不同自然學科分支的融合形成了人工智能驅動的科學研究新范式。在生命科學領域,單細胞組學技術的突破產生了大量不同物種細胞的基因表達譜數據,形成了海量的生命“語料”。

近年來,大語言模型(LLMs)已在自然語言處理、計算機視覺等通用領域引發了新一輪技術革命,進而通過與不同自然學科分支的融合形成了人工智能驅動的科學研究新范式。在生命科學領域,單細胞組學技術的突破產生了大量不同物種細胞的基因表達譜數據,形成了海量的生命“語料”。如果把基因表達值看作單詞,它們組合在一起就構成了細胞“句子”,進而形成了組織“段落”和器官“文章”,而不同物種可以看作生命“語種”。利用LLMs相關技術學習和理解這些生命“語料”,有望構建系統精準破解基因密碼的生命基礎大模型,探索生命普遍存在的基因調控機制,增進理解生命底層共性規律并創新各種重大疾病的診療手段。

中國科學院動物研究所、中國科學院自動化研究所、中國科學院計算技術研究所、中國科學院計算機網絡信息中心、中國科學院數學與系統科學研究院等組成多學科交叉研究團隊在生命科學人工智能(AI for Life Science)研究方面取得了重要突破,于2024年10月發表在生命科學領域頂級期刊Cell Research上。

論文建立了世界首個知識與數據聯合驅動的多物種生命基礎大模型GeneCompass,同時處理了人類和小鼠兩個物種的轉錄組數據,包含了超過1.26億個單細胞并覆蓋3.6萬個基因,融合了啟動子序列、基因共表達關系、基因家族標注和基因調控關系等四種先驗知識。GeneCompass的參數量超過1.3億,實現了對基因表達調控規律的全景式學習理解,同時支持細胞狀態變化預測及多種生命過程的精準分析,展示了人工智能賦能生命科學研究的強大能力和巨大潛力。

模型架構:知識嵌入的生命基礎大模型GeneCompass

GeneCompass是國際上首個融入先驗知識的預訓練基礎大模型,發展了知識與數據聯合驅動的新范式。GeneCompass采用gene2vec、DNABert等工具將啟動子序列、已知基因調控網絡、基因家族信息和基因共表達關系等四種生物學先驗知識進行編碼,在單細胞轉錄組的基因ID和表達值基礎上加入人類注釋信息編碼,提高了對生物數據間復雜特征關聯關系的理解。通過訓練整合了不同物種的數據信息及先驗知識,GeneCompass顯著提升了多種下游任務的性能,有望進一步提高傳統生物學研究的效率和精準性,為尚無法突破的復雜生命科學難題帶來新的切入點。

GeneCompass采用基于Transformer的深度學習架構,通過擴展傳統的掩碼語言模型Masked Auto Encoder(MAE)方式進行預訓練,根據單細胞轉錄組的上下文同時預測掩碼的基因ID及其表達值,捕獲不同基因之間在不同細胞背景下的長程動態關聯,通過多任務聯合預訓練形成更加細粒度的生命基礎大模型。預訓練完成后,GeneCompass進一步應用于多種下游任務,對單細胞轉錄組數據進行編碼,支撐細胞類型標注、基因擾動預測、藥物反應預測和基因調控關系預測等多種任務。

GeneCompass模型架構

規模效應:多物種聯合訓練捕獲生物共性進化保守規律

研究人員發現基于大規模跨物種數據的預訓練模型對于單物種的子任務符合尺度定律(scaling law):即較大規模的多物種預訓練數據量較單一物種數據量產生更優異的預訓練表征,并進一步提高下游任務的性能。這一發現顯示了物種間存在保守的基因調控規律,并且這些規律能夠被預訓練模型學習理解。這同時預示著隨物種和數據的擴展,模型性能有望進一步提升。

研究結果:GeneCompass具有跨物種表征能力

研究人員對人類和小鼠同一細胞類型(心肌細胞)中同源基因和非同源基因的GeneCompass編碼進行了相似性分析,可以看出相較于非同源基因,不同物種的同源基因具有更相似的編碼,同源基因在人類和小鼠之間也具有相似的基因調控關系。

研究人員將GeneCompass編碼后的基因嵌入與跨物種細胞類型標注的當前最優方法CAME進行結合,發現在多種細胞尤其是視網膜細胞中,GeneCompass能夠顯著提升跨物種細胞類型標注的精度。這些結果都展示了GeneCompass通過多物種聯合預訓練獲得了生命底層的共性規律,增強了基因表征的能力。

在基因擾動預測、藥物反應預測、基因調控預測、藥物劑量反應預測、劑量敏感基因預測等多種下游任務中GeneCompass模型均展現出強大的功能。

綜上所述,作為迄今為止最大規模的、具有知識嵌入的跨物種預訓練生命基礎大模型,GeneCompass可實現多個跨物種下游任務的遷移學習,并在細胞類型注釋、定量基因擾動預測、藥物敏感性分析等多個任務中取得比現有方法更優的性能。這充分展示了基于多物種無標注大數據預訓練,再利用不同子任務數據進行模型微調的策略優勢,有望成為實現基因-細胞特征相關聯的各種生物問題分析預測的通用解決方案。

中國科學院自動化所劉國樂和江潔與合作單位的楊曉東、馮桂海、卜德超、王鵬飛、陳述白、楊沁蒙等為文章共同第一作者。自動化所楊戈研究員,劉靜研究員與合作單位李鑫研究員、陳益強研究員、李非研究員、周元春研究員、趙屹研究員為共同通訊作者。


論文鏈接

代碼鏈接


來源:中國科學院自動化研究所



熱點新聞

推薦產品

x
  • 在線反饋
1.我有以下需求:



2.詳細的需求:
姓名:
單位:
電話:
郵件:
主站蜘蛛池模板: 久久精品视频亚洲| 老司机一级片| 久久久影院亚洲精品| 国产国语在线播放视频| 在线观看一二三区| 日韩精品在线观看免费| 国产黄a三级三级三级| 日本红怡院亚洲红怡院最新| 国产一久久香蕉国产线看观看| 91精品国产综合久久香蕉| 奇米色88欧美一区二区| 99热热久久这里只有精品166| 欧美另类 videos黑人极品| 国产精品偷伦费观看| 亚洲国产日韩欧美| 国产精品午夜性视频| 欧美一级精品| 国产成人aa在线观看视频| 天堂视频免费看| a网在线| 久久久网站| 一本色道久久88加勒比—综合| 免费公开视频人人人人人人人| 亚洲欧美日韩综合久久久久 | 亚洲视频2| 国产免费自拍视频| 日韩欧美中文字幕在线视频| 中文字幕亚洲精品| 狠狠综合久久久综合| 三级黄色在线观看| 亚洲一区二区中文字幕| 国产永久在线视频| 日本在线观看免费看片| 亚洲另类视频| 国产高清视频免费| 欧美成免费| 欧美一二区视频| 中文字幕一二三四区2021| 国产女人自拍| 久久国内精品自在自线400部o| 亚洲精品在线免费|