解碼人類視覺神經表征是一項具有重要科學意義的挑戰,可以揭示視覺處理機制并促進腦科學與人工智能的發展。然而,目前的神經解碼方法難以泛化到訓練數據以外的新類別,主要挑戰在于現有方法未充分利用神經數據背后的多模態語義知識,且現有的可利用的配對(刺激-腦響應)訓練數據很少。
近日,中科院自動化所神經計算與腦機交互團隊將大腦、視覺和語言知識相結合,通過多模態學習實現了從人類腦活動中零樣本地解碼視覺新類別。相關研究成果以Decoding Visual Neural Representations by Multimodal Learning of Brain-Visual-Linguistic Features為題發表于IEEE Transactions on Pattern Analysis and Machine Intelligence (IEEE TPAMI)。人類對視覺刺激的感知和識別受到視覺特征和人們先前經驗的影響,例如當人們看到一個熟悉的物體時,大腦會自然而然地檢索與該物體相關的知識,如圖1所示。基于此,本研究提出“腦-圖-文”三模態聯合學習框架,在使用實際呈現的視覺語義特征的同時,加入與該視覺目標對象相關的更豐富的語言語義特征,以更好地解碼腦信號。
該研究證明,從人腦活動中解碼新的視覺類別是可以實現的,并且精度較高;使用視覺和語言特征的組合比僅使用其中之一的解碼表現更好;在人腦語義表征過程中,視覺加工會受到語言的影響。
相關發現不僅對人類視覺系統的理解有所啟示,也有望為腦機接口技術提供新思路。研究團隊介紹,本工作提出的方法具有三個方面的潛在應用:作為一種神經語義解碼工具,此方法將在新型讀取人腦語義信息的神經假肢設備的開發中發揮重要作用,可為其提供技術基礎;作為神經編碼工具,通過跨模態推斷腦活動,用于研究視覺和語言特征如何在人類大腦皮層上表達,揭示哪些腦區具有多模態屬性(即對視覺和語言特征敏感);作為類腦特性評估工具,測試哪個模型的(視覺或語言)表征更接近于人類腦活動,從而激勵研究人員設計更加類腦的計算模型。
論文第一作者為中國科學院特別研究助理杜長德,通訊作者為何暉光研究員。研究工作得到了科技部科技創新2030—“新一代人工智能”重大項目、基金委項目、中國科學院自動化研究所2035創新任務以及CAAI-華為MindSpore學術獎勵基金及智能基座等項目的支持。為促進該領域的持續發展,研究團隊已將代碼和新收集的三模態數據集開源。
來源:中國科學院自動化研究所