近日,中國科學院自動化所腦圖譜與類腦智能實驗室李國齊研究員與西安交通大學趙廣社教授合作在人工智能頂級國際期刊IEEE Transactions on Pattern Analysis and Machine Intelligence(TPAMI)上發表了一篇題為“Attention Spiking Neural Networks”的研究。這項工作將注意力機制融入百萬級規模脈沖神經網絡,在ImageNet-1K數據集上,首次取得了與傳統人工神經網絡相當的性能,且理論能效為同等結構人工神經網絡的31.8倍。本方法在顯著提升任務性能的同時能夠大幅降低網絡能量消耗,為低功耗神經形態系統的發展提供了新思路。
以傳統人工神經網絡為代表的深度學習近年來在一些任務上展現出接近或超越人類的能力。在取得這些成就的同時,人類也付出了海量的能耗代價。而人腦能夠以極低地能耗高效完成相同或更復雜的任務。如何使得機器智能像人腦一樣高效工作是研究者們孜孜以求的目標。基于脈沖神經網絡的神經形態計算提供了一種極具吸引力的傳統人工智能的低能耗替代方案。脈沖神經元模擬了生物神經元中的復雜時空動態,其表達能力在理論上強于現有的人工神經元。同時,脈沖神經元繼承了生物神經元中的脈沖通信方式,這也是脈沖神經網絡實現低功耗的關鍵。一方面,在神經形態系統中只需要執行低能耗的突觸加法;另一方面,事件驅動特性使得只有脈沖神經元發放脈沖時神經形態系統才會觸發計算。因此,如何以低脈沖發放率實現高任務性能是神經形態計算中的一個重要問題。人腦可以自然而有效地在復雜場景中找到重要信息,這被稱為注意力機制。注意力機制已被廣泛應用于深度學習中,并取得了顯著的效果。然而在神經形態計算領域的應用還極具挑戰性。
為了將注意力機制融入脈沖神經網絡中,有三個基礎問題需要考慮。首先,脈沖神經網絡高能效的關鍵是以脈沖通信為基礎的事件驅動特性,注意力機制不能破壞這種特性。其次,脈沖神經網絡應用場景廣泛,需要有多樣性的設計以保證其在各種場景中的有效性。最后,二進制脈沖通信使得深度脈沖神經網絡容易出現由梯度消失或爆炸帶來的性能退化問題,注意力機制的加入至少不應加劇退化問題。
如圖1所示,人腦中注意力的功能實現主要體現在對不同腦區或神經元脈沖發放的調節。受此啟發,該研究通過注意力機制來優化脈沖神經網絡內部的膜電勢分布,關注重要特征并抑制不必要的特征,進而起到調節脈沖發放的作用。網絡架構如圖2所示。
進一步地,為了使注意力脈沖神經網絡適應于各種應用場景,如圖3所示,該研究融合了時間、通道和空間三個維度,以學習“何時”、“什么”、“哪里”是重要的。
研究團隊在基于事件的動作識別數據集以及靜態圖像分類數據集ImageNet-1K上對提出的多維度注意力脈沖神經網絡進行了實驗。實驗表明注意力模塊的加入不僅幫助脈沖神經網絡在性能上有顯著提升,網絡中的脈沖數量也能大大降低,從而降低模型能耗。在DVS128 Gait數據集上,多維度注意力模塊能夠使得原始脈沖神經網絡降低81.6%的脈沖發放,同時帶來4.7%的性能提升(表1)。在ImageNet-1K數據集上,注意力脈沖神經網絡首次取得了與傳統人工神經網絡相當的性能,且理論能效為同等結構人工神經網絡的31.8倍(表2)。
該研究還提出了一種新的可視化方法用來分析為什么所提出的注意力模塊能夠在降低脈沖發放的同時提升網絡性能。如圖4、圖5所示,加入了注意力機制的脈沖神經網絡在專注重要信息的同時,能夠抑制不重要的背景噪聲信息(特征圖中的每個像素點代表一個神經元發放率。顏色越紅代表發放率越大;越藍代表發放率越小)。而在所有的特征圖中,噪聲特征圖或神經元中的脈沖發放率都很高。因此抑制噪聲信息能夠顯著降低網絡中的脈沖發放。
進一步,該研究通過塊動態等距理論證明將所提出的注意力模塊加入到深度脈沖神經網絡中仍然能實現動態等距。也就是,注意力模塊在深度脈沖神經網絡中不會引起性能退化。
綜上,本研究工作探索了如何在脈沖神經網絡中使用注意力機制,發現通過將注意力機制作為輔助模塊插入到脈沖神經網絡中,能夠在大幅度降低網絡脈沖發放的同時顯著提升任務性能。通過可視化原始和注意力脈沖神經網絡的脈沖響應可知,注意力機制能幫助原始網絡在專注重要信息的同時抑制噪聲信息,而噪聲通道或神經元中包含了大量的脈沖。因此,在基于脈沖神經網絡的神經形態計算中,能夠實現像人腦一樣以更低的能耗獲得更好的性能。
論文第一作者為西安交大博士生姚滿,通訊作者為中國科學院自動化所李國齊研究員。中國科學院自動化所徐波研究員、西安交通大學趙廣社教授、北京大學田永鴻教授和清華大學碩士生張恒煜、博士生胡一凡、鄧磊助理教授是論文共同作者。相關工作得到了北京市杰出青年基金、國家自然科學基金委重點項目、區域創新聯合重點項目等基金項目的支持。
來源:中國科學院自動化研究所