國際機器學習大會(International Conference on Machine Learning,簡稱ICML)是機器學習領域的頂級會議。7月21日至27日,ICML 2024在奧地利維也納正式召開。自動化所多篇研究論文被本屆會議錄用,部分論文當選Spotlight Paper(僅占總投稿量的3.5%)。本文將對相關成果進行介紹,歡迎交流討論。
1.?具有O(L)訓練和O(1)推理復雜度的時間可逆脈沖神經網絡
High-Performance Temporal Reversible Spiking Neural Networks with O(L) Training Memory and O(1) Inference Cost
論文作者:胡珈魁、姚滿、邱雪睿、侴雨宏、蔡宇軒、喬寧、田永鴻、徐波、李國齊
★?本研究入選Spotlight Paper
利用多時間步進行仿真的脈沖神經網絡(SNNs)訓練顯存高,且能耗高。當前的方法無法同時解決這一訓練和推理難題。該研究提出一種時間可逆架構,通過改變SNNs的前向傳播路徑,同時應對訓練和推理挑戰。該研究關閉大部分脈沖神經元的時間動態,并對開啟時間動態的脈沖神經元處設計多級時間可逆交互,從而實現O(L)的訓練需求。結合時間可逆特性,重新設計SNNs的輸入編碼和網絡組織結構,實現了O(1)推理能耗。實驗結果驗證了所提出的方法在不損失性能的前提下,能同時大幅度提升訓練效率和推理效率。
時間可逆脈沖神經網絡
2.?魯棒的偏好強化學習算法
RIME: Robust Preference-based Reinforcement Learning with Noisy Preferences
論文作者:程杰,熊剛,戴星源,繆青海,呂宜生,王飛躍
★?本研究入選Spotlight Paper
強化學習的成功通常需要選擇合適的獎勵函數,這一過程費時費力、且依賴于手工設計。而偏好強化學習(PbRL)方法利用人類偏好來學習獎勵函數,從而規避了該過程。相較于其他領域而言,控制任務需要更高質量的人類反饋數據;同時,現有算法過度追求反饋利用率,期望用更少的反饋數據來獲得更好的控制性能,這進一步惡化了算法在面對噪聲數據時的性能。
為此,本文提出了RIME,一種對含有噪聲的偏好數據魯棒的PbRL算法,可從帶噪偏好中進行有效的獎勵和策略學習。具體而言,基于干凈偏好數據的損失上界假設,理論分析了錯誤樣本的KL散度下界,并進一步對RL訓練中的分布偏移情況進行不確定性補償,從而動態地過濾噪聲偏好數據。為了抵消因錯誤篩選而導致的累積誤差,本文通過熱啟動獎勵模型,使其在預訓練階段擬合自驅獎勵。同時,本文發現獎勵模型的熱啟動還可以彌補 PbRL 從預訓練到在線訓練切換時產生的性能鴻溝。在機器人操作(Meta-World)和運動(DMControl)任務上的實驗表明,RIME 顯著增強了PbRL方法的魯棒性。
論文鏈接:
https://arxiv.org/abs/2402.17257
代碼鏈接:
https://github.com/CJReinforce/RIME_ICML2024
3.?HGCN2SP:基于層次化圖卷積網絡的兩階段隨機規劃
HGCN2SP: Hierarchical Graph Convolutional Network for Two-Stage Stochastic Programming
論文作者:吳洋,張一帆,梁振興,程健
兩階段隨機規劃(Two-Stage Stochastic Programming,2SP)是建模和求解不確定性下決策問題的有效方法。在這種情況下,決策者需要在不確定未來環境的情況下,先做出第一階段的決策,然后根據實際發生的情況(場景)制定具體的第二階段決策,以最小化總成本或最大化總收益。然而,隨著場景數量的增加,問題規模迅速膨脹,導致求解時間顯著增加。因此,如何高效求解成為了亟待解決的關鍵問題。
我們提出了HGCN2SP模型,該模型利用層次化圖卷積網絡提取場景的表征,采用基于注意力機制的解碼器挑選代表性的場景,并結合強化學習(RL)優化其選擇,實現了2SP問題的高效求解。在設施選址問題上的實驗表明,HGCN2SP能夠做出比現有方法更優的決策。在網絡設計問題的實驗中,HGCN2SP僅用不到一半的時間就取得了相近的決策效果。尤其在大規模實例和大量場景的情況下,HGCN2SP依然保持了強大的泛化能力。
4.?邁向高效脈沖Transformer:一種用于訓練和推理加速的令牌稀疏化框架
Towards Efficient Spiking Transformer: A Token Sparsification Framework for Training and Inference Acceleration
論文作者:諸葛正陽,王培松,姚星廷,程健
當前的脈沖Transformer在具有脈沖神經網絡能效優勢的同時,還展現出了逼近人工神經網絡的卓越性能。然而,雖然能通過神經形態計算實現能耗高效的推理過程,但脈沖Transformer在GPU上的訓練過程相比于人工神經網絡需要消耗更多時間。
為了解決該問題,我們探索了針對高效脈沖Transformer的令牌稀疏化方案,并發現傳統稀疏化方法存在明顯的性能下降問題。我們對此問題進行了分析并提出了基于時間步錨定令牌與雙對齊的稀疏化方法(STATA),使用更加標準化的準則在時間步維度上識別重要的令牌,并通過雙對齊機制促進多個維度上較弱注意力圖的學習,進一步保證了令牌稀疏化的準確性。實驗結果表明,STATA在脈沖Transformer的訓練和推理過程顯著優于傳統的稀疏化方法。它在保持了一定模型性能的基礎上,實現了約1.53倍的訓練提速和48%的推理能耗節省,同時它還在多種數據集和架構上具有較好的可遷移性。
5.?揭示極大卷積核網絡魯棒性的秘密
Revealing the Dark Secrets of Extremely Large Kernel ConvNets On Robustness
論文作者:陳宏昊,張育榮,豐效坤,初祥祥,黃凱奇
部署深度學習模型時,魯棒性是一個需要考慮的重要方面。許多研究致力于研究視覺轉換器(ViTs)的魯棒性,因為自20世紀20年代初以來,ViTs一直是視覺任務的主流骨干選擇。最近,一些大卷積核網絡以令人印象深刻的性能和效率卷土重來。然而,目前尚不清楚大卷積核網絡是否具有強魯棒性及影響其魯棒性的因素。
在本文中,我們首先在六個不同的魯棒性基準數據集上對大核卷積的魯棒性及其與典型的小核卷積和ViTs的差異進行了全面評估。然后,為了分析其強大魯棒性背后的潛在因素,我們從定量和定性的角度設計了九組實驗,以揭示大核卷積網絡與傳統卷積網絡完全不同的有趣特性。我們的實驗首次證明,純卷積網絡可以實現與ViTs相當甚至優于ViTs的優異魯棒性。我們對遮擋不變性、核注意力模式和頻率特性的分析為魯棒性的來源提供了新的見解。
6.?Libra:基于解耦視覺系統的多模態大語言模型
Libra: Building Decoupled Vision System on Large Language Models
論文作者:許逸凡,楊小汕,宋亞光,徐常勝
本工作提出了一個基于解耦視覺系統的多模態大語言模型Libra。解耦視覺系統將視覺建模解耦成內部模態建模和跨模態交互兩部分,使得模型能夠在保留視覺獨有信息的同時進行有效的跨模態理解。Libra對于視覺和語言模態采用了統一的自回歸建模。具體來說,本工作在已有大語言模型基礎上,嵌入了路由視覺專家,在模型的注意力計算過程中將視覺和語言流進行路由,從而使得模型在模態內部建模和跨模態交互的計算情境下呈現出不同的注意力計算模式。實驗表明Libra的這種結構設計能夠在僅用5千萬圖文對的訓練數據量下取得和現有多模態大模型相匹敵的性能。因此,本工作為未來多模態基礎模型提供了一個新的設計角度。
7.?基于快-慢測試時自適應的在線視覺-語言導航方法
Fast-Slow Test-time Adaptation for Online Vision-and-Language Navigation
論文作者:高君宇,姚暄,徐常勝
視覺-語言導航作為實現具身智能的關鍵研究方向,專注于探索智能體如何準確理解自然語言指令并導航至目標位置。在實際中,智能體通常需要以在線的方式執行視覺-語言導航任務,即完成跨樣本的在線指令執行和單樣本內的多步動作決策。由于僅依賴預訓練和固定的導航模型難以滿足多樣化的測試環境,這促使我們探索如何利用未標注的測試樣本來實現有效的在線模型適應。然而,過于頻繁的模型更新可能導致模型參數發生顯著變化,而偶爾的更新又可能使模型難以適應動態變化的環境。
為此,本文提出了一種新的快-慢測試時自適應方法(FSTTA),該方法在統一框架下對模型梯度和參數進行聯合的分解與累積分析,以應對在線視覺語言導航任務的挑戰。通過大量實驗驗證,本文提出的方法在四個流行的基準測試中均取得了顯著的性能提升。
模型的整體架構
論文鏈接:
https://icml.cc/virtual/2024/poster/33723
代碼鏈接:
https://github.com/Feliciaxyao/ICML2024-FSTTA?
8.?Transformer不同子層的差異化結構壓縮
LoRAP: Transformer Sub-Layers Deserve Differentiated Structured Compression for Large Language Models
論文作者:李廣焱,唐永強,張文生
Transformer的結構化壓縮往往采用單一的壓縮方法,從而忽略了Transformer中不同子層之間的結構特性。為了解決該問題,本文設計了一種新穎的結構化壓縮方法 LoRAP,它有機地結合了低秩矩陣近似和結構化剪枝。這項研究中得出了一個重要觀察:多頭自注意力(MHA)子層顯示出明顯的低秩結構,而前饋網絡(FFN)子層則沒有。基于這一觀察,對于MHA子層,本文提出了一種輸入激活加權奇異值分解方法,并根據矩陣低秩屬性的差異分配不同的參數量。對于FFN子層,本文提出了一種梯度無關的結構化通道剪枝方法。在零樣本困惑度和零樣本任務分類的廣泛評估中,本文的方法在多個壓縮比下均優于之前的結構化壓縮方法。
論文鏈接:
https://arxiv.org/abs/2404.09695
9.?連點成線:面向黑盒視覺語言模型的協作式微調
Connecting the Dots: Collaborative Fine-tuning for Black-Box Vision-Language Models
論文作者:王政博、梁堅、赫然、王子磊、譚鐵牛
隨著預訓練視覺語言模型的不斷發展,它的通用性和泛化性得到廣泛認可,人們投入了大量精力對其進行微調以適應下游任務。盡管如此,這些方法通常需要訪問模型的結構和參數,這可能會侵犯模型所有者的權益。因此,為了保護其模型所有權,模型擁有者往往選擇將其模型以黑盒形式提供,這給模型微調帶來了挑戰。
本文提出了一種名為協作式微調(CraFT)的新方法,用于在黑盒條件下微調視覺語言模型以適應各種下游任務。該方法僅依賴于模型的輸入提示和輸出預測結果。CraFT設計兩個關鍵模塊:一個提示生成模塊,用于自動學習最有效的文本提示;一個預測優化模塊,通過增強殘差來優化輸出預測。此外,我們引入了一種輔助的預測一致性損失,以促進這些模塊之間的一致優化。所有這些模塊通過一種新穎的協作訓練算法進行優化。
通過大量的實驗驗證,無需模型的結構、參數及梯度,CraFT能夠在保持微調效率的前提下大幅提升黑盒模型在下游任務的性能。
論文鏈接:
https://arxiv.org/abs/2402.04050
代碼鏈接:
https://github.com/mrflogs/CraFT
10.?詞元級別直接偏好優化
Token-level Direct Preference Optimization
論文作者:曾勇程,劉國慶,馬緯彧,楊寧,張海峰,汪軍
在人工智能領域的發展過程中,對大語言模型(LLM)的控制與指導始終是核心挑戰之一,旨在確保這些模型既強大又安全地服務于人類社會。直接偏好優化方法(DPO)通過數學推理得到獎勵函數與最優策略之間的直接映射,消除了獎勵模型的訓練過程,直接在偏好數據上優化策略模型,實現了從「反饋到策略」的直觀飛躍。然而,DPO主要關注在逆KL散度約束下的策略優化。由于逆KL散度的mode-seeking特性,DPO在提升對齊性能方面表現出色,但是這一特性也傾向于在生成過程中減少多樣性,可能限制模型的能力。另一方面,盡管DPO從句子級的角度控制KL散度,模型的生成過程本質上是逐個token進行的。從句子級控制KL散度直觀上表明DPO在細粒度控制上存在限制,對KL散度的調節能力較弱,可能是DPO訓練過程中LLM的生成多樣性迅速下降的關鍵因素之一。
為了應對模型生成多樣性顯著下降的問題,我們的方法TDPO從token-level的角度重新定義了整個對齊流程的目標函數,并通過將Bradley-Terry模型轉換為優勢函數的形式,使得整個對齊流程能最終從 Token-level層面進行分析和優化。相比于 DPO而言,TDPO的主要貢獻如下:
●?Token-level的建模方式:TDPO從Token-level的角度對問題進行了建模,對RLHF進行了更精細的分析;
●?細粒度KL散度約束:在每個token處從理論上引入了前向 KL散度約束,使方法能夠更好地約束模型優化;
●?性能優勢明顯:相比于DPO而言,TDPO能夠實現更好的對齊性能和生成多樣性的帕累托前沿。
圖 1:DPO和TDPO損失函數對比
圖 2:IMDb數據集上的實驗。圖3(a)表示相對于參考模型的預期回報和KL散度的帕累托前沿。我們針對參數α實施了DPO、TDPO1以及TDPO2的不同版本。就帕累托前沿而言,TDPO1和TDPO2均優于DPO,其中TDPO2相對于TDPO1進一步提高了性能。這證明了我們的分析和修改的有效性。圖3(b)和圖3(c)分別展示了在訓練步驟中,偏好和不偏好響應子集的序列KL散度的演變情況。圖3(d)展示了在整個訓練過程中,不偏好響應子集的序列KL散度與偏好響應子集的序列KL散度之間的差異。與TDPO1和DPO算法相比,TDPO2在KL散度的調節方面表現出了優越性。
論文地址:
https://arxiv.org/abs/2404.11999
代碼地址:
https://github.com/Vance0124/Token-level-Direct-Preference-Optimization
11.?基于擾動過程一致性的隨機微分方程的策略梯度穩定算法
Stabilizing Policy Gradients for Stochastic Differential Equations via Consistency with Perturbation Process
論文作者:周相鑫,王亮,周釔馳
為了生成具有目標性質的樣本,本研究專注于優化參數化的隨機微分方程(SDEs)的深度神經網絡生成模型,這是具有高表達性的先進生成模型。策略梯度是強化學習中的領先算法。然而,當將策略梯度應用于SDEs時,由于策略梯度是基于有限的軌跡集估計的,它可能是不明確的,并且在數據稀疏區域的策略行為可能是不受控制的。這一挑戰妨礙了策略梯度的穩定性,并對樣本復雜性產生了負面影響。
為了解決這些問題,本研究提出將SDE約束為與其相關的擾動過程一致。由于擾動過程覆蓋了整個空間并且易于采樣,本研究可以緩解上述問題。研究框架提供了一種通用方法,允許靈活選擇策略梯度方法,以有效且高效地訓練SDEs。本研究在基于結構的藥物設計任務上評估了算法,并優化了生成的配體分子的結合親和力。本研究提出的方法在CrossDocked2020數據集上實現了最佳Vina得分。
論文鏈接:
https://arxiv.org/abs/2403.04154
12.?多智能體系統中的序列異步動作協調:斯塔克爾伯格決策Transformer方法
Sequential Asynchronous Action Coordination in Multi-Agent Systems: A Stackelberg Decision Transformer Approach
論文作者:張斌,毛航宇,李麗娟,徐志偉,李大鵬,趙瑞,范國梁
在多智能體系統中,智能體不僅需要最大化自身獎勵,還需與其他智能體動態協調,以實現最佳聯合策略。現有的MARL方法大多假設智能體之間的同步動作,限制了其在復雜場景中的應用。
這篇文章探討了多智能體系統中的異步動作協調問題。作者提出了一種新的方法—Stackelberg Decision Transformer(STEER),旨在通過結合斯塔克爾伯格博弈的層次決策結構和自回歸序列模型的建模能力,來提高多智能體強化學習方法的可擴展性。STEER引入了雙Transformer架構,其中內部Transformer塊能夠實現博弈抽象,有效處理不同環境下的狀態配置,外部Transformer塊則促進了每個智能體策略函數和價值函數的自回歸擬合。這種架構還能夠并行更新所有智能體的策略,大幅降低了之前基于斯塔克爾伯格博弈博弈的強化學習方法的計算成本。此外,文章還提出了知識蒸餾方案來實現其在分散式執行系統中的部署。
13.?SpikeLM:通過松弛雙向脈沖機制實現脈沖驅動的通用語言建模
SpikeLM: Towards General Spike-Driven Language Modeling via Elastic Bi-Spiking Mechanisms
論文作者:邢興潤,張正,倪子懿,肖詩濤,鞠一鳴,樊思琪,王業全,張家俊,李國齊
文章的目標是開發一種類腦的低功耗人工智能語言模型,即生物啟發的脈沖神經網絡(SNNs)。與傳統的人工神經網絡(ANNs)相比,SNNs具有生物神經細胞可解釋性、事件驅動的稀疏性和二值激活的優勢。近期,大規模語言模型展現出了讓人印象深刻的泛化能力,這激發了探索更通用的脈沖驅動模型的動機。然而,現有SNN中的二值脈沖無法編碼足夠的語義信息,這給泛化帶來了技術挑戰。
本文提出了一種全新的全脈沖機制,用于通用語言任務,包括判別性和生成性任務。與以往的{0,1}脈沖不同,我們提出了一種更通用的脈沖形式,具有雙向、松弛的幅度和頻率編碼,同時保持了SNN的加性特性。在單時間步中,脈沖通過方向和幅度信息得到增強;在脈沖頻率上,我們設計了一種控制脈沖發射率的策略。我們將這種松弛的雙向脈沖機制應用于語言建模,命名為SpikeLM。這是第一次使用全脈沖驅動模型處理通用語言任務,其準確性大幅超越了以往方法。SpikeLM還大大縮小了SNN和ANN在語言建模中的性能差距。
代碼鏈接:
https://github.com/XingrunXing/SpikeLM
來源:中國科學院自動化研究所