國際機(jī)器學(xué)習(xí)大會(huì)(International Conference on Machine Learning,簡稱ICML)是機(jī)器學(xué)習(xí)領(lǐng)域的頂級會(huì)議。7月21日至27日,ICML 2024在奧地利維也納正式召開。自動(dòng)化所多篇研究論文被本屆會(huì)議錄用,部分論文當(dāng)選Spotlight Paper(僅占總投稿量的3.5%)。本文將對相關(guān)成果進(jìn)行介紹,歡迎交流討論。
1.?具有O(L)訓(xùn)練和O(1)推理復(fù)雜度的時(shí)間可逆脈沖神經(jīng)網(wǎng)絡(luò)
High-Performance Temporal Reversible Spiking Neural Networks with O(L) Training Memory and O(1) Inference Cost
論文作者:胡珈魁、姚滿、邱雪睿、侴雨宏、蔡宇軒、喬寧、田永鴻、徐波、李國齊
★?本研究入選Spotlight Paper
利用多時(shí)間步進(jìn)行仿真的脈沖神經(jīng)網(wǎng)絡(luò)(SNNs)訓(xùn)練顯存高,且能耗高。當(dāng)前的方法無法同時(shí)解決這一訓(xùn)練和推理難題。該研究提出一種時(shí)間可逆架構(gòu),通過改變SNNs的前向傳播路徑,同時(shí)應(yīng)對訓(xùn)練和推理挑戰(zhàn)。該研究關(guān)閉大部分脈沖神經(jīng)元的時(shí)間動(dòng)態(tài),并對開啟時(shí)間動(dòng)態(tài)的脈沖神經(jīng)元處設(shè)計(jì)多級時(shí)間可逆交互,從而實(shí)現(xiàn)O(L)的訓(xùn)練需求。結(jié)合時(shí)間可逆特性,重新設(shè)計(jì)SNNs的輸入編碼和網(wǎng)絡(luò)組織結(jié)構(gòu),實(shí)現(xiàn)了O(1)推理能耗。實(shí)驗(yàn)結(jié)果驗(yàn)證了所提出的方法在不損失性能的前提下,能同時(shí)大幅度提升訓(xùn)練效率和推理效率。
時(shí)間可逆脈沖神經(jīng)網(wǎng)絡(luò)
2.?魯棒的偏好強(qiáng)化學(xué)習(xí)算法
RIME: Robust Preference-based Reinforcement Learning with Noisy Preferences
論文作者:程杰,熊剛,戴星源,繆青海,呂宜生,王飛躍
★?本研究入選Spotlight Paper
強(qiáng)化學(xué)習(xí)的成功通常需要選擇合適的獎(jiǎng)勵(lì)函數(shù),這一過程費(fèi)時(shí)費(fèi)力、且依賴于手工設(shè)計(jì)。而偏好強(qiáng)化學(xué)習(xí)(PbRL)方法利用人類偏好來學(xué)習(xí)獎(jiǎng)勵(lì)函數(shù),從而規(guī)避了該過程。相較于其他領(lǐng)域而言,控制任務(wù)需要更高質(zhì)量的人類反饋數(shù)據(jù);同時(shí),現(xiàn)有算法過度追求反饋利用率,期望用更少的反饋數(shù)據(jù)來獲得更好的控制性能,這進(jìn)一步惡化了算法在面對噪聲數(shù)據(jù)時(shí)的性能。
為此,本文提出了RIME,一種對含有噪聲的偏好數(shù)據(jù)魯棒的PbRL算法,可從帶噪偏好中進(jìn)行有效的獎(jiǎng)勵(lì)和策略學(xué)習(xí)。具體而言,基于干凈偏好數(shù)據(jù)的損失上界假設(shè),理論分析了錯(cuò)誤樣本的KL散度下界,并進(jìn)一步對RL訓(xùn)練中的分布偏移情況進(jìn)行不確定性補(bǔ)償,從而動(dòng)態(tài)地過濾噪聲偏好數(shù)據(jù)。為了抵消因錯(cuò)誤篩選而導(dǎo)致的累積誤差,本文通過熱啟動(dòng)獎(jiǎng)勵(lì)模型,使其在預(yù)訓(xùn)練階段擬合自驅(qū)獎(jiǎng)勵(lì)。同時(shí),本文發(fā)現(xiàn)獎(jiǎng)勵(lì)模型的熱啟動(dòng)還可以彌補(bǔ) PbRL 從預(yù)訓(xùn)練到在線訓(xùn)練切換時(shí)產(chǎn)生的性能鴻溝。在機(jī)器人操作(Meta-World)和運(yùn)動(dòng)(DMControl)任務(wù)上的實(shí)驗(yàn)表明,RIME 顯著增強(qiáng)了PbRL方法的魯棒性。
論文鏈接:
https://arxiv.org/abs/2402.17257
代碼鏈接:
https://github.com/CJReinforce/RIME_ICML2024
3.?HGCN2SP:基于層次化圖卷積網(wǎng)絡(luò)的兩階段隨機(jī)規(guī)劃
HGCN2SP: Hierarchical Graph Convolutional Network for Two-Stage Stochastic Programming
論文作者:吳洋,張一帆,梁振興,程健
兩階段隨機(jī)規(guī)劃(Two-Stage Stochastic Programming,2SP)是建模和求解不確定性下決策問題的有效方法。在這種情況下,決策者需要在不確定未來環(huán)境的情況下,先做出第一階段的決策,然后根據(jù)實(shí)際發(fā)生的情況(場景)制定具體的第二階段決策,以最小化總成本或最大化總收益。然而,隨著場景數(shù)量的增加,問題規(guī)模迅速膨脹,導(dǎo)致求解時(shí)間顯著增加。因此,如何高效求解成為了亟待解決的關(guān)鍵問題。
我們提出了HGCN2SP模型,該模型利用層次化圖卷積網(wǎng)絡(luò)提取場景的表征,采用基于注意力機(jī)制的解碼器挑選代表性的場景,并結(jié)合強(qiáng)化學(xué)習(xí)(RL)優(yōu)化其選擇,實(shí)現(xiàn)了2SP問題的高效求解。在設(shè)施選址問題上的實(shí)驗(yàn)表明,HGCN2SP能夠做出比現(xiàn)有方法更優(yōu)的決策。在網(wǎng)絡(luò)設(shè)計(jì)問題的實(shí)驗(yàn)中,HGCN2SP僅用不到一半的時(shí)間就取得了相近的決策效果。尤其在大規(guī)模實(shí)例和大量場景的情況下,HGCN2SP依然保持了強(qiáng)大的泛化能力。
4.?邁向高效脈沖Transformer:一種用于訓(xùn)練和推理加速的令牌稀疏化框架
Towards Efficient Spiking Transformer: A Token Sparsification Framework for Training and Inference Acceleration
論文作者:諸葛正陽,王培松,姚星廷,程健
當(dāng)前的脈沖Transformer在具有脈沖神經(jīng)網(wǎng)絡(luò)能效優(yōu)勢的同時(shí),還展現(xiàn)出了逼近人工神經(jīng)網(wǎng)絡(luò)的卓越性能。然而,雖然能通過神經(jīng)形態(tài)計(jì)算實(shí)現(xiàn)能耗高效的推理過程,但脈沖Transformer在GPU上的訓(xùn)練過程相比于人工神經(jīng)網(wǎng)絡(luò)需要消耗更多時(shí)間。
為了解決該問題,我們探索了針對高效脈沖Transformer的令牌稀疏化方案,并發(fā)現(xiàn)傳統(tǒng)稀疏化方法存在明顯的性能下降問題。我們對此問題進(jìn)行了分析并提出了基于時(shí)間步錨定令牌與雙對齊的稀疏化方法(STATA),使用更加標(biāo)準(zhǔn)化的準(zhǔn)則在時(shí)間步維度上識(shí)別重要的令牌,并通過雙對齊機(jī)制促進(jìn)多個(gè)維度上較弱注意力圖的學(xué)習(xí),進(jìn)一步保證了令牌稀疏化的準(zhǔn)確性。實(shí)驗(yàn)結(jié)果表明,STATA在脈沖Transformer的訓(xùn)練和推理過程顯著優(yōu)于傳統(tǒng)的稀疏化方法。它在保持了一定模型性能的基礎(chǔ)上,實(shí)現(xiàn)了約1.53倍的訓(xùn)練提速和48%的推理能耗節(jié)省,同時(shí)它還在多種數(shù)據(jù)集和架構(gòu)上具有較好的可遷移性。
5.?揭示極大卷積核網(wǎng)絡(luò)魯棒性的秘密
Revealing the Dark Secrets of Extremely Large Kernel ConvNets On Robustness
論文作者:陳宏昊,張育榮,豐效坤,初祥祥,黃凱奇
部署深度學(xué)習(xí)模型時(shí),魯棒性是一個(gè)需要考慮的重要方面。許多研究致力于研究視覺轉(zhuǎn)換器(ViTs)的魯棒性,因?yàn)樽?0世紀(jì)20年代初以來,ViTs一直是視覺任務(wù)的主流骨干選擇。最近,一些大卷積核網(wǎng)絡(luò)以令人印象深刻的性能和效率卷土重來。然而,目前尚不清楚大卷積核網(wǎng)絡(luò)是否具有強(qiáng)魯棒性及影響其魯棒性的因素。
在本文中,我們首先在六個(gè)不同的魯棒性基準(zhǔn)數(shù)據(jù)集上對大核卷積的魯棒性及其與典型的小核卷積和ViTs的差異進(jìn)行了全面評估。然后,為了分析其強(qiáng)大魯棒性背后的潛在因素,我們從定量和定性的角度設(shè)計(jì)了九組實(shí)驗(yàn),以揭示大核卷積網(wǎng)絡(luò)與傳統(tǒng)卷積網(wǎng)絡(luò)完全不同的有趣特性。我們的實(shí)驗(yàn)首次證明,純卷積網(wǎng)絡(luò)可以實(shí)現(xiàn)與ViTs相當(dāng)甚至優(yōu)于ViTs的優(yōu)異魯棒性。我們對遮擋不變性、核注意力模式和頻率特性的分析為魯棒性的來源提供了新的見解。
6.?Libra:基于解耦視覺系統(tǒng)的多模態(tài)大語言模型
Libra: Building Decoupled Vision System on Large Language Models
論文作者:許逸凡,楊小汕,宋亞光,徐常勝
本工作提出了一個(gè)基于解耦視覺系統(tǒng)的多模態(tài)大語言模型Libra。解耦視覺系統(tǒng)將視覺建模解耦成內(nèi)部模態(tài)建模和跨模態(tài)交互兩部分,使得模型能夠在保留視覺獨(dú)有信息的同時(shí)進(jìn)行有效的跨模態(tài)理解。Libra對于視覺和語言模態(tài)采用了統(tǒng)一的自回歸建模。具體來說,本工作在已有大語言模型基礎(chǔ)上,嵌入了路由視覺專家,在模型的注意力計(jì)算過程中將視覺和語言流進(jìn)行路由,從而使得模型在模態(tài)內(nèi)部建模和跨模態(tài)交互的計(jì)算情境下呈現(xiàn)出不同的注意力計(jì)算模式。實(shí)驗(yàn)表明Libra的這種結(jié)構(gòu)設(shè)計(jì)能夠在僅用5千萬圖文對的訓(xùn)練數(shù)據(jù)量下取得和現(xiàn)有多模態(tài)大模型相匹敵的性能。因此,本工作為未來多模態(tài)基礎(chǔ)模型提供了一個(gè)新的設(shè)計(jì)角度。
7.?基于快-慢測試時(shí)自適應(yīng)的在線視覺-語言導(dǎo)航方法
Fast-Slow Test-time Adaptation for Online Vision-and-Language Navigation
論文作者:高君宇,姚暄,徐常勝
視覺-語言導(dǎo)航作為實(shí)現(xiàn)具身智能的關(guān)鍵研究方向,專注于探索智能體如何準(zhǔn)確理解自然語言指令并導(dǎo)航至目標(biāo)位置。在實(shí)際中,智能體通常需要以在線的方式執(zhí)行視覺-語言導(dǎo)航任務(wù),即完成跨樣本的在線指令執(zhí)行和單樣本內(nèi)的多步動(dòng)作決策。由于僅依賴預(yù)訓(xùn)練和固定的導(dǎo)航模型難以滿足多樣化的測試環(huán)境,這促使我們探索如何利用未標(biāo)注的測試樣本來實(shí)現(xiàn)有效的在線模型適應(yīng)。然而,過于頻繁的模型更新可能導(dǎo)致模型參數(shù)發(fā)生顯著變化,而偶爾的更新又可能使模型難以適應(yīng)動(dòng)態(tài)變化的環(huán)境。
為此,本文提出了一種新的快-慢測試時(shí)自適應(yīng)方法(FSTTA),該方法在統(tǒng)一框架下對模型梯度和參數(shù)進(jìn)行聯(lián)合的分解與累積分析,以應(yīng)對在線視覺語言導(dǎo)航任務(wù)的挑戰(zhàn)。通過大量實(shí)驗(yàn)驗(yàn)證,本文提出的方法在四個(gè)流行的基準(zhǔn)測試中均取得了顯著的性能提升。
模型的整體架構(gòu)
論文鏈接:
https://icml.cc/virtual/2024/poster/33723
代碼鏈接:
https://github.com/Feliciaxyao/ICML2024-FSTTA?
8.?Transformer不同子層的差異化結(jié)構(gòu)壓縮
LoRAP: Transformer Sub-Layers Deserve Differentiated Structured Compression for Large Language Models
論文作者:李廣焱,唐永強(qiáng),張文生
Transformer的結(jié)構(gòu)化壓縮往往采用單一的壓縮方法,從而忽略了Transformer中不同子層之間的結(jié)構(gòu)特性。為了解決該問題,本文設(shè)計(jì)了一種新穎的結(jié)構(gòu)化壓縮方法 LoRAP,它有機(jī)地結(jié)合了低秩矩陣近似和結(jié)構(gòu)化剪枝。這項(xiàng)研究中得出了一個(gè)重要觀察:多頭自注意力(MHA)子層顯示出明顯的低秩結(jié)構(gòu),而前饋網(wǎng)絡(luò)(FFN)子層則沒有。基于這一觀察,對于MHA子層,本文提出了一種輸入激活加權(quán)奇異值分解方法,并根據(jù)矩陣低秩屬性的差異分配不同的參數(shù)量。對于FFN子層,本文提出了一種梯度無關(guān)的結(jié)構(gòu)化通道剪枝方法。在零樣本困惑度和零樣本任務(wù)分類的廣泛評估中,本文的方法在多個(gè)壓縮比下均優(yōu)于之前的結(jié)構(gòu)化壓縮方法。
論文鏈接:
https://arxiv.org/abs/2404.09695
9.?連點(diǎn)成線:面向黑盒視覺語言模型的協(xié)作式微調(diào)
Connecting the Dots: Collaborative Fine-tuning for Black-Box Vision-Language Models
論文作者:王政博、梁堅(jiān)、赫然、王子磊、譚鐵牛
隨著預(yù)訓(xùn)練視覺語言模型的不斷發(fā)展,它的通用性和泛化性得到廣泛認(rèn)可,人們投入了大量精力對其進(jìn)行微調(diào)以適應(yīng)下游任務(wù)。盡管如此,這些方法通常需要訪問模型的結(jié)構(gòu)和參數(shù),這可能會(huì)侵犯模型所有者的權(quán)益。因此,為了保護(hù)其模型所有權(quán),模型擁有者往往選擇將其模型以黑盒形式提供,這給模型微調(diào)帶來了挑戰(zhàn)。
本文提出了一種名為協(xié)作式微調(diào)(CraFT)的新方法,用于在黑盒條件下微調(diào)視覺語言模型以適應(yīng)各種下游任務(wù)。該方法僅依賴于模型的輸入提示和輸出預(yù)測結(jié)果。CraFT設(shè)計(jì)兩個(gè)關(guān)鍵模塊:一個(gè)提示生成模塊,用于自動(dòng)學(xué)習(xí)最有效的文本提示;一個(gè)預(yù)測優(yōu)化模塊,通過增強(qiáng)殘差來優(yōu)化輸出預(yù)測。此外,我們引入了一種輔助的預(yù)測一致性損失,以促進(jìn)這些模塊之間的一致優(yōu)化。所有這些模塊通過一種新穎的協(xié)作訓(xùn)練算法進(jìn)行優(yōu)化。
通過大量的實(shí)驗(yàn)驗(yàn)證,無需模型的結(jié)構(gòu)、參數(shù)及梯度,CraFT能夠在保持微調(diào)效率的前提下大幅提升黑盒模型在下游任務(wù)的性能。
論文鏈接:
https://arxiv.org/abs/2402.04050
代碼鏈接:
https://github.com/mrflogs/CraFT
10.?詞元級別直接偏好優(yōu)化
Token-level Direct Preference Optimization
論文作者:曾勇程,劉國慶,馬緯彧,楊寧,張海峰,汪軍
在人工智能領(lǐng)域的發(fā)展過程中,對大語言模型(LLM)的控制與指導(dǎo)始終是核心挑戰(zhàn)之一,旨在確保這些模型既強(qiáng)大又安全地服務(wù)于人類社會(huì)。直接偏好優(yōu)化方法(DPO)通過數(shù)學(xué)推理得到獎(jiǎng)勵(lì)函數(shù)與最優(yōu)策略之間的直接映射,消除了獎(jiǎng)勵(lì)模型的訓(xùn)練過程,直接在偏好數(shù)據(jù)上優(yōu)化策略模型,實(shí)現(xiàn)了從「反饋到策略」的直觀飛躍。然而,DPO主要關(guān)注在逆KL散度約束下的策略優(yōu)化。由于逆KL散度的mode-seeking特性,DPO在提升對齊性能方面表現(xiàn)出色,但是這一特性也傾向于在生成過程中減少多樣性,可能限制模型的能力。另一方面,盡管DPO從句子級的角度控制KL散度,模型的生成過程本質(zhì)上是逐個(gè)token進(jìn)行的。從句子級控制KL散度直觀上表明DPO在細(xì)粒度控制上存在限制,對KL散度的調(diào)節(jié)能力較弱,可能是DPO訓(xùn)練過程中LLM的生成多樣性迅速下降的關(guān)鍵因素之一。
為了應(yīng)對模型生成多樣性顯著下降的問題,我們的方法TDPO從token-level的角度重新定義了整個(gè)對齊流程的目標(biāo)函數(shù),并通過將Bradley-Terry模型轉(zhuǎn)換為優(yōu)勢函數(shù)的形式,使得整個(gè)對齊流程能最終從 Token-level層面進(jìn)行分析和優(yōu)化。相比于 DPO而言,TDPO的主要貢獻(xiàn)如下:
●?Token-level的建模方式:TDPO從Token-level的角度對問題進(jìn)行了建模,對RLHF進(jìn)行了更精細(xì)的分析;
●?細(xì)粒度KL散度約束:在每個(gè)token處從理論上引入了前向 KL散度約束,使方法能夠更好地約束模型優(yōu)化;
●?性能優(yōu)勢明顯:相比于DPO而言,TDPO能夠?qū)崿F(xiàn)更好的對齊性能和生成多樣性的帕累托前沿。
圖 1:DPO和TDPO損失函數(shù)對比
圖 2:IMDb數(shù)據(jù)集上的實(shí)驗(yàn)。圖3(a)表示相對于參考模型的預(yù)期回報(bào)和KL散度的帕累托前沿。我們針對參數(shù)α實(shí)施了DPO、TDPO1以及TDPO2的不同版本。就帕累托前沿而言,TDPO1和TDPO2均優(yōu)于DPO,其中TDPO2相對于TDPO1進(jìn)一步提高了性能。這證明了我們的分析和修改的有效性。圖3(b)和圖3(c)分別展示了在訓(xùn)練步驟中,偏好和不偏好響應(yīng)子集的序列KL散度的演變情況。圖3(d)展示了在整個(gè)訓(xùn)練過程中,不偏好響應(yīng)子集的序列KL散度與偏好響應(yīng)子集的序列KL散度之間的差異。與TDPO1和DPO算法相比,TDPO2在KL散度的調(diào)節(jié)方面表現(xiàn)出了優(yōu)越性。
論文地址:
https://arxiv.org/abs/2404.11999
代碼地址:
https://github.com/Vance0124/Token-level-Direct-Preference-Optimization
11.?基于擾動(dòng)過程一致性的隨機(jī)微分方程的策略梯度穩(wěn)定算法
Stabilizing Policy Gradients for Stochastic Differential Equations via Consistency with Perturbation Process
論文作者:周相鑫,王亮,周釔馳
為了生成具有目標(biāo)性質(zhì)的樣本,本研究專注于優(yōu)化參數(shù)化的隨機(jī)微分方程(SDEs)的深度神經(jīng)網(wǎng)絡(luò)生成模型,這是具有高表達(dá)性的先進(jìn)生成模型。策略梯度是強(qiáng)化學(xué)習(xí)中的領(lǐng)先算法。然而,當(dāng)將策略梯度應(yīng)用于SDEs時(shí),由于策略梯度是基于有限的軌跡集估計(jì)的,它可能是不明確的,并且在數(shù)據(jù)稀疏區(qū)域的策略行為可能是不受控制的。這一挑戰(zhàn)妨礙了策略梯度的穩(wěn)定性,并對樣本復(fù)雜性產(chǎn)生了負(fù)面影響。
為了解決這些問題,本研究提出將SDE約束為與其相關(guān)的擾動(dòng)過程一致。由于擾動(dòng)過程覆蓋了整個(gè)空間并且易于采樣,本研究可以緩解上述問題。研究框架提供了一種通用方法,允許靈活選擇策略梯度方法,以有效且高效地訓(xùn)練SDEs。本研究在基于結(jié)構(gòu)的藥物設(shè)計(jì)任務(wù)上評估了算法,并優(yōu)化了生成的配體分子的結(jié)合親和力。本研究提出的方法在CrossDocked2020數(shù)據(jù)集上實(shí)現(xiàn)了最佳Vina得分。
論文鏈接:
https://arxiv.org/abs/2403.04154
12.?多智能體系統(tǒng)中的序列異步動(dòng)作協(xié)調(diào):斯塔克爾伯格決策Transformer方法
Sequential Asynchronous Action Coordination in Multi-Agent Systems: A Stackelberg Decision Transformer Approach
論文作者:張斌,毛航宇,李麗娟,徐志偉,李大鵬,趙瑞,范國梁
在多智能體系統(tǒng)中,智能體不僅需要最大化自身獎(jiǎng)勵(lì),還需與其他智能體動(dòng)態(tài)協(xié)調(diào),以實(shí)現(xiàn)最佳聯(lián)合策略。現(xiàn)有的MARL方法大多假設(shè)智能體之間的同步動(dòng)作,限制了其在復(fù)雜場景中的應(yīng)用。
這篇文章探討了多智能體系統(tǒng)中的異步動(dòng)作協(xié)調(diào)問題。作者提出了一種新的方法—Stackelberg Decision Transformer(STEER),旨在通過結(jié)合斯塔克爾伯格博弈的層次決策結(jié)構(gòu)和自回歸序列模型的建模能力,來提高多智能體強(qiáng)化學(xué)習(xí)方法的可擴(kuò)展性。STEER引入了雙Transformer架構(gòu),其中內(nèi)部Transformer塊能夠?qū)崿F(xiàn)博弈抽象,有效處理不同環(huán)境下的狀態(tài)配置,外部Transformer塊則促進(jìn)了每個(gè)智能體策略函數(shù)和價(jià)值函數(shù)的自回歸擬合。這種架構(gòu)還能夠并行更新所有智能體的策略,大幅降低了之前基于斯塔克爾伯格博弈博弈的強(qiáng)化學(xué)習(xí)方法的計(jì)算成本。此外,文章還提出了知識(shí)蒸餾方案來實(shí)現(xiàn)其在分散式執(zhí)行系統(tǒng)中的部署。
13.?SpikeLM:通過松弛雙向脈沖機(jī)制實(shí)現(xiàn)脈沖驅(qū)動(dòng)的通用語言建模
SpikeLM: Towards General Spike-Driven Language Modeling via Elastic Bi-Spiking Mechanisms
論文作者:邢興潤,張正,倪子懿,肖詩濤,鞠一鳴,樊思琪,王業(yè)全,張家俊,李國齊
文章的目標(biāo)是開發(fā)一種類腦的低功耗人工智能語言模型,即生物啟發(fā)的脈沖神經(jīng)網(wǎng)絡(luò)(SNNs)。與傳統(tǒng)的人工神經(jīng)網(wǎng)絡(luò)(ANNs)相比,SNNs具有生物神經(jīng)細(xì)胞可解釋性、事件驅(qū)動(dòng)的稀疏性和二值激活的優(yōu)勢。近期,大規(guī)模語言模型展現(xiàn)出了讓人印象深刻的泛化能力,這激發(fā)了探索更通用的脈沖驅(qū)動(dòng)模型的動(dòng)機(jī)。然而,現(xiàn)有SNN中的二值脈沖無法編碼足夠的語義信息,這給泛化帶來了技術(shù)挑戰(zhàn)。
本文提出了一種全新的全脈沖機(jī)制,用于通用語言任務(wù),包括判別性和生成性任務(wù)。與以往的{0,1}脈沖不同,我們提出了一種更通用的脈沖形式,具有雙向、松弛的幅度和頻率編碼,同時(shí)保持了SNN的加性特性。在單時(shí)間步中,脈沖通過方向和幅度信息得到增強(qiáng);在脈沖頻率上,我們設(shè)計(jì)了一種控制脈沖發(fā)射率的策略。我們將這種松弛的雙向脈沖機(jī)制應(yīng)用于語言建模,命名為SpikeLM。這是第一次使用全脈沖驅(qū)動(dòng)模型處理通用語言任務(wù),其準(zhǔn)確性大幅超越了以往方法。SpikeLM還大大縮小了SNN和ANN在語言建模中的性能差距。
代碼鏈接:
https://github.com/XingrunXing/SpikeLM
來源:中國科學(xué)院自動(dòng)化研究所