國際智能體和多智能體系統會議(International Conference on Autonomous Agents and Multi-agent Systems,AAMAS),是智能體和多智能體系統領域最大和最有影響力的國際學術會議之一。智能體研究作為人工智能領域的重要分支,具有巨大的革新潛力與應用前景,其發展對于理解人類智能本質,推動人工智能技術發展,解決社會問題具有重要價值。第23屆AAMAS于5月6日至10日在新西蘭召開。自動化所多篇研究論文被本屆AAMAS錄用,并參與組織了兩項智能體賽事。
一、研究論文
1.面向連續控制的一致性策略
Boosting Continuous Control with Consistency Policy
論文作者:陳宇輝,李浩然,趙冬斌
深度強化學習團隊提出了一種新的基于一致性模型(Consistency Model)的強化學習策略表征方法——Consistency Policy with Q-Learning (CPQL)。該方法使用單步逆擴散過程從高斯噪聲中生成動作用于智能體決策。通過建立從逆擴散軌跡到期望策略的映射,解決了使用值函數更新基于擴散模型策略時的時間效率低下和非精確引導問題。通過理論證明了該方法可以實現對離線強化學習策略優化的精確引導,并且可以輕松擴展到在線強化學習任務。實驗結果表明,CPQL在11個離線任務和21個在線任務上實現了新SOTA性能。同時與基于擴散模型的方法相比,推理速度提高了近45倍。
CPQL正向擴散過程和逆向引導擴散過程: 給定一個從動作逐漸加噪聲的 ODE軌跡,一致性策略學習軌跡上的任意點到最優動作的映射。由于一致性策略單步迭代生成動作,因此大大加速策略訓練和推理的時間。
論文鏈接:https://arxiv.org/abs/2310.06343
代碼開源:https://github.com/cccedric/cpql
2. 基于反事實信譽分配的協作多智能體強化學習算法
Aligning Credit for Multi-Agent Cooperation via Model-based Counterfactual Imagination
論文作者:柴嘉駿、傅宇千、趙冬斌、朱圓恒
現有基于模型的多智能體強化學習方法仍采用為單智能體環境設計的訓練框架,導致現有算法對多智能體協作的促進不足。該研究提出了一種新穎的基于模型的多智能體強化學習方法,稱為多智能體反事實Dreamer(MACD)。其引入了一種集中式想象與分布式執行框架,用于生成更高質量的想象數據以進行策略學習,從而進一步提高算法的樣本效率,并通過生成額外的反事實軌跡評估單一智能體對整體的貢獻,進而解決信譽分配和非平穩問題。研究中提供了對應的理論推導,表明該反事實策略更新規則能夠提升多智能體協作學習目標。實驗結果驗證了該研究在樣本效率、訓練穩定性和最終合作性能方面相較于幾種最先進的無模型和有模型的多智能體強化學習算法的優越性。消融研究和可視化演示進一步強調了該訓練框架以及其反事實模塊的重要性。
MA-RSSM框架。(a) MACD與已有算法框架的對比。(b) 集中式想象世界模型。智能體將在該模型中建模整個系統的狀態轉移過程。(c) 想象空間內進行的集中式預測。通信模塊聚合來自所有智能體的輸入信息,并生成智能體i的通信特征。
3.多智能體強化學習中的智能體策略距離度量
Measuring Policy Distance for Multi-Agent Reinforcement Learning
論文作者:扈天翼、蒲志強;艾曉琳;丘騰海;易建強
策略多樣性對于提升多智能體強化學習的效果起著至關重要的作用。盡管現在已經有許多基于策略多樣性的多體強化學習算法,但是目前尚缺乏一個通用的方法來量化智能體之間的策略差異。測量策略差異性不僅能夠方便評估多智能體系統在訓練中的多樣性演化,還有助于為基于策略多樣性的算法設計提供指導。為此,我們提出了MAPD,一個通用的多智能體策略距離度量方法。不同于直接量化形式各異的動作分布間的距離,該方法通過學習智能體決策的條件表征來間接量化智能體的策略距離。我們還開發了MAPD的擴展版本CMAPD,其能夠量化智能體策略在特定傾向上的差異,如兩個智能體在攻擊傾向和防御傾向上的策略差異?;贛APD和CMAPD的在線部署,我們設計了一套多智能體動態參數共享算法MADPS。實驗表明我們的方法在測量智能體策略差異和特定行為傾向上的差異是有效的。而且,與其他參數共享方法相比,MADPS展示了更優越的性能。
學習智能體決策的條件表征
論文鏈接:https://arxiv.org/pdf/2401.11257
代碼鏈接:https://github.com/Harry67Hu/MADPS
4.TaxAI: 動態經濟仿真器和多智能體強化學習算法基準
TaxAI: A Dynamic Economic Simulator and Benchmark for Multi-Agent Reinforcement Learning
論文作者:米祈睿,夏思宇,宋研,張海峰,朱勝豪,汪軍
稅收是政府促進經濟增長和保障社會公正的關鍵手段。但是,準確預測多樣的自利家庭的動態策略是非常困難的,這對政府制定有效的稅收政策構成了挑戰。多智能體強化學習(MARL),憑借其在模擬部分可觀測環境中的其他智能體、以及適應性學習求解最優策略的能力,非常適合去解決政府與眾多家庭間的動態博弈問題。盡管MARL展現出比遺傳算法和動態規劃等傳統方法更大的潛力,但目前仍缺乏大規模的多智能體強化學習經濟模擬器。因此,我們基于Bewley-Aiyagari經濟模型,提出了一個名為 TaxAI 的MARL環境,用于模擬包括眾多家庭、政府、企業和金融中介在內的動態博弈。我們的研究在TaxAI上對2種傳統經濟方法與7種MARL方法進行了對比,證明了MARL算法的有效性和優越性。更重要的是,TaxAI在模擬政府與高達10,000戶家庭之間的動態互動及其與真實數據的校準能力上,都大幅提升了模擬的規模和現實性,使其成為目前最為逼真的經濟模擬器。
圖1. Bewley-Aiyagari模型動力學
圖2. 政府與家庭智能體之間的部分可觀測馬爾科夫博弈
論文鏈接:https://arxiv.org/abs/2309.16307
代碼鏈接:https://github.com/jidiai/TaxAI
5.谷歌足球環境中的多智能體強化學習研究:回顧、現狀和展望
Boosting Studies of Multi-Agent Reinforcement Learning on Google Research Football Environment: the Past, Present, and Future
論文作者:宋研,江河,張海峰,田政,張偉楠,汪軍
盡管Google Research Football(GRF)在其原始論文中最初是作為單智能體環境進行基準測試和研究,但近年來,越來越多的研究人員開始關注其多智能體性質,將其作為多智能體強化學習(MARL)的測試平臺,尤其是在合作場景中。然而,由于缺乏標準化的環境設置和統一的多智能體場景評估指標,各研究之間難以形成一致的理解。此外,由于5對5和11對11的全局游戲場景的訓練復雜度極高,相關深入研究有限。為了彌補這些不足,本文不僅通過標準化環境設置在不同場景(包括最具挑戰性的全局游戲場景)中進行合作學習算法的基準測試,還從多個角度討論了增強足球人工智能的方法,并介紹了不局限于多智能體合作學習的相關研究工具。具體來說,我們提供了一個分布式和異步的基于種群的自我對抗博弈框架,該框架包含多樣化的預訓練策略,以實現更高效的訓練;我們還提供了兩個足球分析工具,以進行更深入的研究;此外,我們還提供了一個在線排行榜,以進行更廣泛的評估。這項工作旨在推進在谷歌足球環境上的相關多智能體強化學習的研究,最終目標是將這些技術部署到現實世界的應用中,如體育分析等。
圖1. 在六個Academy足球場景中不同多智能體強化學習算法的效果對比
圖2. 分布式異構種群自博弈訓練框架示意圖
論文鏈接:https://arxiv.org/abs/2309.12951
6.針對自然語言約束的基于預訓練語言模型的安全強化學習算法
Safe Reinforcement Learning with Free-form Natural Language Constraints and Pre-Trained Language Models
論文作者:婁行舟,張俊格,王梓巖,黃凱奇,杜雅麗
針對基于自然語言約束的安全強化學習中,現有方法對復雜形式自然語言約束表征能力、處理能力不足,并且將自然語言約束轉化為智能體可學習的代價函數需要大量的特定領域知識的問題,我們提出使用預訓練語言模型對自然語言約束進行處理,幫助智能體進行理解,并且完成代價函數預測,實現了在無需真實代價函數的前提下,讓智能體能夠學會遵守自由形式的復雜人類自然語言給出的約束條件。我們提出的算法在性能上可以達到與使用真實代價函數的方法相近的性能。并且在代價函數預測上,相比直接提示GPT-4來進行預測,我們所提出方法的預測結果的F1-score實現了23.9%的提升。
所提出方法對自然語言約束進行處理,使得處理后的約束可用于預測代價函數和約束智能體的策略
論文鏈接:https://arxiv.org/abs/2401.07553
7. PDiT:用于深度強化學習的感知與決策交錯Transformer
PDiT: Interleaving Perception and Decision-making Transformers for Deep Reinforcement Learning
論文作者:毛航宇,趙瑞,黎子玥,徐志偉,陳皓,陳逸群,張斌,肖臻,張俊格,尹江津
設計更好的深度網絡和更優的強化學習(RL)算法對深度強化學習都非常重要。本工作研究的是前者。具體來說,提出了感知與決策交錯Transformer(PDiT)網絡,該網絡以非常自然的方式串聯了兩個Transformer:感知Transformer專注于通過處理觀測的局部信息來進行環境感知,而決策Transformer則關注于決策制定,它依據期望回報的歷史、感知器的輸出和行動來進行條件處理。這樣的網絡設計通常適用于許多深度RL設置,例如,在具有圖像觀測、本體感知觀測或混合圖像-語言觀測的環境下的在線和離線RL算法。廣泛的實驗表明,PDiT不僅能在不同設置下比強基準實現更優的性能,還能提取可解釋的特征表示。
所提出的完整PDiT架構,堆疊了L個PDiT塊(即灰色矩形)。在每個PDiT塊中,有一個感知塊和一個決策塊,它們與Vanilla-PDiT的相應塊完全相同。需要注意的是,同一層的感知塊在不同時間步之間共享模型參數。
論文鏈接:https://arxiv.org/abs/2312.15863
代碼鏈接:https://github.com/maohangyu/PDiT
8. 從顯式通信到默契合作:一種新的合作多智能體強化學習范式
From Explicit Communication to Tacit Cooperation: A Novel Paradigm for Cooperative MARL
論文作者:李大鵬、徐志偉、張斌、周光翀、張澤仁、范國梁
集中式訓練-分散式執行作為一種被廣泛使用的學習范式,近年來在復雜合作任務中取得了顯著成功。然而,該范式的有效性在部分可觀察性問題中會存在一定的限制。盡管通信可以緩解這一挑戰,但同時引入的通信成本也降低了算法的實用性。本文從人類團隊合作學習中汲取靈感,提出了一種新的學習范式并稱為TACO,TACO促進了算法從完全的顯式通信到無通信的默契合作的轉變。在初始訓練階段,TACO通過在智能體間進行顯式通信來促進合作,同時以自監督的方式使用每個智能體的局部軌跡來對通信信息進行重建。在整個訓練過程中,TACO不斷減少顯式通信信息的比值,從而逐漸轉移到無溝通的完全分散式執行。在多個不同場景下的實驗結果表明,TACO在不使用通信的表現可以接近甚至超過經典值分解方法和基于通信的方法。
圖1. 人類團隊合作過程中的演變過程
圖2. TACO算法的整體框架
9. ELA:用于零和博弈離線學習的受剝削等級增強方法
ELA: Exploited Level Augmentation for Offline Learning in Zero-Sum Games
論文作者:雷世騏、李康勛、李林靜、樸振奎、李家琛
離線學習算法通常都會受到低質量演示者的負面影響,而在博弈場景中,還需要對各個軌跡所對應策略的優劣做出估計,并剔除其中較差策略產生的軌跡。本文設計了一種部分條件可訓練變分循環神經網絡(P-VRNN),采用無監督的方式來學習軌跡所對應策略的表示,通過結合已有軌跡可預測下一步動作。同時,本文定義了軌跡的受剝削等級(Exploited Level,EL),用以近似經典的可利用度。根據軌跡對應的策略表示,并利用其最終收益可以對EL做出估計。本文將EL作為軌跡篩選器,用以增強現有的離線學習算法。在Pong和有限注德州撲克中的測試表明,BC、BCQ和CQL三種代表性離線學習算法在通過ELA增強后,均可以擊敗原有算法生成的策略。
圖1. ELA算法整體結構
圖2.在Pong游戲中軌跡對應的策略表示及估計出的受剝削等級
論文鏈接:https://arxiv.org/pdf/2402.18617v1
二、游戲競賽
1.非完全信息棋牌游戲競賽
AAMAS 2024 Imperfect-information Card Games Competition
競賽設計者:張海峰,宋研, 閆雪,邵坤
為促進不完美信息游戲中AI技術的發展,自動化所團隊舉辦第二屆不完美信息卡牌游戲競賽。此次競賽將涵蓋多智能體領域的各種挑戰,探索諸如對手建模和AI智能體泛化能力等領域。參與者通過及第平臺參與競賽,平臺將對提交AI智能體的進行在線評估,為舉辦大規模在線比賽做準備。
AAMAS 2024 非完全信息棋牌游戲競賽共有三個賽道,如圖所示分別為四人德州撲克(左)、橋牌(中)以及麻將(右)。
【競賽網頁】
四人無限注德州撲克賽道:
http://www.jidiai.cn/compete_detail?compete=48
橋牌賽道:
http://www.jidiai.cn/compete_detail?compete=49
麻將賽道:
http://www.jidiai.cn/compete_detail?compete=50
2.計算經濟學競賽
AAMAS 2024 Computational Economics Competition
競賽設計者:張海峰,米祈睿,宋研
為鼓勵人工智能在解決復雜經濟問題方面的發展,自動化所團隊舉辦第二屆計算經濟學競賽。該競賽將包括兩個賽道:政府方面的最優稅收解決方案和家庭方面的最優儲蓄和勞動策略。競賽情景具有高度多主體屬性和學術研究價值,與 AAMAS 2024 的目標受眾和競賽要求高度契合。參與者將通過及第平臺參與競賽,該平臺配備了大規模在線事件所需的設施,并提供 AI 智能體的實時評估。
圖1. TaxAI仿真器的經濟活動
圖2. 各賽道參賽者統計
【競賽網頁】http://www.jidiai.cn/ccf_2023/En.html
來源:中國科學院自動化研究所