日韩有码在线播放,欧美一级成人一区二区三区,麻豆传媒入口直接进入免费版

2024國(guó)際智能體和多智能體系統(tǒng)會(huì)議（AAMAS）自動(dòng)化所入選成果速覽

點(diǎn)擊數(shù)：1001 發(fā)布時(shí)間：2024-05-12 11:01:44
分享到：

國(guó)際智能體和多智能體系統(tǒng)會(huì)議（International Conference on Autonomous Agents and Multi-agent Systems，AAMAS），是智能體和多智能體系統(tǒng)領(lǐng)域最大和最有影響力的國(guó)際學(xué)術(shù)會(huì)議之一。智能體研究作為人工智能領(lǐng)域的重要分支，具有巨大的革新潛力與應(yīng)用前景，其發(fā)展對(duì)于理解人類(lèi)智能本質(zhì)，推動(dòng)人工智能技術(shù)發(fā)展，解決社會(huì)問(wèn)題具有重要價(jià)值。

關(guān)鍵詞：中國(guó)科學(xué)院自動(dòng)化研究所 , 多智能體系統(tǒng) , 智能體決策

一、研究論文

1.面向連續(xù)控制的一致性策略

Boosting Continuous Control with Consistency Policy

論文作者：陳宇輝，李浩然，趙冬斌

深度強(qiáng)化學(xué)習(xí)團(tuán)隊(duì)提出了一種新的基于一致性模型（Consistency Model）的強(qiáng)化學(xué)習(xí)策略表征方法——Consistency Policy with Q-Learning （CPQL）。該方法使用單步逆擴(kuò)散過(guò)程從高斯噪聲中生成動(dòng)作用于智能體決策。通過(guò)建立從逆擴(kuò)散軌跡到期望策略的映射，解決了使用值函數(shù)更新基于擴(kuò)散模型策略時(shí)的時(shí)間效率低下和非精確引導(dǎo)問(wèn)題。通過(guò)理論證明了該方法可以實(shí)現(xiàn)對(duì)離線強(qiáng)化學(xué)習(xí)策略?xún)?yōu)化的精確引導(dǎo)，并且可以輕松擴(kuò)展到在線強(qiáng)化學(xué)習(xí)任務(wù)。實(shí)驗(yàn)結(jié)果表明，CPQL在11個(gè)離線任務(wù)和21個(gè)在線任務(wù)上實(shí)現(xiàn)了新SOTA性能。同時(shí)與基于擴(kuò)散模型的方法相比，推理速度提高了近45倍。

CPQL正向擴(kuò)散過(guò)程和逆向引導(dǎo)擴(kuò)散過(guò)程: 給定一個(gè)從動(dòng)作逐漸加噪聲的 ODE軌跡，一致性策略學(xué)習(xí)軌跡上的任意點(diǎn)到最優(yōu)動(dòng)作的映射。由于一致性策略單步迭代生成動(dòng)作，因此大大加速策略訓(xùn)練和推理的時(shí)間。

論文鏈接：https://arxiv.org/abs/2310.06343

代碼開(kāi)源：https://github.com/cccedric/cpql

2. 基于反事實(shí)信譽(yù)分配的協(xié)作多智能體強(qiáng)化學(xué)習(xí)算法

Aligning Credit for Multi-Agent Cooperation via Model-based Counterfactual Imagination

論文作者：柴嘉駿、傅宇千、趙冬斌、朱圓恒

現(xiàn)有基于模型的多智能體強(qiáng)化學(xué)習(xí)方法仍采用為單智能體環(huán)境設(shè)計(jì)的訓(xùn)練框架，導(dǎo)致現(xiàn)有算法對(duì)多智能體協(xié)作的促進(jìn)不足。該研究提出了一種新穎的基于模型的多智能體強(qiáng)化學(xué)習(xí)方法，稱(chēng)為多智能體反事實(shí)Dreamer（MACD）。其引入了一種集中式想象與分布式執(zhí)行框架，用于生成更高質(zhì)量的想象數(shù)據(jù)以進(jìn)行策略學(xué)習(xí)，從而進(jìn)一步提高算法的樣本效率，并通過(guò)生成額外的反事實(shí)軌跡評(píng)估單一智能體對(duì)整體的貢獻(xiàn)，進(jìn)而解決信譽(yù)分配和非平穩(wěn)問(wèn)題。研究中提供了對(duì)應(yīng)的理論推導(dǎo)，表明該反事實(shí)策略更新規(guī)則能夠提升多智能體協(xié)作學(xué)習(xí)目標(biāo)。實(shí)驗(yàn)結(jié)果驗(yàn)證了該研究在樣本效率、訓(xùn)練穩(wěn)定性和最終合作性能方面相較于幾種最先進(jìn)的無(wú)模型和有模型的多智能體強(qiáng)化學(xué)習(xí)算法的優(yōu)越性。消融研究和可視化演示進(jìn)一步強(qiáng)調(diào)了該訓(xùn)練框架以及其反事實(shí)模塊的重要性。

MA-RSSM框架。(a) MACD與已有算法框架的對(duì)比。(b) 集中式想象世界模型。智能體將在該模型中建模整個(gè)系統(tǒng)的狀態(tài)轉(zhuǎn)移過(guò)程。(c) 想象空間內(nèi)進(jìn)行的集中式預(yù)測(cè)。通信模塊聚合來(lái)自所有智能體的輸入信息，并生成智能體i的通信特征。

3.多智能體強(qiáng)化學(xué)習(xí)中的智能體策略距離度量

Measuring Policy Distance for Multi-Agent Reinforcement Learning

論文作者：扈天翼、蒲志強(qiáng)；艾曉琳；丘騰海；易建強(qiáng)

策略多樣性對(duì)于提升多智能體強(qiáng)化學(xué)習(xí)的效果起著至關(guān)重要的作用。盡管現(xiàn)在已經(jīng)有許多基于策略多樣性的多體強(qiáng)化學(xué)習(xí)算法，但是目前尚缺乏一個(gè)通用的方法來(lái)量化智能體之間的策略差異。測(cè)量策略差異性不僅能夠方便評(píng)估多智能體系統(tǒng)在訓(xùn)練中的多樣性演化，還有助于為基于策略多樣性的算法設(shè)計(jì)提供指導(dǎo)。為此，我們提出了MAPD，一個(gè)通用的多智能體策略距離度量方法。不同于直接量化形式各異的動(dòng)作分布間的距離，該方法通過(guò)學(xué)習(xí)智能體決策的條件表征來(lái)間接量化智能體的策略距離。我們還開(kāi)發(fā)了MAPD的擴(kuò)展版本CMAPD，其能夠量化智能體策略在特定傾向上的差異，如兩個(gè)智能體在攻擊傾向和防御傾向上的策略差異。基于MAPD和CMAPD的在線部署，我們?cè)O(shè)計(jì)了一套多智能體動(dòng)態(tài)參數(shù)共享算法MADPS。實(shí)驗(yàn)表明我們的方法在測(cè)量智能體策略差異和特定行為傾向上的差異是有效的。而且，與其他參數(shù)共享方法相比，MADPS展示了更優(yōu)越的性能。

學(xué)習(xí)智能體決策的條件表征

論文鏈接：https://arxiv.org/pdf/2401.11257

代碼鏈接：https://github.com/Harry67Hu/MADPS

4.TaxAI: 動(dòng)態(tài)經(jīng)濟(jì)仿真器和多智能體強(qiáng)化學(xué)習(xí)算法基準(zhǔn)

TaxAI: A Dynamic Economic Simulator and Benchmark for Multi-Agent Reinforcement Learning

論文作者：米祈睿，夏思宇，宋研，張海峰，朱勝豪，汪軍

稅收是政府促進(jìn)經(jīng)濟(jì)增長(zhǎng)和保障社會(huì)公正的關(guān)鍵手段。但是，準(zhǔn)確預(yù)測(cè)多樣的自利家庭的動(dòng)態(tài)策略是非常困難的，這對(duì)政府制定有效的稅收政策構(gòu)成了挑戰(zhàn)。多智能體強(qiáng)化學(xué)習(xí)（MARL），憑借其在模擬部分可觀測(cè)環(huán)境中的其他智能體、以及適應(yīng)性學(xué)習(xí)求解最優(yōu)策略的能力，非常適合去解決政府與眾多家庭間的動(dòng)態(tài)博弈問(wèn)題。盡管MARL展現(xiàn)出比遺傳算法和動(dòng)態(tài)規(guī)劃等傳統(tǒng)方法更大的潛力，但目前仍缺乏大規(guī)模的多智能體強(qiáng)化學(xué)習(xí)經(jīng)濟(jì)模擬器。因此，我們基于Bewley-Aiyagari經(jīng)濟(jì)模型，提出了一個(gè)名為 TaxAI 的MARL環(huán)境，用于模擬包括眾多家庭、政府、企業(yè)和金融中介在內(nèi)的動(dòng)態(tài)博弈。我們的研究在TaxAI上對(duì)2種傳統(tǒng)經(jīng)濟(jì)方法與7種MARL方法進(jìn)行了對(duì)比，證明了MARL算法的有效性和優(yōu)越性。更重要的是，TaxAI在模擬政府與高達(dá)10,000戶(hù)家庭之間的動(dòng)態(tài)互動(dòng)及其與真實(shí)數(shù)據(jù)的校準(zhǔn)能力上，都大幅提升了模擬的規(guī)模和現(xiàn)實(shí)性，使其成為目前最為逼真的經(jīng)濟(jì)模擬器。

圖1. Bewley-Aiyagari模型動(dòng)力學(xué)

圖2. 政府與家庭智能體之間的部分可觀測(cè)馬爾科夫博弈

論文鏈接：https://arxiv.org/abs/2309.16307

代碼鏈接：https://github.com/jidiai/TaxAI

5.谷歌足球環(huán)境中的多智能體強(qiáng)化學(xué)習(xí)研究：回顧、現(xiàn)狀和展望

Boosting Studies of Multi-Agent Reinforcement Learning on Google Research Football Environment: the Past, Present, and Future

論文作者：宋研，江河，張海峰，田政，張偉楠，汪軍

盡管Google Research Football（GRF）在其原始論文中最初是作為單智能體環(huán)境進(jìn)行基準(zhǔn)測(cè)試和研究，但近年來(lái)，越來(lái)越多的研究人員開(kāi)始關(guān)注其多智能體性質(zhì)，將其作為多智能體強(qiáng)化學(xué)習(xí)（MARL）的測(cè)試平臺(tái)，尤其是在合作場(chǎng)景中。然而，由于缺乏標(biāo)準(zhǔn)化的環(huán)境設(shè)置和統(tǒng)一的多智能體場(chǎng)景評(píng)估指標(biāo)，各研究之間難以形成一致的理解。此外，由于5對(duì)5和11對(duì)11的全局游戲場(chǎng)景的訓(xùn)練復(fù)雜度極高，相關(guān)深入研究有限。為了彌補(bǔ)這些不足，本文不僅通過(guò)標(biāo)準(zhǔn)化環(huán)境設(shè)置在不同場(chǎng)景（包括最具挑戰(zhàn)性的全局游戲場(chǎng)景）中進(jìn)行合作學(xué)習(xí)算法的基準(zhǔn)測(cè)試，還從多個(gè)角度討論了增強(qiáng)足球人工智能的方法，并介紹了不局限于多智能體合作學(xué)習(xí)的相關(guān)研究工具。具體來(lái)說(shuō)，我們提供了一個(gè)分布式和異步的基于種群的自我對(duì)抗博弈框架，該框架包含多樣化的預(yù)訓(xùn)練策略，以實(shí)現(xiàn)更高效的訓(xùn)練；我們還提供了兩個(gè)足球分析工具，以進(jìn)行更深入的研究；此外，我們還提供了一個(gè)在線排行榜，以進(jìn)行更廣泛的評(píng)估。這項(xiàng)工作旨在推進(jìn)在谷歌足球環(huán)境上的相關(guān)多智能體強(qiáng)化學(xué)習(xí)的研究，最終目標(biāo)是將這些技術(shù)部署到現(xiàn)實(shí)世界的應(yīng)用中，如體育分析等。

圖1. 在六個(gè)Academy足球場(chǎng)景中不同多智能體強(qiáng)化學(xué)習(xí)算法的效果對(duì)比

圖2. 分布式異構(gòu)種群自博弈訓(xùn)練框架示意圖

論文鏈接：https://arxiv.org/abs/2309.12951

6.針對(duì)自然語(yǔ)言約束的基于預(yù)訓(xùn)練語(yǔ)言模型的安全強(qiáng)化學(xué)習(xí)算法

Safe Reinforcement Learning with Free-form Natural Language Constraints and Pre-Trained Language Models

論文作者：婁行舟，張俊格，王梓巖，黃凱奇，杜雅麗

針對(duì)基于自然語(yǔ)言約束的安全強(qiáng)化學(xué)習(xí)中，現(xiàn)有方法對(duì)復(fù)雜形式自然語(yǔ)言約束表征能力、處理能力不足，并且將自然語(yǔ)言約束轉(zhuǎn)化為智能體可學(xué)習(xí)的代價(jià)函數(shù)需要大量的特定領(lǐng)域知識(shí)的問(wèn)題，我們提出使用預(yù)訓(xùn)練語(yǔ)言模型對(duì)自然語(yǔ)言約束進(jìn)行處理，幫助智能體進(jìn)行理解，并且完成代價(jià)函數(shù)預(yù)測(cè)，實(shí)現(xiàn)了在無(wú)需真實(shí)代價(jià)函數(shù)的前提下，讓智能體能夠?qū)W會(huì)遵守自由形式的復(fù)雜人類(lèi)自然語(yǔ)言給出的約束條件。我們提出的算法在性能上可以達(dá)到與使用真實(shí)代價(jià)函數(shù)的方法相近的性能。并且在代價(jià)函數(shù)預(yù)測(cè)上，相比直接提示GPT-4來(lái)進(jìn)行預(yù)測(cè)，我們所提出方法的預(yù)測(cè)結(jié)果的F1-score實(shí)現(xiàn)了23.9%的提升。

所提出方法對(duì)自然語(yǔ)言約束進(jìn)行處理，使得處理后的約束可用于預(yù)測(cè)代價(jià)函數(shù)和約束智能體的策略

論文鏈接：https://arxiv.org/abs/2401.07553

7. PDiT：用于深度強(qiáng)化學(xué)習(xí)的感知與決策交錯(cuò)Transformer

PDiT: Interleaving Perception and Decision-making Transformers for Deep Reinforcement Learning

論文作者：毛航宇，趙瑞，黎子玥，徐志偉，陳皓，陳逸群，張斌，肖臻，張俊格，尹江津

設(shè)計(jì)更好的深度網(wǎng)絡(luò)和更優(yōu)的強(qiáng)化學(xué)習(xí)（RL）算法對(duì)深度強(qiáng)化學(xué)習(xí)都非常重要。本工作研究的是前者。具體來(lái)說(shuō)，提出了感知與決策交錯(cuò)Transformer（PDiT）網(wǎng)絡(luò)，該網(wǎng)絡(luò)以非常自然的方式串聯(lián)了兩個(gè)Transformer：感知Transformer專(zhuān)注于通過(guò)處理觀測(cè)的局部信息來(lái)進(jìn)行環(huán)境感知，而決策Transformer則關(guān)注于決策制定，它依據(jù)期望回報(bào)的歷史、感知器的輸出和行動(dòng)來(lái)進(jìn)行條件處理。這樣的網(wǎng)絡(luò)設(shè)計(jì)通常適用于許多深度RL設(shè)置，例如，在具有圖像觀測(cè)、本體感知觀測(cè)或混合圖像-語(yǔ)言觀測(cè)的環(huán)境下的在線和離線RL算法。廣泛的實(shí)驗(yàn)表明，PDiT不僅能在不同設(shè)置下比強(qiáng)基準(zhǔn)實(shí)現(xiàn)更優(yōu)的性能，還能提取可解釋的特征表示。

所提出的完整PDiT架構(gòu)，堆疊了L個(gè)PDiT塊（即灰色矩形）。在每個(gè)PDiT塊中，有一個(gè)感知塊和一個(gè)決策塊，它們與Vanilla-PDiT的相應(yīng)塊完全相同。需要注意的是，同一層的感知塊在不同時(shí)間步之間共享模型參數(shù)。

論文鏈接：https://arxiv.org/abs/2312.15863

代碼鏈接：https://github.com/maohangyu/PDiT

8. 從顯式通信到默契合作：一種新的合作多智能體強(qiáng)化學(xué)習(xí)范式

From Explicit Communication to Tacit Cooperation: A Novel Paradigm for Cooperative MARL

論文作者：李大鵬、徐志偉、張斌、周光翀、張澤仁、范國(guó)梁

集中式訓(xùn)練-分散式執(zhí)行作為一種被廣泛使用的學(xué)習(xí)范式，近年來(lái)在復(fù)雜合作任務(wù)中取得了顯著成功。然而，該范式的有效性在部分可觀察性問(wèn)題中會(huì)存在一定的限制。盡管通信可以緩解這一挑戰(zhàn)，但同時(shí)引入的通信成本也降低了算法的實(shí)用性。本文從人類(lèi)團(tuán)隊(duì)合作學(xué)習(xí)中汲取靈感，提出了一種新的學(xué)習(xí)范式并稱(chēng)為T(mén)ACO，TACO促進(jìn)了算法從完全的顯式通信到無(wú)通信的默契合作的轉(zhuǎn)變。在初始訓(xùn)練階段，TACO通過(guò)在智能體間進(jìn)行顯式通信來(lái)促進(jìn)合作，同時(shí)以自監(jiān)督的方式使用每個(gè)智能體的局部軌跡來(lái)對(duì)通信信息進(jìn)行重建。在整個(gè)訓(xùn)練過(guò)程中，TACO不斷減少顯式通信信息的比值，從而逐漸轉(zhuǎn)移到無(wú)溝通的完全分散式執(zhí)行。在多個(gè)不同場(chǎng)景下的實(shí)驗(yàn)結(jié)果表明，TACO在不使用通信的表現(xiàn)可以接近甚至超過(guò)經(jīng)典值分解方法和基于通信的方法。

圖1. 人類(lèi)團(tuán)隊(duì)合作過(guò)程中的演變過(guò)程

圖2. TACO算法的整體框架

9. ELA：用于零和博弈離線學(xué)習(xí)的受剝削等級(jí)增強(qiáng)方法

ELA: Exploited Level Augmentation for Offline Learning in Zero-Sum Games

論文作者：雷世騏、李康勛、李林靜、樸振奎、李家琛

離線學(xué)習(xí)算法通常都會(huì)受到低質(zhì)量演示者的負(fù)面影響，而在博弈場(chǎng)景中，還需要對(duì)各個(gè)軌跡所對(duì)應(yīng)策略的優(yōu)劣做出估計(jì)，并剔除其中較差策略產(chǎn)生的軌跡。本文設(shè)計(jì)了一種部分條件可訓(xùn)練變分循環(huán)神經(jīng)網(wǎng)絡(luò)（P-VRNN），采用無(wú)監(jiān)督的方式來(lái)學(xué)習(xí)軌跡所對(duì)應(yīng)策略的表示，通過(guò)結(jié)合已有軌跡可預(yù)測(cè)下一步動(dòng)作。同時(shí)，本文定義了軌跡的受剝削等級(jí)（Exploited Level，EL），用以近似經(jīng)典的可利用度。根據(jù)軌跡對(duì)應(yīng)的策略表示，并利用其最終收益可以對(duì)EL做出估計(jì)。本文將EL作為軌跡篩選器，用以增強(qiáng)現(xiàn)有的離線學(xué)習(xí)算法。在Pong和有限注德州撲克中的測(cè)試表明，BC、BCQ和CQL三種代表性離線學(xué)習(xí)算法在通過(guò)ELA增強(qiáng)后，均可以擊敗原有算法生成的策略。

圖1. ELA算法整體結(jié)構(gòu)

圖2.在Pong游戲中軌跡對(duì)應(yīng)的策略表示及估計(jì)出的受剝削等級(jí)

論文鏈接：https://arxiv.org/pdf/2402.18617v1

二、游戲競(jìng)賽

1.非完全信息棋牌游戲競(jìng)賽
AAMAS 2024 Imperfect-information Card Games Competition

競(jìng)賽設(shè)計(jì)者：張海峰，宋研，閆雪，邵坤

為促進(jìn)不完美信息游戲中AI技術(shù)的發(fā)展，自動(dòng)化所團(tuán)隊(duì)舉辦第二屆不完美信息卡牌游戲競(jìng)賽。此次競(jìng)賽將涵蓋多智能體領(lǐng)域的各種挑戰(zhàn)，探索諸如對(duì)手建模和AI智能體泛化能力等領(lǐng)域。參與者通過(guò)及第平臺(tái)參與競(jìng)賽，平臺(tái)將對(duì)提交AI智能體的進(jìn)行在線評(píng)估，為舉辦大規(guī)模在線比賽做準(zhǔn)備。

AAMAS 2024 非完全信息棋牌游戲競(jìng)賽共有三個(gè)賽道，如圖所示分別為四人德州撲克（左）、橋牌（中）以及麻將（右）。

【競(jìng)賽網(wǎng)頁(yè)】

四人無(wú)限注德州撲克賽道：

http://www.jidiai.cn/compete_detail?compete=48

橋牌賽道：

http://www.jidiai.cn/compete_detail?compete=49

麻將賽道：

http://www.jidiai.cn/compete_detail?compete=50

2.計(jì)算經(jīng)濟(jì)學(xué)競(jìng)賽
AAMAS 2024 Computational Economics Competition

競(jìng)賽設(shè)計(jì)者：張海峰，米祈睿，宋研

為鼓勵(lì)人工智能在解決復(fù)雜經(jīng)濟(jì)問(wèn)題方面的發(fā)展，自動(dòng)化所團(tuán)隊(duì)舉辦第二屆計(jì)算經(jīng)濟(jì)學(xué)競(jìng)賽。該競(jìng)賽將包括兩個(gè)賽道：政府方面的最優(yōu)稅收解決方案和家庭方面的最優(yōu)儲(chǔ)蓄和勞動(dòng)策略。競(jìng)賽情景具有高度多主體屬性和學(xué)術(shù)研究?jī)r(jià)值，與 AAMAS 2024 的目標(biāo)受眾和競(jìng)賽要求高度契合。參與者將通過(guò)及第平臺(tái)參與競(jìng)賽，該平臺(tái)配備了大規(guī)模在線事件所需的設(shè)施，并提供 AI 智能體的實(shí)時(shí)評(píng)估。

圖1. TaxAI仿真器的經(jīng)濟(jì)活動(dòng)

圖2. 各賽道參賽者統(tǒng)計(jì)

【競(jìng)賽網(wǎng)頁(yè)】http://www.jidiai.cn/ccf_2023/En.html

來(lái)源：中國(guó)科學(xué)院自動(dòng)化研究所

1.我有以下需求：
得到貴公司產(chǎn)品詳細(xì)資料得到貴公司產(chǎn)品的價(jià)格信息貴公司產(chǎn)品銷(xiāo)售人員聯(lián)系我貴公司技術(shù)支持人員聯(lián)系我
2.詳細(xì)的需求：
*
姓名:	*
單位:
電話:	*
郵件:	*

国产欧美日韩精品a在线观看-国产欧美日韩精品一区二区三区-国产欧美日韩精品综合-国产欧美中文字幕-一区二区三区精品国产-一区二区三区精品国产欧美

技術(shù)頻道

行業(yè)頻道

熱門(mén)頻道

技術(shù)頻道

行業(yè)頻道

熱門(mén)頻道

資訊頻道

熱點(diǎn)新聞

推薦產(chǎn)品