近日,中國科學院自動化研究所深度強化學習團隊提出大模型驅動的機器人長序列決策與感知融合的RoboGPT方法,在具身智能測試平臺ALFRED榜單中取得第一名。
RoboGPT方法將大模型常識推理融入環境感知和探索中,有效避免了無效信息干擾,提升了復雜開放場景下環境感知的效率和泛化能力,解決了機器人環境適應性差、缺乏常識的難點。通過引入環境實時反饋,利用大模型強推理能力實現環境自適應的長序列任務分解,突破了機器人長序列復雜任務難以規劃,環境先決條件難以引入決策的難題。
該方法包含基于LLM的規劃器、重規劃(Re-Plan)和技能(RoboSkill)三個模塊。在給定任務指令后,基于LLM的RoboGPT規劃器可將其分解為多個子目標。RoboSkill 根據子目標執行導航或操作技能,產生與環境交互的動作,并按順序完成所有子目標。如果某個子目標未完成,Re-Plan模塊會接收反饋信息,并根據從環境中接收到的數據生成新的規劃。
具體而言,團隊構建了一批高質量的機器人規劃數據,提出RoboGPT機器人規劃大模型,可完成上百種日常任務的規劃。機器人可根據智能體第一視角圖像獲得深度和分割信息,進行視覺SLAM(Simultaneous Localization and Mapping),得到語義地圖。在導航算法方面,團隊根據語義地圖設計了一種知識引導的小物體探索方法,使得機器人很快地找到目標物體。同時,相比于端到端的學習類方法,該方法易于遷移到其他機器人場景中,甚至是實體機器人場景,只需對根據第一視角圖像獲得深度和分割信息的模型進行場景適應。
RoboGPT方法在ALFRED的Valid Unseen數據和構造的通用任務Gen. Task的表現如表1所示。相較于目前基于ChatGPT(LLM-Planner)和基于模版的任務規劃方法(Prompter),RoboGPT方法在任務執行成功率(SR, Success Rate)和任務規劃的正確性(HLP ACC, ACCuracy of High-Level instruction task Planning)上都取得了顯著的優勢。相關工作在ALFRED的榜單中排名第一,并已整理成研究論文RoboGPT。
ALFRED是由華盛頓大學、CMU、Nvidia等聯合創建的具身智能公開測試平臺,目前已有60多個全球知名高校、科研院所和公司在該平臺上進行了公開測試。榜單提供了7類常見的日常指令任務,如“加熱蘋果放到櫥柜里”,要求機器人具有精準的環境感知能力和強推理能力,僅僅通過第一視角的圖像,完成復雜的指令任務。
榜單鏈接:
https://leaderboard.allenai.org/alfred/submissions/public
論文鏈接:
https://arxiv.org/abs/2311.15649
圖1. ALFRED榜單排名(截至2023年12月25日)
圖2. RoboGPT系統框圖
表1 ALFRED Valid Unseen和通用任務Gen.Task 實驗結果
來源:中國科學院自動化研究所