摘要:由于工業機器人構型空間和工作環境的復雜性,傳統運動規劃算法難以在有限時間內進行路徑求解,如何提高算法的規劃效率與最優性成為研究熱點。本文跟蹤目前工業機器人運動規劃算法的發展現狀,針對主流隨機采樣算法的原理與發展脈絡進行了細致分析與總結。在此基礎上,詳細闡述了基于強化學習的隨機采樣算法,該方法引入了規劃學習機制,在保證求解速度的同時,還能不斷提高求解質量。同時對當前運動規劃算法存在的一些不足提出了建議與展望。
關鍵詞:快速隨機搜索樹;運動規劃;隨機采樣;強化學習
Abstract: Due to the complexity of configuration space and working environment of industrial robot, traditional motion planning algorithmsaredifficulttoobtainthepath inlimitedtime.Howto improvetheplanningefficiencyandoptimalityofthealgorithms become the current research focus. In view of the current development of industrial robot operation planning algorithms, this papermakesadetailedanalysisand summaryoftheprincipleand developmentofthemainstreamrandomsamplingalgorithm. On this basis, the random sampling algorithmbasedon reinforcement learning is described in detail. This method introduces the planning learning mechanism, which can not only ensure the speed of solution, but also improve the quality of solution. At the same time, somesuggestionsandprospectsareputforwardaccordingtothe shortcomings of the current motion planning algorithms.
Key words: Rapidly-exploringRandomTree; Motionplan; Random sampling; Reinforcement learning
1 引言
工業機器人運動規劃是指在無人參與示教的情況下,通過算法搜索出一條符合約束的無碰撞路徑,是實現工業機器人智能化的關鍵技術。傳統運動規劃方法需要建立機器人構型和障礙物的位姿空間模型,計算復雜度隨著機器人自由度增加成指數增長,難以解決在復雜環境與高維構型空間下的運動規劃問題[1]。針對上述問題,研究人員提出了隨機采樣方法,可避免在位形空間中復雜的障礙物建模運算,能夠快速求解高維度運動規劃問題[2]。其中最著名的兩種算法是:隨機路圖法(PRM)[3]和快速隨機搜索樹(RRT)[4],兩種算法都能快速獲得可行解,但由于采樣過程引入了隨機性,使求解結果極不穩定,難以運用于實際場景,因此如何最大程度提高運動規劃算法的搜索效率和可行解質量成為極具挑戰的任務。
為了提高可行解質量,研究人員嘗試將強化學習與隨機采樣算法相結合,以保證求解速度并不斷提高求解質量,為解決運動規劃問題提供了新思路,但該算法的性能取決于策略函數和獎勵函數的優劣。因此,如何利用強化學習良好的自適應和自學習特性,將其與隨機采樣算法相結合成為了近年的研究熱點。
本文針對工業機器人高維構型空間的運動規劃問題,詳細介紹了快速隨機搜索樹算法的基本原理,并分析其改進方法的特點。在此基礎上,重點闡述了基于強化學習的隨機采樣算法,并對工業機器人運動規劃未來的研究方向進行了展望。
2 基于隨機采樣的運動規劃算法
由于工業機器人的運動規劃所面臨的任務環境往往是高維復雜的,傳統搜索算法計算復雜度隨著構型空間維度的增加成指數增長,無法解決高維運動規劃問題。而隨機采樣算法可避免高維空間復雜環境的建模運算,能夠快速求解高維度、復雜環境下的運動規劃問題,已成為解決這類規劃問題的主流算法。
2.1 快速隨機搜索樹算法及其擴展
為解決在復雜非完整約束與動態系統中的規劃問題,LaValle[4~6]提出基于隨機采樣的快速擴展隨機樹(Rapidly-exploringRandomTree,簡稱為RRT)算法,該算法避免了對空間的建模,不需要任何預處理,具有高效的搜索特性,為多自由度機器人復雜約束下的運動規劃問題提供了一種快速求解方法。同時LaValle也證明了該算法具有概率完備性[5],即只要保證足夠的搜索時間,就一定能找到可行解。
由于隨機采樣的RRT算法隨機性強、盲目性高,為了提高該算法在運動規劃上的表現,DU Mingbo[7]等人借鑒啟發式算法的思想,在隨機擴展樹的生長過程中引入一個目標概率偏置參數,使隨機采樣偏向目標節點,減少隨機性,提高運動規劃效率。在無障礙或障礙較少的環境中,引入目標偏置可以使規劃出來的路徑更接近于理想路徑。但環境中障礙物較多時,上述方法的避障效果明顯下降。為了解決此問題,王道威[8]等人提出一種動態步長技術,用于平衡目標導向性并保證避碰效果。另外,何兆楚[9]等人提出將RRT與人工勢場法結合,利用人工勢場法進行局部規劃,當陷入局部最小點時,使用改進的RRT算法自適應選擇臨時目標點,使搜索過程跳出局部最小值。而康亮[1]等人則將滾動規劃與RRT相結合,依靠滾動規劃法實時探測到的局部信息生成優化子目標。由于規劃問題壓縮至滾動窗口內,計算量與全局規劃相比大幅下降。
2.2 RRT-Connect算法及其擴展
由于單向搜索的RRT算法在擴展節點具有很強的隨機性,即使在標準RRT基礎上進行引導修正,算法的效率依然低下。因此,Kuffner與LaValle[10]提出了RRT-Connect算法,通過增加搜索樹數目提高路徑生成速度。算法分別以起始節點x_start和目標節點x_goal作為兩棵隨機擴展樹的根節點,設計啟發函數引導兩棵樹的搜索。
基于上述思路,王維[11]等人在虛擬人雙臂運動規劃問題上使用雙向平衡的RRT規劃算法,以一種近乎平衡的方式引導兩棵樹交替朝向對方快速擴展。而J Michael[12]等人提出的JT-RRT將RRT在位姿空間的探索與工作空間的偏置結合起來,高效地解決了在復雜環境中的規劃問題。此外,Rosen[13]等人將雙向RRT與JT-RRT結合,提出一種同時在位姿空間和工作空間進行擴展的雙向RRT算法,該算法位于工作空間的擴展樹可以給位姿空間的擴展樹提供啟發式信息,避免了整個位姿空間的搜索,極大提升了規劃效率。而Chang-bae[14]等人則提出在不考慮機器人運動學的情況下,工作空間樹在目標工作空間中尋找最近集合,而狀態空間樹則在考慮運動學和動態約束下生成機器人路徑的雙樹形結構。
2.3 RRT*算法及其擴展
RRT算法雖然具有概率完備性,能處理高維復雜環境中的問題,但無法保證算法所得到的可行解質量,即由RRT算法所規劃出來的路徑往往都是非最優的。針對這一問題,一系列基于RRT的最優運動規劃方法被提出[15]。
根據RRT算法的表現情況,Karaman和 Frazzoli[16]指出,其收斂到最優的概率基本為零。同時,他們提出一種基于RRT且具有漸進最優性的算法:RRT*。該算法在每一次拓展時都進行優化處理:取拓展點附近的所有點逐一比較代價值,從而選取最小代價值的父節點。雖然該算法具有漸近最優的特性,但每次增加新節點時都要進行遍歷以達到優化的目的,導致了搜索時長大幅增加[17]。
在此基礎上,Jonathan D[18]等人指出,用于提升解決方案的狀態子集可以被描述成扁長的超球體,Informed RRT*可以通過直接采樣這個子集來提升RRT*算法的效率,快速返回鄰近的最優方案。而 P-RRT*-connect[19]則是將雙向人工勢場結合到RRT*中,兩棵樹按照采樣點的人工勢場法生成的引力場和斥力場同時相互前進直到二者相遇,該算法特別適用于窄通道問題。另外,J Wang[20~21]等人提出了一個基于RRT*的生物啟發路徑規劃算法:Tropistic RRT*。該算法使用高斯混合模型來模仿植物的自然生長,減小抽樣空間,提高了運動規劃效率,但同時也導致了采樣分布不均。而Reza[22]等人在雙向RRT和Informed RRT*的基礎上,提出Hybrid RRT,其將規劃過程分為三個部分,基于雙樹搜索初始解,并將兩棵樹合并成一棵,再采用Informed RRT*優化路徑。該方法用非最優搜索來發現初始解,不僅比最優規劃速度更快,還能返回臨近最優解。
2.4 其他相關擴展算法
為了從各個方面更好地解決各式各樣的機器人運動規劃問題,研究人員在RRT變體的基礎上做了廣泛的嘗試與結合。如BIT*通過在RRT中加入表搜索,將圖表法與基于抽樣的規劃技術相結合,提升了返回初始解的速度[23]。為解決低效率和易陷入局部最小的問題,Haojian[24]等人在RRT的基礎上提出使用衰退機制來避免過度搜索位姿空間,另外,算法通過優化關節空間的邊界節點來持續地提升可到達的空間信息,避免重復搜索已擴展節點。而MT-RRT則是利用四個不同的多線程策略進行改進,減少了計算時間[25]。除此之外,Ariyan[26~27]等人則在RRT基礎上提出CODES3算法,用以解決在高度受限的環境中的規劃問題,此外,他們還提出了基于雙向樹搜索的6模型結構,每個模型中包含多個備選策略,根據環境背景信息從中尋找到最好的搭配來靈活地解決不同問題。
2.5 總結
到目前為止,從RRT的總體發展脈絡來看,學者們主要是在規劃效率與結果最優性兩個方面對原始的RRT進行改進與提高。主要的改進手段是利用增加隨機擴展樹數目提升搜索效率的RRT-Connect和通過改進每次拓展方式來達到算法漸進最優性的RRT*。因此,如何在此基礎上繼續提升算法性能也成為研究人員陸續關注的熱點。此外,結合其他技術或在算法結構上進行調整,也是工業機器人運動規劃領域未來的研究方向。
3 基于強化學習的運動規劃算法
強化學習的基本思想是智能體在與環境交互的過程中根據環境反饋得到獎勵,并不斷調整自身的策略以實現最佳決策,適用于現實中無法提供大量標簽數據的決策優化類問題[28]。由于其具有自學習性與自適應性等優點,受到各領域專家學者們的廣泛關注,近年來,也有不少學者們將強化學習應用在機器人運動規劃問題上,為解決這一類問題提供了新思路。
3.1 基于傳統強化學習的方法
提高機器人的自主決策與學習能力,僅依靠設計者的經驗和知識是很難獲得對復雜不確定環境的良好適應性。因此,如何在機器人的運動規劃中引入學習機制,成為研究人員關注的熱點[29]。如Jan Peters與Stefan Schaal[30]提出將動作基本體與隨機策略梯度學習相結合,并證明了在強化學習中用動作基本體來生成參數化控制策略的合理性。而Evangelos Theodorou[31~32]等人提出一種基于具有路徑積分的隨機優化控制結構的強化學習參數化控制策略PI2,該方法中用于學習的更新式既不需要矩陣的逆解也不需要梯度學習率,因此從數學的角度而言其有簡單且穩定的特點。在此基礎上,MrinalKalakrishnan[33]等人,使用動覺示范初始化機器人的初始位置控制策略,且利用 PI2算法通過優化一個價值函數來學習末端感知器所需要的力、轉矩等信息,從而在轉動把手開門和拾取桌上的筆兩個環境的實驗中取得了良好的效果。另外,Yanan Li[34]等人則將強化學習應用在多機器人協作的任務上,解決每個機器人與所要操縱的物體之間未知的動力學問題。
3.2 基于深度強化學習的方法
雖然傳統的強化學習在機器人運動規劃問題上有所應用,但大多難以克服高維復雜環境,解決的規劃問題也略為簡單。隨著深度強化學習的發展,通過龐大且深層的神經網絡與強化學習結合,以一種通用的形式將深度學習的感知能力與強化學習的決策能力相結合,并通過端對端的學習方式實現從原始輸入到輸出的直接控制,在眾多需要感知高維度原始輸入數據和決策控制任務中取得實質性的突破[35]。
沿著深度網絡與強化學習結合的這一研究思路,也有許多經典的深度強化學習算法被陸續提出,如 TRPO[36],DDPG[37],NAF[38]等,雖然受現實系統中的采樣復雜度影響,其能否靈活適用在現實環境中仍不明確,但這些算法的提出使機器人在人為操作很少的前提下學習復雜的技巧成為可能。在此基礎上,Sergey Levine[39]等人提出利用一個7層、92,000個參數的深度卷積神經網絡進行策略學習。策略學習過程中不再需要全部的狀態信息即可掌握未知的位姿信息,并可使用隨機梯度下降等的常規方法進行訓練。而ShixiangGu[40]等人指出,由于高采樣復雜度,深度強化學習的應用僅限于仿真與簡單的實際任務中,因此他們提出一個適用于復雜3D機器人任務的基于深度Q網絡的離線策略訓練方法。實驗證明該方法可以在不需要先驗示范或人為設計的情況下學習一系列復雜的3D機器人運動技能。李廣創與程良倫[41]則以點焊機器人為研究對象,將機器人在三維空間的自動點焊轉化為機器人的避障路徑規劃問題,使用一個三層的DNN網絡,經過離線訓練后,自行訓練出一條接近于最優的運動軌跡,成功地避開障礙物到達目標點。
3.3 強化學習與基于隨機采樣的方法結合
鑒于強化學習的自學習性與自適應性,以及隨機采樣方法的高效搜索與概率完備等優點,近年來,將二者結合應用在機器人運動規劃問題上的全新思路開始涌現。
沿著這一研究方向,Kei Ota[42]等人將RRT所生成的路徑作為強化學習的范例,指導其快速學習及收斂,且引入一個由淺入深的總課程學習模式來解決稀疏回報下訓練困難的問題,該方法在6自由度機器人裝配電腦部件的復雜實驗環境下取得了良好效果。而 Hao-Tien Lewis Chiang[43]等人提出RL-RRT算法,使用深度強化學習來學習避障策略,將其作為局部優化器,再采用可達性估算器作為距離函數對樹的生長方向進行偏置。另外,Aleksandra Faust[44]等人提出PRM-RL算法,使用強化學習來處理小范圍內點到點的規劃,再用PRM提供連接著機器人位姿的路標,成功解決了機器人遠距離規劃導航問題。而Philippe Morere[45]等人則提出先由RRT搜索初始可行解,再利用強化學習進行優化的R3L算法。該方法減少了算法的收斂時間,并且克服了稀疏回報下未獲得第一個正回報前的盲目探索問題。除此之外,Binghong Chen[46]等人在處理高維狀態-動作空間問題上,通過學習以前的經驗來解決新的規劃問題的一種神經探索利用樹NEXT。相比起一些已有的基于學習的規劃器,NEXT更加通用,并且可以在探索與利用之間找到平衡。
3.4 總結
隨著強化學習技術的不斷發展,專家學者們利用這個技術在工業機器人運動規劃領域做了許多有價值的嘗試。但無論是通過傳統的強化學習或是結合深度網絡的強化學習,要么難以克服高維復雜環境,要么需要利用非常龐大且復雜的網絡,具有很強的不穩定性,難以應用在現實環境中。于是,研究人員開始把目光轉向結合強化學習的自學習、自適應性與基于隨機采樣方法的高效搜索性、概率完備性的新思路上。這個方法不僅可以保證求解的速度,還可以逐步提高規劃結果的質量,是一個值得深入發掘的方向。
4 目前存在問題及研究展望
根據目前工業機器人運動規劃算法存在的不足和目前研究的現狀,本文認為未來研究方向主要有:
(1)提高隨機采樣算法的求解穩定性。雖然隨機采樣算法求解效率高,但引入了隨機性,導致有限時間內的求解結果極不穩定,這種不確定性使算法難以在實際中應用。因此,提高解的穩定性是未來的一個研究方向;
(2)提高強化學習算法訓練效率。基于強化學習的隨機采樣算法保證了求解效率和質量,但強化學習算法本身也具有很強的隨機性,如何提高探索效率、收斂速度也是未來重點考慮的問題;
(3)考慮實際場景下的環境約束、運動學約束和動力學約束等。目前工業機器人運動規劃算法主要停留在實驗室研究階段,考慮實際工況約束的運動規劃算法將是未來研究的重點。
參考文獻:
[1] 康亮,趙春霞,郭劍輝.未知環境下改進的基于RRT算法的移動機器人路徑規劃[J].模式識別與人工智能,2009,22(3):337-343.
[2] 唐華斌,孫增圻.基于隨機采樣的機器人雙臂協調運動規劃[C].中國智能自動化會議論文集.2005.
[3] Amato N M,Wu Y.A Randomized Roadmap Method for Path and Manipulation Planning[C]. IEEE International Conference on Robotics&Automation.IEEE,1993.
[4] S M LaValle,J J Kuffner.Rapidly-exploring random trees:Progress and prospects[C].Proceedings Workshop on the Algorithmic Foundations of Robotics.2000.
[5] S M LaValle,J J Kuffner.Randomized Kinodynamic Planning[C].Proceedings of the 1999 IEEE International Conferenceon Robotics&Automation.USA,1999:473-479.
[6] S M LaValle.Rapidly-exploring random trees:A new tool for path planning[R].Ames,USA:Department of Computer Science,Iowa State University,1998.
[7] DU Mingbo,MEI Tao,CHEN Jiajia,etc.RRT-based Motion Planning Algorithm for Intelligent Vehicle in Complex Environments[J].Robot,2015,37(4):443-450.
[8] 王道威,朱明富,劉慧.動態步長的RRT路徑規劃算法[J].計算機技術與發展,2016,26(3):105-112.
[9] 何兆楚,何元烈,曾碧.RRT與人工勢場法結合的機械臂避障規劃[J].工業工程,2017,20(2):56-63.
[10] J J Kuffner,S M LaValle.RRT-connect:An efficient approach to single-query path planning[C].Proceedings of the 2000 IEEE International Conference on Robotics and Automation.USA:San Francisco,2000.1-7.
[11] 王維,李焱.基于RRT的虛擬人雙臂操控規劃方法[J].系統仿真學報,2009,21(20):6515-6518.
[12] J Michael Vandeweghe,David Ferguson,Siddhartha Srinivasa.Randomized Path Planning for Redundant Manipulators without Inverse Kinematics[C].Proceedings of IEEE-RAS International Conference on Humanoid Robots.USA,2007.
[13] Rosen Diankov,Nathan Ratliff,David Ferguson,etc.Proceedings of Robotics:Science and Systems[C].Proceedings of Robotics:Science and Systems.2008.
[14] Chang-bae Moon,Woojin Chung.Kinodynamic Planner Dual-Tree RRT(DT-RRT) for Two-Wheeled Mobile Robots Using the Rapidly Exploring Random Tree[J].IEEE Transactions on Industrial Electronics,2015,62(2):1080-1090.
[15] Sertac Karaman,Emilio Frazzoli.Sampling-based algorithms for optimal motion planning[J].The International Journal of Robotics Research,2011,30(7):846-894.
[16] Sertac Karaman,Emilio Frazzoli.Incremental Sampling-based Algorithms for Optimal Motion Planning[C].Robotics:Science and Systems 2010.Spain:Zaragoza,2010.
[17] Joshua John Bialkowski,Sertac Karaman,Emilio Frazzoli.Massily parallelizing the RRT and the RRT*[C].2011 IEEE/RSJ International Conference on Intelligent Robots and Systems.USA:San Francisco,2011:3513-3518.
[18] Jonathan D.Gammell,Siddhartha S.Sriivasa,Timothy D.Barfoot.Informed RRT*:Optimal sampling-based path planning focused via direct sampling of an admissible elnlipsoidal heuristic[C].2014 IEEE/RSJ International Conference on Intelligent Robots and Systems.USA:Chicago,2014.2997-3004.
[19] Wang Xinyu,Li Xiaojuan,Guan Yong,etc.Bidirectional Potential guided RRT* for motion planning[J].IEEE Access,2019,7:95034-95045.
[20] Jiankun Wang,Wenzheng Chi,Mingjie Shao etc.Finding a High-Quality Initial Solution for the RRTs Algorithms in 2D Environments[J].Robotica,2019,37(10):1677-1694.
[21] Jiankun Wang,Charles X.-T.Li,Wenzheng Chi,etc.Tropistic RRT*:An Efficient Planning Algorithm via Adaptive Restricted Sampling Space[C].2018 IEEE International Conference on Information and Automation.China:Wuyi Mountain,2018.1639-1646.
[22] Reza Mashayekhi,Mohd Yamani Idna Idris,Hossein Anisi,etc.Hybrid RRT:A Semi-dual-tree RRT-based Motion Planner[J].IEEE Access,2020,8:18658-18668.
[23] Jonathan D.Gammell,Siddhartha S.Srinivasa,Timothy D.Barfoot.Batch Informed Trees(BIT*):Sampling-based Optimal Planning via the Heuristilly Guided Search of Implicit Random Geometric Graphs[C].2015 IEEE International Conference on Robotics and Automation (ICcaRA).USA:Seattle,2015.3067–3074.
[24] Haojian Zhang,Yunkuan Wang,Jun Zheng,etc.Path Planning of Industrial Robot Based on Improved RRT Algorithm in Complex Environments[J].IEEE Access,2018,6:53296-53306.
[25] Andrea Casalino,Andrea Maria Zanchettin,Paolo Rocco.MT-RRT:a general purpose multithreading library for path planning[C].IEEE/RSJ IROS.China:Macau,2019.1510-1517.
[26] Ariyan M.Kabir,Brual C.Shah,Satyandra K.Gupta.Trajectory Planning for Manipulators Operating in Confined Workspaces[C].2018 IEEE 14th International Conference on Automation Science and Engineering.Germany:Munich,2018.84-91.
[27] Pradeep Rajendran,Shantanu Thakar,Ariyan M.Kabir,etc.Context-Dependent Search for Generating Paths for Redundant Manipulators in Cluttered Environments[C].2019 IEEE/RSJ International Conference on Intelligent Robots and Systems.China:Macau,2019.5573-5579.
[28] 馬騁乾,謝偉,孫偉杰.強化學習研究綜述[J].指揮控制與仿真,2018,40(6):68-72.
[29] 陳學松,楊宜民.強化學習研究綜述[J].計算機應用研究,2010,27(8):2834-2844.
[30] Jan Peters,Stefan Schaal.Reinforcement learning of motor skills with policy gradients[J].Neural Networks,2008,21(4):682-697.
[31] Evangelos Theodorou,Jonas Buchli,Stefan Schaal.Reinforcement Learning of Motor Skills in High Dimensions:A Path Integral Approach[C].2010 IEEE International Conference on Robotics and Automation.USA:Anchorage,2010.2397-2403.
[32] Evangelos Theodorou,Jonas Buchli,Stefan Schaal.A Generalized Path Integral Control Approach to Reinforcement Learning[J].Journal of Machine Learning Research,2010,11:3137-3181.
[33] Mrinal Kalakrishnan,Ludovic Righetti,Peter Pastor,etc.Learning Force Control Policies for Compliant Manipulation[C].2011 IEEE/RSJ International Conference on Intelligent Robots and Systems. USA:San Francisco,2011.4639-4644.
[34] Yanan Li,Long Chen,Keng Peng Tee,etc.Reinforcement learning control for coordinated manipulation of multi-robots[J].Neurocomputing,2015(170):168-175.
[35] 劉全,翟建偉,章宗長,等.深度強化學習綜述[J].計算機學報,2017,40(1):1-28.
[36] John Schulman,Sergey Levine,Pieter Abbeel,etc.Trust Region Policy Optimization[C].Proceedings of the 32nd International Conference on Machine Learning.France:Lille,2015.1889-1897.
[37] Timothy P.Lillicrap,Jonathan J.Hunt,Alexander Pritzel,etc.Continuous control with deep reinforcement learning[C].4th International Conference on Learning Representations,ICLR 2016-Conference Track Proceedings(2016).Puerto Rico:Caribe Hilton,2016.
[38] Shixiang Gu,Timothy Lillicrap,Ilya Sutskever,etc.Continuous deep Q-learning with model-based acceleration[C].International Conference on Machine Learning.USA:New York,2016.2829-2838.
[39] Sergey Levine,Chelsea Finn,Trevor Darrell,etc.End-to-End Training of Deep Visuomotor Policies[J].Journal of Machine Learning Research,2016(17):1-40.
[40] Shixiang Gu,Ethan Holly,Timothy Lillicrap,etc.Deep Reinforcement Learning for Robotic Manipulation with Asynchronous Off-Policy Updates[C].2017 IEEE International Conference on Robotics and Automation (ICRA).Singapore:Singapore,2017.3389-3396.
[41] 李廣創,程良倫.基于深度強化學習的機械臂避障路徑規劃研究[J].軟件工程,2019,22(3):12-15.
[42] Kei Ota,Devesh K.Jha,Tomoaki Oiki,etc. Trajectory Optimization for Unknown Constrained Systems using Reinforcement Learning[C].2019 IEEE/RSJ International Conference on Intelligent Robots and Systems(IROS).China:Macau,2019.3487-3494.
[43] Hao-Tien Lewis Chiang,Jasmine Hsu,Marek Fiser,etc.RL-RRT:Kinodynamic Motion Planning via Learning Reachability Estimators from RL Policies[J].Robotics and Automation Letters,2019,4:4298-4305.
[44] Aleksandra Faust,Oscar Ramirez,Marek Fiser,etc.PRM-RL:Long-range Robotic Navigation Tasks by Combining Reinforcement Learning and Sampling-based Planning[C].IEEE International Conference on Robotics and Automation(ICRA).Australia:Brisbane,2018.5113-5120.
[45] Philippe Morere,Gilad Francis,Tom Blau,etc.Reinforcement Learning with Probabilistically Complete Exploration.arXiv:2001.
[46] Binghong Chen,Bo Dai,Qingjie Lin,etc.Learning to Plan via Neural Exploration-Exploitation Trees[C].2020 International Conference on Learning Representations(ICLR).Ethiopia:Addis Ababa,2020.
作者簡介:
劉暾東(1970-),山西原平人,教授,博士生導師,現任教于廈門大學航空航天學院自動化系,研究方向是工業機器人與機器視覺。
陳 馨(1997-),福建福州人,現就讀于廈門大學航空航天學院自動化系,研究方向是工業機器人控制與規劃。
吳曉敏(1992-),福建福州人,現就讀于廈門大學航空航天學院自動化系,研究方向是工業機器人控制與強化學習。
邵桂芳(1978-),黑龍江阿城人,副教授,碩士生導師,現任教于廈門大學航空航天學院自動化系,研究方向是機器視覺與智能優化。
摘自《自動化博覽》2020年4月刊