摘要:由于工業(yè)機器人構(gòu)型空間和工作環(huán)境的復雜性,傳統(tǒng)運動規(guī)劃算法難以在有限時間內(nèi)進行路徑求解,如何提高算法的規(guī)劃效率與最優(yōu)性成為研究熱點。本文跟蹤目前工業(yè)機器人運動規(guī)劃算法的發(fā)展現(xiàn)狀,針對主流隨機采樣算法的原理與發(fā)展脈絡(luò)進行了細致分析與總結(jié)。在此基礎(chǔ)上,詳細闡述了基于強化學習的隨機采樣算法,該方法引入了規(guī)劃學習機制,在保證求解速度的同時,還能不斷提高求解質(zhì)量。同時對當前運動規(guī)劃算法存在的一些不足提出了建議與展望。
關(guān)鍵詞:快速隨機搜索樹;運動規(guī)劃;隨機采樣;強化學習
Abstract: Due to the complexity of configuration space and working environment of industrial robot, traditional motion planning algorithmsaredifficulttoobtainthepath inlimitedtime.Howto improvetheplanningefficiencyandoptimalityofthealgorithms become the current research focus. In view of the current development of industrial robot operation planning algorithms, this papermakesadetailedanalysisand summaryoftheprincipleand developmentofthemainstreamrandomsamplingalgorithm. On this basis, the random sampling algorithmbasedon reinforcement learning is described in detail. This method introduces the planning learning mechanism, which can not only ensure the speed of solution, but also improve the quality of solution. At the same time, somesuggestionsandprospectsareputforwardaccordingtothe shortcomings of the current motion planning algorithms.
Key words: Rapidly-exploringRandomTree; Motionplan; Random sampling; Reinforcement learning
1 引言
工業(yè)機器人運動規(guī)劃是指在無人參與示教的情況下,通過算法搜索出一條符合約束的無碰撞路徑,是實現(xiàn)工業(yè)機器人智能化的關(guān)鍵技術(shù)。傳統(tǒng)運動規(guī)劃方法需要建立機器人構(gòu)型和障礙物的位姿空間模型,計算復雜度隨著機器人自由度增加成指數(shù)增長,難以解決在復雜環(huán)境與高維構(gòu)型空間下的運動規(guī)劃問題[1]。針對上述問題,研究人員提出了隨機采樣方法,可避免在位形空間中復雜的障礙物建模運算,能夠快速求解高維度運動規(guī)劃問題[2]。其中最著名的兩種算法是:隨機路圖法(PRM)[3]和快速隨機搜索樹(RRT)[4],兩種算法都能快速獲得可行解,但由于采樣過程引入了隨機性,使求解結(jié)果極不穩(wěn)定,難以運用于實際場景,因此如何最大程度提高運動規(guī)劃算法的搜索效率和可行解質(zhì)量成為極具挑戰(zhàn)的任務(wù)。
為了提高可行解質(zhì)量,研究人員嘗試將強化學習與隨機采樣算法相結(jié)合,以保證求解速度并不斷提高求解質(zhì)量,為解決運動規(guī)劃問題提供了新思路,但該算法的性能取決于策略函數(shù)和獎勵函數(shù)的優(yōu)劣。因此,如何利用強化學習良好的自適應(yīng)和自學習特性,將其與隨機采樣算法相結(jié)合成為了近年的研究熱點。
本文針對工業(yè)機器人高維構(gòu)型空間的運動規(guī)劃問題,詳細介紹了快速隨機搜索樹算法的基本原理,并分析其改進方法的特點。在此基礎(chǔ)上,重點闡述了基于強化學習的隨機采樣算法,并對工業(yè)機器人運動規(guī)劃未來的研究方向進行了展望。
2 基于隨機采樣的運動規(guī)劃算法
由于工業(yè)機器人的運動規(guī)劃所面臨的任務(wù)環(huán)境往往是高維復雜的,傳統(tǒng)搜索算法計算復雜度隨著構(gòu)型空間維度的增加成指數(shù)增長,無法解決高維運動規(guī)劃問題。而隨機采樣算法可避免高維空間復雜環(huán)境的建模運算,能夠快速求解高維度、復雜環(huán)境下的運動規(guī)劃問題,已成為解決這類規(guī)劃問題的主流算法。
2.1 快速隨機搜索樹算法及其擴展
為解決在復雜非完整約束與動態(tài)系統(tǒng)中的規(guī)劃問題,LaValle[4~6]提出基于隨機采樣的快速擴展隨機樹(Rapidly-exploringRandomTree,簡稱為RRT)算法,該算法避免了對空間的建模,不需要任何預(yù)處理,具有高效的搜索特性,為多自由度機器人復雜約束下的運動規(guī)劃問題提供了一種快速求解方法。同時LaValle也證明了該算法具有概率完備性[5],即只要保證足夠的搜索時間,就一定能找到可行解。
由于隨機采樣的RRT算法隨機性強、盲目性高,為了提高該算法在運動規(guī)劃上的表現(xiàn),DU Mingbo[7]等人借鑒啟發(fā)式算法的思想,在隨機擴展樹的生長過程中引入一個目標概率偏置參數(shù),使隨機采樣偏向目標節(jié)點,減少隨機性,提高運動規(guī)劃效率。在無障礙或障礙較少的環(huán)境中,引入目標偏置可以使規(guī)劃出來的路徑更接近于理想路徑。但環(huán)境中障礙物較多時,上述方法的避障效果明顯下降。為了解決此問題,王道威[8]等人提出一種動態(tài)步長技術(shù),用于平衡目標導向性并保證避碰效果。另外,何兆楚[9]等人提出將RRT與人工勢場法結(jié)合,利用人工勢場法進行局部規(guī)劃,當陷入局部最小點時,使用改進的RRT算法自適應(yīng)選擇臨時目標點,使搜索過程跳出局部最小值。而康亮[1]等人則將滾動規(guī)劃與RRT相結(jié)合,依靠滾動規(guī)劃法實時探測到的局部信息生成優(yōu)化子目標。由于規(guī)劃問題壓縮至滾動窗口內(nèi),計算量與全局規(guī)劃相比大幅下降。
2.2 RRT-Connect算法及其擴展
由于單向搜索的RRT算法在擴展節(jié)點具有很強的隨機性,即使在標準RRT基礎(chǔ)上進行引導修正,算法的效率依然低下。因此,Kuffner與LaValle[10]提出了RRT-Connect算法,通過增加搜索樹數(shù)目提高路徑生成速度。算法分別以起始節(jié)點x_start和目標節(jié)點x_goal作為兩棵隨機擴展樹的根節(jié)點,設(shè)計啟發(fā)函數(shù)引導兩棵樹的搜索。
基于上述思路,王維[11]等人在虛擬人雙臂運動規(guī)劃問題上使用雙向平衡的RRT規(guī)劃算法,以一種近乎平衡的方式引導兩棵樹交替朝向?qū)Ψ娇焖贁U展。而J Michael[12]等人提出的JT-RRT將RRT在位姿空間的探索與工作空間的偏置結(jié)合起來,高效地解決了在復雜環(huán)境中的規(guī)劃問題。此外,Rosen[13]等人將雙向RRT與JT-RRT結(jié)合,提出一種同時在位姿空間和工作空間進行擴展的雙向RRT算法,該算法位于工作空間的擴展樹可以給位姿空間的擴展樹提供啟發(fā)式信息,避免了整個位姿空間的搜索,極大提升了規(guī)劃效率。而Chang-bae[14]等人則提出在不考慮機器人運動學的情況下,工作空間樹在目標工作空間中尋找最近集合,而狀態(tài)空間樹則在考慮運動學和動態(tài)約束下生成機器人路徑的雙樹形結(jié)構(gòu)。
2.3 RRT*算法及其擴展
RRT算法雖然具有概率完備性,能處理高維復雜環(huán)境中的問題,但無法保證算法所得到的可行解質(zhì)量,即由RRT算法所規(guī)劃出來的路徑往往都是非最優(yōu)的。針對這一問題,一系列基于RRT的最優(yōu)運動規(guī)劃方法被提出[15]。
根據(jù)RRT算法的表現(xiàn)情況,Karaman和 Frazzoli[16]指出,其收斂到最優(yōu)的概率基本為零。同時,他們提出一種基于RRT且具有漸進最優(yōu)性的算法:RRT*。該算法在每一次拓展時都進行優(yōu)化處理:取拓展點附近的所有點逐一比較代價值,從而選取最小代價值的父節(jié)點。雖然該算法具有漸近最優(yōu)的特性,但每次增加新節(jié)點時都要進行遍歷以達到優(yōu)化的目的,導致了搜索時長大幅增加[17]。
在此基礎(chǔ)上,Jonathan D[18]等人指出,用于提升解決方案的狀態(tài)子集可以被描述成扁長的超球體,Informed RRT*可以通過直接采樣這個子集來提升RRT*算法的效率,快速返回鄰近的最優(yōu)方案。而 P-RRT*-connect[19]則是將雙向人工勢場結(jié)合到RRT*中,兩棵樹按照采樣點的人工勢場法生成的引力場和斥力場同時相互前進直到二者相遇,該算法特別適用于窄通道問題。另外,J Wang[20~21]等人提出了一個基于RRT*的生物啟發(fā)路徑規(guī)劃算法:Tropistic RRT*。該算法使用高斯混合模型來模仿植物的自然生長,減小抽樣空間,提高了運動規(guī)劃效率,但同時也導致了采樣分布不均。而Reza[22]等人在雙向RRT和Informed RRT*的基礎(chǔ)上,提出Hybrid RRT,其將規(guī)劃過程分為三個部分,基于雙樹搜索初始解,并將兩棵樹合并成一棵,再采用Informed RRT*優(yōu)化路徑。該方法用非最優(yōu)搜索來發(fā)現(xiàn)初始解,不僅比最優(yōu)規(guī)劃速度更快,還能返回臨近最優(yōu)解。
2.4 其他相關(guān)擴展算法
為了從各個方面更好地解決各式各樣的機器人運動規(guī)劃問題,研究人員在RRT變體的基礎(chǔ)上做了廣泛的嘗試與結(jié)合。如BIT*通過在RRT中加入表搜索,將圖表法與基于抽樣的規(guī)劃技術(shù)相結(jié)合,提升了返回初始解的速度[23]。為解決低效率和易陷入局部最小的問題,Haojian[24]等人在RRT的基礎(chǔ)上提出使用衰退機制來避免過度搜索位姿空間,另外,算法通過優(yōu)化關(guān)節(jié)空間的邊界節(jié)點來持續(xù)地提升可到達的空間信息,避免重復搜索已擴展節(jié)點。而MT-RRT則是利用四個不同的多線程策略進行改進,減少了計算時間[25]。除此之外,Ariyan[26~27]等人則在RRT基礎(chǔ)上提出CODES3算法,用以解決在高度受限的環(huán)境中的規(guī)劃問題,此外,他們還提出了基于雙向樹搜索的6模型結(jié)構(gòu),每個模型中包含多個備選策略,根據(jù)環(huán)境背景信息從中尋找到最好的搭配來靈活地解決不同問題。
2.5 總結(jié)
到目前為止,從RRT的總體發(fā)展脈絡(luò)來看,學者們主要是在規(guī)劃效率與結(jié)果最優(yōu)性兩個方面對原始的RRT進行改進與提高。主要的改進手段是利用增加隨機擴展樹數(shù)目提升搜索效率的RRT-Connect和通過改進每次拓展方式來達到算法漸進最優(yōu)性的RRT*。因此,如何在此基礎(chǔ)上繼續(xù)提升算法性能也成為研究人員陸續(xù)關(guān)注的熱點。此外,結(jié)合其他技術(shù)或在算法結(jié)構(gòu)上進行調(diào)整,也是工業(yè)機器人運動規(guī)劃領(lǐng)域未來的研究方向。
3 基于強化學習的運動規(guī)劃算法
強化學習的基本思想是智能體在與環(huán)境交互的過程中根據(jù)環(huán)境反饋得到獎勵,并不斷調(diào)整自身的策略以實現(xiàn)最佳決策,適用于現(xiàn)實中無法提供大量標簽數(shù)據(jù)的決策優(yōu)化類問題[28]。由于其具有自學習性與自適應(yīng)性等優(yōu)點,受到各領(lǐng)域?qū)<覍W者們的廣泛關(guān)注,近年來,也有不少學者們將強化學習應(yīng)用在機器人運動規(guī)劃問題上,為解決這一類問題提供了新思路。
3.1 基于傳統(tǒng)強化學習的方法
提高機器人的自主決策與學習能力,僅依靠設(shè)計者的經(jīng)驗和知識是很難獲得對復雜不確定環(huán)境的良好適應(yīng)性。因此,如何在機器人的運動規(guī)劃中引入學習機制,成為研究人員關(guān)注的熱點[29]。如Jan Peters與Stefan Schaal[30]提出將動作基本體與隨機策略梯度學習相結(jié)合,并證明了在強化學習中用動作基本體來生成參數(shù)化控制策略的合理性。而Evangelos Theodorou[31~32]等人提出一種基于具有路徑積分的隨機優(yōu)化控制結(jié)構(gòu)的強化學習參數(shù)化控制策略PI2,該方法中用于學習的更新式既不需要矩陣的逆解也不需要梯度學習率,因此從數(shù)學的角度而言其有簡單且穩(wěn)定的特點。在此基礎(chǔ)上,MrinalKalakrishnan[33]等人,使用動覺示范初始化機器人的初始位置控制策略,且利用 PI2算法通過優(yōu)化一個價值函數(shù)來學習末端感知器所需要的力、轉(zhuǎn)矩等信息,從而在轉(zhuǎn)動把手開門和拾取桌上的筆兩個環(huán)境的實驗中取得了良好的效果。另外,Yanan Li[34]等人則將強化學習應(yīng)用在多機器人協(xié)作的任務(wù)上,解決每個機器人與所要操縱的物體之間未知的動力學問題。
3.2 基于深度強化學習的方法
雖然傳統(tǒng)的強化學習在機器人運動規(guī)劃問題上有所應(yīng)用,但大多難以克服高維復雜環(huán)境,解決的規(guī)劃問題也略為簡單。隨著深度強化學習的發(fā)展,通過龐大且深層的神經(jīng)網(wǎng)絡(luò)與強化學習結(jié)合,以一種通用的形式將深度學習的感知能力與強化學習的決策能力相結(jié)合,并通過端對端的學習方式實現(xiàn)從原始輸入到輸出的直接控制,在眾多需要感知高維度原始輸入數(shù)據(jù)和決策控制任務(wù)中取得實質(zhì)性的突破[35]。
沿著深度網(wǎng)絡(luò)與強化學習結(jié)合的這一研究思路,也有許多經(jīng)典的深度強化學習算法被陸續(xù)提出,如 TRPO[36],DDPG[37],NAF[38]等,雖然受現(xiàn)實系統(tǒng)中的采樣復雜度影響,其能否靈活適用在現(xiàn)實環(huán)境中仍不明確,但這些算法的提出使機器人在人為操作很少的前提下學習復雜的技巧成為可能。在此基礎(chǔ)上,Sergey Levine[39]等人提出利用一個7層、92,000個參數(shù)的深度卷積神經(jīng)網(wǎng)絡(luò)進行策略學習。策略學習過程中不再需要全部的狀態(tài)信息即可掌握未知的位姿信息,并可使用隨機梯度下降等的常規(guī)方法進行訓練。而ShixiangGu[40]等人指出,由于高采樣復雜度,深度強化學習的應(yīng)用僅限于仿真與簡單的實際任務(wù)中,因此他們提出一個適用于復雜3D機器人任務(wù)的基于深度Q網(wǎng)絡(luò)的離線策略訓練方法。實驗證明該方法可以在不需要先驗示范或人為設(shè)計的情況下學習一系列復雜的3D機器人運動技能。李廣創(chuàng)與程良倫[41]則以點焊機器人為研究對象,將機器人在三維空間的自動點焊轉(zhuǎn)化為機器人的避障路徑規(guī)劃問題,使用一個三層的DNN網(wǎng)絡(luò),經(jīng)過離線訓練后,自行訓練出一條接近于最優(yōu)的運動軌跡,成功地避開障礙物到達目標點。
3.3 強化學習與基于隨機采樣的方法結(jié)合
鑒于強化學習的自學習性與自適應(yīng)性,以及隨機采樣方法的高效搜索與概率完備等優(yōu)點,近年來,將二者結(jié)合應(yīng)用在機器人運動規(guī)劃問題上的全新思路開始涌現(xiàn)。
沿著這一研究方向,Kei Ota[42]等人將RRT所生成的路徑作為強化學習的范例,指導其快速學習及收斂,且引入一個由淺入深的總課程學習模式來解決稀疏回報下訓練困難的問題,該方法在6自由度機器人裝配電腦部件的復雜實驗環(huán)境下取得了良好效果。而 Hao-Tien Lewis Chiang[43]等人提出RL-RRT算法,使用深度強化學習來學習避障策略,將其作為局部優(yōu)化器,再采用可達性估算器作為距離函數(shù)對樹的生長方向進行偏置。另外,Aleksandra Faust[44]等人提出PRM-RL算法,使用強化學習來處理小范圍內(nèi)點到點的規(guī)劃,再用PRM提供連接著機器人位姿的路標,成功解決了機器人遠距離規(guī)劃導航問題。而Philippe Morere[45]等人則提出先由RRT搜索初始可行解,再利用強化學習進行優(yōu)化的R3L算法。該方法減少了算法的收斂時間,并且克服了稀疏回報下未獲得第一個正回報前的盲目探索問題。除此之外,Binghong Chen[46]等人在處理高維狀態(tài)-動作空間問題上,通過學習以前的經(jīng)驗來解決新的規(guī)劃問題的一種神經(jīng)探索利用樹NEXT。相比起一些已有的基于學習的規(guī)劃器,NEXT更加通用,并且可以在探索與利用之間找到平衡。
3.4 總結(jié)
隨著強化學習技術(shù)的不斷發(fā)展,專家學者們利用這個技術(shù)在工業(yè)機器人運動規(guī)劃領(lǐng)域做了許多有價值的嘗試。但無論是通過傳統(tǒng)的強化學習或是結(jié)合深度網(wǎng)絡(luò)的強化學習,要么難以克服高維復雜環(huán)境,要么需要利用非常龐大且復雜的網(wǎng)絡(luò),具有很強的不穩(wěn)定性,難以應(yīng)用在現(xiàn)實環(huán)境中。于是,研究人員開始把目光轉(zhuǎn)向結(jié)合強化學習的自學習、自適應(yīng)性與基于隨機采樣方法的高效搜索性、概率完備性的新思路上。這個方法不僅可以保證求解的速度,還可以逐步提高規(guī)劃結(jié)果的質(zhì)量,是一個值得深入發(fā)掘的方向。
4 目前存在問題及研究展望
根據(jù)目前工業(yè)機器人運動規(guī)劃算法存在的不足和目前研究的現(xiàn)狀,本文認為未來研究方向主要有:
(1)提高隨機采樣算法的求解穩(wěn)定性。雖然隨機采樣算法求解效率高,但引入了隨機性,導致有限時間內(nèi)的求解結(jié)果極不穩(wěn)定,這種不確定性使算法難以在實際中應(yīng)用。因此,提高解的穩(wěn)定性是未來的一個研究方向;
(2)提高強化學習算法訓練效率。基于強化學習的隨機采樣算法保證了求解效率和質(zhì)量,但強化學習算法本身也具有很強的隨機性,如何提高探索效率、收斂速度也是未來重點考慮的問題;
(3)考慮實際場景下的環(huán)境約束、運動學約束和動力學約束等。目前工業(yè)機器人運動規(guī)劃算法主要停留在實驗室研究階段,考慮實際工況約束的運動規(guī)劃算法將是未來研究的重點。
參考文獻:
[1] 康亮,趙春霞,郭劍輝.未知環(huán)境下改進的基于RRT算法的移動機器人路徑規(guī)劃[J].模式識別與人工智能,2009,22(3):337-343.
[2] 唐華斌,孫增圻.基于隨機采樣的機器人雙臂協(xié)調(diào)運動規(guī)劃[C].中國智能自動化會議論文集.2005.
[3] Amato N M,Wu Y.A Randomized Roadmap Method for Path and Manipulation Planning[C]. IEEE International Conference on Robotics&Automation.IEEE,1993.
[4] S M LaValle,J J Kuffner.Rapidly-exploring random trees:Progress and prospects[C].Proceedings Workshop on the Algorithmic Foundations of Robotics.2000.
[5] S M LaValle,J J Kuffner.Randomized Kinodynamic Planning[C].Proceedings of the 1999 IEEE International Conferenceon Robotics&Automation.USA,1999:473-479.
[6] S M LaValle.Rapidly-exploring random trees:A new tool for path planning[R].Ames,USA:Department of Computer Science,Iowa State University,1998.
[7] DU Mingbo,MEI Tao,CHEN Jiajia,etc.RRT-based Motion Planning Algorithm for Intelligent Vehicle in Complex Environments[J].Robot,2015,37(4):443-450.
[8] 王道威,朱明富,劉慧.動態(tài)步長的RRT路徑規(guī)劃算法[J].計算機技術(shù)與發(fā)展,2016,26(3):105-112.
[9] 何兆楚,何元烈,曾碧.RRT與人工勢場法結(jié)合的機械臂避障規(guī)劃[J].工業(yè)工程,2017,20(2):56-63.
[10] J J Kuffner,S M LaValle.RRT-connect:An efficient approach to single-query path planning[C].Proceedings of the 2000 IEEE International Conference on Robotics and Automation.USA:San Francisco,2000.1-7.
[11] 王維,李焱.基于RRT的虛擬人雙臂操控規(guī)劃方法[J].系統(tǒng)仿真學報,2009,21(20):6515-6518.
[12] J Michael Vandeweghe,David Ferguson,Siddhartha Srinivasa.Randomized Path Planning for Redundant Manipulators without Inverse Kinematics[C].Proceedings of IEEE-RAS International Conference on Humanoid Robots.USA,2007.
[13] Rosen Diankov,Nathan Ratliff,David Ferguson,etc.Proceedings of Robotics:Science and Systems[C].Proceedings of Robotics:Science and Systems.2008.
[14] Chang-bae Moon,Woojin Chung.Kinodynamic Planner Dual-Tree RRT(DT-RRT) for Two-Wheeled Mobile Robots Using the Rapidly Exploring Random Tree[J].IEEE Transactions on Industrial Electronics,2015,62(2):1080-1090.
[15] Sertac Karaman,Emilio Frazzoli.Sampling-based algorithms for optimal motion planning[J].The International Journal of Robotics Research,2011,30(7):846-894.
[16] Sertac Karaman,Emilio Frazzoli.Incremental Sampling-based Algorithms for Optimal Motion Planning[C].Robotics:Science and Systems 2010.Spain:Zaragoza,2010.
[17] Joshua John Bialkowski,Sertac Karaman,Emilio Frazzoli.Massily parallelizing the RRT and the RRT*[C].2011 IEEE/RSJ International Conference on Intelligent Robots and Systems.USA:San Francisco,2011:3513-3518.
[18] Jonathan D.Gammell,Siddhartha S.Sriivasa,Timothy D.Barfoot.Informed RRT*:Optimal sampling-based path planning focused via direct sampling of an admissible elnlipsoidal heuristic[C].2014 IEEE/RSJ International Conference on Intelligent Robots and Systems.USA:Chicago,2014.2997-3004.
[19] Wang Xinyu,Li Xiaojuan,Guan Yong,etc.Bidirectional Potential guided RRT* for motion planning[J].IEEE Access,2019,7:95034-95045.
[20] Jiankun Wang,Wenzheng Chi,Mingjie Shao etc.Finding a High-Quality Initial Solution for the RRTs Algorithms in 2D Environments[J].Robotica,2019,37(10):1677-1694.
[21] Jiankun Wang,Charles X.-T.Li,Wenzheng Chi,etc.Tropistic RRT*:An Efficient Planning Algorithm via Adaptive Restricted Sampling Space[C].2018 IEEE International Conference on Information and Automation.China:Wuyi Mountain,2018.1639-1646.
[22] Reza Mashayekhi,Mohd Yamani Idna Idris,Hossein Anisi,etc.Hybrid RRT:A Semi-dual-tree RRT-based Motion Planner[J].IEEE Access,2020,8:18658-18668.
[23] Jonathan D.Gammell,Siddhartha S.Srinivasa,Timothy D.Barfoot.Batch Informed Trees(BIT*):Sampling-based Optimal Planning via the Heuristilly Guided Search of Implicit Random Geometric Graphs[C].2015 IEEE International Conference on Robotics and Automation (ICcaRA).USA:Seattle,2015.3067–3074.
[24] Haojian Zhang,Yunkuan Wang,Jun Zheng,etc.Path Planning of Industrial Robot Based on Improved RRT Algorithm in Complex Environments[J].IEEE Access,2018,6:53296-53306.
[25] Andrea Casalino,Andrea Maria Zanchettin,Paolo Rocco.MT-RRT:a general purpose multithreading library for path planning[C].IEEE/RSJ IROS.China:Macau,2019.1510-1517.
[26] Ariyan M.Kabir,Brual C.Shah,Satyandra K.Gupta.Trajectory Planning for Manipulators Operating in Confined Workspaces[C].2018 IEEE 14th International Conference on Automation Science and Engineering.Germany:Munich,2018.84-91.
[27] Pradeep Rajendran,Shantanu Thakar,Ariyan M.Kabir,etc.Context-Dependent Search for Generating Paths for Redundant Manipulators in Cluttered Environments[C].2019 IEEE/RSJ International Conference on Intelligent Robots and Systems.China:Macau,2019.5573-5579.
[28] 馬騁乾,謝偉,孫偉杰.強化學習研究綜述[J].指揮控制與仿真,2018,40(6):68-72.
[29] 陳學松,楊宜民.強化學習研究綜述[J].計算機應(yīng)用研究,2010,27(8):2834-2844.
[30] Jan Peters,Stefan Schaal.Reinforcement learning of motor skills with policy gradients[J].Neural Networks,2008,21(4):682-697.
[31] Evangelos Theodorou,Jonas Buchli,Stefan Schaal.Reinforcement Learning of Motor Skills in High Dimensions:A Path Integral Approach[C].2010 IEEE International Conference on Robotics and Automation.USA:Anchorage,2010.2397-2403.
[32] Evangelos Theodorou,Jonas Buchli,Stefan Schaal.A Generalized Path Integral Control Approach to Reinforcement Learning[J].Journal of Machine Learning Research,2010,11:3137-3181.
[33] Mrinal Kalakrishnan,Ludovic Righetti,Peter Pastor,etc.Learning Force Control Policies for Compliant Manipulation[C].2011 IEEE/RSJ International Conference on Intelligent Robots and Systems. USA:San Francisco,2011.4639-4644.
[34] Yanan Li,Long Chen,Keng Peng Tee,etc.Reinforcement learning control for coordinated manipulation of multi-robots[J].Neurocomputing,2015(170):168-175.
[35] 劉全,翟建偉,章宗長,等.深度強化學習綜述[J].計算機學報,2017,40(1):1-28.
[36] John Schulman,Sergey Levine,Pieter Abbeel,etc.Trust Region Policy Optimization[C].Proceedings of the 32nd International Conference on Machine Learning.France:Lille,2015.1889-1897.
[37] Timothy P.Lillicrap,Jonathan J.Hunt,Alexander Pritzel,etc.Continuous control with deep reinforcement learning[C].4th International Conference on Learning Representations,ICLR 2016-Conference Track Proceedings(2016).Puerto Rico:Caribe Hilton,2016.
[38] Shixiang Gu,Timothy Lillicrap,Ilya Sutskever,etc.Continuous deep Q-learning with model-based acceleration[C].International Conference on Machine Learning.USA:New York,2016.2829-2838.
[39] Sergey Levine,Chelsea Finn,Trevor Darrell,etc.End-to-End Training of Deep Visuomotor Policies[J].Journal of Machine Learning Research,2016(17):1-40.
[40] Shixiang Gu,Ethan Holly,Timothy Lillicrap,etc.Deep Reinforcement Learning for Robotic Manipulation with Asynchronous Off-Policy Updates[C].2017 IEEE International Conference on Robotics and Automation (ICRA).Singapore:Singapore,2017.3389-3396.
[41] 李廣創(chuàng),程良倫.基于深度強化學習的機械臂避障路徑規(guī)劃研究[J].軟件工程,2019,22(3):12-15.
[42] Kei Ota,Devesh K.Jha,Tomoaki Oiki,etc. Trajectory Optimization for Unknown Constrained Systems using Reinforcement Learning[C].2019 IEEE/RSJ International Conference on Intelligent Robots and Systems(IROS).China:Macau,2019.3487-3494.
[43] Hao-Tien Lewis Chiang,Jasmine Hsu,Marek Fiser,etc.RL-RRT:Kinodynamic Motion Planning via Learning Reachability Estimators from RL Policies[J].Robotics and Automation Letters,2019,4:4298-4305.
[44] Aleksandra Faust,Oscar Ramirez,Marek Fiser,etc.PRM-RL:Long-range Robotic Navigation Tasks by Combining Reinforcement Learning and Sampling-based Planning[C].IEEE International Conference on Robotics and Automation(ICRA).Australia:Brisbane,2018.5113-5120.
[45] Philippe Morere,Gilad Francis,Tom Blau,etc.Reinforcement Learning with Probabilistically Complete Exploration.arXiv:2001.
[46] Binghong Chen,Bo Dai,Qingjie Lin,etc.Learning to Plan via Neural Exploration-Exploitation Trees[C].2020 International Conference on Learning Representations(ICLR).Ethiopia:Addis Ababa,2020.
作者簡介:
劉暾東(1970-),山西原平人,教授,博士生導師,現(xiàn)任教于廈門大學航空航天學院自動化系,研究方向是工業(yè)機器人與機器視覺。
陳 馨(1997-),福建福州人,現(xiàn)就讀于廈門大學航空航天學院自動化系,研究方向是工業(yè)機器人控制與規(guī)劃。
吳曉敏(1992-),福建福州人,現(xiàn)就讀于廈門大學航空航天學院自動化系,研究方向是工業(yè)機器人控制與強化學習。
邵桂芳(1978-),黑龍江阿城人,副教授,碩士生導師,現(xiàn)任教于廈門大學航空航天學院自動化系,研究方向是機器視覺與智能優(yōu)化。
摘自《自動化博覽》2020年4月刊