国产欧美日韩精品a在线观看-国产欧美日韩精品一区二区三区-国产欧美日韩精品综合-国产欧美中文字幕-一区二区三区精品国产-一区二区三区精品国产欧美

ACS880-07C
關(guān)注中國自動化產(chǎn)業(yè)發(fā)展的先行者!
CAIAC 2025
2024
工業(yè)智能邊緣計算2024年會
2023年工業(yè)安全大會
OICT公益講堂
當前位置:首頁 >> 資訊 >> 行業(yè)資訊

資訊頻道

機器人演示編程技術(shù)研究進展
  • 作者:周忠祥,胡晉,王越,熊蓉
  • 點擊數(shù):47362     發(fā)布時間:2020-06-22 12:38:00
  • 分享到:
制造業(yè)的轉(zhuǎn)型升級對機器人的部署效率提出了很高的要求,現(xiàn)有的示教盒編程模式適合于對簡單作業(yè)的位置和軌跡示教,難以快速實現(xiàn)制造業(yè)中大量裝配作業(yè)的示教。而機器人演示編程技術(shù)能夠使機器人系統(tǒng)直接從人的演示操作中提取有效信息,并將該信息轉(zhuǎn)化為機器人的運動程序,從而使機器人完成相應(yīng)的操作,能夠大大加快機器人部署的節(jié)奏。本文結(jié)合制造業(yè)的發(fā)展需求,總結(jié)了機器人演示編程技術(shù)的國內(nèi)外研究現(xiàn)狀,并介紹本課題組在機器人演示編程技術(shù)方面的工作,最后探討了機器人演示編程技術(shù)未來的研究方向。
關(guān)鍵詞:

摘要:制造業(yè)的轉(zhuǎn)型升級對機器人的部署效率提出了很高的要求,現(xiàn)有的示教盒編程模式適合于對簡單作業(yè)的位置和軌跡示教,難以快速實現(xiàn)制造業(yè)中大量裝配作業(yè)的示教。而機器人演示編程技術(shù)能夠使機器人系統(tǒng)直接從人的演示操作中提取有效信息,并將該信息轉(zhuǎn)化為機器人的運動程序,從而使機器人完成相應(yīng)的操作,能夠大大加快機器人部署的節(jié)奏。本文結(jié)合制造業(yè)的發(fā)展需求,總結(jié)了機器人演示編程技術(shù)的國內(nèi)外研究現(xiàn)狀,并介紹本課題組在機器人演示編程技術(shù)方面的工作,最后探討了機器人演示編程技術(shù)未來的研究方向。

關(guān)鍵詞:機器人學(xué)習(xí);機器人演示編程;機器人示教學(xué)習(xí)

1 引言

在過去十幾年中,隨著工業(yè)機器人的大規(guī)模部署,企業(yè)的生產(chǎn)力和產(chǎn)品質(zhì)量得到了大幅度提升,這些提升得益于工業(yè)機器人可以快速、高精度地完成大量重復(fù)性的工作,然而為了讓機器人能夠完成特定的工作,往往需要專業(yè)的機器人工程師花費幾天甚至幾個月的時間進行機器人程序的設(shè)計和編寫。與此同時,隨著中國制造業(yè)的轉(zhuǎn)型升級,工業(yè)機器人的應(yīng)用領(lǐng)域和應(yīng)用場景大大擴展,從傳統(tǒng)的汽車制造、機械加工向3C、五金、家具等各個離散制造行業(yè)推廣應(yīng)用。這些新興應(yīng)用行業(yè)具有典型的柔性制造特性,即多品種、小批量、短周期,其生產(chǎn)的快節(jié)奏對機器人部署編程的快速性、易用性提出了很高的要求。但傳統(tǒng)的工業(yè)機器人編程模式難以滿足這樣的需求,現(xiàn)有的示教盒編程模式適合于對簡單作業(yè)的位置和軌跡示教,難以快速實現(xiàn)制造業(yè)中大量裝配作業(yè)的示教;而離線編程模式需要完整精確的設(shè)計模型,并由精通機器人專業(yè)技能的人員和精通行業(yè)應(yīng)用工藝的人員合作完成。機器人部署的效率瓶頸極大地限制了工業(yè)機器人在中小型制造企業(yè)的推廣使用。提高工業(yè)機器人的易用性,特別是簡化裝配作業(yè)編程已經(jīng)成為工業(yè)機器人在3C、五金、家具等制造行業(yè)推廣應(yīng)用亟需解決的一個重要問題。

演示編程(Programming by Demonstration,簡稱PbD),也稱為演示學(xué)習(xí)(Learning fromDemonstration,簡稱LfD),是由機器人系統(tǒng)從人的演示操作中提取有效信息,進而將該信息轉(zhuǎn)化為機器人的運動程序及操作參數(shù),從而使機器人完成相應(yīng)的操作[1]。演示編程提供了一種新的向機器人傳遞信息的方式,是簡化機器人編程的重要途經(jīng)。與傳統(tǒng)機器人編程方法相比,它可以在機器人使用和編程方面大大降低對操作者的專業(yè)知識要求,對于機器人的推廣具有重要意義。

2 機器人演示編程技術(shù)研究現(xiàn)狀

根據(jù)所提取的學(xué)習(xí)信息,現(xiàn)有的機器人演示編程研究可以分為面向底層運動的演示編程和面向高層任務(wù)的演示編程。前者是對機器人運動控制律的學(xué)習(xí),分為對運動軌跡的學(xué)習(xí)和對力控制的學(xué)習(xí),主要涉及信息的采集、提取和轉(zhuǎn)化應(yīng)用。后者則面向由多個運動組合而成的某個特定任務(wù)或綜合任務(wù),涉及操作物體、操作動作、動作序列、操作結(jié)果等多個方面,不僅涉及多方面的信息采集、提取和轉(zhuǎn)化應(yīng)用,而且需要對提取到的信息進行推理理解。

2.1 面向底層運動的演示編程研究

面向底層運動的演示編程研究可以分為對運動軌跡的演示學(xué)習(xí)和對作業(yè)力控制的示教學(xué)習(xí),并包含“數(shù)據(jù)獲取”和“學(xué)習(xí)建模”兩個階段。在數(shù)據(jù)獲取階段,相關(guān)方法需要解決如何采集記錄示教者的運動數(shù)據(jù)。在學(xué)習(xí)建模階段,相關(guān)方法需要解決如何從示教數(shù)據(jù)中提取有效信息并進行學(xué)習(xí)應(yīng)用。對運動軌跡的演示學(xué)習(xí)具有較長的研究歷史,形成了相對成熟的理論和方法。

2.1.1 運動軌跡的演示學(xué)習(xí)

運動軌跡的演示學(xué)習(xí)有兩種數(shù)據(jù)采集方式,如圖1所示。一種是映射方法,即采用視覺、慣導(dǎo)、數(shù)據(jù)手套等傳感器獲得示教人的運動數(shù)據(jù),進而將人的數(shù)據(jù)映射到機器人[2~4]。這種方法的優(yōu)點是對于示教者而言比較直觀,生成的軌跡比較連續(xù)平滑而且符合人類的期望,但是由于示教者和機器人兩者存在構(gòu)型、尺寸、能力等方面的差異,需要建立兩者之間的匹配映射。另一種是非映射方法,由示教者通過遙控的方式或者牽引機械臂的動覺示教方式控制機器人的運動,直接記錄機器人本體運行的數(shù)據(jù)作為下一步學(xué)習(xí)的基礎(chǔ)[5~7]。這類方法省去了示教者和機器人之間的數(shù)據(jù)映射,缺點是生成軌跡不夠平滑,并且精度較低,只能應(yīng)用于一些對精度要求較低的操作場景,比如:噴涂或碼垛。并且對于示教者而言,直接控制一臺多自由度的機械臂也很困難,因此機器人需要具有被動的重力自平衡功能或者主動的運動跟隨能力,但后者存在對于示教者的安全隱患。

56.jpg

(a)映射方法 (b)非映射方法中的動覺示教方法

圖1 運動軌跡演示學(xué)習(xí)中的數(shù)據(jù)采集方式

所采集/映射得到的數(shù)據(jù)可以直接用于機器人執(zhí)行,但考慮到泛化應(yīng)用需求,例如適應(yīng)不同作業(yè)位置,需要基于以上數(shù)據(jù)對機器人的運動控制模型進行學(xué)習(xí)。目前主要方法有策略學(xué)習(xí)和回報學(xué)習(xí)兩大類。策略學(xué)習(xí)方法學(xué)習(xí)示教數(shù)據(jù)中狀態(tài)到動作的映射策略函數(shù),屬于監(jiān)督學(xué)習(xí)的范疇;而回報學(xué)習(xí)方法學(xué)習(xí)示教數(shù)據(jù)中隱式的評價動作好壞的回報函數(shù),屬于逆強化學(xué)習(xí)范疇。用比較通俗的語言來描述,策略學(xué)習(xí)是“學(xué)習(xí)怎樣運 動”,而回報學(xué)習(xí)是“學(xué)習(xí)怎樣運動比較好”。

(1)動作策略學(xué)習(xí)

策略學(xué)習(xí)方法也稱為行為克隆(Behavioral cloning)。一般的工業(yè)機械臂能夠通過人工導(dǎo)引或示教盒輸入等方式來示教機械臂的運動位置或運動軌跡,并在后續(xù)使用中重復(fù)再現(xiàn)人示教的結(jié)果。這種示教再現(xiàn)方式的缺點在于機械臂只能夠簡單重復(fù)示教結(jié)果,無法適應(yīng)環(huán)境變化。示教學(xué)習(xí)與示教再現(xiàn)的區(qū)別在于示教學(xué)習(xí)方法能夠從示教數(shù)據(jù)中提取有效信息,生成運動模型,并應(yīng)用到新任務(wù)場景中。

在早期研究成果中[8~11],工業(yè)機械臂一般通過示教器遙控的方式進行示教。示教過程中,機械臂末端位姿、與被操作物體的接觸力、障礙物位姿及目標位置等信息被記錄下來。然后軌跡中的多個關(guān)鍵點從示教數(shù)據(jù)中被分割提取出來。最終學(xué)習(xí)得到的映射策略可以描述為一連串關(guān)鍵幀狀態(tài)和幀與幀間動作組成的序列。

隨著統(tǒng)計學(xué)習(xí)方法的發(fā)展,大量的研究成果使用隱馬爾科夫模型(Hidden Markov Model)這一概率統(tǒng)計模型來對示教數(shù)據(jù)進行建模。隱馬爾可夫模型是一種非常強大的處理時序數(shù)據(jù)的方法,其基本思想是把輸入數(shù)據(jù)描述為一連串隱含的離散狀態(tài)的轉(zhuǎn)移,如圖2所示。Tso等人[12]利用隱馬爾科夫模型編碼和復(fù)現(xiàn)笛卡爾空間軌跡。Akgun等人[13]使用隱馬爾科夫模型同時對動作數(shù)據(jù)和環(huán)境感知數(shù)據(jù)進行建模。Calinon等人[14]采用一種帶有明確時間周期的隱馬爾科夫模型來描述運動中的時空約束,在任務(wù)執(zhí)行階段顯示出了一定的抗擾動性。

57.jpg

圖2 示教數(shù)據(jù)使用隱馬爾科夫模型建模

總的來說,上述方法[8~14]都是使用一連串離散狀態(tài)及狀態(tài)間的轉(zhuǎn)換來描述示教軌跡。這類方法的缺點是無法獲得一條連續(xù)平滑軌跡,這樣就無法直接控制機器人的各關(guān)節(jié)運動。在實際應(yīng)用中,研究者一般使用多條軌跡的平均[15]或者在離散狀態(tài)點間插值[16]的方法來得到一條連續(xù)平滑軌跡。

為了直接對連續(xù)軌跡進行學(xué)習(xí),研究者提出了不同方法。在早期的研究成果[17、18]中,神經(jīng)網(wǎng)絡(luò)是最常見的一類方法。Liu等人[17]使用多層神經(jīng)網(wǎng)絡(luò)對打磨動作進行建模,并且使用另一個神經(jīng)網(wǎng)絡(luò)對動作和執(zhí)行效果之間的關(guān)系進行建模。Kaiser等人[18]使用隱含層帶延時的徑向基函數(shù)神經(jīng)網(wǎng)絡(luò)對示教動作進行建模,并在Puma260機械臂上實現(xiàn)了插孔操作和開門操作。

隨著移動機器人和仿人機器人相關(guān)領(lǐng)域的發(fā)展,研究者更多關(guān)注生物的神經(jīng)結(jié)構(gòu)和運動機理,并從中得到啟發(fā)提出了一套基于動態(tài)系統(tǒng)的方法,稱為動態(tài)運動單元(Dynamic movementprimitives)。動態(tài)運動單元方法由Ijspeert等人[19、20]較早提出,其基本思想是將入軌跡用一個受到外部擾動的非線性動態(tài)系統(tǒng)進行描述。外部擾動項是多個高斯核函數(shù)的加權(quán)疊加的參數(shù)模型,其權(quán)重參數(shù)是可以根據(jù)示教軌跡采用監(jiān)督學(xué)習(xí)算法訓(xùn)練得到,如圖3所示。根據(jù)非線性系統(tǒng)的不同性質(zhì)和擾動項的不同參數(shù),該方法可以生成具有任意形狀復(fù)雜度,并且?guī)в悬c收斂或極限環(huán)性質(zhì)的軌跡。這兩種性質(zhì)的軌跡分別可以用于描述非周期性運動(如抓取)和周期性運動(如行走)。動態(tài)運動單元具有很多優(yōu)點:可以簡單快速完成系統(tǒng)模型的訓(xùn)練以及新軌跡的生成,并可方便地融入其他的方法。Hoffmann等人[21]在動態(tài)運動單元中加入障礙物的排斥力場實現(xiàn)了避障的效果。Mülling等人[22]通過綜合多次學(xué)習(xí)得到的動態(tài)運動單元模型實現(xiàn)機器人乒乓球作業(yè)任務(wù)。動態(tài)運動單元的缺點是模型是確定性的,而人對于某一任務(wù)的示教結(jié)果不可能是完全相同的,動態(tài)運動單元很難對多次示教結(jié)果的不確定性進行建模。此外模型中包含很多需要預(yù)先定義的超參數(shù),超參數(shù)選擇不當容易造成系統(tǒng)整體的擬合效果欠佳。

58.jpg

圖3 加權(quán)和形式的外部擾動示意圖

為了對示教結(jié)果的不確定性加以考慮,研究者提出了一系列基于高斯混合模型(Gaussian mixture model)的示教學(xué)習(xí)方法。基本思想是使用多個高斯分布來對軌跡的不同階段進行建模,并且使用高斯分布的協(xié)方差來描述不同階段示教軌跡的不確定性,如圖4所示。Calinon等人[23]最早在仿人機器人上采用高斯混合模型實現(xiàn)了對基本的抓取動作的學(xué)習(xí)。在后續(xù)工作中[26]中,Calinon等人使用高斯混合模型的協(xié)方差對運動過程中不同階段任務(wù)空間和關(guān)節(jié)空間軌跡跟蹤精度進行建模,并應(yīng)用到不同連桿長度的多個兩自由度機械臂模型中。Osa等人[27]使用高斯混合模型對機械臂末端軌跡進行建模,并使用學(xué)習(xí)到的協(xié)方差構(gòu)建存在障礙物的環(huán)境中符合不同跟蹤精度要求的目標函數(shù)。

59.jpg

圖4 二維示教軌跡使用高斯混合模型建模

(2)動作回報學(xué)習(xí)

回報學(xué)習(xí)(Reward learning),也稱為逆強化學(xué)習(xí)(Inverse reinforcement learning)或者逆最優(yōu)控制(Inverse optimal control)。與策略學(xué)習(xí)不同,回報學(xué)習(xí)不是學(xué)習(xí)示教數(shù)據(jù)的映射策略,而是研究示教者完成示教動作時用于評價動作好壞的性能指標,即其算法輸出是示教數(shù)據(jù)所優(yōu)化的隱式回報函數(shù)。與策略學(xué)習(xí)方法相比,回報學(xué)習(xí)方法應(yīng)對不同環(huán)境的適應(yīng)能力更強。當執(zhí)行環(huán)境或機器人本體模型發(fā)生較大改變時,策略學(xué)習(xí)方法得到的映射函數(shù)將很難適用,需要重新示教。而回報學(xué)習(xí)方法得到的回報函數(shù)與任務(wù)更加相關(guān)。在接收新的環(huán)境和模型信息后,用戶能夠復(fù)用之前得到的回報函數(shù)來求解合適的動作策略。

Ng等人[28]最早在強化學(xué)習(xí)框架中指出以下局限:回報函數(shù)并不總是己知,而是需要被學(xué)習(xí)的。基于這一思考他們提出并使用逆強化學(xué)習(xí)這一術(shù)語來命名該問題。Ng等人將回報函數(shù)視作對一項任務(wù)的最簡潔、魯棒以及可移植的描述方式。回報學(xué)習(xí)問題存在如下挑戰(zhàn):第一個挑戰(zhàn)是該問題本身是一個不適定(ill posed)問題,即存在多種可能的回報函數(shù)都能夠描述同一組示教數(shù)據(jù);第二個挑戰(zhàn)是示教數(shù)據(jù)中可能包含了多個人的示教結(jié)果或者不同任務(wù)的示教結(jié)果,即示教數(shù)據(jù)的局部最優(yōu)性問題。

為了解決第一個挑戰(zhàn),研究者提出了多種方法,其基本思想是最小化當前最優(yōu)運動策略與示教運動策略之間的差異。當前最優(yōu)運動策略可以基于當前估計的回報函數(shù)和環(huán)境信息,使用強化學(xué)習(xí)方法或者最優(yōu)控制方法計算得到。不同的方法在策略差異的描述、優(yōu)化方法等方面各有不同。Ng等人[29]對回報函數(shù)的形式做出了限制,將其定義為多個特征函數(shù)的加權(quán)組合,而權(quán)重是待學(xué)習(xí)參數(shù)。隨后作者將最小化當前最優(yōu)運動策略與示教運動策略的累積折扣回報期望的歐氏距離作為目標,并使用二次規(guī)劃方法求解回報函數(shù)中的未知參數(shù)。Syed等人[30]定義當前最優(yōu)運動策略與示教運動策略的累積折扣回報期望的差值為目標函數(shù),采用博弈論中的最大最小算法搜索未知參數(shù)值。后續(xù)工作中[31],作者使用了線性規(guī)劃方法來加快未知參數(shù)的求解速度。Ratlff等人[32]提出了基于結(jié)構(gòu)化最大間隔框架的目標函數(shù),并使用凸優(yōu)化方法進行求解。Ramachandran等人[33]提出了基于貝葉斯估計框架的學(xué)習(xí)方法,并通過最大化后驗概率來估計回報函數(shù)。為了能夠考慮回報函數(shù)的所有可能性,Ziebart等人[34]提出了基于最大熵框架的學(xué)習(xí)方法,使用與回報值正相關(guān)的指數(shù)函數(shù)表示示教數(shù)據(jù)出現(xiàn)的概率,并通過最大化示教數(shù)據(jù)的似然概率來估計回報函數(shù)。最大熵逆強化學(xué)習(xí)方法的一個優(yōu)點是不需要計算當前最優(yōu)運動策略,而是通過在狀態(tài)空間中均勻采樣的方式來估計示教數(shù)據(jù)的似然概率。研究者對基于采樣的逆強化學(xué)習(xí)方法做了進一步發(fā)展,區(qū)別是采樣方式的不同。Boulariasd等人[35]提出了相對熵逆強化學(xué)習(xí)方法,使用了重要性采樣方法在狀態(tài)空間中任意分布進行采樣。Kalakrishnan等人[36]提出了路徑積分逆強化學(xué)習(xí)方法,其在示教軌跡的鄰域進行采樣。此外,部分文章沒有使用傳統(tǒng)的特征函數(shù)的加權(quán)組合形式的回報函數(shù)。Levine等人[37]使用高斯過程形式的回報函數(shù),而Wulfmeier等人[38]使用神經(jīng)網(wǎng)絡(luò)形式的回報函數(shù)。上述方法中模型參數(shù)也是通過最大化示教數(shù)據(jù)的似然概率進行估計。

針對第二個挑戰(zhàn),研究者提出了相應(yīng)方法來學(xué)習(xí)示教數(shù)據(jù)中的不同種類的回報函數(shù)。Babes等人[39]提出基于期望最大化算法的學(xué)習(xí)算法,能夠?qū)斎霐?shù)據(jù)進行聚類,并且計算每一類數(shù)據(jù)對應(yīng)的回報函數(shù)。Choi等人[40]在貝葉斯估計框架的逆強化學(xué)習(xí)方法中引入狄利克雷過程混合模型作為先驗,能夠自動選擇最適合輸入數(shù)據(jù)的回報函數(shù)類別數(shù)目。

上面介紹的方法[39、40]可以部分解決示教數(shù)據(jù)的局部最優(yōu)性帶來的問題。但這些方法依然假設(shè)了每一條示教軌跡可以使用一種回報函數(shù)進行評價。而在實際情況中,一條示教軌跡的不同階段可能完成了不同任務(wù),這就意味著即使一條示教軌跡也無法使用單一的回報函數(shù)進行描述。針對這一問題,研究者提出了幾種方法。Nguyen等人[41]提出了基于期望最大化算法的回報學(xué)習(xí)方法,能夠?qū)W習(xí)軌跡中不同子階段的切換狀態(tài)和各階段回報函數(shù)。但是該方法需要用戶提前定義回報函數(shù)的個數(shù)以及每個回報函數(shù)中的參數(shù)。Michini等人[42]提出了一種非參數(shù)貝葉斯框架的學(xué)習(xí)算法,能夠自動對輸入數(shù)據(jù)進行分割。但是該方法得到的回報函數(shù)屬于子目標點回報函數(shù)。該函數(shù)在機器人處于子目標點時輸出回報值為正數(shù),而在其他狀態(tài)時輸出回報值均為零。這種回報函數(shù)的使用局限性較大,無法用于評價運動執(zhí)行過程中動作的好壞。Ranchod等人[43]提出了基于貝塔過程隱馬爾科夫模型的學(xué)習(xí)方法,也屬于非參數(shù)貝葉斯框架的方法,能夠自動確定最優(yōu)的回報函數(shù)個數(shù)和切換狀態(tài)。但該方法得到的回報函數(shù)屬于表格型回報函數(shù),無法應(yīng)用在狀態(tài)空間連續(xù)高維的場景中,如機械臂的運動規(guī)劃。總結(jié)一下,對于一條示教軌跡不同階段的回報函數(shù)學(xué)習(xí)問題,現(xiàn)有方法均存在一定缺陷,如需要提前指定回報函數(shù)個數(shù)和類型,且得到的回報函數(shù)形式比較簡單,不適用于機械臂運動規(guī)劃這一類具有高維連續(xù)狀態(tài)空間的任務(wù)。

2.1.2 作業(yè)力控制的示教學(xué)習(xí)

隨著運動軌跡演示學(xué)習(xí)的逐步完善,近年來研究人員開始對機器人作業(yè)力控制的示教學(xué)習(xí)進行研究,以提高機器人與環(huán)境的交互能力。如圖5所示,現(xiàn)有力控制的示教學(xué)習(xí)主要采用非映射方式。L.Rozo等[44]采用觸覺設(shè)備來記錄機器人運動過程中的受力反饋,并通過遙控機器人對運動軌跡和力進行示教,使用隱馬爾科夫模型(HMM)和高斯混合模型(GMM)對運動軌跡和力進行建模,最終使用高斯混合回歸(GMR)生成機器人的動作。A.Montebelli等[45]以動覺示教方式對機器人的運動進行示教,通過在機械臂末端加裝力傳感器來記錄示教動作對應(yīng)的力信息,采用動態(tài)系統(tǒng)方法對軌跡和力進行建模,使機器人完成木板拋光的操作。上述方法的輸出通常為位置和力的軌跡,在另一類方法中,學(xué)習(xí)的目標不是位置和力的軌跡,而是生成阻抗參數(shù)可變的柔順控制器。P.Kormushev等[46]采用牽引和遙控的方式,利用多次示教軌跡的方差來估計運動過程各個階段的阻抗參數(shù),使機器人學(xué)會開門、拿熨斗等動作。K.Kronander等[47]通過搖晃和握緊機械臂的方式在牽引機械臂的同時直接調(diào)整軌跡對應(yīng)部分的阻抗參數(shù),使機器人實現(xiàn)柔順倒水這一操作。

60.jpg

(a)動覺示教方式(b)遙控示教方式

圖5 力控制的示教學(xué)習(xí)中的示教方式

2.2 面向高層任務(wù)的演示編程研究

面向高層任務(wù)的演示編程研究開始于2000年左右,近年來逐漸成為機器人和人工智能領(lǐng)域的研究熱點。與面向底層運動的演示編程相比,面向高層任務(wù)的演示編程涉及多個物體和多種操作,對信息的提取理解和轉(zhuǎn)化應(yīng)用提出了更高的要求。

與面向底層運動的演示編程類似,面向高層任務(wù)的演示編程的數(shù)據(jù)采集方式也有非映射和映射兩種方式。非映射方式主要是結(jié)合動覺示教和語音來定義操作序列,例如華盛頓大學(xué)的Y.Artzi等[48]和M.Cakmak等[49]通過語音向機器人傳遞操作開始、結(jié)束與位姿保存的指令,結(jié)合語音牽引機械臂進行操作中關(guān)鍵位姿的定義,從而讓PR2機器人依次完成取、放、遞、疊毛巾四種動作。這類方式適合于簡單任務(wù)指令的演示編程,但示教者難以操作機器人完成復(fù)雜的動作。因此,大多數(shù)研究采用對于示教者而言更為方便和自然的映射方式,即由人進行任務(wù)演示,由演示編程系統(tǒng)通過傳感器獲得的信息進行操作語義理解,并根據(jù)人的操作與機器人操作之間的映射,生成機器人的執(zhí)行程序。該方式應(yīng)用方便,但研發(fā)難度大,目前的研究熱點集中在操作語義理解這一問題上,分為基于位置變化的操作語義理解、基于動作/手勢識別的操作語義理解以及基于規(guī)則/約束的操作語義理解。

2.2.1 基于位置變化的操作語義理解

基于位置變化的操作語義理解的基本思想是操作會改變物體的位置,因此可以通過操作前后物體的位置信息進行操作語義推理。德國哥廷根大學(xué)E.E.Aksoy等[50、51]通過基于能量的聚類方法對圖像中的物體進行分割,判斷物體之間是否接觸和覆蓋,構(gòu)建出各物體的關(guān)系圖,利用時間軸上圖模型的變化推理得到人的操作意圖。美國馬里蘭大學(xué)K.Zampogiannis等[52]根據(jù)物體的3D點云信息分割物體,使用物體間的前后、左右和上下等位置關(guān)系形成“謂詞向量序列(Predicate Vector Sequence,PVS)”的任務(wù)描述子,從而讓機器人學(xué)習(xí)完成做沙拉一類的簡單家務(wù)。為了獲取更準確的位置關(guān)系,德國R.Cubek等[53]通過檢測場景中的增強現(xiàn)實標簽以獲取物體的位置信息,讓機器人實現(xiàn)將積木放入指定位置的任務(wù)。但該方法只能獲取物體準確的平面位置,并不能得到物體精確的三維位姿。

可以看到,該類方法主要是根據(jù)操作對場景物體的影響來實現(xiàn)對操作動作的推理,難以適用于操作前后物體的位置只有細微變化甚至不變的作業(yè)。

2.2.2 基于動作/手勢識別的操作語義理解

基于動作/手勢識別的操作語義理解的基本思想是操作的語義往往與操作動作直接對應(yīng),借助動作識別在人機交互領(lǐng)域的豐碩成果,可以將操作語義理解轉(zhuǎn)化為操作動作/手勢的識別。手勢識別方面的成果有基于單張圖像學(xué)習(xí)手勢外觀特征的靜態(tài)手勢識別[54、55]、基于多張運動歷史圖像描述人類手勢變化過程的手勢識別[56]等。研究人員也運用機器視覺方法進行操作動作識別,如美國馬里蘭大學(xué)Y.Yang[57]等通過訓(xùn)練卷積神經(jīng)網(wǎng)絡(luò)對6種不同的抓取手勢進行識別,但是該方法需要大量的手勢操作樣本圖片才能獲得較好的手勢特征描述;中國科學(xué)技術(shù)大學(xué)的楊劍宇[58]等通過視覺獲得手的運動軌跡,根據(jù)三維軌跡的曲率和繞率等參數(shù)獲取軌跡的索引,從而根據(jù)索引與動作庫中具有相似索引的動作軌跡進行匹配,區(qū)分不同的動作。近年來,隨著其他傳感器種類的豐富,也出現(xiàn)了采用深度傳感器的手勢識別[59],但是現(xiàn)有方法主要面向簡單無物體操作的手勢。人機交互領(lǐng)域的動作識別,對被操作物體的關(guān)注較少,但實際上被操作物體包含了重要的操作信息,并且不同的操作可以具有相同的手勢,與操作語義并非一一對應(yīng)。基于這個思想,瑞典KTH的H.Kjellstr.m等[60、61]在視覺識別手勢的基礎(chǔ)上,結(jié)合被操作物體的功能屬性,來提高動作語義識別的準確率,實現(xiàn)了對翻書和倒茶等操作動作的識別。

2.2.3 基于規(guī)則/約束的操作語義理解

基于規(guī)則/約束的操作語義理解的基本思想是從多次的演示中提取求解問題的規(guī)則或約束,并將提取到的規(guī)則或約束應(yīng)用于求解同類的問題。澳大利亞國立大學(xué)的J.R.Chen[62]面向主軸裝配任務(wù),提出使用圖模型表示人在同一主軸裝配任務(wù)中的多種裝配方式,圖中的節(jié)點表示裝配過程中的某一狀態(tài),進而基于時間和能量等準則從圖模型中選擇最優(yōu)的裝配方式,即狀態(tài)轉(zhuǎn)移路徑。德國Karlsruhe大學(xué)的M.Pardowitz[63]和瑞典KTH的S.Ekvall[64]使用最長公共子序列的方法從多次餐具放置任務(wù)演示中提取各種餐具放置任務(wù)的順序約束,當需要擺放新的餐具組合時,機器人自動搜索滿足約束條件的餐具放置順序,然后執(zhí)行。英國帝國理工大學(xué)的K.Lee等[65]利用上下文無關(guān)語法對多次漢諾塔問題求解的演示過程進行學(xué)習(xí),從而獲得求解該問題的基本約束和子結(jié)構(gòu),使得機器人能夠解決不同盤子數(shù)目的漢諾塔問題。

2.2.4 機器人演示編程研究現(xiàn)狀總結(jié)

綜上所述,面向底層運動的機器人演示編程學(xué)習(xí)的是單一操作的軌跡或力的控制規(guī)律,其中軌跡的演示學(xué)習(xí)已經(jīng)形成了一定的具有較好通用性的理論和方法,并被推廣應(yīng)用到實際的機器人系統(tǒng)中,力控制和高層任務(wù)的演示學(xué)習(xí)取得了一定的進展,但總體還處于探索研究階段。

運動軌跡層面的演示編程取得較好研究進展的原因在于需要提取的信息(軌跡)內(nèi)容單一,且表示形式簡單,可以使用統(tǒng)一嚴格的數(shù)學(xué)模型進行表達,與具體任務(wù)以及數(shù)據(jù)采集方式?jīng)]有關(guān)系。而力控制示教學(xué)習(xí)的難點是現(xiàn)有的非映射方式難以進行精密力示教,并且難以直接獲取人操作物體時的力信息,從而導(dǎo)致無法學(xué)習(xí)力控制的變化規(guī)律。對于面向高層任務(wù)的演示編程,映射是一種直觀自然且更具通用性的方式。現(xiàn)有的研究聚焦于操作語義理解問題上,且往往使用比較單一的信息,能夠?qū)崿F(xiàn)對一些簡單任務(wù)的學(xué)習(xí)。由于工業(yè)裝配作業(yè)不僅操作語義難以理解,而且需要裝配工件的精確位姿信息和裝配力信息,目前的方法還難以支持工業(yè)機器人實現(xiàn)裝配等復(fù)雜作業(yè)的演示編程。

3 研究團隊在機器人演示編程方面的工作

面向制造業(yè)轉(zhuǎn)型升級中企業(yè)的發(fā)展需要,針對當前的機器人演示編程技術(shù)應(yīng)用于工業(yè)裝配任務(wù)中存在操作語義理解、連續(xù)操作識別與分割、高精度工件位姿估計等問題,本課題組研發(fā)了面向裝配作業(yè)的工業(yè)機器人演示編程系統(tǒng),如圖6所示。面向裝配作業(yè)的機器人演示編程系統(tǒng)由兩個單元組成,分別是信息感知與推理單元和機器人執(zhí)行單元,其中信息感知與推理單元也包括了兩部分,即人類演示視頻中的信息感知模塊與物體之間的裝配關(guān)系推理模塊,機器人執(zhí)行單元包括機器人執(zhí)行程序生成模塊以及機器人抓取規(guī)劃模塊。

61.jpg

圖6 面向裝配作業(yè)的工業(yè)機器人演示編程系統(tǒng)

3.1 演示視頻中的信息感知及推理

面向裝配作業(yè)的機器人演示編程系統(tǒng)首先需要解析人類的演示視頻,關(guān)鍵問題是解析演示視頻中包含的語義信息,即:操作的物體、操作完成后物體的位姿、以及使用的操作技能。針對以上三個問題,本課題組在人類演示視頻中的信息感知單元設(shè)計了三個子模塊,分別是物體識別、物體位姿估計、裝配技能估計。

3.1.1 物體識別

機器人演示編程系統(tǒng)需要從人類的演示視頻中解析得到演示者操作了什么物體,但是工業(yè)裝配涉及的物體復(fù)雜多樣,基于人工特征的方法難以有效實現(xiàn)物體檢測,得益于深度學(xué)習(xí)在計算機視覺領(lǐng)域的顯著成果,本課題組采用了基于深度學(xué)習(xí)的物體識別方法[66]

3.1.2 物體位姿估計

機器人演示編程系統(tǒng)需要從人類的演示視頻中解析得到演示者操作完成后物體的空間姿態(tài),使機器人能夠確定物體裝配的目標狀態(tài)。由于工業(yè)裝配任務(wù)中對工件位姿的定位精度有極高的要求,并且工件CAD模型是易獲取的,本課題組采用了基于點對特征的物體6自由度空間位姿估計方法[67]

3.1.3 裝配技能估計

機器人演示編程系統(tǒng)需要從人類的演示視頻中解析得到演示者使用了什么樣的裝配技能,例如放置、按壓、擰等,這涉及到單個裝配技能的識別以及多個連續(xù)裝配技能的分割問題。由于單一模態(tài)具有的歧義性以及需要同時對裝配技能序列進行分割和識別,本課題組提出了融合圖像彩色信息、深度信息的多模態(tài)裝配技能識別算法,并結(jié)合滑動窗口的分割點檢測和基于迭代動態(tài)規(guī)劃的優(yōu)化方法實現(xiàn)連續(xù)裝配技能分割[68]

3.1.4 裝配關(guān)系推理

由于基于視覺的物體位姿估計結(jié)果不可避免的存在誤差,讓機器人直接執(zhí)行此結(jié)果不僅無法滿足裝配精度的要求,甚至可能導(dǎo)致安全問題,因此本課題組設(shè)計了物體之間的裝配關(guān)系推理模塊[69],用于解決不確定觀測下的裝配關(guān)系和裝配位姿同時推理與估計的問題。我們提出了使用概率圖模型表示空間知識,概率圖中的節(jié)點表示工件的位姿、工件之間的裝配關(guān)系,以及工件觀測信息三種信息,概率圖中的邊表示相連的兩個節(jié)點之間的信息約束,這些信息均采用概率分布進行建模。借助圖模型對觀測量和估計量進行建模,變量推理就等價于求解最大似然參數(shù)估計問題。通過同時推理物體之間的裝配關(guān)系以及計算物體的空間位姿,使得物體的位姿結(jié)果能夠滿足裝配任務(wù)中高精度的要求。

人類的演示視頻經(jīng)過信息感知與推理單元的解析與推理之后,機器人演示編程系統(tǒng)可以得到人類操作中操作物體與操作技能的語義信息以及精確的物體位姿。

3.2 機器人執(zhí)行程序生成與抓取規(guī)劃

機器人執(zhí)行程序生成模塊可根據(jù)操作者的演示信息,生成完整的機器人運動程序。機器人抓取規(guī)劃模塊用于規(guī)劃物體的穩(wěn)定抓取配置,從而使機器人從物料區(qū)穩(wěn)定地抓取待操作的物體。

3.2.1 基于動作策略學(xué)習(xí)的機器人程序生成

由于人體手臂與機械臂在尺寸、運動能力等方面的差異,若直接將采集得到的示教者的運動軌跡數(shù)據(jù)應(yīng)用到機器人上,可能會超出機器人的運動限制從而導(dǎo)致機器人損壞。為了解決示教者與機械臂的動作對應(yīng)問題,本課題組提出了改進的仿射變換方法,能夠保證末端和肘部的跟蹤精度并且保持人體動作數(shù)據(jù)的仿射不變性。為了不破壞機器人動作的仿人性,在動作學(xué)習(xí)的建模階段,提出同時學(xué)習(xí)末端和肘部運動數(shù)據(jù)的概率建模方法。在動作生成階段,提出結(jié)合動態(tài)運動單元和學(xué)習(xí)得到的概率模型的方法分別生成末端和肘部軌跡。最后為了解決笛卡爾空間軌跡到關(guān)節(jié)空間軌跡的轉(zhuǎn)換問題,提出了基于序列二次規(guī)劃的關(guān)節(jié)運動軌跡生成方法,并提出了基于弗雷歇距離的關(guān)節(jié)角選擇算法來初始化關(guān)節(jié)軌跡。圖7給出了打乒乓球過程中揮拍動作的人機對應(yīng)結(jié)果。

62.jpg

圖7 揮拍動作的人機對應(yīng)結(jié)果

3.2.2 基于動作回報學(xué)習(xí)的機器人程序生成

針對示教數(shù)據(jù)的分階段局部最優(yōu)特性,即示教軌跡不同階段對應(yīng)不同回報函數(shù),提出同步軌跡分段與回報學(xué)習(xí)方法。該方法使用基于采樣的逆強化學(xué)習(xí)方法提取加窗軌跡段特征,通過比較相鄰窗口軌跡特征得到初始分段點,然后基于動態(tài)規(guī)劃方法在初始分段點鄰域搜索最優(yōu)分段點,最后使用基于采樣的逆強化學(xué)習(xí)方法學(xué)習(xí)得到各子分段的回報函數(shù)。所學(xué)習(xí)到的回報函數(shù)個數(shù)和類型不存在限制,且適用于機械臂動作規(guī)劃這一具有高維連續(xù)狀態(tài)空間的任務(wù)。為生成適應(yīng)新環(huán)境的運動軌跡,提出基于泛函優(yōu)化的動作生成方法。該方法結(jié)合學(xué)習(xí)到的子階段回報函數(shù)及其他約束項如避障、到點約束來生成總的軌跡回報泛函,并使用泛函梯度方法生成新軌跡。圖8給出了在水杯搬運任務(wù)中,當環(huán)境發(fā)生變化時,機器人動作的生成結(jié)果。

63.jpg

圖8 水杯搬運任務(wù)中的動作生成結(jié)果

3.2.3 機器人抓取規(guī)劃

由于工業(yè)裝配場景中工件復(fù)雜多樣,人工設(shè)計工件的抓取方式是一項具有挑戰(zhàn)性的任務(wù)。為了解決機器人抓取規(guī)劃的魯棒性和實時性,本課題組提出了一種基于深度圖像的機器人抓取規(guī)劃算法。該算法由兩個級聯(lián)的卷積網(wǎng)絡(luò)構(gòu)成,第一個卷積網(wǎng)絡(luò)回歸最優(yōu)抓取區(qū)域,第二個卷積網(wǎng)絡(luò)對在最優(yōu)區(qū)域中采樣的抓取候選進行評估和排序,最后輸出一系列高質(zhì)量的抓取配置。使機器人能夠根據(jù)當前的觀測自動規(guī)劃穩(wěn)定的抓取方式,為完成指定的物體操作任務(wù)創(chuàng)造條件。

3.3 系統(tǒng)驗證

基于上述研究成果,本課題組通過邀請不同的演示人演示積木組裝、手電筒組裝、開關(guān)盒組裝、椅子組裝等不同的裝配任務(wù),驗證了面向裝配作業(yè)的機器人演示編程系統(tǒng)與所提方法的合理性。圖9為不同的演示裝配場景,積木組裝和手電筒組裝為人演示,仿真機器人執(zhí)行,其他為實物機器人執(zhí)行。

64.jpg

圖9 機器人演示編程系統(tǒng)完成不同的演示裝配任務(wù)

4 機器人演示編程技術(shù)未來研究方向

結(jié)合制造業(yè)轉(zhuǎn)型升級過程中對機器人技術(shù)的需要,以及機器人演示編程技術(shù)目前存在的問題,本文認為機器人演示編程技術(shù)未來的研究方向主要有:

(1)工件位姿的精確定位。工業(yè)裝配場景中對裝配的精度有極高的要求,目前的工件位姿估計方法均難以實現(xiàn)對物體高精度的空間定位。進一步提高工件位姿的定位精度,對在制造業(yè)中推廣機器人的應(yīng)用具有重要意義。

(2)柔性物體的操作任務(wù)。目前機器人應(yīng)用場景中的操作對象主要是剛性物體,但是制造業(yè)中存在大量柔性物體的操作任務(wù),比如對線纜的安裝任務(wù),機器人操作柔性物體中的建模、控制等問題還有待進一步研究。

(3)多信息融合的機器人反饋控制。感知反饋是機器人對物體進行實時準確操作的基礎(chǔ)。機器人裝配作業(yè)中單純依靠視覺信息的反饋難以應(yīng)對環(huán)境變化帶來的不確定性,因此目前的工業(yè)機器人工作環(huán)境都是高度訂制化的。進一步研究融合力覺、觸覺、視覺信息的多模態(tài)控制方法能夠有效提高工業(yè)機器人操作系統(tǒng)的抗擾動能力。

(4)人類演示知識遷移。工業(yè)裝配任務(wù)中存在大量相似裝配體和相似裝配操作,若將人類的演示過程中使用的裝配知識進行提取并應(yīng)用于相似的裝配任務(wù)中,可以進一步提高機器人裝配作業(yè)的效率。

5 總結(jié)

機器人演示編程技術(shù)能夠在機器人使用和編程方面大大降低對操作者的專業(yè)性知識要求,提高機器人部署效率,對于推廣機器人應(yīng)用于中小型制造企業(yè)具有重要意義。本文總結(jié)了機器人演示編程技術(shù)的研究現(xiàn)狀,并介紹了本課題組在機器人演示編程技術(shù)方面的研究工作,最后總結(jié)了機器人演示編程技術(shù)的未來研究方向,希望進一步推動機器人演示編程技術(shù)在工業(yè)制造領(lǐng)域的應(yīng)用。

參考文獻:

[1]A.Billard,S.Calinon,R.Dillmann,and S,Schaal.Survey:Robot programming by demonstration[Z].Handbook of robotics,2008.

[2]T.Kuniyoshi,M.Inaba,and H.Inoue.Teaching by showing:Generating robot programs by visual observation of human performance[Z].1989.

[3]Y.Kuniyoshi,M.Inaba,and H.Inoue.Learning by watching: Extracting reusable task knowledge from visual observation of human performance[J].IEEE transactions on robotics and automation,1994,10(6):799–822.

[4]S.B.Kang and K.Ikeuchi.A robot system that observes and replicates grasping tasks[J].Proceedings of IEEE International Conference on Computer Vision,1995:1093–1099.

[5]M.Ito,K.Noda,Y.Hoshino,and J.Tani.Dynamic and interactive generation of object handling behaviors by a small humanoid robot using a dynamic neural network model[J].Neural Networks, 2006,19(3):323–337.

[6]T.Inamura,N.Kojo,and M.Inaba.Situation recognition and behavior induction basedon geometric symbol representationof multimodal sensorimotor patterns[J].IEEE/RSJ International Conference on Intelligent Robots and Systems,2006:5147–5152.

[7]R.A.Peters,C.L.Campbell,W.J.Bluethmann,and E.Huber.Robonaut task learning through teleoperation[J].IEEE International Conference on Robotics and Automation,2003,2:2806–2811.

[8]T.Lozano-Perez.Robot programming[J].Proceedings of the IEEE,1983,71(7):821–841.

[9]A.Levas and M.Selfridge.Auser-friendlyhigh-level robot teaching system[J].IEEE International Conference on Robotics and Automation,1984,1:413–416.

[10]A.Segre and G.DeJong.Explanation-based manipulator learning:Acquisition of planning ability through observation[J].IEEE International Conference on Robotics and Automation,1985,2:555–560.

[11]A.M.Segr.Machine learning of robot assembly plans[Z].Springer Science&Business Media,2012.

[12]S.Tso and K.Liu.Hidden markov model for intelligent extraction of robot trajectory command from demonstrated trajectories[J].Proceedings of the IEEE International Conference on Industrial Technology (ICIT'96),1996:294–298.

[13]B.Akgun,M.Cakmak,K.Jiang,and A.L.Thomaz.Keyframe-based learning from demonstration[J].International Journal of Social Robotics,2012,4(4):343–355.

[14]S.Calinon,A.Pistillo,and D.G.Caldwell.Encoding the time and space constraints of a task in explicit-duration hidden markov model[J].IEEE/RSJ International Conference on Intelligent Robots and Systems,2011:3413–3418.

[15]D.Lee and Y.Nakamura.Stochastic model of imitating a new observed motion based on the acquired motion primitives[J].IEEE/RSJ International Conference on Intelligent Robots and Systems,2006:4994–5000.

[16]S.Calinon and A.Billard.Learning of gestures by imitation in a humanoid robot[M].tech.rep.,Cambridge University Press,2007.

[17]S.LiuandH.Asada.Teaching and learning of deburring robots using neural networks[J].Proceedings IEEE International Conference on Robotics and Automation,1993:339–345.

[18]M.Kaiser and R.Dillmann.Building elementary robot skills from human demonstration[J].Proceedings of IEEE International Conference on Robotics and Automation,1996,3:2700–2705.

[19]A.J.Ijspeert,J.Nakanishi,and S.Schaal.Movement imitation with nonlinear dynamical systems in humanoid robots.Proceedings 2002 IEEE International Conference on Robotics and Automation(Cat.No.02CH37292),2002,2:1398–1403.

[20]A.J.Ijspeert,J.Nakanishi,and S.Schaal.Learning control policies for movement imitation and movement recognition[J].NIPS,2001.

[21]H.Hoffmann,P.Pastor,D.-H.Park,and S.Schaal.Biologically-inspired dynamical systems for movement generation:automatic real-time goal adaptation and obstacle avoidance[J].IEEE International Conference on Robotics and Automation,2009:2587–2592.

[22]K.Mülling,J.Kober,O.Kroemer,and J.Peters.Learning to select and generalize striking movements in robot table tennis[J].The International Journal of Robotics Research,2013,32(3):263–279.

[23]S.Calinon,F.Guenter,and A.Billard.On learning,representing,and generalizing a task in a humanoid robot[J].IEEE Transactions on Systems,Man,and Cybernetics,Part B(Cybernetics),2007,37(2):286–298.

[24]S.Calinon and A.Billard.Incremental learning of gestures by imitation in a humanoid robot[J].Proceedings of the ACM/IEEE international conference on Human-robot interaction,2007:255–262.

[25]S.Calinon,F.D'halluin,E.L.Sauser,D.G.Caldwell,and A.G.Billard[J].Learning and reproduction of gestures by imitation.IEEE Robotics&Automation Magazine,2010,17(2):44–54.

[26]S.Calinon and A.Billard.A probabilistic programming by demonstration framework handling constraints in joint space and task space. IEEE/RSJ International Conference on Intelligent Robots and Systems,2008:367–372.

[27]T.Osa,A.M.G.Esfahani,R.Stolkin,R.Lioutikov,J.Peters,and G.Neumann.Guiding trajectory optimization by demonstrated distributions[J].IEEE Robotics and Automation Letters,2017,2(2):819–826.

[28]A.Y.Ng,S.J.Russell,et al.Algorithms for inverse reinforcement learning[J].Icml,2000,1(2).

[29]P.Abbeel and A.Y.Ng.Apprenticeship learning via inverse reinforcement learning[J].Proceedings of the twenty-first international conference on Machine learning,2004,1.

[30]U.Syed and R.E.Schapire.Agame-the oretic approach to apprenticeship learning[J].Advances in neural information processing systems,2008:1449–1456.

[31]U.Syed,M.Bowling,and R.E.Schapire.Apprenticeship learning using linear programming[J].Proceedings of the 25th international conference on Machine learning,2008:1032–1039.

[32]N.D.Ratliff,J.A.Bagnell,and M.A.Zinkevich.Maximum margin planning.Proceedings of the 23rd international conference on Machine learning,2006:729–736.

[33]D.Ramachandran and E.Amir.Bayesian inverse reinforcement learning[J].IJCAI,2007,7:2586–2591.

[34]B.D.Ziebart,A.L.Maas,J.A.Bagnell,and A.K.Dey.Maximum entropy inverse reinforcement learning[J].Aaai,2008,8:1433–1438.

[35]A.Boularias,J.Kober,and J.Peters.Relative entropy inversere inforcement learning[J].Proceedings of the Fourteenth International Conference on Artificial Intelligence and Statistics,2011:182–189.

[36]M.Kalakrishnan,P.Pastor,L.Righetti,and S.Schaal.Learning objective functions for manipulation[J].IEEE International Conference on Robotics and Automation,2013:1331–1336.

[37]S.Levine,Z.Popovic,and V.Koltun.Nonlinear inverse reinforcement learning with gaussian processes[J].Advances in Neural Information Processing Systems,2011:19–27.

[38]M.Wulfmeier,P.Ondruska,and I.Posner.Deep inverse reinforcement learning[Z].CoRR,abs/1507.04888,2015.

[39]M.Babes,V.Marivate,K.Subramanian,and M.L.Littman.Apprenticeship learning about multiple intentions[J].Proceedings of the 28th International Conference on Machine Learning(ICML-11),2011:897–904.

[40]J.ChoiandK.-E.Kim.Nonparametric bayesian inverse reinforcement learning for multiple reward functions[J].Advancesin Neural Information Processing Systems,2012:305–313.

[41]Q.P.Nguyen,B.K.H.Low,and P.Jaillet.Inverse reinforcement learning with locally consistent reward functions[J].Advances in neural information processing systems,2015:1747–1755.

[42]B.Michini,T.J.Walsh,A.-A.Agha-Mohammadi,and J.P.How.Bayesian nonparametric reward learning from demonstration[J].IEEE Transactions on Robotics,2015,31(2):369–386.

[43]P.Ranchod,B.Rosman,and G. Konidaris. Nonparametric bayesian reward segmentation for skill discovery using inverse reinforcement learning[J].IEEE/RSJ International Conference on Intelligent Robots and Systems(IROS),2015:471–477.

[44]L.Rozo,P.Jiménez,andC.Torras.A robot learning from demonstration framework to perform force-based manipulation tasks[J].Intelligent service robotics,2013,6(1):33–51.

[45]A.Montebelli,F.Steinmetz,and V.Kyrki.On handing down our tools to robots:Single-phase kinesthetic teaching for dynamic in-contact tasks[J].IEEE International Conference on Robotics and Automation(ICRA),2015:5628–5634.

[46]P.Kormushev,S. Calinon,and D.G.Caldwell.Imitation learning of positional and force skills demonstrated via kinesthetic teaching and haptic input[J].Advanced Robotics,2011,25(5):581–603.

[47]K.Kronander and A.Billard.Learning compliant manipulation through kinesthetic and tactile human-robot interaction[J].IEEE transactions on haptics,2013,7(3):367–380.

[48]Y.Artzi,M.Forbes,K.Lee,and M.Cakmak.Programming by demonstration with situated semantic parsing[J].AAAIFall Symposium Series,2014.

[49]M.Cakmak and L.Takayama.Teaching people how to teach robots:The effect of instructional materialsand dialog design[J].Proceedings of the 2014 ACM/IEEE international conference on Human-robot interaction,2014:431–438.

[50]E.E.Aksoy,A.Abramov,F.W.rgotter,and B.Dellen.Categorizing object-action relation sfrom semantic scene graphs[J].IEEE International Conference on Robotics and Automation,2010:398–405.

[51]E.E.Aksoy,A.Abramov,J.Dorr,K.Ning,B.Dellen,and F.Worgotter.Learning the semantics of object–action relations by observation[J].The International Journal of Robotics Research,2011,30(10):1229–1249.

[52]K.Zampogiannis,Y.Yang,C.Fermüller,and Y.Aloimonos.Learning the spatial semantics of manipulation actions through preposition grounding[J].IEEE International Conference on Robotics and Automation(ICRA),2015:1389–1396.

[53]R.Cubek,W.Ertel,andG.Palm.High-level learning from demonstration with conceptual spaces and subspace clustering[J].IEEE International Conference on Robotics and Automation(ICRA),2015:2592–2597.

[54]S.Mitra and T.Acharya.Gesture recognition:Asurvey[J].IEEE Transactions on Systems Man and Cybernetics,2007,37(3):311–324.

[55]A.Chalechale,F.Safaei,G.Naghdy,and P.Premaratne.Hand gesture selection and recognition for visual-based human-machine interface[J].IEEE International Conference on Electro Information Technology,2005,6.

[56]K.Alahari and C.Jawahar.Discriminative actions for recognising events[J].Computer Vision,Graphics and Image Processing,2006:552–563.

[57]Y.Yang,C.Fermuller,Y.Li,and Y.Aloimonos.Grasp type revisited:A modern perspective on a classical feature for vision[J].Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition,2015:400–408.

[58]J.Yang,Y.Li,andK.Wang.Invariant trajectory indexing for real time 3d motion recognition[J].IEEE/RSJ International Conference on Intelligent Robots and Systems,2011:3440–3445.

[59]Z.Ren,J.Meng,J.Yuan,and Z.Zhang.Robust hand gesture recognition with kinect sensor[J].Proceedings of the19th ACM International Conference on Multimedia,2011:759–760.

[60]H.Kjellstr.m,J.Romero,and D.Kragi.Visual object-action recognition:Inferring object affordances from human demonstration[J].Computer Vision and Image Understanding,2011,115(1):81–90.

[61]A.Pieropan,C.H.Ek,and H.Kjellstr.m.Functional object descriptors for human activity modeling[J].IEEE International Conference on Robotics and Automation,2013:1282–1289.

[62]J.R.Chen.Constructing task-level assembly strategies in robot programming by demonstration[J].The International Journal of Robotics Research,2005,24(12):1073–1085.

[63]M.Pardowitz,S.Knoop,R.Dillmann,and R.D.Zollner.Incremental learning of tasks from user demonstrations,past experiences,and vocal comments[J].IEEE Transactions on Systems,Man,and Cybernetics,2007,37(2):322–332.

[64]S.Ekvall and D.Kragic.Robot learning from demonstration:a task-level planning approach[J].International Journal of Advanced Robotic Systems,2008,5(3):33.

[65]K.Lee,Y.Su,T.-K.Kim,and Y.Demiris.A syntactic approach to robot imitation learning using probabilistic activity grammars[J].Robotics and Autonomous Systems,2013,61(12):1323–1334.

[66]W.Liu,D.Anguelov,D.Erhan,C.Szegedy,S.Reed,C.-Y.Fu,and A.C.Berg.Ssd:Single shot multibox detector[J].European Conference on Computer Vision,2016:21–37.

[67]B.Drost,M.Ulrich,N.Navab,and S.Ilic.Modelglobally,match locally:Efficient and robust 3d object recognition[J].IEEE Computer Society Conference on Computer Vision and Pattern Recognition,2010:998–1005.

[68]Y.Wang,Y.Jiao,R.Xiong,H.Yu,J.Zhang,and Y.Liu.Masd:A multimodal assembly skill decoding system for robot programming by demonstration[J].IEEE Transactions on Automation Science and Engineering,2018,15(4):1722–1734.

[69]Y.Wang,J.Cai,Y.Wang,Y.Hu,R.Xiong,Y.Liu,J.Zhang,and L.Qi.Probabilistic graph based spatial assembly relation inference for programming of assembly task by demonstration[J].IEEE/RSJ International Conference on Intelligent Robots and Systems(IROS),2015:4402–4407.

作者簡介:

周忠祥(1995-),男,山東菏澤人,現(xiàn)就讀于浙江大學(xué)控制理論與控制工程專業(yè),研究方向為機器人演示編程以及裝配序列生成。

胡晉(1995-,)男,江西南昌人,博士,現(xiàn)就讀于浙江大學(xué),研究方向為機器人運動規(guī)劃以及機器人學(xué)習(xí)系統(tǒng)。

王越(1988-),男,浙江寧波人,副教授,碩士生導(dǎo)師,博士,現(xiàn)就職于浙江大學(xué)控制科學(xué)與工程學(xué)院,研究方向為長期自動化機器人系統(tǒng)、機器人感知。

熊蓉(1972-),女,江蘇太倉人,教授,博士生導(dǎo)師,博士,現(xiàn)就職于浙江大學(xué)控制科學(xué)與工程學(xué)院,研究方向為機器人智能感知與控制。

摘自《自動化博覽》2020年6月刊


熱點新聞

推薦產(chǎn)品

x
  • 在線反饋
1.我有以下需求:



2.詳細的需求:
姓名:
單位:
電話:
郵件:
主站蜘蛛池模板: 久久久久香蕉视频| 69日本xxxxxxxxx13| 国产主播精品福利19禁vip| a免费毛片在线播放| 日a在线| 免费在线观看的毛片| 成人国产在线24小时播放视频| 成年人在线视频观看| 自怕偷自怕亚洲精品| 一区二区三区日本视频| 亚洲人成在线免费观看| 久久精品福利视频| 波野多衣在线观| 日韩一区二区在线观看| 国产成人精品视频午夜| 欧美日韩另类在线观看视频| 美女va| 在线观看亚洲精品专区| 久久丁香| 亚洲精品综合一区在线| 欧美超高清xoxoxoxo| 91久久精品一区二区三区| 久久国产视频在线观看| 怡红院爽妇网| 国产日韩精品视频一区二区三区| 亚洲免费大全| 96精品免费视频大全| 国产精品久久久久激情影院| 欧美性色黄大片在线观看| 黄色网址在线免费观看| 天堂最新版| 99久久国产免费福利| 国产在亚洲线视频观看| 久久精品久久精品久久| 久久在线综合| 欧美久久亚洲精品| 亚洲成人综合网站| 亚洲一级理论片| 亚洲va在线va天堂va四虎| 亚洲欧美综合国产不卡| 亚洲免费成人在线|