★ 北方工業(yè)大學(xué)電氣與控制工程學(xué)院張尊棟,劉雨珂,劉小明
摘要:交通擁堵已經(jīng)成為全世界范圍內(nèi)普遍存在的現(xiàn)象和亟待解決的難題,智能交通信號控制技術(shù)是緩解交通擁堵的重要手段。傳統(tǒng)基于模型的自適應(yīng)交通信號控制系統(tǒng)靈活性較低,往往依賴于大量的假設(shè)和經(jīng)驗(yàn)方程,難以滿足當(dāng)前復(fù)雜多變交通系統(tǒng)的控制要求。隨著計(jì)算機(jī)技術(shù)的進(jìn)步、數(shù)據(jù)處理技術(shù)的發(fā)展和人工智能算法的成熟,結(jié)合深度強(qiáng)化學(xué)習(xí)方法的交通信號控制逐漸成為最主要的研究熱點(diǎn)。
1 引言
城市交通控制系統(tǒng)用于避免、減緩交通擁堵,在交叉口控制和主干路控制方面取得了很好的效果。隨著城市規(guī)模的擴(kuò)大和車輛保有量的增加,科研人員和工程師發(fā)現(xiàn)已有的控制方法難以實(shí)現(xiàn)整體的控制效果,交通擁堵問題日益突出[1]。
隨著人工智能技術(shù)的進(jìn)步,交通系統(tǒng)正逐步朝著智能化方向發(fā)展。傳統(tǒng)的自適應(yīng)交通信號控制通過現(xiàn)有經(jīng)驗(yàn)構(gòu)建模型或簡化的交通模型求解最優(yōu)的信號控制策略,往往依賴于大量的假設(shè)和經(jīng)驗(yàn)方程,難以滿足當(dāng)前復(fù)雜多變交通系統(tǒng)控制的要求。Mikam等人[2]首次將強(qiáng)化學(xué)習(xí)用于交通信號控制。但強(qiáng)化學(xué)習(xí)方法在面對狀態(tài)復(fù)雜、連續(xù)化問題時(shí)存在“維度爆炸”,而難以進(jìn)行自主決策。伴隨著強(qiáng)化學(xué)習(xí)和深度學(xué)習(xí)技術(shù)的發(fā)展,有學(xué)者提出將兩者結(jié)合在一起形成深度強(qiáng)化學(xué)習(xí)方法(Deep Reinforcement Learning,DRL)[3]。Li等人[4]采用深度強(qiáng)化學(xué)習(xí)技術(shù)對單交叉口控制問題進(jìn)行了研究,并作出了改進(jìn)。由于強(qiáng)化學(xué)習(xí)及深度強(qiáng)化學(xué)習(xí)應(yīng)用在普通簡單路口的控制中往往能夠取得較好效果,因此多交叉口交通信號控制越來越成為人們的研究熱點(diǎn)。
本文將簡述深度強(qiáng)化學(xué)習(xí)基礎(chǔ)理論并根據(jù)動(dòng)作選擇方式對其分類,進(jìn)而介紹深度強(qiáng)化學(xué)習(xí)方法在單交叉口、多交叉口交通信號控制領(lǐng)域的應(yīng)用,最后討論交通信號控制未來的研究方向和挑戰(zhàn)。希望本篇綜述能為研究深度強(qiáng)化學(xué)習(xí)在交通中的應(yīng)用提供參考。
2 深度強(qiáng)化學(xué)習(xí)
深度學(xué)習(xí)強(qiáng)大的特征提取能力,結(jié)合強(qiáng)化學(xué)習(xí)的自主決策能力形成深度強(qiáng)化學(xué)習(xí),使強(qiáng)化學(xué)習(xí)不再受數(shù)據(jù)空間維度問題,得以應(yīng)用于高維、復(fù)雜的控制系統(tǒng)。根據(jù)優(yōu)化過程中動(dòng)作選取方式的不同,深度強(qiáng)化學(xué)習(xí)可以分為基于值的深度強(qiáng)化學(xué)習(xí)方法和基于策略梯度的深度強(qiáng)化學(xué)習(xí)方法。
2.1 基于值的深度強(qiáng)化學(xué)習(xí)方法
基于價(jià)值的深度強(qiáng)化學(xué)習(xí)方法通過準(zhǔn)確估計(jì)狀態(tài)-動(dòng)作的價(jià)值函數(shù),選取最大值所對應(yīng)的動(dòng)作,隱式獲得確定性策略。采用深度神經(jīng)網(wǎng)絡(luò)對值函數(shù)或者動(dòng)作值函數(shù)進(jìn)行近似,將應(yīng)用范圍拓展到高維度問題和連續(xù)空間問題。Watkins等人[5]提出的Q學(xué)習(xí)算法通過對Q值函數(shù)的估計(jì),在當(dāng)前狀態(tài)下執(zhí)行動(dòng)作后轉(zhuǎn)換到下一狀態(tài),智能體獲取環(huán)境獎(jiǎng)勵(lì)并更新Q值函數(shù)。在有限的狀態(tài)動(dòng)作空間下,Q學(xué)習(xí)算法可以收斂到最優(yōu)Q值函數(shù)。Mnih等人[6]首次提出將深度神經(jīng)網(wǎng)絡(luò)與Q學(xué)習(xí)結(jié)合的DQN算法,利用卷積神經(jīng)網(wǎng)絡(luò)近似Q值,隨后又提出利用目標(biāo)網(wǎng)絡(luò)和經(jīng)驗(yàn)回放穩(wěn)定DQN的學(xué)習(xí)過程[3]。
然而,DQN每一次更新時(shí)都會(huì)采取最大化目標(biāo)網(wǎng)絡(luò),導(dǎo)致對動(dòng)作價(jià)值函數(shù)過估計(jì)問題。Hasselt等人[7]采取雙網(wǎng)絡(luò)結(jié)構(gòu),當(dāng)前網(wǎng)絡(luò)選取最優(yōu)動(dòng)作,目標(biāo)網(wǎng)絡(luò)對所選動(dòng)作進(jìn)行評估,將動(dòng)作選擇與策略評價(jià)分離,降低發(fā)生過估計(jì)的可能性。Wang等人[8]提出對抗架構(gòu)DQN算法,直接估算狀態(tài)值函數(shù)和動(dòng)作優(yōu)勢函數(shù),保證當(dāng)前狀態(tài)下各動(dòng)作的優(yōu)勢函數(shù)相對排序不變,縮小Q值的范圍同時(shí)去除多余的自由度,提高算法的穩(wěn)定性。Nair等人[9]提出了一個(gè)對于深度強(qiáng)化學(xué)習(xí)的大規(guī)模分布式架構(gòu),充分利用計(jì)算資源。此類算法只能處理有限的狀態(tài)動(dòng)作空間問題,難以應(yīng)對復(fù)雜環(huán)境,學(xué)習(xí)過程中易出現(xiàn)過擬合且收斂性較差,因此其適用于離散動(dòng)作空間下的深度強(qiáng)化學(xué)習(xí)過程。
2.2 基于策略梯度的深度強(qiáng)化學(xué)習(xí)方法
策略梯度算法使策略參數(shù)化,將神經(jīng)網(wǎng)絡(luò)的權(quán)重參數(shù)作為價(jià)值函數(shù)的參數(shù),能通過分析所處的狀態(tài),直接輸出下一步要采取的各種動(dòng)作的概率,然后根據(jù)概率采取行動(dòng),每種動(dòng)作都有相應(yīng)的概率被選中。最經(jīng)典的策略梯度算法REINFORCE[10]使用蒙特卡洛方法計(jì)算狀態(tài)值函數(shù),近似替代策略梯度的價(jià)值函數(shù)。
由于蒙特卡洛策略梯度方法基于完整的經(jīng)驗(yàn)更新值函數(shù)參數(shù),導(dǎo)致模型的學(xué)習(xí)效率較低。在線學(xué)習(xí)的置信域策略優(yōu)化算法TPRO[11]與近端策略優(yōu)化算法[12]根據(jù)經(jīng)驗(yàn)或自適應(yīng)方法選擇超參數(shù),使得更新步長約束在一定范圍內(nèi),確保持續(xù)獲得更優(yōu)策略,防止策略崩潰問題。
TPRO與PPO算法在每次策略更新時(shí)采樣大量樣本進(jìn)行訓(xùn)練,需要大量算力確保算法收斂,導(dǎo)致其難以應(yīng)用于大規(guī)模場景下的強(qiáng)化學(xué)習(xí)過程。Lillicrap[13]提出深度確定性策略梯度算法DDPG,該方法使用非線性函數(shù)近似表示值函數(shù),使得函數(shù)能夠穩(wěn)定收斂,解決了Q函數(shù)更新的發(fā)散問題。同時(shí)使用經(jīng)驗(yàn)回放機(jī)制批處理學(xué)習(xí),從而使訓(xùn)練過程更加穩(wěn)定。Fujimoto等人[14]為解決DDPG對于Q值的高估,及超參數(shù)和其他參數(shù)調(diào)整方面存在脆弱性的問題,提出TD3算法,可緩解動(dòng)作價(jià)值高估的影響,并消除方差累計(jì)問題,使得訓(xùn)練過程波動(dòng)較小,同時(shí)避免了DDPG中可能發(fā)生的特性故障。
與基于價(jià)值的深度強(qiáng)化學(xué)習(xí)方法相比,基于策略的強(qiáng)化學(xué)習(xí)方法具有更好的收斂性,特別在利用神經(jīng)網(wǎng)絡(luò)逼近函數(shù)時(shí)[15],它可以很容易地處理大量甚至連續(xù)的狀態(tài)動(dòng)作空間。但其缺點(diǎn)在于算法方差較高、收斂速度較慢及學(xué)習(xí)步長難以確定。
2.3 基于深度強(qiáng)化學(xué)習(xí)的交通信號控制模型設(shè)置
在基于深度強(qiáng)化學(xué)習(xí)的交通信號控制中,路網(wǎng)中的交通信號通常由一個(gè)智能體獨(dú)立控制或多個(gè)智能體控制,智能體表示交通信號燈。智能體執(zhí)行某動(dòng)作后,環(huán)境會(huì)轉(zhuǎn)換至一個(gè)新的狀態(tài),并根據(jù)狀態(tài)的變化給出上一動(dòng)作的獎(jiǎng)勵(lì)值,其控制框架如圖1所示。深度強(qiáng)化學(xué)習(xí)的交通信號控制模型的關(guān)鍵問題是如何設(shè)置智能體,即獎(jiǎng)勵(lì)、狀態(tài)和行動(dòng)的定義[16]。
圖1 深度強(qiáng)化學(xué)習(xí)控制框架
2.3.1 狀態(tài)
智能體根據(jù)定量表示的環(huán)境狀態(tài)決定采取的動(dòng)作。常用狀態(tài)可表示為描述環(huán)境的各種元素,如隊(duì)列長度、等待時(shí)間、速度和相位等。這些元素可以在車道或路段上定義,進(jìn)而連接為一個(gè)向量。在早期使用強(qiáng)化學(xué)習(xí)進(jìn)行交通信號控制的工作中,人們需要離散狀態(tài)空間,并使用一個(gè)簡單的表格或線性模型來近似狀態(tài)函數(shù)以提高效率[17]。然而,現(xiàn)實(shí)世界的狀態(tài)空間通常都很大,這在內(nèi)存或性能方面限制了傳統(tǒng)的強(qiáng)化學(xué)習(xí)方法。
隨著深度學(xué)習(xí)的發(fā)展,深度強(qiáng)化學(xué)習(xí)方法被提出來作為一種有效的函數(shù)逼近器處理大的狀態(tài)空間。Xu[18]等人和Zhang[19]等人將交叉口分割為固定長度的網(wǎng)格,通過每個(gè)網(wǎng)格中的布爾值確定該位置是否存在車輛,這種網(wǎng)絡(luò)化的表示形式實(shí)現(xiàn)了交通狀態(tài)編碼的離散化,可以獲得高分辨率的真實(shí)交叉口信息。一類廣泛使用的狀態(tài)定義方法將交叉口各個(gè)車道的特定信息的平均值或總值作為特征組成一個(gè)狀態(tài)向量,例如車輛等待時(shí)間、排隊(duì)長度及信號燈相位持續(xù)時(shí)間等[20,21]。另一類使用圖像來表示狀態(tài)[22,23],其中車輛的位置被提取為圖像表示。
2.3.2 動(dòng)作
智能體在獲得當(dāng)前環(huán)境狀態(tài)后,從動(dòng)作集中選擇要采取的動(dòng)作并觀察動(dòng)作帶來的獎(jiǎng)勵(lì)及新的環(huán)境狀態(tài)。對交通信號控制的智能體有不同類型的動(dòng)作定義:(1)設(shè)置當(dāng)前相位持續(xù)時(shí)間[24];(2)設(shè)置當(dāng)前相位持續(xù)時(shí)間與預(yù)定義的相位總周期持續(xù)時(shí)間的比率[25];(3)在預(yù)定義的信號配時(shí)方案中,由當(dāng)前相位更改到下一相位,不改變相序[26];(4)在預(yù)定義的相位中選擇需要更改的相位[27]。動(dòng)作的選擇與交通信號的具體設(shè)置密切相關(guān)。例如,如果要求相位序列是循環(huán)的,那么應(yīng)該考慮前三種作用方案,而在預(yù)定義的相位中選擇需要更改的相位可以產(chǎn)生靈活的相位序列。
2.3.3 獎(jiǎng)勵(lì)
獎(jiǎng)勵(lì)反應(yīng)深度強(qiáng)化學(xué)習(xí)智能體的學(xué)習(xí)目標(biāo),在交通信號控制中,考慮設(shè)置等待時(shí)間[28,29]、累計(jì)延誤[30]及車輛排隊(duì)長度[31]等。單一的獎(jiǎng)勵(lì)難以全面反映環(huán)境反饋,因此一些學(xué)者考慮排隊(duì)長度、等待時(shí)間等數(shù)據(jù)的權(quán)衡系數(shù)[21]。然而獎(jiǎng)勵(lì)中每個(gè)因素的權(quán)重是難以設(shè)定的,而權(quán)重設(shè)置的微小差異可能會(huì)導(dǎo)致顯著不同的結(jié)果[32]。在面對多交叉口交通信號控制問題時(shí),通常會(huì)設(shè)置全局獎(jiǎng)勵(lì)和局部獎(jiǎng)勵(lì),局部獎(jiǎng)勵(lì)反映每個(gè)交叉口的交通狀況,提高每個(gè)智能體的穩(wěn)定性;而全局獎(jiǎng)勵(lì)使得智能體協(xié)作以學(xué)習(xí)整個(gè)路網(wǎng)的最優(yōu)策略。在智能體的學(xué)習(xí)過程中,首先通過局部獎(jiǎng)勵(lì)關(guān)注局部任務(wù),然后利用學(xué)習(xí)到的局部信息優(yōu)化全局策略[33]。
3 基于深度強(qiáng)化學(xué)習(xí)的單交叉口信號控制優(yōu)化
近年來,基于深度強(qiáng)化學(xué)習(xí)的交通信號控制受到了研究者的廣泛關(guān)注,由于其處理狀態(tài)空間的能力,已經(jīng)提出了許多深度強(qiáng)化學(xué)習(xí)模型進(jìn)行信號控制。
利用深度神經(jīng)網(wǎng)絡(luò)近似Q函數(shù)[34],Gendes等人[35]結(jié)合深度強(qiáng)化學(xué)習(xí)與交通信號控制,使用離散的交通狀態(tài)編碼模型,利用獲取的交通環(huán)境信息來形成類似圖像的狀態(tài)表示。Gendes等人[36]使用A3C算法研究了不同狀態(tài)表示對信號控制優(yōu)化的影響,并利用動(dòng)態(tài)交通環(huán)境在單個(gè)十字路口上實(shí)驗(yàn)了三個(gè)獨(dú)立的狀態(tài)定義。其后,該作者研究了交通信號控制的異步深度強(qiáng)化學(xué)習(xí)模型,一般網(wǎng)絡(luò)的全局參數(shù)在每隔n步后更新一次。與固定時(shí)間和驅(qū)動(dòng)的交通控制器相比,提出的體系結(jié)構(gòu)的性能提高了近40%。Garg等人[37]提出了一種基于策略梯度的深度RL方法的自適應(yīng)交通交叉口控制,該方法利用原始像素作為基于策略的DQN的輸入狀態(tài)。
Nishi等人[38]提出了一種基于自動(dòng)編碼器的深度強(qiáng)化學(xué)習(xí)算法,通過將輸入隊(duì)列長度映射到低維動(dòng)作集,考慮自動(dòng)編碼器進(jìn)行動(dòng)作選擇。Gao等人[39]提出了一種新的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),神經(jīng)網(wǎng)絡(luò)的輸出是二進(jìn)制動(dòng)作,無論是保持相同的動(dòng)作還是在一個(gè)預(yù)定義的相位周期中改變動(dòng)作。Choe等人[40]在單交叉口信號控制場景中提出了一個(gè)基于RNN的DQN模型,與CNN結(jié)構(gòu)相比該方法明顯降低了旅行時(shí)間。Wan等人[41]提出了一種基于新的折扣因子的動(dòng)作值的DQN,他們所提出的動(dòng)態(tài)折扣因子借助于無限幾何級數(shù),考慮了執(zhí)行時(shí)間。Xu等人[42]引入了一種新的具有批處理學(xué)習(xí)框架的遷移學(xué)習(xí)模型,利用相同的真實(shí)數(shù)據(jù)和一個(gè)合成的模擬數(shù)據(jù)在一個(gè)孤立的交叉口上進(jìn)行實(shí)驗(yàn)。Jang等人[43]通過java的AnyLogic多用途模擬器將DQN智能體與流量模擬器集成。
4 基于深度強(qiáng)化學(xué)習(xí)的多交叉口信號控制優(yōu)化
4.1 基于博弈論的多智能體深度強(qiáng)化學(xué)習(xí)方法
博弈論是研究理性決策者之間策略交互的數(shù)學(xué)模型,是解決城市交通信號協(xié)調(diào)控制問題的合適方法,使控制策略能較好地適應(yīng)交通需求水平的動(dòng)態(tài)變化[44,45]。近年來,結(jié)合博弈論的交通信號協(xié)調(diào)控制方法受到越來越多研究學(xué)者的重視。博弈論中的Nash均衡為路網(wǎng)中多個(gè)交叉口信號燈間的協(xié)調(diào)提供了理論框架,但仍面臨著由于維度爆炸而難以向更多交叉口擴(kuò)展的難題,且各交叉口存在重要程度的差異性,使得在交通優(yōu)化過程中,次要交叉口會(huì)為重要交叉口犧牲通行能力,導(dǎo)致目標(biāo)沖突問題[46]。
目前,博弈論在交通領(lǐng)域中的應(yīng)用大多集中在交通誘導(dǎo)和交通管理方面,而在交通信號配時(shí)決策中,博弈思想的應(yīng)用還處于起步階段[47]。Clempner等人[48]將多交叉口信號控制問題表述為Stackelberg博弈過程,基于超近距離方法采用納什均衡求解。Zhao等人[49]提出了一種基于協(xié)調(diào)博弈和Pareto最優(yōu)的算法,仿真結(jié)果表明,該算法在平均排隊(duì)長度、平均總延誤和平均旅行時(shí)間方面比韋伯斯特配時(shí)法和驅(qū)動(dòng)控制算法更有效。Zhu等人[50]提出了一種基于行程數(shù)據(jù)的雙層博弈方法來解決路網(wǎng)交通控制問題。多智能體系統(tǒng)的自學(xué)習(xí)、交互式等特點(diǎn)與城市路網(wǎng)的多交叉口結(jié)構(gòu)上的相似性,引起了眾多學(xué)者對多智能體系統(tǒng)及其自發(fā)學(xué)習(xí)機(jī)制在城市交通信號配時(shí)決策中應(yīng)用的關(guān)注[51]。在路網(wǎng)環(huán)境下,由于系統(tǒng)中對任一交叉口信號燈的控制可能將延誤傳導(dǎo)至上下游以及其他交叉口[50],在此環(huán)境中的信號燈智能體的行為對環(huán)境的改變也會(huì)影響到其他智能體[52]。因此,與均衡相關(guān)的混合型博弈MARL算法[53]適用于路網(wǎng)信號控制問題。
近年來,許多研究者通過將MARL與博弈論相結(jié)合,使用博弈中的均衡解代替最優(yōu)解,以求得相對有效且合理的交通信號控制策略[54]。Abdoos等人[54]提出了一種雙模式智能體結(jié)構(gòu),通過獨(dú)立和協(xié)作的過程有效地控制交通擁塞問題。在協(xié)作模式中,利用博弈論來確定智能體之間的協(xié)作機(jī)制,動(dòng)態(tài)控制多個(gè)交叉口的交通信號。Guo等人[55]將博弈論與強(qiáng)化學(xué)習(xí)(RL)中的Q學(xué)習(xí)算法進(jìn)行結(jié)合,提出了面向單交叉口信號燈的半合作NashQ學(xué)習(xí)算法和半合作StackelbergQ學(xué)習(xí)算法。Pan等人[56]融入博弈論的混合策略Nash均衡概念,改進(jìn)IA-MARL算法的決策過程,提出了考慮博弈的多智能體強(qiáng)化學(xué)習(xí)(G-MARL)框架。Zhang等人[57]提出了基于Nash均衡的多智能體深度強(qiáng)化學(xué)習(xí)算法。Camponogara[58]利用隨機(jī)博弈論和RL研究了兩個(gè)交叉口信號燈之間的協(xié)調(diào)問題。Abolghasem[59]采用模糊Q學(xué)習(xí)和博弈論的方法,智能體根據(jù)以往經(jīng)驗(yàn)和相鄰智能體的策略進(jìn)行決策。
4.2 平均場多智能體深度強(qiáng)化學(xué)習(xí)方法
通過平均場相互作用來描述大量具有對稱相互作用且不可區(qū)分參與者的行為。每個(gè)智能體都被表示為網(wǎng)格中的一個(gè)節(jié)點(diǎn),該節(jié)點(diǎn)只受其鄰居的平均效應(yīng)的影響。多智能體相互作用被有效地轉(zhuǎn)換為兩個(gè)智能體間相互作用。根據(jù)代理所試圖實(shí)現(xiàn)的目標(biāo),可以分成平均場博弈(MFG)和平均場控制(MFC)兩種類型的平均場問題。
對于MFC,分析了大種群中合作博弈的最優(yōu)解,Gu等人[60]提出了MFC與Q函數(shù)結(jié)合的IQ函數(shù),通過將狀態(tài)-空間替換為概率分布空間來提升強(qiáng)化學(xué)習(xí)。Carmona等人[61]基于MFC突出一個(gè)通用的強(qiáng)化學(xué)習(xí)框架,在此基礎(chǔ)上實(shí)現(xiàn)了基于狀態(tài)-動(dòng)作值函數(shù)的通用無模型算法。
MFG的目的是在非合作的多玩家博弈中尋找納什均衡,由Lasry等人[62]和Huang等人[63]提出,以模擬相互作用中大量相同代理之間的動(dòng)態(tài)平衡,試圖克服多智能體博弈問題中納什均衡所出現(xiàn)的困難。這類系統(tǒng)包括許多應(yīng)用程序的建模,如交通堵塞動(dòng)態(tài)、群體系統(tǒng)、金融市場均衡、人群疏散、智能電網(wǎng)控制、網(wǎng)絡(luò)廣告拍賣、疫苗接種動(dòng)態(tài)等。Yang等人[64]證明了特殊的MFG可簡化為馬爾可夫決策過程(MDP),實(shí)現(xiàn)了MFG和MDP的結(jié)合,從而拓寬MFG的范圍,并通過深度逆強(qiáng)化學(xué)習(xí)來推斷大型現(xiàn)實(shí)世界系統(tǒng)的MFG模型。Xin等人[65]定義了一個(gè)基于模擬器的Q學(xué)習(xí)算法以求解有限狀態(tài)和動(dòng)作空間下的平均場博弈。Anahtarc等人[66]證明了正則化Q學(xué)習(xí)在有限狀態(tài)和動(dòng)作空間下的收斂性。Fu等人[67]提出了線性函數(shù)逼近的平均場演員評論家算法,并證明該算法以線性速率收斂到納什均衡。
將平均場理論與MARL結(jié)合,Blume等人[68]將每個(gè)智能體只與一組有限的鄰居直接交互,任意兩個(gè)智能體間通過有限的直接交互鏈間接交互,在降低智能體間相互作用復(fù)雜性的同時(shí),仍保留了任何一對智能體之間的全局相互作用。Stanley等人[69]采用平均場理論逼近成對智能體間的相互影響。Lasry等人[62]利用平均場論將多智能體環(huán)境中的相互作用近似為兩個(gè)智能體相互作用。Yang等人[70]采用平均場理論,將多智能體間的相互作用近似為單個(gè)主體與整個(gè)總體或相鄰主體的平均效應(yīng)之間的相互作用,利用離散時(shí)間平均場博弈來理解個(gè)體行為的總體效應(yīng),并預(yù)測種群分布的時(shí)間演化。Hu等人[71]設(shè)置一個(gè)智能體數(shù)量接近無限大的多智能體系統(tǒng),通過平均效應(yīng)來近似其他智能體對單個(gè)智能體的影響,導(dǎo)出描述多智能體群體中Q值概率分布演變的Fokker-Planck方程。Subramanian等人[72]提出一種基于策略梯度的方法來實(shí)現(xiàn)平均場均衡。
深度神經(jīng)網(wǎng)絡(luò)具有強(qiáng)大的泛化能力,已被廣泛應(yīng)用于直接逼近策略或值函數(shù)。利用神經(jīng)網(wǎng)絡(luò)作為函數(shù)逼近器,可以解決MARL中的非平穩(wěn)問題。Yang等人[70]提出了MF-Q及MF-AC算法,分析得到了Nash均衡的一致性,并在高斯擠壓、伊辛模型和戰(zhàn)斗游戲的實(shí)驗(yàn)中證明了算法學(xué)習(xí)效果。該方法降低相互作用復(fù)雜性的同時(shí),仍保留了任何一對智能體之間的全局相互作用,解決了維度爆炸問題,降低了環(huán)境的非平穩(wěn)性。
4.3 聯(lián)網(wǎng)自動(dòng)車輛環(huán)境下的多智能體深度強(qiáng)化學(xué)習(xí)方法
傳感、通信、網(wǎng)絡(luò)和計(jì)算技術(shù)的快速發(fā)展引發(fā)了新興的概念,如聯(lián)網(wǎng)自動(dòng)車輛(CAV)。在CAV的范式中,未來的車輛可以通過大量的車載設(shè)備有效地監(jiān)測其內(nèi)部健康狀況,以提高運(yùn)輸安全。此外,車輛將變得更加智能,能夠完全自主駕駛,極大地改善了用戶體驗(yàn)。DRL智能體通過與環(huán)交互,通過反復(fù)錯(cuò)來學(xué)習(xí)正確的操作。這樣,基于深度強(qiáng)化學(xué)習(xí)的模型就不會(huì)受到人類行為的限制,從而產(chǎn)生一些超人的行為。
此外,CAV還可以通過與環(huán)境的交互來體驗(yàn)數(shù)字交通條件。當(dāng)采取不當(dāng)行動(dòng)時(shí),它們可能會(huì)產(chǎn)生或遇到一些角落的場景,如碰撞和近碰撞。通過這種方式,它們將受到懲罰,從而學(xué)會(huì)避免危險(xiǎn)或容易崩潰的行為。因此,學(xué)習(xí)到的基于深度強(qiáng)化學(xué)習(xí)的模型通常承諾具有魯棒性。深度強(qiáng)化學(xué)習(xí)已成功應(yīng)用于許多CAV控制任務(wù),如車道保持、車道改變、避障、合并和交叉。新興的CAV技術(shù)為城市信號交叉口管理提供了新的機(jī)會(huì)。通過無線通信和先進(jìn)的傳感能力,CAV可以檢測周圍的交通環(huán)境,與基礎(chǔ)設(shè)施實(shí)時(shí)共享車輛信息,可以精確控制CAV的各個(gè)軌跡。
之前的一些研究已經(jīng)將CAV數(shù)據(jù)納入交通信號控制,并檢查了由此產(chǎn)生的好處[73]。Lee等人[74]開發(fā)了一種在100%CAV市場滲透率(MPR)下的累積旅行時(shí)間響應(yīng)式實(shí)時(shí)交叉口控制算法,其中總延遲可減少34%。Guler等人[75]整合了來自簡歷和檢測器的信息,優(yōu)化了雙向交叉口的放電序列,在平衡交通需求的情況下,減少了55%的平均延遲。Feng等人[76]提出了一個(gè)利用CAV軌跡信息來支持交通信號優(yōu)化的雙層優(yōu)化框架,并采用動(dòng)態(tài)規(guī)劃(DP)來解決該問題。他們還提出了一種估計(jì)未裝備車輛的速度和位置的算法。結(jié)果表明,在100%PR下,不同目標(biāo)函數(shù)下的平均延遲可以從6.37%降低到16.33%。Li和Ban[77]還提出了一種兩階段信號優(yōu)化方法,它可以很容易地?cái)U(kuò)展到多個(gè)信號的協(xié)調(diào)。
另一個(gè)研究方向是根據(jù)實(shí)時(shí)信號相位和定時(shí)(SPaT)和交通條件完全控制CAV軌跡[78,79]。我們開發(fā)了一些基于CAV的模型/算法來控制個(gè)體車輛軌跡[80-82],其中CAV可以根據(jù)給定的SPaT調(diào)整其軌跡。一些研究采用傳統(tǒng)方法獲取最優(yōu)軌跡,如模型預(yù)測控制[83,84]、DP[85,86]和近似模型[87,88]。然而,這些模型/算法中的大多數(shù)都是計(jì)算密集型的。因此,提出了具有給定邊界的分析方法,以減少計(jì)算負(fù)擔(dān)[89,90]。Zhoou等人[91]提出了一種簡約的啟發(fā)式算法,該算法通過控制詳細(xì)的加速度剖面,可以有效地平滑接近信號交叉口的車輛流的所有軌跡。該算法用幾段解析二次曲線來表示每一個(gè)無限維的車輛軌跡。因此,它有效地構(gòu)建了大量的車輛軌跡,受物理限制、車輛跟蹤安全和交通信號定時(shí)。
最近,研究者關(guān)注了信號優(yōu)化和車輛軌跡控制的集成框架——這是繼簡歷和汽車文獻(xiàn)之后自然的下一步。然而,據(jù)我們所知關(guān)于這一主題的研究數(shù)量仍然有限。Li等人[92]早期研究信號和車輛軌跡的聯(lián)合控制,使用簡單的運(yùn)動(dòng)學(xué)構(gòu)建車輛軌跡,同時(shí)純粹列舉最優(yōu)信號規(guī)劃。Pourmehrab等人[93]繼續(xù)這項(xiàng)研究,用綠色時(shí)間延長取代了純計(jì)數(shù),沒有考慮車輛和信號定時(shí)控制之間的復(fù)雜相互作用。Feng等人[94]提出了一個(gè)時(shí)空交通控制框架來優(yōu)化交通信號和車輛軌跡。Yu等人[95]聯(lián)合優(yōu)化了100%CAV場景下的交通信號和車輛軌跡,其中考慮了所有車輛的運(yùn)動(dòng),包括左轉(zhuǎn)、右轉(zhuǎn)彎和通過交通。索利曼亞米里等人[96]提出了一種使用簡化近似函數(shù)的解析聯(lián)合優(yōu)化方法,結(jié)果顯示在兩相交叉處有顯著的改進(jìn)。
5 總結(jié)與展望
本文針對深度強(qiáng)化學(xué)習(xí)在交通信號控制中的應(yīng)用進(jìn)行了總結(jié),許多研究到目前為止獲得了卓越的研究成果,但仍存在許多重大挑戰(zhàn)和亟待解決的技術(shù)問題。下面對未來的研究方向進(jìn)行探討。
5.1 協(xié)調(diào)
在多交叉口信號控制中需要協(xié)調(diào)智能體使其共識(shí)達(dá)成一致,特別是,在合作環(huán)境中實(shí)現(xiàn)共同目標(biāo)需要連貫的動(dòng)作選擇,以便聯(lián)合動(dòng)作實(shí)現(xiàn)共同優(yōu)化目標(biāo)。在決策過程中找到共識(shí)可以通過智能體之間的信息交換實(shí)現(xiàn),也可以通過構(gòu)建模型實(shí)現(xiàn)。前者需要智能體通信機(jī)制,以便智能體可在各自目標(biāo)的基礎(chǔ)上進(jìn)行協(xié)調(diào)。對于后者,智能體需要能夠觀察其他智能體的動(dòng)作并推理其策略以構(gòu)建模型。在預(yù)測模型基礎(chǔ)上,智能體可以學(xué)習(xí)其他智能體的動(dòng)作模式,并將動(dòng)作應(yīng)用到共識(shí)中從而實(shí)現(xiàn)協(xié)調(diào)。
5.2 可計(jì)算性
對大量智能體進(jìn)行訓(xùn)練的難度非常大,環(huán)境中的每個(gè)智能體都會(huì)給學(xué)習(xí)過程增加額外的復(fù)雜性,從而使計(jì)算量因智能體數(shù)量呈指數(shù)級增長。除了復(fù)雜性問題之外,眾多可變因素也使得智能體需要對其他智能體的行為具有魯棒性。但是,智能體可以利用智能體之間共享的分布式知識(shí)來加速學(xué)習(xí)過程。
5.3 安全性
未來研究工作還集中在安全性方面,安全性是非常重要的屬性,因?yàn)樽灾髦悄荏w要確保交通系統(tǒng)性能,同時(shí)還要在學(xué)習(xí)和執(zhí)行動(dòng)作期間確保安全。單智能體學(xué)習(xí)算法研究中涉及了安全概念,但其對多智能體學(xué)習(xí)的適用性有限,仍處于起步階段。
綜上所述,基于深度強(qiáng)化學(xué)習(xí)的多交叉口信號控制優(yōu)化是研究領(lǐng)域現(xiàn)階段研究的難點(diǎn)與重點(diǎn)之一,每個(gè)智能體都有一個(gè)需要優(yōu)化的本地目標(biāo),然而,只有當(dāng)智能體允許其他智能體能成功完成其任務(wù)時(shí),才能實(shí)現(xiàn)全局最優(yōu)。另一個(gè)可能方向是深度多智能體強(qiáng)化學(xué)習(xí)算法和進(jìn)化方法之間的融合。進(jìn)化算法已被用于多智能體強(qiáng)化學(xué)習(xí)的環(huán)境中,由于進(jìn)化需要許多實(shí)體進(jìn)行適應(yīng),因此多智能體強(qiáng)化學(xué)習(xí)場景非常適合進(jìn)化計(jì)算。
現(xiàn)階段大多數(shù)研究都集中在同質(zhì)環(huán)境中的學(xué)習(xí),在這些環(huán)境中智能體具有共同的興趣并優(yōu)化共同的目標(biāo)。當(dāng)智能體具有共同利益時(shí),諸如非平穩(wěn)性、部分可觀察性和協(xié)調(diào)性之類的問題可能會(huì)減少。然而,異質(zhì)性意味著智能體可能有自己的興趣和目標(biāo),個(gè)人經(jīng)驗(yàn)和知識(shí),或者不同的技能和能力。在真實(shí)應(yīng)用場景中,智能體需要利用異構(gòu)信息做出決策。
隨著交叉口數(shù)量的增加,基于深度強(qiáng)化學(xué)習(xí)的交通信號控制優(yōu)化領(lǐng)域最根本問題是維度災(zāi)難,“狀態(tài)-動(dòng)作”空間和智能體相互作用的組合隨著智能體數(shù)量呈指數(shù)級增長,這使得完全遍歷空間難以實(shí)現(xiàn)。且當(dāng)智能體只能獲得對環(huán)境的部分觀察或當(dāng)環(huán)境具有連續(xù)性質(zhì)時(shí),這種情況會(huì)加劇。盡管深度神經(jīng)網(wǎng)絡(luò)作為函數(shù)近似器可以應(yīng)對連續(xù)空間,并且可以很好地降低計(jì)算量,但仍然存在一些問題,比如如何充分探索大型和復(fù)雜路網(wǎng),以及如何解決區(qū)域交通信號優(yōu)化問題等。
作者簡介:
張尊棟(1979-),男,講師,博士,現(xiàn)任教于北方工業(yè)大學(xué),研究方向?yàn)橹悄芙煌ā?/p>
劉雨珂(1999-),女,碩士,現(xiàn)就讀于北方工業(yè)大學(xué),研究方向?yàn)橹悄芙煌ā?/p>
劉小明(1974-),男,教授,博士,現(xiàn)任教于北方工業(yè)大學(xué),研究方向?yàn)榻煌骼碚摗⒅悄芙煌刂啤?/p>
參考文獻(xiàn):
[1] WEIH, ZHENG G, GAYAH V, et al. Recent advances in reinforcement learning for traffffic signal control: A survey of models and evaluation[J]. SIGKDD Explor. Newsl., 2021, 22 (2) : 12 - 18.
[2] MIKAMI S, KAKAZU Y. Genetic reinforcement learning for cooperative traffffic signal control[C]//Proceedings of the First IEEE Conference on Evolutionary Computation. IEEE World Congress on Computational Intelligence. [S.l.: s.n.], 1994 : 223 - 228 vol.1.
[3] MNIH V, KAVUKCUOGLU K, SILVER D, et al. Human-level control through deep reinforcement learning[J]. Nature, 2015, 518 : 529 - 533.
[4] LI L, LV Y, WANG F Y. Traffffic signal timing via deep reinforcement learning[J]. IEEE/CAA Journal of Automatica Sinica, 2016, 3 (3) : 247 - 254.
[5] WATKINS J, DAYAN P. Q-learning[J]. Machine Learning, 1992, 8 : 279 -292.
[6] MNIH V, KAVUKCUOGLU K, SILVER D, et al. Playing atari with deep reinforcement learning[J]. Computer Science, 2013.
[7] VAN HASSELT H, GUEZ A, SILVER D. Deep reinforcement learning with double q-learning[Z]. [S.l.: s.n.], 2016.
[8] WANG Z, SCHAUL T, HESSEL M, et al. Dueling network architectures for deep reinforcement learning[C]//ICML'16: Proceedings of the 33rd International Conference on International Conference on Machine Learning - Volume 48. [S.l.]: JMLR.org, 2016 : 1995 - 2003.
[9] NAIR A, SRINIVASAN P, BLACKWELL S, et al. Massively parallel methods for deep reinforcement learning[J]. Computer Science, 2015.
[10] WILLIAMS R J. Simple statistical gradient-following algorithms for connectionist reinforcement learning[J]. Machine Learning, 1992, 8 (3- 4) : 229 - 256.
[11] SCHULMAN J, LEVINE S, ABBEEL P, et al. Trust region policy optimization[C]//Proceedings of Machine Learning Research: volume 37 Proceedings of the 32nd International Conference on Machine Learning. [S.l.]: PMLR, 2015 : 1889 - 1897.
[12] SCHULMAN J, WOLSKI F, DHARIWAL P, et al. Proximal policy optimization algorithms[J]. Advances in Neural Information Processing Systems, 2017.
[13] LILLICRAP T, HUNT J, PRITZEL A, et al. Continuous control with deep reinforcement learning[J]. CoRR, 2015 : 09.
[14] FUJIMOTO S, VAN HOOF H, MEGER D. Addressing function approximation error in actorcritic methods[J]. ArXiv, 2018, abs/1802.09477.
[15] LIU B, CAI Q, YANG Z, et al. Neural proximal/trust region policy optimization attains globally optimal policy[M]. [S.l.]: Curran Associates Inc., 2019.
[16] YAU K L A, QADIR J, KHOO H L, et al. A survey on reinforcement learning models and algorithms for traffffic signal control[J]. ACM Comput. Surv., 2017, 50 (3) .
[17] ABDOOS M, MOZAYANI N, BAZZAN A L C. Hierarchical control of traffffic signals using q-learning with tile coding[J]. Applied Intelligence, 2013, 40 : 201 - 213.
[18] XU M, WU J, HUANG L, et al. Network-wide traffffic signal control based on the discovery of critical nodes and deep reinforcement learning[J]. Journal of Intelligent Transportation Systems, 2020, 24 (1) : 1 - 10.
[19] ZHANG R, ISHIKAWA A, WANG W, et al. Using reinforcement learning with partial vehicle detection for intelligent traffffic signal control[J/OL]. IEEE Transactions on Intelligent Transportation Systems, 2021, 22 (1) : 404 - 415.
[20] CHU T, WANG J, CODECà L, et al. Multi-Agent Deep Reinforcement Learning for Large-Scale Traffffic Signal Control[J/OL]. IEEE Transactions on Intelligent Transportation Systems, 2020, 21 (3) : 1086 - 1095.
[21] XIE D, WANG Z, CHEN C, et al. Iedqn: Information exchange dqn with a centralized coordinator for traffffic signal control[C/OL]//2020 International Joint Conference on Neural Networks (IJCNN) . 2020 : 1 - 8.
[22] LIANG X, DU X, WANG G, et al. A deep reinforcement learning network for traffffic light cycle control[J/OL]. IEEE Transactions on Vehicular Technology, 2019, 68 (2) : 1243 - 1253.
[23] GONG Y, ABDEL-ATY M, CAI Q, et al. Decentralized network level adaptive signal control by multi-agent deep reinforcement learning[J/OL]. Transportation Research Interdisciplinary Perspectives, 1 : 100020.
[24] ASLANI M, SEIPEL S, MESGARI M S, et al. Traffffic signal optimization through discrete and continuous reinforcement learning with robustness analysis in downtown tehran[J/OL]. Advanced Engineering Informatics, 2018, 38 : 639-655. https://www.sciencedirect.com/scienc e/article/pii/S1474034617302598.
[25] MA Z, CUI T, DENG W, et al. Adaptive optimization of traffffic signal timing via deep reinforcement learning[J/OL]. Journal of Advanced Transportation, 2021, 2021 : 1 - 14.
[26] ZHU Y, CAI M, SCHWARZ C, et al. Intelligent traffffic light via policy- based deep reinforcement learning[J]. International Journal of Intelligent Transportation Systems Research, 2021, 20 : 734 - 744.
[27] SUN Y, LAI J, CAO L, et al. A Friend-or-Foe framework for multi-agent reinforcement learning policy generation in mixing cooperative– competitive scenarios[J]. Transactions of the Institute of Measurement and Control, 2022, 44 : 2378 - 2395.
[28] LI D, WU J, XU M, et al. Adaptive traffffic signal control model on intersections based on deep reinforcement learning[J]. Journal of Ad vanced Transportation, 2020, 2020 : 1 - 14.
[29] SHABESTARY S M A, ABDULHAI B. Adaptive traffffic signal control with deep reinforcement learning and high dimensional sensory inputs: Case study and comprehensive sensitivity analyses[J]. IEEE Transactions on Intelligent Transportation Systems, 2022, 23 : 20021 - 20035.
[30] GUILLEN-PEREZ A, CANO M D. Intelligent iot systems for traffffic management: A practical application[J]. IET Intelligent Transport Systems, 2021.
[31] WU T, ZHOU P, LIU K, et al. Multi-agentdeep reinforcement learning for urban traffffic light control in vehicular networks[J]. IEEE Transactions on Vehicular Technology, 2020, 69 : 8243 - 8256.
[32] BOUKERCHE A F M, ZHONG D, SUN P. A novel reinforcement learning-based cooperative traffffic signal system through max pressure control[J]. IEEE Transactions on Vehicular Technology, 2021, 71 : 1187 - 1198.
[33] SAKIB S M N, TAZRIN T, FOUDA M M, et al. An efffficient and lightweight predictive channel assignment scheme for multiband b5g- enabled massive iot: A deep learning approach[J]. IEEE Internet of Things Journal, 2021, 8 : 5285 - 5297.
[34] AREL I, LIU C, URBANIK T, et al. Reinforcement learning-based multi- agentsystem for network traffffic signal control[J]. Iet Intelligent Transport Systems, 2010, 4 : 128 - 135.
[35] GENDERS W, RAZAVI S N. Using a deep reinforcement learning agent for traffffic signal control[J]. ArXiv, 2016, abs/1611.01142.
[36] GENDERS W, RAZAVI S. Evaluating reinforcement learning state representations for adaptive traffffic signal control[J]. Procedia Computer Science, 2018, 130 : 26 - 33.
[37] GARG D, CHLI M, VOGIATZIS G. Deep reinforcement learning for autonomous traffffic light control[C/OL]//2018 3rd IEEE International Conference on Intelligent Transportation Engineering (ICITE) . 2018 : 214 - 218.
[38] NISHI T, OTAKI K, HAYAKAWA K, et al. Traffffic signal control based on reinforcement learning with graph convolutional neural nets[C/OL]//2018 21st International Conference on Intelligent Transportation Systems (ITSC) . 2018 : 877 - 883.
[39] GAO J, SHEN Y, LIU J, et al. Adaptive traffffic signal control: Deep reinforcement learning algorithm with experience replay and target network[J]. ArXiv, 2017, abs/1705.02755.
[40] CHOE C J, BAEK S, WOON B, et al. Deep q learning with lstm for traffffic light control[C/OL]//2018 24th Asia-Pacific Conference on Communications (APCC) . 2018 : 331 - 336.
[41] WAN C H, HWANG M C. Value-based deep reinforcement learning for adaptive isolated intersection signal control[J/OL]. IET Intelligent Transport Systems, 2018, 12 : 1005 - 1010.
[42] XU N, ZHENG G, XU K, et al. Targeted knowledge transfer for learning traffffic signal plans[C]//Pacific-Asia Conference on Knowledge Discovery and Data Mining. [S.l.: s.n.], 2019.
[43] JANG I, KIM D, LEE D, et al . An agent -based simulation model ing with deep reinforcement learning for smart traffffic signal control[C/OL]//2018 International Conference on Information and Com munication Technology Convergence (ICTC) . 2018 : 1028 - 1030.
[44] Nam Bui K H, JUNG J J. Cooperative game-theoretic approach to traffffic flow optimization for multiple intersections[J].Computers and Electrical Engineering, 2018, 71 : 1012 - 1024.
[45] ARAGON-GóMEZ R, CLEMPNER J B. Traffffic-signal control reinforcement learning approach for continuous-time markov games[J]. Engineering Applications of Artificial Intelligence, 2020, 89 : 103415.
[46] RUI T, CHAI L, SHANGGUAN W, et al. Multi mode travel recom mendation method for passengers at hub airport under the
constraint of public transport timetable[C]//2021 China Automation Congress (CAC) . [S.l.: s.n.], 2021 : 6106 - 6112.
[47] KYAMAKYA K, CHEDJOU J C, AL-MACHOT F, et al. Intelligent transportation related complex systems and sensors[J]. Sensors, 2021, 21 (6) .
[48] CLEMPNER J B, POZNYAK A S. Modeling the multi-traffffic signal- control synchronization: A markov chains game theory approach[J]. Engineering Applications of Artificial Intelligence, 2015, 43 : 147 - 156.
[49] ZHAO Y, LIANG Y, HU J, et al. Traffffic signal control for isolated intersection based on coordination game and pareto efffficiency[C]//2019 IEEE Intelligent Transportation Systems Conference (ITSC) . [S.l.: s.n.], 2019 : 3508 - 3513.
[50] ZHU Y, HE Z, LI G. A bi-hierarchical game-theoretic approach for network-wide traffffic signal control using trip-based data[J/OL]. IEEE Transactions on Intelligent Transportation Systems, 2022, 23 (9) : 15408 - 15419.
[51] CHEN C, WEI H, XU N, et al. Toward a thousand lights: Decentralized deep reinforcement learning for large-scale traffffic signal control[C]// AAAI 2020 - 34th AAAI Conference on Artificial Intelligence: AAAI 2020 - 34th AAAI Conference on Artificial Intelligence.
[S.l.]: AAAI press, 2020 : 3414 - 3421.
[52] BU ONIU L, BABU? KA R, DE SCHUTTER B. Multi- Agent Reinforcement Learning: An Overview[M]. Berlin, Heidelberg: Springer Berlin Heidelberg, 2010 : 183 - 221.
[53] GRONAUER S, DIEPOLD K. Multi-agent deep reinforcement learning: a survey[J]. Artificial Intelligence Review, 2021, 55 : 895 - 943.
[54] ABDOOS M. A Cooperative Multi agent system for traffffic signal control using game theory and reinforcement learning[J/OL].IEEE Intelligent Transportation Systems Magazine, 2021, 13 (4) : 6 - 16.
[55] GUO J, HARMATI I. Evaluating semi-cooperative nash/stackelberg q-learning for traffffic routes plan in a single intersection[J]. Control Engineering Practice, 2020, 102 : 104525.
[56] PAN Z, QU Z, CHEN Y, et al. A distributed assignment method for dy namic traffffic assignment using heterogeneous-adviser based multi-agent reinforcement learning[J/OL]. IEEE Access, 2020, 8 : 154237 - 154255.
[57] ZHANG Z, QIAN J, FANG C, et al . Coordinated control of distributed traffffic signal based on multi agent cooperative game[J/OL]. Wireless communications and mobile computing, 2021, 2021 : 1 - 13.
[58] CAMPONOGARA E, KRAUS W. Distributed learning agents in urban traffffic control[C]//PIRES F M, ABREU S. Progress in Artifi-cial Intelligence. Berlin, Heidelberg: Springer Berlin Heidelberg, 2003 : 324 - 335.
[59] DAEICHIAN A, HAGHANI A. Fuzzy q-learning-based multi-agent system for intelligent traffffic control by a game theory approach[J]. Arabian journal for science and engineering, 2018, 43 : 3241 - 3247.
[60] GU H, GUO X, WEI X, et al. Dynamic programming principles for meanfield controls with learning[J]. arXiv, 2019.
[61] CARMONA R, LAURIèRE M, TAN Z. Model-free mean-field re inforcement learning: Mean-field mdp and mean-field q-learning[J]. arXiv, 2019.
[62] LASRY J M, LIONS P L. Mean field games[J]. Japanese journal of mathematics, 2007, 2 (1) : 229 - 260.
[63] HUANG M, MALHAME R, CAINES P. Large population stochastic dynamic games: Closed-loop mckean-vlasov systems and the nash certainty equivalence principle[J]. Commun. Inf. Syst., 2006, 6.
[64] YANG J, YE X, TRIVEDI R, et al. Deep mean field games for learning optimal behavior policy of large populations[C]// International confer ence on learning representations. [S.l.: s.n.], 2018.
[65] GUO X, HU A, XU R, et al. Learning mean-field games[J]. In Advances in Neural Information Processing Systems, 2019: 4966-4976.
[66] ANAHTARCL B, KARIKSIZ C, SALDI N. Q-learning in regularized mean-field games[J]. arXiv, 2020.
[67] FU Z, YANG Z, CHEN Y, et al. Actorcritic provably finds nash equilibria of linear-quadratic mean-field games[J]. CoRR, 2019,abs/1910.07498.
[68] BLUME L E. The statistical mechanics of strategic interaction[J]. Games and Economic Behavior, 1993, 5 (3) : 387 - 424.
[69] STANLEY H. Phase transitions and critical phenomena[M]. [S.l.]: Oxford University Press, 1971.
[70] YANG Y, LUO R, LI M, et al. Mean Field Multi-Agent Reinforcement Learning[C]//Proceedings of Machine Learning Research: vol.80 Proceedings of the 35th International Conference on Machine Learning. 2018 : 5571 - 5580.
[71] HU S, LEUNG C W, LEUNG H F. Modelling the dynamics of multi agent q-learning in repeated symmetric games: A Mean Field The oretic Approach[M]. Curran Associates Inc., 2019.
[72] SUBRAMANIAN J, MAHAJAN A. Reinforcement learning in stationary mean-field games[C]//AAMAS '19: Proceedings of the 18th International Conference on Autonomous Agent s and Multi AgentSystems. [S.l.]: International Foundation for Autonomous Agent s and Multi Agent Systems, 2019 : 251 - 259.
[73] YANG K, GULER S, MENENDEZ M. Isolated intersection control for various levels of vehicle technology: Conventional, connected, and automated vehicles[J/OL]. Transportation Research Part C: Emerging Technologies, 2016, 72 : 109 - 129.
[74] LEE J, PARK B B, YUN I. Cumulative travel-time responsive real-time intersection control algorithm in the connected vehicle environment[J]. Journal of Transportation Engineering-asce, 2013, 139 : 1020 - 1029.
[75] GULER S I, MENéNDEZ M, MEIER L. Using connected vehicle technology to improve the efffficiency of intersections[J].Transportation Research Part C: emerging Technologies, 2014, 46 : 121 - 131.
[76] FENG Y, HEAD K L, KHOSHMAGHAM S, et al. A real-time adaptive signal control in a connected vehicle environment[J/OL]. Transportation Research Part C: Emerging Technologies, 2015, 55 : 460 - 473.
[77] LI W, BAN X. Connected vehicles based traffffic signal timing optimization[J/OL]. IEEE Transactions on Intelligent Transportation Systems, 2019, 20 (12) : 4354 - 4366.
[78] XU B, BAN X J, BIAN Y, et al. Cooperative method of traffffic signal optimization and speed control of connected vehicles at isolated intersections[J/OL]. IEEE Transactions on Intelligent Transportation Systems, 2019, 20 (4) : 1390 -1403.
[79] GUO Q, LI L, (Jeff) Ban X. Urban traffffic signal control with connected and automated vehicles: A survey[J/OL]. Transportation Research Part C: Emerging Technologies, 2019, 101 : 313 - 334.
[80] AHN K, RAKHA H A, PARK S. Ecodrive application: Algorithmic development and preliminary testing[J/OL]. Transportation Research Record, 2013, 2341 (1) : 1 - 11.
[81] WANG M, DAAMEN W, HOOGENDOORN S P, et al. Rolling horizon control framework for driver assistance systems. part i: Mathematical formulation and non-cooperative systems[J/OL]. Transportation Research Part C: Emerging Technologies, 2014, 40 : 271 - 289.
[82] WANG M, DAAMEN W, HOOGENDOORN S P, et al. Rolling horizon control framework for driver assistance systems. part ii: Cooperative sensing and cooperative control[J/OL]. Transportation Research Part C: Emerging Technologies, 2014, 40 : 290 - 311.
[83] ASADI B, VAHIDI A. Predictive cruise control: Utilizing upcoming traffffic signal information for improving fuel economy and reducing trip time[J/OL]. IEEE Transactions on Control Systems Technology, 2011, 19 (3) : 707 - 714.
[84] KAMAL M A S, MUKAI M, MURATA J, et al. Model predictive control of vehicles on urban roads for improved fuel economy[J/OL]. IEEE Transactions on Control Systems Technology, 2013, 21 (3) : 831 - 841.
[85] MAHLER G, VAHIDI A. An optimal velocity-planning scheme for vehicle energy efffficiency through probabilistic prediction of traffffic-signal timing[J/OL]. IEEE Transactions on Intelligent Transportation Sys- tems, 2014, 15 (6) : 2516 - 2523.
[86] OZATAY E, ONORI S, WOLLAEGER J, et al. Cloud-based velocity profile optimization for everyday driving: A dynamic programming- based solution[J/OL]. IEEE Transactions on Intelligent Transportation Systems, 2014, 15 (6) : 2491 - 2505.
[87] HE X, LIU H X, LIU X. Optimal vehicle speed trajectory on a signalized arterial with consideration of queue[J/OL]. Transportation Research Part C: Emerging Technologies, 2015, 61 : 106 - 120.
[88] WU X, HE X, YU G, et al. Energy-optimal speed control for electric vehicles on signalized arterials[J/OL]. IEEE Transactions on Intelligent Transportation Systems, 2015, 16 (5) : 2786 - 2796.
[89] OZATAY E, OZGUNER U, ONORI S, et al. Dynamic systems and control conference: Volume 1: Adaptive control; advanced vehicle propulsion systems; aerospace systems; autonomous systems; battery modeling; biochemical systems; control over networks; control systems design; cooperative and decentralized control; dynamic system modeling; dynamical modeling and diagnostics in biomedical systems; dynamics and control in medicine and biology; estimation and fault detection; estimation and fault detection for vehicle applications; fluid power systems; human assistive systems and wearable robots; human-in-the-loop systems; intelligent transportation systems; learning control analytical solution to the minimum fuel consumption optimization problem with the existence of a traffffic light[C]. [S.l.: s.n.], 2012 : 837 - 846.
[90] WAN N, VAHIDI A, LUCKOW A. Optimal speed advisory for con- nected vehicles in arterial roads and the impact on mixed traffffic[J]. Transportation Research Part C: Emerging Technologies, 2016, 69 : 548 - 563.
[91] ZHOU F, LI X P, MA J Q. Parsimonious shooting heuristic for trajectory design of connected automated traffic part I: Theoretical analysis with generalized time geography[J].Transportation Research Part B: Methodological, 2017, 95 : 394 - 420.
[92] LI Z, ELEFTERIADOU L, RANKA S. Signal control optimization for automated vehicles at isolated signalized intersections[J].Transporta- tion Research Part C: Emerging Technologies, 2014, 49 : 1 - 18.
[93] POURMEHRAB M, ELEFTERIADOU L, RANKA S, et al. Optimizing signalized intersections performance under conventional and automated vehicles traffffic[J/OL]. IEEE Transactions on Intelligent Transportation Systems, 2020, 21 (7) : 2864 - 2873.
[94] FENG Y, YU C, LIU H X. Spatiotemporal intersection control in a connected and automated vehicle environment[J/OL]. Transportation Research Part C: Emerging Technologies, 2018, 89 : 364 - 383.
[95] YU C, FENG Y, LIU H X, et al. Integrated optimization of traffffic signals and vehicle trajectories at isolated urban intersections[J/OL]. Transportation Research Part B: Methodological, 2018, 112 : 89 - 112.
[96] SOLEIMANIAMIRI S, GHIASI A, LI X, et al. An analytical optimization approach to the joint trajectory and signal optimization problem for connected automated vehicles[J/OL]. Transportation Research Part C: Emerging Technologies, 2020, 120 : 102759.
摘自《自動(dòng)化博覽》2022年12月刊