本發(fa)明涉(she)及(ji)(ji)自(zi)(zi)動(dong)駕(jia)駛(shi)技術,尤其是(shi)涉(she)及(ji)(ji)一種多車自(zi)(zi)動(dong)駕(jia)駛(shi)博(bo)弈協(xie)同定向規劃(hua)方(fang)法、裝置及(ji)(ji)介質。
背景技術:
1、自(zi)動駕(jia)駛汽(qi)(qi)車,又稱無(wu)人(ren)駕(jia)駛汽(qi)(qi)車、電(dian)腦駕(jia)駛汽(qi)(qi)車或輪式移動機器人(ren),它依(yi)靠人(ren)工智能、視覺(jue)計(ji)算、雷達(da)、監控裝置和(he)全球(qiu)定(ding)位(wei)系統協同(tong)合作,讓電(dian)腦可以在沒有人(ren)的(de)主動操(cao)作下實現(xian)車路協同(tong),自(zi)動安全地操(cao)作機動車輛。
2、現有的(de)(de)(de)基于強化學(xue)習(xi)的(de)(de)(de)多無人車(che)(che)自動(dong)(dong)駕(jia)(jia)駛定(ding)(ding)向(xiang)規劃(hua)算法通常是獨立的(de)(de)(de)多智能體(ti)強化學(xue)習(xi)算法,無人駕(jia)(jia)駛車(che)(che)輛獨立訓練,這類(lei)方法難以兼顧車(che)(che)輛間的(de)(de)(de)協作(zuo),導致車(che)(che)輛密度大(da)時通過路口的(de)(de)(de)效率(lv)降低。同時當前多無人車(che)(che)自動(dong)(dong)駕(jia)(jia)駛定(ding)(ding)向(xiang)規劃(hua)應用(yong)的(de)(de)(de)基于dqn的(de)(de)(de)強化學(xue)習(xi)算法只能輸出一個(ge)方向(xiang)盤和油門的(de)(de)(de)耦合(he)動(dong)(dong)作(zuo),導致預測(ce)精度較低,控(kong)制不穩定(ding)(ding)。
技術實現思路
1、本(ben)發明的目的就是為了克(ke)服上述現有技術存在的預(yu)測精度(du)低,通(tong)過效率(lv)低的缺陷(xian)而提供一種(zhong)多車(che)自動駕駛博弈協同(tong)定(ding)向規劃(hua)方法(fa)、裝置及介(jie)質。
2、本發(fa)明的目(mu)的可(ke)以通(tong)過以下技術方案來實現:
3、一(yi)種(zhong)多(duo)車(che)自動駕駛博弈(yi)協同定向(xiang)規(gui)劃(hua)方法(fa),包括以下(xia)步驟:
4、s1:將(jiang)(jiang)車隊按次序排列,第一輛(liang)車設(she)置為領導者(zhe),將(jiang)(jiang)后續車輛(liang)均(jun)設(she)置為跟隨(sui)者(zhe);
5、s2:將(jiang)環境狀態(tai)信(xin)息(xi)和車輛間的位置信(xin)息(xi)作(zuo)為(wei)狀態(tai)量輸(shu)入設(she)計(ji)的模糊深度網絡;
6、s3:通過模糊(hu)深(shen)度網絡(luo),根據環境狀(zhuang)(zhuang)態(tai)和貪心策略選擇(ze)領導者(zhe)的(de)(de)最優動(dong)作(zuo),根據領導者(zhe)、環境狀(zhuang)(zhuang)態(tai)和前(qian)序的(de)(de)跟隨(sui)者(zhe)依次選擇(ze)各(ge)個跟隨(sui)者(zhe)的(de)(de)最優動(dong)作(zuo),得到聯合狀(zhuang)(zhuang)態(tai)動(dong)作(zuo),計算此(ci)時的(de)(de)stackelberg均衡下(xia)的(de)(de)累(lei)計獎勵值,根據累(lei)計獎勵值更新模糊(hu)深(shen)度網絡(luo)的(de)(de)參數;
7、s4:車(che)隊按照聯合(he)狀態動作(zuo)前進,并(bing)轉移到下一(yi)時(shi)刻的狀態,重復迭(die)代s2-s3,直(zhi)到車(che)隊通過路口。
8、進一步地,stackelberg均(jun)衡的博弈公(gong)式為:
9、
10、式(shi)中,σi(·)為(wei)(wei)無人(ren)(ren)(ren)車i的(de)策略(lve)(lve),為(wei)(wei)其(qi)余無人(ren)(ren)(ren)車的(de)策略(lve)(lve),gi(·)為(wei)(wei)無人(ren)(ren)(ren)車i隨時間的(de)累積效用,s0為(wei)(wei)初始狀態。
11、進一步地,stackelberg均衡(heng)的的均衡(heng)條件(jian)為:
12、
13、式中,mk(·)表(biao)示智(zhi)能體k在(zai)聯合(he)動作下的回報函數。
14、進一步地(di),獎勵(li)(li)值為當所有車輛采取(qu)stackelberg均衡解時(shi)的(de)累(lei)積獎勵(li)(li)之和,計(ji)算表達式為:
15、
16、式中,(σ1,...,σn)表(biao)(biao)示stackelberg均衡(heng)策略,ri(s,a1,...,an)是狀態s下(xia)采取聯合(he)動作(a1,...,an)的(de)獎勵,vi(s',σ1,...,σn)表(biao)(biao)示在區(qu)間內每輛車都服(fu)從(cong)stackelberg均衡(heng)策略所(suo)得到的(de)累計獎勵和。
17、進一步地,迭代過程中,獎勵值的計(ji)算表達式為:
18、
19、式中,α為(wei)學(xue)習率,γ為(wei)衰(shuai)減率,是在(zai)狀(zhuang)態(tai)s'下所得到的stackelberg均衡(heng)值。
20、進(jin)一步地,聯合(he)動(dong)作的獎勵計算表達(da)式(shi)為:
21、
22、式中(zhong)(zhong),rt為(wei)(wei)時間步長t的(de)積分獎(jiang)勵,ξ∈[0,1]是平(ping)衡(heng)rt2和(he)rt3比例的(de)參數,rt2和(he)rt3分別代表水平(ping)方向(xiang)的(de)獎(jiang)勵和(he)豎直(zhi)方向(xiang)的(de)懲罰(fa),d為(wei)(wei)車輛中(zhong)(zhong)心(xin)與上一目標點(dian)的(de)距(ju)(ju)離(li),d0為(wei)(wei)相(xiang)鄰(lin)兩目標點(dian)間的(de)距(ju)(ju)離(li),t為(wei)(wei)相(xiang)鄰(lin)兩車中(zhong)(zhong)心(xin)點(dian)的(de)距(ju)(ju)離(li),t0為(wei)(wei)相(xiang)鄰(lin)兩車中(zhong)(zhong)心(xin)點(dian)的(de)期(qi)望距(ju)(ju)離(li)。
23、進一(yi)步地,最(zui)優動作包括轉向角動作空間和油門(men)動作空間。
24、進一步地,模(mo)糊深度網絡的(de)輸出為模(mo)糊變量,計(ji)算(suan)模(mo)糊變量的(de)平均值,得到轉向角(jiao)動作空(kong)間和油門動作空(kong)間的(de)數值,表達式為:
25、
26、式(shi)中,和分別為(wei)時間步長為(wei)t的(de)(de)轉角和油門(men)的(de)(de)最終輸出值,u(·)表示隸屬度函數,即對應運動命(ming)令的(de)(de)概(gai)率,ns和na分別表示舵角和油門(men)作用的(de)(de)最大隸屬度數。
27、本(ben)發明的(de)第二方(fang)面(mian),一種多(duo)車自(zi)動(dong)駕駛博弈(yi)(yi)協同(tong)定向規(gui)(gui)劃裝置,包括存儲器(qi)(qi)、處(chu)理器(qi)(qi),以及存儲于存儲器(qi)(qi)中的(de)程序,其特征在于,處(chu)理器(qi)(qi)執行程序時實現如上任一的(de)一種多(duo)車自(zi)動(dong)駕駛博弈(yi)(yi)協同(tong)定向規(gui)(gui)劃方(fang)法。
28、本(ben)發明的第(di)三方(fang)面(mian),一(yi)種存儲介質,其(qi)(qi)上存儲有(you)程序,其(qi)(qi)特征在(zai)于,程序被(bei)執行時實現如上任一(yi)的一(yi)種多車自動駕駛博弈(yi)協同定(ding)向規劃方(fang)法。
29、與現有(you)(you)技術相比,本發明具有(you)(you)以(yi)下有(you)(you)益效(xiao)果(guo):
30、1)本發明(ming)結(jie)合stakelberg博弈方法,將多無人(ren)車(che)(che)自動駕駛運動規劃問(wen)題建模(mo)為stakelberg博弈問(wen)題,將頭車(che)(che)作為領導者,其余(yu)車(che)(che)輛(liang)作為跟隨者根據環(huan)境狀態信息和車(che)(che)輛(liang)間(jian)的位置信息依次(ci)進行決策得到(dao)各自的最優(you)路徑,其均衡表現為所有(you)無人(ren)車(che)(che)采取合作策略,按照固(gu)定(ding)車(che)(che)距排(pai)隊通(tong)過(guo)路口,提高通(tong)過(guo)路口的效率(lv)。
31、2)本發明(ming)去模糊(hu)化的(de)(de)(de)方法引入到(dao)方法中(zhong),考(kao)慮(lv)方向角和油(you)門(men)兩個控制命令(ling),使(shi)用最后全連(lian)接(jie)層神(shen)經(jing)節(jie)點輸出的(de)(de)(de)五個模糊(hu)變(bian)量(liang)的(de)(de)(de)平均值(zhi)作(zuo)為時間步長(chang)t的(de)(de)(de)方向盤角度(du)和油(you)門(men)的(de)(de)(de)數(shu)值(zhi),實現方向盤和油(you)門(men)的(de)(de)(de)獨立輸出,降低(di)動(dong)作(zuo)空間的(de)(de)(de)維度(du),提高預(yu)測精(jing)度(du)。
32、3)本(ben)發明(ming)通過全局(ju)路徑提(ti)高訓練效率,將無人(ren)車的(de)(de)路徑劃分為多個(ge)離散的(de)(de)子目(mu)(mu)標點,以此來計算獎勵和更新狀態(tai)。當車輛(liang)到(dao)達一個(ge)子目(mu)(mu)標點時(shi),更新下一個(ge)子目(mu)(mu)標點作為狀態(tai)量輸入到(dao)神經網絡(luo)中,提(ti)升期望車道跟蹤(zong)的(de)(de)訓練效率。
1.一種多車(che)自動(dong)駕(jia)駛博弈(yi)協同定向規劃(hua)方法,其特征在(zai)于,包括以下(xia)步驟:
2.根(gen)據(ju)權(quan)利(li)要求1所述(shu)的一(yi)種多(duo)車自動駕駛博弈(yi)協同(tong)定向規劃方法,其特(te)征在于(yu),所述(shu)stackelberg均(jun)衡(heng)的博弈(yi)公式(shi)為:
3.根據(ju)權利要(yao)求2所(suo)(suo)述的一種多車自動駕駛博弈協同定向規劃方法,其特征在(zai)于,所(suo)(suo)述stackelberg均(jun)衡的的均(jun)衡條件(jian)為(wei):
4.根據權利要求1所(suo)述(shu)的(de)(de)一種多車自動駕(jia)駛博弈協同(tong)定向規劃方(fang)法,其(qi)特征在(zai)于,所(suo)述(shu)獎勵值為當所(suo)有車輛采取stackelberg均衡解時(shi)的(de)(de)累積獎勵之和,計算表(biao)達式為:
5.根(gen)據權利要求4所(suo)述的一種多車(che)自動(dong)駕駛博弈協同定向(xiang)規劃方(fang)法,其特征在于,所(suo)述迭代過程中,獎勵值的計(ji)算表達式為:
6.根據權利(li)要求4所述的(de)一種多車自動駕(jia)駛博弈協同(tong)定(ding)向規(gui)劃(hua)方法,其特征在于,所述聯合動作的(de)獎勵計算表達式為:
7.根據(ju)權(quan)利要(yao)求(qiu)1所述的一種多車自動(dong)(dong)駕駛博弈協(xie)同定(ding)向規劃方法,其特征在于,所述最優(you)動(dong)(dong)作(zuo)包括轉向角(jiao)動(dong)(dong)作(zuo)空間和(he)油門動(dong)(dong)作(zuo)空間。
8.根據權利(li)要求7所(suo)述(shu)的(de)一種多車(che)自動(dong)駕駛(shi)博弈(yi)協同定向(xiang)規(gui)劃方法,其特征(zheng)在(zai)于,所(suo)述(shu)模(mo)糊深度網絡的(de)輸出為(wei)模(mo)糊變(bian)量(liang),計算模(mo)糊變(bian)量(liang)的(de)平均值,得到轉(zhuan)向(xiang)角動(dong)作空(kong)間和油門(men)動(dong)作空(kong)間的(de)數(shu)值,表達式為(wei):
9.一(yi)(yi)種多(duo)車(che)自動駕駛博弈協同定向規劃裝置(zhi),包括存(cun)(cun)儲器(qi)、處理器(qi),以及存(cun)(cun)儲于所述(shu)存(cun)(cun)儲器(qi)中的(de)程序,其特征在于,所述(shu)處理器(qi)執行所述(shu)程序時實(shi)現如權(quan)利要(yao)求1-8中任(ren)一(yi)(yi)所述(shu)的(de)一(yi)(yi)種多(duo)車(che)自動駕駛博弈協同定向規劃方法。
10.一種存(cun)儲(chu)介質(zhi),其(qi)上存(cun)儲(chu)有程序,其(qi)特征在(zai)于,所(suo)述程序被執行時實(shi)現(xian)如權利要求1-8中任一所(suo)述的一種多車自動駕(jia)駛博弈協同定向規劃方法。