中文字幕无码日韩视频无码三区

一種多車自動駕駛博弈協同定向規劃方法、裝置及介質

文(wen)檔(dang)序號(hao):39560186發(fa)布日期:2024-09-30 13:32閱讀(du):68來源:國知局
一種多車自動駕駛博弈協同定向規劃方法、裝置及介質

本發(fa)明涉(she)及(ji)(ji)自(zi)(zi)動(dong)駕(jia)駛(shi)技術,尤其是(shi)涉(she)及(ji)(ji)一種多車自(zi)(zi)動(dong)駕(jia)駛(shi)博(bo)弈協(xie)同定向規劃(hua)方(fang)法、裝置及(ji)(ji)介質。


背景技術:

1、自(zi)動駕(jia)駛汽(qi)(qi)車,又稱無(wu)人(ren)駕(jia)駛汽(qi)(qi)車、電(dian)腦駕(jia)駛汽(qi)(qi)車或輪式移動機器人(ren),它依(yi)靠人(ren)工智能、視覺(jue)計(ji)算、雷達(da)、監控裝置和(he)全球(qiu)定(ding)位(wei)系統協同(tong)合作,讓電(dian)腦可以在沒有人(ren)的(de)主動操(cao)作下實現(xian)車路協同(tong),自(zi)動安全地操(cao)作機動車輛。

2、現有的(de)(de)(de)基于強化學(xue)習(xi)的(de)(de)(de)多無人車(che)(che)自動(dong)(dong)駕(jia)(jia)駛定(ding)(ding)向(xiang)規劃(hua)算法通常是獨立的(de)(de)(de)多智能體(ti)強化學(xue)習(xi)算法,無人駕(jia)(jia)駛車(che)(che)輛獨立訓練,這類(lei)方法難以兼顧車(che)(che)輛間的(de)(de)(de)協作(zuo),導致車(che)(che)輛密度大(da)時通過路口的(de)(de)(de)效率(lv)降低。同時當前多無人車(che)(che)自動(dong)(dong)駕(jia)(jia)駛定(ding)(ding)向(xiang)規劃(hua)應用(yong)的(de)(de)(de)基于dqn的(de)(de)(de)強化學(xue)習(xi)算法只能輸出一個(ge)方向(xiang)盤和油門的(de)(de)(de)耦合(he)動(dong)(dong)作(zuo),導致預測(ce)精度較低,控(kong)制不穩定(ding)(ding)。


技術實現思路

1、本(ben)發明的目的就是為了克(ke)服上述現有技術存在的預(yu)測精度(du)低,通(tong)過效率(lv)低的缺陷(xian)而提供一種(zhong)多車(che)自動駕駛博弈協同(tong)定(ding)向規劃(hua)方法(fa)、裝置及介(jie)質。

2、本發(fa)明的目(mu)的可(ke)以通(tong)過以下技術方案來實現:

3、一(yi)種(zhong)多(duo)車(che)自動駕駛博弈(yi)協同定向(xiang)規(gui)劃(hua)方法(fa),包括以下(xia)步驟:

4、s1:將(jiang)(jiang)車隊按次序排列,第一輛(liang)車設(she)置為領導者(zhe),將(jiang)(jiang)后續車輛(liang)均(jun)設(she)置為跟隨(sui)者(zhe);

5、s2:將(jiang)環境狀態(tai)信(xin)息(xi)和車輛間的位置信(xin)息(xi)作(zuo)為(wei)狀態(tai)量輸(shu)入設(she)計(ji)的模糊深度網絡;

6、s3:通過模糊(hu)深(shen)度網絡(luo),根據環境狀(zhuang)(zhuang)態(tai)和貪心策略選擇(ze)領導者(zhe)的(de)(de)最優動(dong)作(zuo),根據領導者(zhe)、環境狀(zhuang)(zhuang)態(tai)和前(qian)序的(de)(de)跟隨(sui)者(zhe)依次選擇(ze)各(ge)個跟隨(sui)者(zhe)的(de)(de)最優動(dong)作(zuo),得到聯合狀(zhuang)(zhuang)態(tai)動(dong)作(zuo),計算此(ci)時的(de)(de)stackelberg均衡下(xia)的(de)(de)累(lei)計獎勵值,根據累(lei)計獎勵值更新模糊(hu)深(shen)度網絡(luo)的(de)(de)參數;

7、s4:車(che)隊按照聯合(he)狀態動作(zuo)前進,并(bing)轉移到下一(yi)時(shi)刻的狀態,重復迭(die)代s2-s3,直(zhi)到車(che)隊通過路口。

8、進一步地,stackelberg均(jun)衡的博弈公(gong)式為:

9、

10、式(shi)中,σi(·)為(wei)(wei)無人(ren)(ren)(ren)車i的(de)策略(lve)(lve),為(wei)(wei)其(qi)余無人(ren)(ren)(ren)車的(de)策略(lve)(lve),gi(·)為(wei)(wei)無人(ren)(ren)(ren)車i隨時間的(de)累積效用,s0為(wei)(wei)初始狀態。

11、進一步地,stackelberg均衡(heng)的的均衡(heng)條件(jian)為:

12、

13、式中,mk(·)表(biao)示智(zhi)能體k在(zai)聯合(he)動作下的回報函數。

14、進一步地(di),獎勵(li)(li)值為當所有車輛采取(qu)stackelberg均衡解時(shi)的(de)累(lei)積獎勵(li)(li)之和,計(ji)算表達式為:

15、

16、式中,(σ1,...,σn)表(biao)(biao)示stackelberg均衡(heng)策略,ri(s,a1,...,an)是狀態s下(xia)采取聯合(he)動作(a1,...,an)的(de)獎勵,vi(s',σ1,...,σn)表(biao)(biao)示在區(qu)間內每輛車都服(fu)從(cong)stackelberg均衡(heng)策略所(suo)得到的(de)累計獎勵和。

17、進一步地,迭代過程中,獎勵值的計(ji)算表達式為:

18、

19、式中,α為(wei)學(xue)習率,γ為(wei)衰(shuai)減率,是在(zai)狀(zhuang)態(tai)s'下所得到的stackelberg均衡(heng)值。

20、進(jin)一步地,聯合(he)動(dong)作的獎勵計算表達(da)式(shi)為:

21、

22、式中(zhong)(zhong),rt為(wei)(wei)時間步長t的(de)積分獎(jiang)勵,ξ∈[0,1]是平(ping)衡(heng)rt2和(he)rt3比例的(de)參數,rt2和(he)rt3分別代表水平(ping)方向(xiang)的(de)獎(jiang)勵和(he)豎直(zhi)方向(xiang)的(de)懲罰(fa),d為(wei)(wei)車輛中(zhong)(zhong)心(xin)與上一目標點(dian)的(de)距(ju)(ju)離(li),d0為(wei)(wei)相(xiang)鄰(lin)兩目標點(dian)間的(de)距(ju)(ju)離(li),t為(wei)(wei)相(xiang)鄰(lin)兩車中(zhong)(zhong)心(xin)點(dian)的(de)距(ju)(ju)離(li),t0為(wei)(wei)相(xiang)鄰(lin)兩車中(zhong)(zhong)心(xin)點(dian)的(de)期(qi)望距(ju)(ju)離(li)。

23、進一(yi)步地,最(zui)優動作包括轉向角動作空間和油門(men)動作空間。

24、進一步地,模(mo)糊深度網絡的(de)輸出為模(mo)糊變量,計(ji)算(suan)模(mo)糊變量的(de)平均值,得到轉向角(jiao)動作空(kong)間和油門動作空(kong)間的(de)數值,表達式為:

25、

26、式(shi)中,和分別為(wei)時間步長為(wei)t的(de)(de)轉角和油門(men)的(de)(de)最終輸出值,u(·)表示隸屬度函數,即對應運動命(ming)令的(de)(de)概(gai)率,ns和na分別表示舵角和油門(men)作用的(de)(de)最大隸屬度數。

27、本(ben)發明的(de)第二方(fang)面(mian),一種多(duo)車自(zi)動(dong)駕駛博弈(yi)(yi)協同(tong)定向規(gui)(gui)劃裝置,包括存儲器(qi)(qi)、處(chu)理器(qi)(qi),以及存儲于存儲器(qi)(qi)中的(de)程序,其特征在于,處(chu)理器(qi)(qi)執行程序時實現如上任一的(de)一種多(duo)車自(zi)動(dong)駕駛博弈(yi)(yi)協同(tong)定向規(gui)(gui)劃方(fang)法。

28、本(ben)發明的第(di)三方(fang)面(mian),一(yi)種存儲介質,其(qi)(qi)上存儲有(you)程序,其(qi)(qi)特征在(zai)于,程序被(bei)執行時實現如上任一(yi)的一(yi)種多車自動駕駛博弈(yi)協同定(ding)向規劃方(fang)法。

29、與現有(you)(you)技術相比,本發明具有(you)(you)以(yi)下有(you)(you)益效(xiao)果(guo):

30、1)本發明(ming)結(jie)合stakelberg博弈方法,將多無人(ren)車(che)(che)自動駕駛運動規劃問(wen)題建模(mo)為stakelberg博弈問(wen)題,將頭車(che)(che)作為領導者,其余(yu)車(che)(che)輛(liang)作為跟隨者根據環(huan)境狀態信息和車(che)(che)輛(liang)間(jian)的位置信息依次(ci)進行決策得到(dao)各自的最優(you)路徑,其均衡表現為所有(you)無人(ren)車(che)(che)采取合作策略,按照固(gu)定(ding)車(che)(che)距排(pai)隊通(tong)過(guo)路口,提高通(tong)過(guo)路口的效率(lv)。

31、2)本發明(ming)去模糊(hu)化的(de)(de)(de)方法引入到(dao)方法中(zhong),考(kao)慮(lv)方向角和油(you)門(men)兩個控制命令(ling),使(shi)用最后全連(lian)接(jie)層神(shen)經(jing)節(jie)點輸出的(de)(de)(de)五個模糊(hu)變(bian)量(liang)的(de)(de)(de)平均值(zhi)作(zuo)為時間步長(chang)t的(de)(de)(de)方向盤角度(du)和油(you)門(men)的(de)(de)(de)數(shu)值(zhi),實現方向盤和油(you)門(men)的(de)(de)(de)獨立輸出,降低(di)動(dong)作(zuo)空間的(de)(de)(de)維度(du),提高預(yu)測精(jing)度(du)。

32、3)本(ben)發明(ming)通過全局(ju)路徑提(ti)高訓練效率,將無人(ren)車的(de)(de)路徑劃分為多個(ge)離散的(de)(de)子目(mu)(mu)標點,以此來計算獎勵和更新狀態(tai)。當車輛(liang)到(dao)達一個(ge)子目(mu)(mu)標點時(shi),更新下一個(ge)子目(mu)(mu)標點作為狀態(tai)量輸入到(dao)神經網絡(luo)中,提(ti)升期望車道跟蹤(zong)的(de)(de)訓練效率。



技術特征:

1.一種多車(che)自動(dong)駕(jia)駛博弈(yi)協同定向規劃(hua)方法,其特征在(zai)于,包括以下(xia)步驟:

2.根(gen)據(ju)權(quan)利(li)要求1所述(shu)的一(yi)種多(duo)車自動駕駛博弈(yi)協同(tong)定向規劃方法,其特(te)征在于(yu),所述(shu)stackelberg均(jun)衡(heng)的博弈(yi)公式(shi)為:

3.根據(ju)權利要(yao)求2所(suo)(suo)述的一種多車自動駕駛博弈協同定向規劃方法,其特征在(zai)于,所(suo)(suo)述stackelberg均(jun)衡的的均(jun)衡條件(jian)為(wei):

4.根據權利要求1所(suo)述(shu)的(de)(de)一種多車自動駕(jia)駛博弈協同(tong)定向規劃方(fang)法,其(qi)特征在(zai)于,所(suo)述(shu)獎勵值為當所(suo)有車輛采取stackelberg均衡解時(shi)的(de)(de)累積獎勵之和,計算表(biao)達式為:

5.根(gen)據權利要求4所(suo)述的一種多車(che)自動(dong)駕駛博弈協同定向(xiang)規劃方(fang)法,其特征在于,所(suo)述迭代過程中,獎勵值的計(ji)算表達式為:

6.根據權利(li)要求4所述的(de)一種多車自動駕(jia)駛博弈協同(tong)定(ding)向規(gui)劃(hua)方法,其特征在于,所述聯合動作的(de)獎勵計算表達式為:

7.根據(ju)權(quan)利要(yao)求(qiu)1所述的一種多車自動(dong)(dong)駕駛博弈協(xie)同定(ding)向規劃方法,其特征在于,所述最優(you)動(dong)(dong)作(zuo)包括轉向角(jiao)動(dong)(dong)作(zuo)空間和(he)油門動(dong)(dong)作(zuo)空間。

8.根據權利(li)要求7所(suo)述(shu)的(de)一種多車(che)自動(dong)駕駛(shi)博弈(yi)協同定向(xiang)規(gui)劃方法,其特征(zheng)在(zai)于,所(suo)述(shu)模(mo)糊深度網絡的(de)輸出為(wei)模(mo)糊變(bian)量(liang),計算模(mo)糊變(bian)量(liang)的(de)平均值,得到轉(zhuan)向(xiang)角動(dong)作空(kong)間和油門(men)動(dong)作空(kong)間的(de)數(shu)值,表達式為(wei):

9.一(yi)(yi)種多(duo)車(che)自動駕駛博弈協同定向規劃裝置(zhi),包括存(cun)(cun)儲器(qi)、處理器(qi),以及存(cun)(cun)儲于所述(shu)存(cun)(cun)儲器(qi)中的(de)程序,其特征在于,所述(shu)處理器(qi)執行所述(shu)程序時實(shi)現如權(quan)利要(yao)求1-8中任(ren)一(yi)(yi)所述(shu)的(de)一(yi)(yi)種多(duo)車(che)自動駕駛博弈協同定向規劃方法。

10.一種存(cun)儲(chu)介質(zhi),其(qi)上存(cun)儲(chu)有程序,其(qi)特征在(zai)于,所(suo)述程序被執行時實(shi)現(xian)如權利要求1-8中任一所(suo)述的一種多車自動駕(jia)駛博弈協同定向規劃方法。


技術總結
本發明涉及一種多車自動駕駛博弈協同定向規劃方法、裝置及介質,方法包括以下步驟:將車隊按次序排列,第一輛車設置為領導者,將后續車輛均設置為跟隨者;將環境狀態信息和車輛間的位置信息作為狀態量輸入設計的模糊深度網絡;通過模糊深度網絡,根據環境狀態和貪心策略選擇領導者的最優動作,根據領導者、環境狀態和前序的跟隨者依次選擇各個跟隨者的最優動作,得到聯合狀態動作,計算此時的Stackelberg均衡下的累計獎勵值,根據累計獎勵值更新模糊深度網絡的參數;車隊按照聯合狀態動作前進,并轉移到下一時刻的狀態,重復迭代,直到車隊通過路口。與現有技術相比,本發明具有通過效率高、預測精度高等優點。

技術研發人員:柳春,景冠博,徐梁,孟亦真,任肖強,修賢超,劉晗笑,汪小帆
受保護的技術使用者:上海大學
技術研發日:
技術公布日:2024/9/29
網友詢問(wen)留言(yan) 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1