本發明涉及計(ji)算(suan)機視覺的,特別是基于強化學習的自動(dong)駕(jia)駛(shi)車輛交互控制方法。
背景技術:
1、當(dang)今快(kuai)速發(fa)展的(de)(de)自動駕(jia)駛(shi)(shi)技術(shu)領(ling)域,無人(ren)駕(jia)駛(shi)(shi)汽車(che)的(de)(de)交(jiao)互(hu)控制已成為(wei)實(shi)現安全(quan)、高效交(jiao)通(tong)系統的(de)(de)關鍵技術(shu)挑(tiao)戰之一,研究人(ren)員和工(gong)程師(shi)們正在(zai)探(tan)索(suo)如何(he)通(tong)過高效的(de)(de)算法解決(jue)無人(ren)駕(jia)駛(shi)(shi)車(che)輛的(de)(de)交(jiao)互(hu)控制問題。由(you)于(yu)環境的(de)(de)復雜(za)性和交(jiao)通(tong)參(can)與者的(de)(de)多樣性,在(zai)復雜(za)多變的(de)(de)交(jiao)通(tong)場景下實(shi)現車(che)輛的(de)(de)交(jiao)互(hu)控制具有很大的(de)(de)挑(tiao)戰性。傳統方法通(tong)常依(yi)賴于(yu)事先定(ding)義的(de)(de)規則,這些規則難以(yi)適應(ying)各種不同的(de)(de)駕(jia)駛(shi)(shi)場景,因(yin)此,基于(yu)規則的(de)(de)方法在(zai)實(shi)際應(ying)用中(zhong)受到了(le)限制。隨(sui)著人(ren)工(gong)智能(artificial?intelligence,ai)技術(shu)的(de)(de)進(jin)步,尤其是機器學(xue)(xue)(xue)習和深(shen)度(du)學(xue)(xue)(xue)習的(de)(de)發(fa)展,基于(yu)深(shen)度(du)強化學(xue)(xue)(xue)習的(de)(de)方法為(wei)解決(jue)自動駕(jia)駛(shi)(shi)車(che)輛的(de)(de)交(jiao)互(hu)控制問題提供了(le)新的(de)(de)思路。
2、深度強化學(xue)(xue)習(xi)(xi)是一種(zhong)結合(he)了深度學(xue)(xue)習(xi)(xi)和強化學(xue)(xue)習(xi)(xi)(的技術(shu)。它利用深度神經網絡的學(xue)(xue)習(xi)(xi)能力來(lai)理(li)解復(fu)雜的、高維(wei)度的輸入數據(如圖像、視(shi)頻等),并通過(guo)強化學(xue)(xue)習(xi)(xi)的方法來(lai)指導如何根據這些(xie)輸入做出決策(ce)以達到某個目(mu)標。常見的深度強化學(xue)(xue)習(xi)(xi)算法有深度q網絡、演員-評論家、深度確定(ding)性(xing)策(ce)略梯度等。
3、然而,當深(shen)度強化學習(xi)的狀態空間連(lian)續(xu)或足夠大時,其存在的一個問題是探索效率低,通常情況下,強化學習(xi)需要(yao)大量的試錯和(he)交(jiao)互(hu)來學習(xi)最佳策略,導(dao)致其學習(xi)速度慢,且很難(nan)學習(xi)到(dao)表現性能(neng)良好的策略。
4、申請公開號為(wei)cn116394968a的(de)中(zhong)國發明(ming)專利申請公開了(le)(le)一種基于多智(zhi)能(neng)體(ti)強(qiang)化學習的(de)自動(dong)駕駛(shi)車(che)輛控(kong)制方(fang)法(fa),首(shou)先考慮(lv)乘客(ke)的(de)個(ge)性化需求,為(wei)avs制定不同的(de)駕駛(shi)風格,用(yong)于后(hou)(hou)續決策建模(mo)過程中(zhong)。利用(yong)聯盟博弈和v2v通(tong)信,以(yi)每個(ge)網聯自動(dong)駕駛(shi)車(che)輛cav為(wei)中(zhong)心(xin)劃分多智(zhi)能(neng)體(ti)系統,從而構建合作決策區域(yu)。然后(hou)(hou),基于模(mo)型預測控(kong)制中(zhong)的(de)滾動(dong)時(shi)域(yu),構建了(le)(le)一個(ge)深度強(qiang)化學習決策框架,以(yi)實(shi)現(xian)cav在合作區域(yu)里的(de)運動(dong)決策。該(gai)方(fang)法(fa)的(de)缺點(dian)是需要(yao)事先采集人(ren)類的(de)駕駛(shi)數據(ju),并且在訓練過程中(zhong)需要(yao)人(ren)類駕駛(shi)員實(shi)時(shi)參與,這可能(neng)需要(yao)耗費一定的(de)人(ren)力資源。
技術實現思路
1、為了(le)(le)解決上(shang)述的技術(shu)問(wen)題,本(ben)發明提出了(le)(le)基于強化學(xue)習(xi)(xi)(xi)的自動駕駛(shi)車(che)輛(liang)交互控制方法,將監督學(xue)習(xi)(xi)(xi)和深度強化學(xue)習(xi)(xi)(xi)相(xiang)結合并在學(xue)習(xi)(xi)(xi)樣本(ben)中加入(ru)了(le)(le)人類(lei)(lei)駕駛(shi)經驗,學(xue)習(xi)(xi)(xi)過(guo)程中利用了(le)(le)人類(lei)(lei)駕駛(shi)經驗使無人駕駛(shi)車(che)輛(liang)學(xue)習(xi)(xi)(xi)最優策略(lve),同(tong)(tong)時(shi)采(cai)用自適應平衡采(cai)樣方法,使自動駕駛(shi)車(che)輛(liang)在不(bu)同(tong)(tong)學(xue)習(xi)(xi)(xi)階段自動調(diao)整自我探索經驗和人類(lei)(lei)駕駛(shi)經驗的采(cai)樣占比,并針(zhen)對不(bu)同(tong)(tong)評判(pan)指標設計(ji)了(le)(le)獎勵函數,進一步引導自動駕駛(shi)車(che)輛(liang)更好地(di)學(xue)習(xi)(xi)(xi)交互控制策略(lve)。
2、本發明提供基于強化學習的自動(dong)駕(jia)駛車輛交互(hu)控(kong)制方法,包(bao)括獲取用于模型訓練的數據,還(huan)包(bao)括以下(xia)步驟:
3、步驟1:進行決策網絡(luo)的預(yu)訓練;
4、步驟(zou)2:制(zhi)定強化學(xue)習的獎勵函數(shu);
5、步驟(zou)3:強化學習模型(xing)訓練(lian);
6、步(bu)驟4:進行學習模型測試,驗證(zheng)訓練效果;
7、步驟5:將(jiang)測試完成的模(mo)型應用于自(zi)動駕駛車輛的交互控制系(xi)統中。
8、優(you)選的是,所述(shu)用于模型(xing)訓練(lian)的數(shu)據(ju)包括自動駕駛(shi)車輛的自我探(tan)索經驗和(he)人類駕駛(shi)經驗。
9、在上述(shu)任一方案中優選的是,所述(shu)自(zi)動(dong)駕駛車輛的自(zi)我(wo)探索經驗表示為其中,st為當(dang)(dang)前(qian)外界環(huan)境狀態(tai)(tai),為最終被自(zi)動(dong)駕駛車輛執(zhi)行的駕駛動(dong)作,rt為當(dang)(dang)前(qian)獎勵,st+1為下(xia)一時刻外界環(huan)境狀態(tai)(tai)。
10、在上述(shu)任一方案中優選的(de)是,所述(shu)人類(lei)駕駛經驗表示為(wei)(st,at,rt,st+1),其中,at為(wei)當前執行的(de)動作。
11、在(zai)(zai)上述(shu)(shu)任一方案(an)中優選的(de)(de)是,所(suo)述(shu)(shu)人類駕(jia)駛(shi)經驗的(de)(de)獲取方法為人類駕(jia)駛(shi)員通過(guo)觀(guan)察外界(jie)環(huan)境狀(zhuang)態st,然后(hou)執行相應的(de)(de)動(dong)(dong)作at,環(huan)境過(guo)渡到下一狀(zhuang)態st+1,并反饋在(zai)(zai)狀(zhuang)態st下執行動(dong)(dong)作at后(hou)對應的(de)(de)獎(jiang)勵(li)rt,然后(hou)又(you)從狀(zhuang)態st+1出發并不斷重復上述(shu)(shu)步驟,收集超過(guo)數量閾值的(de)(de)人類駕(jia)駛(shi)經驗,其中,at包括方向(xiang)盤轉角大(da)小(xiao)和油門/剎車(che)值。
12、在上述任一方(fang)案中優選的是(shi),所述決策網絡使(shi)用人(ren)類駕駛經驗(yan)(st,at,rt,st+1)中的狀(zhuang)態(tai)st作(zuo)為(wei)訓(xun)練數(shu)據,at為(wei)對應狀(zhuang)態(tai)st的標簽對決策網絡進(jin)行預訓(xun)練。
13、在上述任(ren)一方案中優選的(de)是,所(suo)述當前執(zhi)行的(de)動作at由(you)二元組表示,每個值的(de)取值范圍都是-1到1;
14、表示(shi)(shi)車輛(liang)方向盤轉(zhuan)角,小(xiao)于0表示(shi)(shi)左(zuo)轉(zhuan),大于0表示(shi)(shi)右轉(zhuan),等(deng)于0表示(shi)(shi)處于回正狀(zhuang)態(tai),方向盤既不右偏(pian)也不左(zuo)偏(pian);
15、表(biao)示(shi)油(you)門(men)(men)和(he)剎(cha)(cha)(cha)車(che),小于(yu)0表(biao)示(shi)剎(cha)(cha)(cha)車(che),大(da)于(yu)0表(biao)示(shi)油(you)門(men)(men),等(deng)于(yu)0代表(biao)油(you)門(men)(men)和(he)剎(cha)(cha)(cha)車(che)都是(shi)空(kong)載(zai)狀態,即(ji)既不踩(cai)油(you)門(men)(men)也不踩(cai)剎(cha)(cha)(cha)車(che)。
16、在上述任一(yi)方案中優選的(de)是(shi),在所述預訓練的(de)過(guo)程中神經(jing)網絡(luo)更新的(de)損失函數為(wei)
17、
18、其中(zhong),i=1或(huo)2,θ為決(jue)策(ce)網絡的參數,表(biao)示(shi)由決(jue)策(ce)網絡輸出的動作的第i個(ge)分(fen)(fen)量,則(ze)表(biao)示(shi)人類(lei)駕(jia)駛經驗中(zhong)動作的第i分(fen)(fen)量,n表(biao)示(shi)駕(jia)駛動作的分(fen)(fen)量數量。
19、在上述(shu)任一(yi)方案(an)中優選的(de)是,所述(shu)預訓練完(wan)成(cheng)后保存損(sun)失(shi)函(han)數最小的(de)一(yi)組參數。
20、在(zai)上述任一方(fang)案中優選(xuan)的是,所(suo)述步驟2包括基(ji)于自動駕(jia)駛(shi)車輛的駕(jia)駛(shi)安全性、行(xing)駛(shi)效率和舒適性,制定獎勵(li)函數rt,公式為
21、rt=rspeed+rcollision+rmindis+racc+rclosse
22、其中,rspeed表示(shi)行(xing)駛效率(lv),rcollision表示(shi)車(che)(che)(che)輛是否發生碰撞的(de)(de)(de)參數(shu)(shu),rmindis表示(shi)與周圍(wei)車(che)(che)(che)輛的(de)(de)(de)最小(xiao)距離,racc為舒(shu)適性衡(heng)量(liang)參數(shu)(shu),rclosse為判斷自動(dong)駕(jia)駛車(che)(che)(che)輛是否在向目的(de)(de)(de)地靠(kao)近的(de)(de)(de)衡(heng)量(liang)參數(shu)(shu)。
23、在上述(shu)任一方案中優選的是,所述(shu)行駛(shi)效率rspeed的計算(suan)公式為(wei)
24、
25、其中,vcar為(wei)車輛行駛速度(du),
26、當車(che)輛行駛(shi)速度低于5m/s時,所述行駛(shi)效率rspeed為負值(zhi);
27、當車輛行(xing)駛速(su)度大于(yu)5m/s且小于(yu)等于(yu)10m/s時,所述行(xing)駛效率rspeed為正(zheng)值;
28、當車輛行(xing)駛速度大于10m/s時,所述行(xing)駛效率(lv)rspeed為負值。
29、在上述任(ren)一(yi)方案(an)中優選的是(shi),所(suo)述車輛(liang)是(shi)否發生(sheng)碰撞的參數rcollision的計算公(gong)式為(wei)
30、
31、當車輛在(zai)行駛(shi)過程中發(fa)生碰(peng)撞時,rcollision值(zhi)為(wei)-1000,未發(fa)生碰(peng)撞時的rcollision為(wei)1。
32、在上述任一方(fang)案中優選(xuan)的(de)是,所述與周圍車輛的(de)最小距離rmindis的(de)計算公式為
33、rmindis=dmin-5
34、其(qi)中,dmin表(biao)示自動駕駛(shi)車輛(liang)中心距離(li)與周(zhou)圍其(qi)他車輛(liang)的(de)最小(xiao)距離(li),當最小(xiao)距離(li)dmin小(xiao)于5米時,所述與周(zhou)圍車輛(liang)的(de)最小(xiao)距離(li)rmindis為負(fu)值;
35、當(dang)最小距(ju)離(li)dmin等于5米時,所述與(yu)周圍車(che)輛的最小距(ju)離(li)rmindis為0;
36、當最小距離(li)dmin大(da)于5米時,所述(shu)與周圍車(che)輛的最小距離(li)rmindis為正值。在上述(shu)任(ren)一方(fang)案中優選(xuan)的是,所述(shu)舒適性(xing)衡量參數racc的計算公式為
37、racc=min(0,2-|acc|)
38、其(qi)中,acc用(yong)于表示自動(dong)駕駛車輛的加速度,
39、當自動駕駛車輛的加速度acc的絕對(dui)值大于(yu)2時,所述舒適性衡量參數(shu)racc為負值;
40、當(dang)自(zi)動駕駛車輛的(de)(de)加速度acc的(de)(de)絕(jue)對值小(xiao)于(yu)等于(yu)2時,所述舒適性(xing)衡量參數racc為0。
41、在上述(shu)任一方案中優選的(de)是(shi),所述(shu)判斷自動駕駛車(che)輛是(shi)否在向目的(de)地靠近的(de)衡量參(can)數(shu)rclosse的(de)計算公式(shi)為(wei)
42、rclosse=distancet-distancet-1
43、其中,distancet表示(shi)當前時刻自(zi)動(dong)駕(jia)駛車輛(liang)距(ju)離(li)(li)目標(biao)位(wei)置(zhi)的(de)距(ju)離(li)(li),distancet-1表示(shi)上一時刻自(zi)動(dong)駕(jia)駛車輛(liang)距(ju)離(li)(li)目標(biao)位(wei)置(zhi)的(de)距(ju)離(li)(li);
44、當自(zi)動駕駛車輛向目(mu)標位置靠(kao)近時,所(suo)述判斷自(zi)動駕駛車輛是否(fou)在向目(mu)的(de)地靠(kao)近的(de)衡量參(can)數rclosse為(wei)正值,
45、當(dang)自動駕(jia)駛(shi)車(che)(che)輛(liang)在(zai)遠(yuan)離目(mu)標位置時,所述判斷自動駕(jia)駛(shi)車(che)(che)輛(liang)是否在(zai)向(xiang)目(mu)的(de)地靠近的(de)衡(heng)量參數rclosse為負值。
46、在上述任一方案(an)中優(you)選的是,評判網(wang)(wang)絡(luo)(luo)包括(kuo)target網(wang)(wang)絡(luo)(luo)和value網(wang)(wang)絡(luo)(luo),兩個網(wang)(wang)絡(luo)(luo)的架(jia)構完(wan)全一致,所(suo)述value網(wang)(wang)絡(luo)(luo)的參(can)數每(mei)(mei)學習一次就進(jin)行(xing)一次參(can)數更新,所(suo)述target網(wang)(wang)絡(luo)(luo)的參(can)數是每(mei)(mei)當所(suo)述value網(wang)(wang)絡(luo)(luo)進(jin)行(xing)固定次數學習后的復制版(ban)。
47、在上述(shu)(shu)任一方案中優選的是,所述(shu)(shu)步驟(zou)3包括以下子步驟(zou):
48、步驟31:加載之前保(bao)存的已經完成(cheng)預訓練的決策網(wang)(wang)絡,所述target網(wang)(wang)絡和(he)所述value網(wang)(wang)絡的參數則(ze)使用默(mo)認方式初始化;
49、步驟32:自動(dong)駕駛車(che)輛觀察當前的環境狀(zhuang)態st,通過特征提取和融合作為所述決策網絡輸(shu)入;
50、步驟33:所(suo)述決(jue)策網絡(luo)根據(ju)輸(shu)(shu)入的(de)特征向量輸(shu)(shu)出(chu)相(xiang)應的(de)動(dong)(dong)(dong)作(zuo)在(zai)訓練過程(cheng)中(zhong)引(yin)入實(shi)時(shi)人(ren)類指導(dao)對學習過程(cheng)進行(xing)(xing)監督,即在(zai)輸(shu)(shu)出(chu)動(dong)(dong)(dong)作(zuo)的(de)同(tong)時(shi),人(ren)類駕駛(shi)員也同(tong)時(shi)根據(ju)所(suo)觀察(cha)到的(de)狀態輸(shu)(shu)出(chu)對應的(de)動(dong)(dong)(dong)作(zuo)所(suo)述最終被自動(dong)(dong)(dong)駕駛(shi)車輛執(zhi)行(xing)(xing)的(de)駕駛(shi)動(dong)(dong)(dong)作(zuo)是動(dong)(dong)(dong)作(zuo)和動(dong)(dong)(dong)作(zuo)的(de)加權求和;
51、步(bu)驟34:自(zi)(zi)動駕(jia)駛(shi)車輛執(zhi)行(xing)所(suo)述最終被自(zi)(zi)動駕(jia)駛(shi)車輛執(zhi)行(xing)的(de)駕(jia)駛(shi)動作環境根據這個動作過渡(du)到(dao)新的(de)狀態st+1,并通過獎勵函(han)數給出相應的(de)獎勵rt;
52、步驟35:自(zi)動駕駛車輛(liang)完(wan)成一(yi)次與環境交(jiao)互后(hou),便能獲得一(yi)條(tiao)自(zi)我(wo)探索(suo)(suo)經(jing)驗(yan)并將其存儲在(zai)經(jing)驗(yan)池中,當收集到足夠多的自(zi)我(wo)探索(suo)(suo)經(jing)驗(yan)時,便能進行決策網(wang)(wang)絡(luo)和評判網(wang)(wang)絡(luo)的學習和參(can)數更新。
53、在(zai)上述(shu)任一方案中優(you)選的(de)是(shi),所述(shu)最終被自(zi)動駕(jia)駛車輛執行的(de)駕(jia)駛動作的(de)計算(suan)公式為
54、
55、其中,為人(ren)類駕(jia)駛經驗的(de)平(ping)均獎(jiang)勵值,rt-1為上一時(shi)刻的(de)獎(jiang)勵,為動作(zuo)的(de)權重。
56、在上述任一方案(an)中優選的(de)是,所述步驟35包括當收(shou)集(ji)到超(chao)過數量閾值的(de)自我探索經驗時,進行(xing)決策網絡和(he)評判網絡的(de)學習和(he)參數更新。
57、在上(shang)述任一方案中優選的(de)是,所(suo)述決(jue)策(ce)網(wang)絡的(de)學習(xi)(xi)數(shu)據(ju)(ju)即為(wei)所(suo)述用于模型訓練的(de)數(shu)據(ju)(ju),其采樣學習(xi)(xi)的(de)公式為(wei)
58、b=(p~dh)∪(1-p~de)
59、其中,b表(biao)示(shi)一個(ge)批次的學習樣本,p表(biao)示(shi)在本批次學習樣本中人類(lei)駕駛(shi)經驗dh所占的比例,de則表(biao)示(shi)自動駕駛(shi)車輛的探索經驗。
60、在上述任一(yi)方案中(zhong)優(you)選的(de)是,所述比例p的(de)計(ji)算公式為
61、
62、其中,rt表示自(zi)動駕駛(shi)車輛探索時的當前獎勵,為(wei)人類駕駛(shi)經驗的平均(jun)獎勵值,p的最小(xiao)值為(wei)0,最大值為(wei)1。
63、在上述任(ren)一方案(an)中優選的(de)(de)是,當自動駕駛車輛的(de)(de)平(ping)均獎(jiang)勵超過提(ti)升(sheng)閾值時,學習樣本中的(de)(de)自我探索經驗占比則進行相應的(de)(de)提(ti)升(sheng),損失函數的(de)(de)計(ji)算公式為
64、
65、其中,表示數(shu)學期望,表示用于value網(wang)絡(luo)(luo)學習的(de)數(shu)據樣(yang)本,γ為(wei)衰減因子,和(he)分別是value網(wang)絡(luo)(luo)和(he)target網(wang)絡(luo)(luo)的(de)參數(shu),μ(st+1;θ′)是決策(ce)網(wang)絡(luo)(luo)確定的(de)下(xia)一(yi)狀(zhuang)態st+1下(xia)的(de)動作(zuo),是target網(wang)絡(luo)(luo)對下(xia)一(yi)狀(zhuang)態和(he)下(xia)一(yi)動作(zuo)的(de)價(jia)值估(gu)計(ji),是value網(wang)絡(luo)(luo)對當前狀(zhuang)態和(he)動作(zuo)的(de)價(jia)值估(gu)計(ji)。
66、在上述任一方案中優選的(de)是,當(dang)value網(wang)(wang)絡(luo)(luo)完成一定次數的(de)學習后,將(jiang)value網(wang)(wang)絡(luo)(luo)的(de)參數完全賦(fu)值給target網(wang)(wang)絡(luo)(luo),此時決策(ce)網(wang)(wang)絡(luo)(luo)的(de)損失函(han)數是target網(wang)(wang)絡(luo)(luo)評(ping)估的(de)當(dang)前策(ce)略產生的(de)動作價值的(de)負(fu)值,即:
67、
68、其(qi)中,μ(st;θ)μ是決策(ce)網絡確定狀態(tai)st下的動作(zuo)at,是給(gei)定狀態(tai)和動作(zuo)下的動作(zuo)價值。
69、本(ben)(ben)發明(ming)提出了基于強化(hua)學(xue)(xue)習(xi)(xi)(xi)的(de)(de)自(zi)動(dong)駕(jia)駛(shi)(shi)車輛交互(hu)控(kong)制方法,通過(guo)一個(ge)創新性的(de)(de)交互(hu)控(kong)制策略,結合(he)監督學(xue)(xue)習(xi)(xi)(xi)以及深度強化(hua)學(xue)(xue)習(xi)(xi)(xi)中的(de)(de)演員-評論家模型并在學(xue)(xue)習(xi)(xi)(xi)樣本(ben)(ben)中引入人類(lei)駕(jia)駛(shi)(shi)經(jing)驗,提升了無(wu)人駕(jia)駛(shi)(shi)汽(qi)車的(de)(de)決策能力、安全性及適應性。