中文字幕无码日韩视频无码三区

一種基于自適應MADDPG的星群規避自主決策方法

文檔序號(hao):39426381發(fa)布(bu)日期(qi):2024-09-20 22:22閱讀:46來源:國(guo)知局
一種基于自適應MADDPG的星群規避自主決策方法

本發明屬于航天器任務規劃(hua),具體(ti)涉及(ji)一種基于自(zi)適應maddpg的星群規避自(zi)主決策方法。


背景技術:

1、隨著發射數量和(he)(he)故(gu)障報廢數量的增(zeng)長(chang),空間(jian)軌(gui)道日益(yi)飽和(he)(he),非合作目標碰(peng)撞風險(xian)日益(yi)增(zeng)加,空間(jian)在軌(gui)服(fu)務場景日益(yi)復雜,因此(ci)有必要(yao)(yao)研(yan)究航天器根據任(ren)務需(xu)要(yao)(yao)與環境感(gan)知實時對(dui)目標抵近威脅進行規避(bi)的自主決策方法。

2、由(you)(you)于(yu)空(kong)(kong)間(jian)環(huan)境極為(wei)復雜且具有非(fei)(fei)線性(xing)、高(gao)動態、不確(que)定等特征,且星(xing)群執行的(de)(de)(de)復雜太空(kong)(kong)任務(wu)需(xu)(xu)要考慮(lv)群體的(de)(de)(de)協同性(xing)、通(tong)信(xin)鏈路(lu)約束(shu)與規劃(hua)的(de)(de)(de)時效性(xing),在進行對空(kong)(kong)間(jian)非(fei)(fei)合作目(mu)標的(de)(de)(de)自主(zhu)規避時還需(xu)(xu)要滿足距(ju)離、通(tong)信(xin)關系等復雜約束(shu)。現有的(de)(de)(de)貝葉斯網絡(luo)、遺傳算(suan)法(fa)、粒子(zi)群算(suan)法(fa)等理論難(nan)以處理其高(gao)復雜度的(de)(de)(de)決(jue)(jue)策問題,且現有的(de)(de)(de)航(hang)天(tian)器任務(wu)規劃(hua)技術一般應(ying)用(yong)于(yu)單一航(hang)天(tian)器或(huo)少(shao)量編隊航(hang)天(tian)器,難(nan)以應(ying)用(yong)于(yu)由(you)(you)大量衛星(xing)組成的(de)(de)(de)星(xing)群,因此需(xu)(xu)要提出(chu)以人工智能(neng)為(wei)基礎的(de)(de)(de)智能(neng)決(jue)(jue)策方法(fa)。近幾年maddpg算(suan)法(fa)已經在多(duo)無(wu)人機的(de)(de)(de)協同任務(wu)決(jue)(jue)策、路(lu)徑規劃(hua)、協同圍捕等任務(wu)中(zhong)有所應(ying)用(yong),但是目(mu)前在航(hang)天(tian)器集群規避空(kong)(kong)間(jian)非(fei)(fei)合作目(mu)標威脅問題中(zhong)的(de)(de)(de)應(ying)用(yong)仍為(wei)空(kong)(kong)白。

3、因(yin)此,設計(ji)一(yi)種(zhong)基于自適應(ying)maddpg的(de)星(xing)(xing)群(qun)規(gui)避(bi)自主(zhu)決策(ce)(ce)方法,針對當前環境自適應(ying)選(xuan)取自主(zhu)決策(ce)(ce)網絡,實(shi)現(xian)星(xing)(xing)群(qun)對多種(zhong)空間非(fei)合(he)作(zuo)目標威脅的(de)自主(zhu)規(gui)避(bi),并(bing)滿足星(xing)(xing)群(qun)任務執行過程中的(de)復雜約(yue)束(shu),從而提(ti)升星(xing)(xing)群(qun)應(ying)對未知威脅的(de)自主(zhu)決策(ce)(ce)能(neng)力(li),加快規(gui)避(bi)策(ce)(ce)略的(de)求解速(su)度。


技術實現思路

1、本發明(ming)提供(gong)了(le)一(yi)種基(ji)于自適應maddpg的星群(qun)規(gui)避自主決(jue)策方法,解決(jue)了(le)現(xian)有(you)算法難以處理的由大量衛星組成的星群(qun)對非合作目標抵近威脅(xie)進(jin)行規(gui)避時(shi)產生的高復雜度的決(jue)策問題。

2、為(wei)了(le)解決上述技(ji)術問(wen)題(ti),本發明的(de)技(ji)術方案為(wei):一(yi)種(zhong)基于自適應maddpg的(de)星群規避(bi)自主決策方法,包(bao)括(kuo)以(yi)下(xia)步驟:

3、s1、基于t-h方程(cheng)和博(bo)弈論,建立脈沖式(shi)星(xing)群(qun)對空間非合作目標規避任務模(mo)型;

4、s2、基于脈沖式(shi)星(xing)群對(dui)空間非合作(zuo)目標(biao)規避任務模型(xing),根據非合作(zuo)目標(biao)威(wei)脅與(yu)星(xing)群約(yue)束特點,設計星(xing)群威(wei)脅規避自主決(jue)策的獎勵函數;

5、s3、構建威脅(xie)場景預(yu)(yu)測神經網絡(luo)(luo),并通(tong)過(guo)非合作目(mu)標與星群信息對威脅(xie)場景預(yu)(yu)測神經網絡(luo)(luo)進(jin)行訓練;

6、s4、基于獎勵(li)函數(shu),構建星群威脅規避自(zi)主(zhu)決策網絡;

7、s5、基于maddpg算法(fa),訓練不(bu)同威脅場景下的星群(qun)威脅規避自主決(jue)策網絡;

8、s6、將(jiang)非合作目(mu)標與星(xing)群(qun)信息輸入至(zhi)訓練后的(de)威(wei)脅(xie)場(chang)景預(yu)測神經(jing)網(wang)絡中,得到當(dang)前威(wei)脅(xie)場(chang)景,并選擇對應威(wei)脅(xie)場(chang)景下(xia)訓練的(de)星(xing)群(qun)威(wei)脅(xie)規避自(zi)主(zhu)(zhu)決(jue)策(ce)網(wang)絡,進(jin)行星(xing)群(qun)規避的(de)自(zi)主(zhu)(zhu)決(jue)策(ce);

9、所述s4中星群威脅規避(bi)自主決策(ce)網絡(luo)包括actor網絡(luo)、critic網絡(luo)、target_actor網絡(luo)和target_critic網絡(luo);

10、所(suo)述actor網(wang)絡的(de)輸入(ru)為當前(qian)時(shi)刻(ke)的(de)全(quan)局狀態信息,輸出(chu)為當前(qian)時(shi)刻(ke)的(de)動(dong)作;所(suo)述critic網(wang)絡的(de)輸入(ru)為當前(qian)時(shi)刻(ke)的(de)全(quan)局狀態信息,輸出(chu)為當前(qian)時(shi)刻(ke)的(de)動(dong)作的(de)評分(fen);

11、所述target_actor網絡(luo)的(de)輸(shu)入為(wei)下(xia)(xia)一(yi)時(shi)刻的(de)全局狀(zhuang)態(tai)(tai)信(xin)息(xi),輸(shu)出(chu)為(wei)下(xia)(xia)一(yi)時(shi)刻的(de)動作(zuo);所述target_critic網絡(luo)的(de)輸(shu)入為(wei)下(xia)(xia)一(yi)時(shi)刻的(de)全局狀(zhuang)態(tai)(tai)信(xin)息(xi),輸(shu)出(chu)為(wei)下(xia)(xia)一(yi)時(shi)刻的(de)動作(zuo)的(de)評分;

12、所(suo)(suo)述(shu)(shu)(shu)critic網(wang)絡(luo)(luo)通過評分構建critic_loss函(han)數;所(suo)(suo)述(shu)(shu)(shu)critic網(wang)絡(luo)(luo)通過critic_loss函(han)數優(you)化自身的(de)網(wang)絡(luo)(luo)參數;所(suo)(suo)述(shu)(shu)(shu)actor網(wang)絡(luo)(luo)通過評分構建actor_loss函(han)數,并通過actor_loss函(han)數計算累(lei)(lei)計期(qi)望獎(jiang)勵的(de)梯度(du);所(suo)(suo)述(shu)(shu)(shu)actor網(wang)絡(luo)(luo)通過累(lei)(lei)計期(qi)望獎(jiang)勵的(de)梯度(du)優(you)化自身的(de)網(wang)絡(luo)(luo)參數。

13、進一步(bu)地,所(suo)述s1的具體(ti)步(bu)驟為:

14、s11、定義lvlh坐標系(xi);

15、s12、基于有量綱的(de)(de)t-h方(fang)程(cheng)(cheng),在(zai)lvlh坐標系下(xia)構建星(xing)群與非合作(zuo)目(mu)標的(de)(de)相對運動的(de)(de)離散化狀(zhuang)態方(fang)程(cheng)(cheng);

16、s13、根據相對運(yun)動的(de)離散化狀(zhuang)(zhuang)態方程(cheng),得到星(xing)群中的(de)衛(wei)星(xing)運(yun)動狀(zhuang)(zhuang)態和空(kong)間非合作(zuo)目標的(de)運(yun)動狀(zhuang)(zhuang)態;

17、s14、根據星群中(zhong)的衛星運動(dong)(dong)狀(zhuang)態(tai)和空(kong)間非(fei)合作目(mu)標的運動(dong)(dong)狀(zhuang)態(tai),構建脈沖式星群對空(kong)間非(fei)合作目(mu)標規避(bi)任(ren)務模(mo)型。

18、進(jin)一步(bu)地,所述(shu)s12的具體(ti)步(bu)驟為:

19、s121、基于有量綱的t-h方程(cheng),在lvlh坐標系(xi)下構建(jian)星群(qun)與非合作目(mu)標的相對運(yun)動線(xian)性模型;

20、s122、將相對運(yun)動線(xian)性模(mo)型表示(shi)為狀態空間形式表示(shi);

21、s123、對(dui)狀態空間(jian)形(xing)式(shi)表示(shi)進行離散化(hua)處理(li),并對(dui)衛(wei)星(xing)采用脈(mo)沖速度增量控制(zhi),得到相(xiang)對(dui)運(yun)動(dong)的離散化(hua)狀態方程。

22、進一(yi)步地,所述s121中相對運動線性模(mo)型的表達式為:

23、

24、

25、其中,、和(he)(he)(he)分(fen)(fen)別(bie)表(biao)示(shi)橫坐(zuo)標(biao)、縱坐(zuo)標(biao)和(he)(he)(he)豎(shu)坐(zuo)標(biao),表(biao)示(shi)與偏心率和(he)(he)(he)真近(jin)點有(you)關的(de)(de)(de)第一(yi)參數,表(biao)示(shi)主星(xing)的(de)(de)(de)軌道偏心率,表(biao)示(shi)真近(jin)點角,、、和(he)(he)(he)分(fen)(fen)別(bie)表(biao)示(shi)、、和(he)(he)(he)對的(de)(de)(de)一(yi)階(jie)偏導,、、和(he)(he)(he)分(fen)(fen)別(bie)表(biao)示(shi)、、和(he)(he)(he)對的(de)(de)(de)二階(jie)偏導,、和(he)(he)(he)分(fen)(fen)別(bie)表(biao)示(shi)、和(he)(he)(he)方向的(de)(de)(de)控制量,、和(he)(he)(he)分(fen)(fen)別(bie)表(biao)示(shi)、和(he)(he)(he)方向受到(dao)的(de)(de)(de)擾(rao)動;

26、所述(shu)s122中狀態空間(jian)形式表示的表達(da)式為:

27、

28、

29、

30、

31、其中,表(biao)示(shi)(shi)(shi)狀(zhuang)態(tai)向量關于真近點角的一階(jie)導數,表(biao)示(shi)(shi)(shi)系統(tong)的狀(zhuang)態(tai)矩(ju)陣,表(biao)示(shi)(shi)(shi)狀(zhuang)態(tai)向量,表(biao)示(shi)(shi)(shi)控制矩(ju)陣,表(biao)示(shi)(shi)(shi)干擾矩(ju)陣,表(biao)示(shi)(shi)(shi)控制加速度,表(biao)示(shi)(shi)(shi)干擾加速度,表(biao)示(shi)(shi)(shi)的轉置;

32、所(suo)述s123中相(xiang)對運動的(de)離散化狀態方程的(de)表達式為:

33、

34、其(qi)中,表(biao)示(shi)(shi)(shi)時(shi)域下(xia)時(shi)刻(ke)(ke)的(de)狀態(tai)量(liang),表(biao)示(shi)(shi)(shi)時(shi)域下(xia)時(shi)刻(ke)(ke)的(de)狀態(tai)量(liang),表(biao)示(shi)(shi)(shi)時(shi)刻(ke)(ke)到時(shi)刻(ke)(ke)的(de)狀態(tai)轉移矩(ju)(ju)陣,表(biao)示(shi)(shi)(shi)對(dui)應的(de)脈(mo)沖(chong)速度(du)轉移矩(ju)(ju)陣,表(biao)示(shi)(shi)(shi)時(shi)刻(ke)(ke)的(de)脈(mo)沖(chong)速度(du)增量(liang),表(biao)示(shi)(shi)(shi)衛(wei)星在時(shi)刻(ke)(ke)到時(shi)刻(ke)(ke)之內受到擾動量(liang)的(de)累加值,表(biao)示(shi)(shi)(shi)序列數(shu);

35、所述s13中星群中的(de)衛星運動狀態和空間非合作目標的(de)運動狀態的(de)表達式為:

36、

37、

38、

39、

40、其中,表(biao)(biao)示(shi)時(shi)刻星(xing)(xing)(xing)群(qun)中衛(wei)(wei)星(xing)(xing)(xing)的(de)運動狀(zhuang)(zhuang)態,表(biao)(biao)示(shi)時(shi)刻空(kong)間非合(he)作(zuo)目(mu)標(biao)的(de)運動狀(zhuang)(zhuang)態,、和(he)(he)分(fen)(fen)(fen)別(bie)表(biao)(biao)示(shi)星(xing)(xing)(xing)群(qun)中衛(wei)(wei)星(xing)(xing)(xing)的(de)位置在(zai)、、方向上的(de)分(fen)(fen)(fen)量(liang),、和(he)(he)分(fen)(fen)(fen)別(bie)表(biao)(biao)示(shi)星(xing)(xing)(xing)群(qun)中衛(wei)(wei)星(xing)(xing)(xing)在(zai)、、方向上速度分(fen)(fen)(fen)量(liang),、和(he)(he)分(fen)(fen)(fen)別(bie)表(biao)(biao)示(shi)非合(he)作(zuo)目(mu)標(biao)的(de)位置在(zai)、、方向上的(de)分(fen)(fen)(fen)量(liang),、和(he)(he)分(fen)(fen)(fen)別(bie)表(biao)(biao)示(shi)非合(he)作(zuo)目(mu)標(biao)在(zai)、、方向上速度分(fen)(fen)(fen)量(liang),表(biao)(biao)示(shi)衛(wei)(wei)星(xing)(xing)(xing)的(de)數量(liang),表(biao)(biao)示(shi)空(kong)間非合(he)作(zuo)目(mu)標(biao)的(de)數量(liang);

41、所述s14中脈(mo)沖式星群(qun)對空間非合作(zuo)目標規避任務(wu)模型中最大脈(mo)沖速度增(zeng)量的約束條件(jian)為:

42、

43、其中,表示星(xing)群(qun)中衛星(xing)能產生(sheng)的(de)最大脈沖(chong)速度增(zeng)量(liang)大小,表示取(qu)范數(shu),表示該時刻下星(xing)群(qun)中衛星(xing)產生(sheng)的(de)脈沖(chong)速度增(zeng)量(liang);

44、所(suo)述s14中(zhong)脈沖(chong)式星(xing)群(qun)對空間非合作目(mu)標規(gui)避任務模型(xing)中(zhong)星(xing)群(qun)的期望目(mu)標函數為(wei):

45、

46、其中,表(biao)示(shi)(shi)星群(qun)(qun)的期望目(mu)標函(han)數,表(biao)示(shi)(shi)取最小值,表(biao)示(shi)(shi)星群(qun)(qun)中衛星的位(wei)置,表(biao)示(shi)(shi)非(fei)合作目(mu)標的位(wei)置。

47、進(jin)一步地,所(suo)述s2中星群威脅(xie)規避自主決策的獎勵(li)函數的表達式為:

48、

49、其(qi)中,表示該(gai)(gai)次(ci)(ci)行動(dong)后星(xing)(xing)(xing)群(qun)(qun)中該(gai)(gai)衛(wei)(wei)(wei)星(xing)(xing)(xing)的獎(jiang)勵值;為(wei)非合作目標是(shi)否(fou)(fou)對該(gai)(gai)衛(wei)(wei)(wei)星(xing)(xing)(xing)構成威脅(xie)項(xiang);為(wei)該(gai)(gai)衛(wei)(wei)(wei)星(xing)(xing)(xing)是(shi)否(fou)(fou)與(yu)星(xing)(xing)(xing)群(qun)(qun)中其(qi)他(ta)衛(wei)(wei)(wei)星(xing)(xing)(xing)發生碰撞(zhuang)項(xiang);為(wei)該(gai)(gai)衛(wei)(wei)(wei)星(xing)(xing)(xing)是(shi)否(fou)(fou)滿(man)足與(yu)星(xing)(xing)(xing)群(qun)(qun)中其(qi)他(ta)衛(wei)(wei)(wei)星(xing)(xing)(xing)的通信要求項(xiang);為(wei)該(gai)(gai)衛(wei)(wei)(wei)星(xing)(xing)(xing)是(shi)否(fou)(fou)與(yu)其(qi)他(ta)衛(wei)(wei)(wei)星(xing)(xing)(xing)構成星(xing)(xing)(xing)群(qun)(qun)項(xiang);為(wei)該(gai)(gai)衛(wei)(wei)(wei)星(xing)(xing)(xing)與(yu)非合作目標間距(ju)離(li)的引(yin)導(dao)(dao)性(xing)獎(jiang)勵項(xiang);為(wei)該(gai)(gai)衛(wei)(wei)(wei)星(xing)(xing)(xing)與(yu)星(xing)(xing)(xing)群(qun)(qun)中其(qi)他(ta)衛(wei)(wei)(wei)星(xing)(xing)(xing)距(ju)離(li)的引(yin)導(dao)(dao)性(xing)獎(jiang)勵項(xiang);為(wei)該(gai)(gai)次(ci)(ci)行動(dong)燃料消耗項(xiang)。

50、進(jin)一步地,所述s3中威脅(xie)場(chang)景(jing)預測神(shen)經(jing)網絡的輸入為(wei)(wei)非合作目標(biao)與星(xing)(xing)群(qun)信息,輸出為(wei)(wei)當前(qian)星(xing)(xing)群(qun)所處(chu)的威脅(xie)場(chang)景(jing);

51、所述s3中(zhong)非合作目(mu)標(biao)與星(xing)群(qun)信息包括非合作目(mu)標(biao)的(de)威脅數目(mu)與威脅類(lei)型,以及(ji)星(xing)群(qun)中(zhong)衛星(xing)的(de)數目(mu)、性能(neng)和任(ren)務。

52、進一步地,所述critic_loss函數(shu)的(de)表(biao)達(da)式(shi)為:

53、

54、其中,表(biao)(biao)(biao)(biao)示critic_loss函數,表(biao)(biao)(biao)(biao)示在(zai)條件下的(de)(de)期望值(zhi),表(biao)(biao)(biao)(biao)示該動(dong)作下衛(wei)星(xing)的(de)(de)獎勵(li)值(zhi),表(biao)(biao)(biao)(biao)示當(dang)前時刻衛(wei)星(xing)的(de)(de)值(zhi)函數,表(biao)(biao)(biao)(biao)示下一時刻衛(wei)星(xing)的(de)(de)值(zhi)函數,表(biao)(biao)(biao)(biao)示衛(wei)星(xing)的(de)(de)獎勵(li)值(zhi),表(biao)(biao)(biao)(biao)示折扣因(yin)子(zi),表(biao)(biao)(biao)(biao)示衛(wei)星(xing)的(de)(de)網絡因(yin)子(zi);

55、所述(shu)累(lei)計(ji)期望獎(jiang)勵的梯度的表(biao)達式為:

56、

57、

58、其中,表(biao)(biao)(biao)(biao)(biao)(biao)示(shi)(shi)(shi)各(ge)衛(wei)(wei)(wei)(wei)星(xing)(xing)(xing)(xing)的(de)(de)(de)累積(ji)期(qi)望獎(jiang)勵,表(biao)(biao)(biao)(biao)(biao)(biao)示(shi)(shi)(shi)各(ge)衛(wei)(wei)(wei)(wei)星(xing)(xing)(xing)(xing)的(de)(de)(de)累積(ji)期(qi)望獎(jiang)勵的(de)(de)(de)梯(ti)度,表(biao)(biao)(biao)(biao)(biao)(biao)示(shi)(shi)(shi)的(de)(de)(de)期(qi)望值(zhi),表(biao)(biao)(biao)(biao)(biao)(biao)示(shi)(shi)(shi)衛(wei)(wei)(wei)(wei)星(xing)(xing)(xing)(xing)的(de)(de)(de)獎(jiang)勵值(zhi)的(de)(de)(de)總和,表(biao)(biao)(biao)(biao)(biao)(biao)示(shi)(shi)(shi)在(zai)條(tiao)件下的(de)(de)(de)期(qi)望值(zhi),表(biao)(biao)(biao)(biao)(biao)(biao)示(shi)(shi)(shi)采取(qu)(qu)該(gai)策(ce)(ce)略(lve)下衛(wei)(wei)(wei)(wei)星(xing)(xing)(xing)(xing)所有可能的(de)(de)(de)狀(zhuang)態(tai)(tai)(tai)集合(he),表(biao)(biao)(biao)(biao)(biao)(biao)示(shi)(shi)(shi)網(wang)絡(luo)因(yin)子為時衛(wei)(wei)(wei)(wei)星(xing)(xing)(xing)(xing)采取(qu)(qu)的(de)(de)(de)策(ce)(ce)略(lve),表(biao)(biao)(biao)(biao)(biao)(biao)示(shi)(shi)(shi)序列數(shu)(shu),表(biao)(biao)(biao)(biao)(biao)(biao)示(shi)(shi)(shi)衛(wei)(wei)(wei)(wei)星(xing)(xing)(xing)(xing)的(de)(de)(de)狀(zhuang)態(tai)(tai)(tai)信(xin)息(xi),表(biao)(biao)(biao)(biao)(biao)(biao)示(shi)(shi)(shi)衛(wei)(wei)(wei)(wei)星(xing)(xing)(xing)(xing)的(de)(de)(de)網(wang)絡(luo)因(yin)子,表(biao)(biao)(biao)(biao)(biao)(biao)示(shi)(shi)(shi)關于的(de)(de)(de)梯(ti)度,表(biao)(biao)(biao)(biao)(biao)(biao)示(shi)(shi)(shi)衛(wei)(wei)(wei)(wei)星(xing)(xing)(xing)(xing)在(zai)動作(zuo)與觀測狀(zhuang)態(tai)(tai)(tai)下采取(qu)(qu)的(de)(de)(de)策(ce)(ce)略(lve),表(biao)(biao)(biao)(biao)(biao)(biao)示(shi)(shi)(shi)該(gai)狀(zhuang)態(tai)(tai)(tai)下每個(ge)衛(wei)(wei)(wei)(wei)星(xing)(xing)(xing)(xing)分別采取(qu)(qu)動作(zuo)時的(de)(de)(de)值(zhi)函數(shu)(shu),表(biao)(biao)(biao)(biao)(biao)(biao)示(shi)(shi)(shi)全局狀(zhuang)態(tai)(tai)(tai)信(xin)息(xi),表(biao)(biao)(biao)(biao)(biao)(biao)示(shi)(shi)(shi)衛(wei)(wei)(wei)(wei)星(xing)(xing)(xing)(xing)的(de)(de)(de)當前時刻動作(zuo),,表(biao)(biao)(biao)(biao)(biao)(biao)示(shi)(shi)(shi)衛(wei)(wei)(wei)(wei)星(xing)(xing)(xing)(xing)的(de)(de)(de)數(shu)(shu)量。

59、進一步(bu)地(di),所述s5的具體步(bu)驟為(wei):

60、s51、初始化威脅場景下對(dui)應的星群(qun)與(yu)非合作目標的動力(li)學(xue)環境(jing);

61、s52、從動力學環境中獲取當前時刻的(de)全(quan)局狀態(tai)信息(xi);

62、s53、將全(quan)局狀態(tai)信息輸入至actor網(wang)絡中(zhong),得到各(ge)衛星(xing)需要(yao)執行的動作;

63、s54、使各衛(wei)星在動力學環境(jing)中執行各自的動作,得到(dao)各衛(wei)星下一時(shi)刻(ke)的位置與速度;

64、s55、基(ji)于各衛(wei)星下一時刻(ke)的(de)(de)位置與速度,計(ji)算(suan)(suan)各衛(wei)星之間(jian)的(de)(de)相對位置與速度,即下一時刻(ke)的(de)(de)全局(ju)狀態信息,并通(tong)過獎勵函數(shu)計(ji)算(suan)(suan)各衛(wei)星的(de)(de)獎勵值;

65、s56、將當前(qian)時刻(ke)的全(quan)局(ju)狀態信(xin)息、動作、獎(jiang)勵值和(he)下(xia)一時刻(ke)的全(quan)局(ju)狀態信(xin)息組成(cheng)樣本數據<,,,>存入經驗池(chi);

66、s57、基于脈沖式星群(qun)對空間非合作目標(biao)規避任務(wu)模型,判斷星群(qun)規避任務(wu)是(shi)否失敗,若是(shi),則終止本輪(lun)訓練回(hui)合,返回(hui)s52,否則進入(ru)s58;

67、s58、通過(guo)經(jing)驗池中的數(shu)據更新actor網絡和critic網絡的網絡參(can)數(shu);

68、s59、判斷是否達到(dao)最大訓(xun)(xun)練(lian)回合數,若是,則(ze)終(zhong)止(zhi)訓(xun)(xun)練(lian),保(bao)存網(wang)絡參數,完成不同威脅場景下的(de)星(xing)群威脅規避自(zi)主決策網(wang)絡的(de)訓(xun)(xun)練(lian),否則(ze),返(fan)回s52,進入下一(yi)輪訓(xun)(xun)練(lian)。

69、進一步地,所述s57中(zhong)星群規(gui)避任務(wu)的(de)失敗條件為(wei)滿足星群規(gui)避失敗公式(shi)中(zhong)的(de)任一公式(shi);

70、所述星(xing)群規避失敗公式為:

71、

72、

73、

74、

75、其中,表(biao)示(shi)(shi)(shi)(shi)(shi)(shi)星(xing)群(qun)中衛(wei)星(xing)的(de)位置(zhi),表(biao)示(shi)(shi)(shi)(shi)(shi)(shi)非合(he)作目標(biao)的(de)位置(zhi),表(biao)示(shi)(shi)(shi)(shi)(shi)(shi)取(qu)(qu)范數,表(biao)示(shi)(shi)(shi)(shi)(shi)(shi)取(qu)(qu)最小值(zhi),表(biao)示(shi)(shi)(shi)(shi)(shi)(shi)威(wei)脅距離(li)閾值(zhi),表(biao)示(shi)(shi)(shi)(shi)(shi)(shi)星(xing)群(qun)中衛(wei)星(xing)的(de)位置(zhi),表(biao)示(shi)(shi)(shi)(shi)(shi)(shi)最大通信距離(li),表(biao)示(shi)(shi)(shi)(shi)(shi)(shi)星(xing)群(qun)中衛(wei)星(xing)的(de)碰撞距離(li),表(biao)示(shi)(shi)(shi)(shi)(shi)(shi)構成星(xing)群(qun)的(de)最大距離(li)。

76、本發明的有益效果是:(1)基于自適應(ying)maddpg算法(fa)設(she)計(ji)決(jue)策方(fang)法(fa),使其能(neng)應(ying)用于星群(qun)任務,并根據我方(fang)星群(qun)中衛星的狀態與要應(ying)對的威脅(xie)種類等條件自適應(ying)改變(bian)神經網絡結構,并通過分布(bu)式執行減輕(qing)衛星之(zhi)間的通信負擔;

77、(2)本發明(ming)所(suo)設計的決(jue)策方法(fa),在(zai)地面訓練(lian)神(shen)經網絡,再將訓練(lian)好的神(shen)經網絡裝載在(zai)衛星上(shang),減小星載計算機(ji)算力負(fu)擔,加(jia)快決(jue)策速度;

78、(3)本發明基(ji)于(yu)t-h方(fang)程(cheng)(cheng)建立星群與非(fei)合作目標的相對運(yun)動動力學模型,得到離(li)散(san)化的狀態方(fang)程(cheng)(cheng),更適(shi)用于(yu)工程(cheng)(cheng)實際,便于(yu)求解脈(mo)沖(chong)推力控(kong)制問(wen)題;

79、(4)設計獎勵函(han)數計算獎勵值,考慮了(le)星群(qun)間(jian)通信距(ju)離約束和(he)星群(qun)之間(jian)安全距(ju)離的約束,從而(er)避(bi)免由于距(ju)離過近空間(jian)目標可能(neng)采取軌道機動(dong)等行(xing)動(dong)對航天器(qi)構(gou)成威脅,提(ti)高了(le)網絡的正確性,適合應用(yong)于航天器(qi)集群(qun)問題;

80、(4)通過(guo)(guo)target_actor網(wang)絡和target_critic網(wang)絡使整個訓(xun)練過(guo)(guo)程中(zhong)參(can)數更(geng)新更(geng)加(jia)平穩(wen),避免出(chu)現過(guo)(guo)估計使訓(xun)練結果發散。

當前第1頁1 2 
網友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1