本發(fa)明涉及人工智能技術,尤其涉及一種基(ji)于自適應策略調整的卡牌類游(you)戲深度學習訓(xun)練方法及系統(tong)。
背景技術:
1、近年(nian)來,智(zhi)能決策已成為人工智(zhi)能研究的重(zhong)(zhong)要(yao)方(fang)向,眾多高效的算法和(he)ai系統應運而生。其(qi)中,處理(li)非(fei)完美(mei)信息(xi)博弈尤為困難,因為這(zhe)涉及到決策過程中的不確定性和(he)多重(zhong)(zhong)復雜性。卡牌類游戲因其(qi)典型的非(fei)完美(mei)信息(xi)特點,以及清晰直觀的狀態動作和(he)游戲規則,已成為研究這(zhe)類博弈的主要(yao)平(ping)臺。
2、當(dang)前非完美信息(xi)博弈(yi)問(wen)題(ti)求(qiu)(qiu)解(jie)方(fang)法(fa)(fa)主(zhu)要包(bao)括博弈(yi)均衡求(qiu)(qiu)解(jie)類(lei)(lei)方(fang)法(fa)(fa)和深(shen)度(du)(du)強化(hua)(hua)學習類(lei)(lei)方(fang)法(fa)(fa),二者(zhe)針對(dui)(dui)不同的(de)(de)(de)(de)具體(ti)場景各有(you)優劣(lie),當(dang)前有(you)許多頂(ding)級卡牌(pai)(pai)類(lei)(lei)游(you)戲(xi)(xi)ai是基(ji)于這些(xie)算(suan)法(fa)(fa)設(she)計的(de)(de)(de)(de)。對(dui)(dui)于具有(you)復雜(za)狀(zhuang)態空(kong)間(jian)的(de)(de)(de)(de)卡牌(pai)(pai)類(lei)(lei)游(you)戲(xi)(xi),往往使用(yong)深(shen)度(du)(du)強化(hua)(hua)學習類(lei)(lei)算(suan)法(fa)(fa)進行(xing)離線(xian)自(zi)博弈(yi)訓(xun)練(lian)(lian),得到較優的(de)(de)(de)(de)策(ce)(ce)略(lve),然后(hou)在(zai)在(zai)線(xian)對(dui)(dui)抗(kang)階(jie)段用(yong)該策(ce)(ce)略(lve)進行(xing)決策(ce)(ce)。深(shen)度(du)(du)蒙(meng)特卡洛(dmc)方(fang)法(fa)(fa)是卡牌(pai)(pai)類(lei)(lei)游(you)戲(xi)(xi)中常用(yong)的(de)(de)(de)(de)訓(xun)練(lian)(lian)方(fang)法(fa)(fa),然而其(qi)存在(zai)一些(xie)問(wen)題(ti)。一方(fang)面(mian),由于dmc采用(yong)自(zi)博弈(yi)的(de)(de)(de)(de)方(fang)式(shi),訓(xun)練(lian)(lian)初期(qi)的(de)(de)(de)(de)q值(zhi)不穩定(ding),因此對(dui)(dui)策(ce)(ce)略(lve)的(de)(de)(de)(de)選擇會(hui)產生誤導,訓(xun)練(lian)(lian)速(su)度(du)(du)慢;另一方(fang)面(mian),dmc難(nan)以把控狀(zhuang)態動(dong)(dong)作之間(jian)的(de)(de)(de)(de)相似(si)性,對(dui)(dui)于大量的(de)(de)(de)(de)狀(zhuang)態動(dong)(dong)作對(dui)(dui),都需要不斷采樣學習,這也會(hui)導致收(shou)斂緩慢,訓(xun)練(lian)(lian)速(su)度(du)(du)慢。
技術實現思路
1、針對現(xian)有(you)技(ji)術存在(zai)的問(wen)題,本發(fa)明(ming)的目的是提供一(yi)種(zhong)訓(xun)練速度更(geng)快(kuai)的基于自適應策略調整的卡牌(pai)類游(you)戲深(shen)度學習訓(xun)練方(fang)法(fa)及系統。
2、為(wei)了實現上(shang)述發(fa)(fa)明(ming)目(mu)的(de),本發(fa)(fa)明(ming)所述的(de)基于自適應(ying)策(ce)略調整的(de)卡牌類游戲深度學習訓練方法,包(bao)括(kuo)如下步驟(zou):
3、步驟(zou)1:采用(yong)價值神經(jing)網絡構建卡牌類游(you)戲(xi)的(de)策(ce)略(lve)(lve)基(ji)本模型,所述策(ce)略(lve)(lve)基(ji)本模型用(yong)于(yu)預測卡牌類游(you)戲(xi)中每一游(you)戲(xi)狀(zhuang)態下執(zhi)行每一游(you)戲(xi)動作的(de)獎(jiang)勵(li)值;
4、步驟2:獲(huo)取卡牌(pai)類游戲(xi)的(de)經(jing)(jing)驗(yan)(yan)知識,所述經(jing)(jing)驗(yan)(yan)知識為在每一(yi)游戲(xi)狀態下(xia)執行(xing)的(de)游戲(xi)動作(zuo)中獎(jiang)勵值(zhi)最(zui)大的(de)狀態動作(zuo)對的(de)集合;
5、步驟3:建立(li)自(zi)適(shi)應(ying)經驗(yan)(yan)知識(shi)融合(he)正則項計(ji)算規則,所(suo)述自(zi)適(shi)應(ying)經驗(yan)(yan)知識(shi)融合(he)正則項為所(suo)有狀態動(dong)作對與經驗(yan)(yan)知識(shi)的差異損失(shi);
6、步(bu)驟4:建立自適應狀(zhuang)態動作(zuo)約簡損(sun)失計算(suan)規(gui)則,所述自適應狀(zhuang)態動作(zuo)約簡損(sun)失為按(an)照任意兩(liang)個不(bu)同的(de)(de)狀(zhuang)態動作(zuo)對執(zhi)行時(shi)在對局結束獲得的(de)(de)累(lei)積(ji)回(hui)報(bao)之間的(de)(de)差(cha)值、與這兩(liang)個狀(zhuang)態動作(zuo)對的(de)(de)相似度,之間的(de)(de)差(cha)異損(sun)失;
7、步驟5:對(dui)所(suo)述策(ce)略基(ji)本(ben)模型通過自(zi)博(bo)弈的(de)(de)方式采樣,并使用包括自(zi)博(bo)弈損(sun)(sun)失(shi)和自(zi)適應策(ce)略調整損(sun)(sun)失(shi)的(de)(de)總損(sun)(sun)失(shi)函數(shu)和梯度(du)下(xia)降法(fa)進(jin)行(xing)模型參數(shu)更新,完成訓(xun)練;其中,所(suo)述自(zi)適應策(ce)略調整損(sun)(sun)失(shi)包括自(zi)適應經驗知(zhi)識融合(he)正(zheng)則(ze)項和自(zi)適應狀態動作約簡損(sun)(sun)失(shi)。
8、進一步的(de),所(suo)述經驗知識具體為(wei)滿足(zu)如下規則(ze)的(de)狀態動作對:
9、f={(s,f(s))|q(s,f(s))≥q(s,a)},svs,f(s)∈a,a∈a
10、式中,f為(wei)經驗知(zhi)識,f(s)為(wei)在(zai)游戲(xi)狀(zhuang)態s下(xia)獎(jiang)(jiang)(jiang)勵值最(zui)大(da)時(shi)執行的(de)(de)(de)游戲(xi)動作(zuo),q(s,f(s))為(wei)在(zai)游戲(xi)狀(zhuang)態s下(xia)執行游戲(xi)動作(zuo)f(s)對應的(de)(de)(de)獎(jiang)(jiang)(jiang)勵值,q(s,a)為(wei)在(zai)游戲(xi)狀(zhuang)態s下(xia)執行游戲(xi)動作(zuo)a對應的(de)(de)(de)獎(jiang)(jiang)(jiang)勵值,s為(wei)游戲(xi)狀(zhuang)態集合,a為(wei)游戲(xi)動作(zuo)集合。
11、進一步的,所述(shu)自適應(ying)經驗(yan)知(zhi)識融合(he)正(zheng)則(ze)項計算(suan)規則(ze)具(ju)體為:
12、re(θ)=e[max(q(s,a|θ)-q(s,f(s)|θ),0)]
13、式(shi)中,re(θ)為自適應經驗知識融合正則項,e[]表示求(qiu)平均(jun)值。
14、進一(yi)步的(de),所(suo)述自適應(ying)狀態動作約簡損失(shi)計(ji)算規則具體為:
15、
16、
17、式中(zhong),為(wei)(wei)自適應(ying)狀(zhuang)(zhuang)(zhuang)態(tai)(tai)動(dong)作(zuo)(zuo)約簡損失,s為(wei)(wei)游(you)(you)(you)戲(xi)狀(zhuang)(zhuang)(zhuang)態(tai)(tai)集(ji)合,a為(wei)(wei)游(you)(you)(you)戲(xi)動(dong)作(zuo)(zuo)集(ji)合,si,sj為(wei)(wei)s中(zhong)第i,j個游(you)(you)(you)戲(xi)狀(zhuang)(zhuang)(zhuang)態(tai)(tai),ai,aj為(wei)(wei)a中(zhong)第i,j個游(you)(you)(you)戲(xi)動(dong)作(zuo)(zuo),且i≠j,g(si,ai)為(wei)(wei)在(zai)游(you)(you)(you)戲(xi)狀(zhuang)(zhuang)(zhuang)態(tai)(tai)si下執(zhi)行(xing)游(you)(you)(you)戲(xi)動(dong)作(zuo)(zuo)ai到對(dui)局結(jie)束獲(huo)(huo)得(de)(de)的(de)(de)累積回報,g(sj,aj)為(wei)(wei)在(zai)游(you)(you)(you)戲(xi)狀(zhuang)(zhuang)(zhuang)態(tai)(tai)sj下執(zhi)行(xing)游(you)(you)(you)戲(xi)動(dong)作(zuo)(zuo)aj到對(dui)局結(jie)束獲(huo)(huo)得(de)(de)的(de)(de)累積回報,u(φ(si,ai),φ(sj,aj))為(wei)(wei)狀(zhuang)(zhuang)(zhuang)態(tai)(tai)動(dong)作(zuo)(zuo)對(dui)(si,ai)與(sj,aj)的(de)(de)相似(si)度,φ()為(wei)(wei)價值神經網(wang)絡中(zhong)的(de)(de)表(biao)示層的(de)(de)模(mo)型(xing)參(can)(can)數,β為(wei)(wei)超參(can)(can)數,δ()表(biao)示求夾(jia)角,||||2表(biao)示2-范(fan)數。
18、進一步的,所述自適(shi)應策(ce)略調整損失具體(ti)為:
19、
20、式(shi)中,為自(zi)適應(ying)策略調(diao)整損(sun)失(shi)(shi),αe和αs分(fen)別為對應(ying)損(sun)失(shi)(shi)的(de)權(quan)重(zhong),re(θ)為自(zi)適應(ying)經驗知識融(rong)合正(zheng)則項,為自(zi)適應(ying)狀態動作約簡損(sun)失(shi)(shi)。
21、本發(fa)明所述的(de)基于自適(shi)應(ying)策(ce)略調(diao)整的(de)卡牌(pai)類(lei)游戲深度學習訓練系(xi)統,包(bao)括:
22、模(mo)型構(gou)建模(mo)塊(kuai),用(yong)于采用(yong)價值(zhi)神經網絡構(gou)建卡(ka)牌(pai)類游(you)戲的策(ce)(ce)略基本(ben)模(mo)型,所述策(ce)(ce)略基本(ben)模(mo)型用(yong)于預測(ce)卡(ka)牌(pai)類游(you)戲中每(mei)一游(you)戲狀(zhuang)態下執行每(mei)一游(you)戲動作的獎(jiang)勵值(zhi);
23、經(jing)驗(yan)知(zhi)識(shi)獲取模塊,用于獲取卡牌類(lei)游戲的經(jing)驗(yan)知(zhi)識(shi),所述經(jing)驗(yan)知(zhi)識(shi)為在每(mei)一游戲狀態下執行的游戲動作中獎勵值最大的狀態動作對(dui)的集合;
24、第一計(ji)算(suan)規(gui)則建立模塊(kuai),用于(yu)建立自適(shi)應經(jing)驗知識融(rong)合正(zheng)則項計(ji)算(suan)規(gui)則,所(suo)述自適(shi)應經(jing)驗知識融(rong)合正(zheng)則項為所(suo)有(you)狀態動作對與(yu)經(jing)驗知識的差異損失;
25、第(di)二計算(suan)規則建(jian)立(li)(li)模塊,用于建(jian)立(li)(li)自適應(ying)狀態(tai)動(dong)(dong)作約(yue)簡(jian)損(sun)失(shi)計算(suan)規則,所述自適應(ying)狀態(tai)動(dong)(dong)作約(yue)簡(jian)損(sun)失(shi)為按照任意兩(liang)個不同的狀態(tai)動(dong)(dong)作對執行時(shi)在對局結束獲(huo)得的累(lei)積(ji)回報之間的差值、與這(zhe)兩(liang)個狀態(tai)動(dong)(dong)作對的相似度(du),之間的差異損(sun)失(shi);
26、訓練模(mo)塊(kuai),用(yong)于對所述策(ce)略(lve)基(ji)本模(mo)型通過自(zi)博弈(yi)的方式采樣(yang),并使(shi)用(yong)包(bao)括(kuo)自(zi)博弈(yi)損(sun)(sun)失和自(zi)適(shi)應(ying)策(ce)略(lve)調(diao)整(zheng)損(sun)(sun)失的總損(sun)(sun)失函數和梯度下降法進行(xing)模(mo)型參數更新,完(wan)成訓練;其中,所述自(zi)適(shi)應(ying)策(ce)略(lve)調(diao)整(zheng)損(sun)(sun)失包(bao)括(kuo)自(zi)適(shi)應(ying)經(jing)驗知識融(rong)合正(zheng)則項和自(zi)適(shi)應(ying)狀態動(dong)作約(yue)簡損(sun)(sun)失。
27、進一步的,所(suo)述(shu)經驗知識(shi)具體為滿足如下規(gui)則的狀態動(dong)作對:
28、f={(s,f(s))|q(s,f(s))≥q(s,a)},s∈s,f(s)∈a,a∈a
29、式中,f為經驗知(zhi)識,f(s)為在游(you)戲(xi)狀態s下(xia)(xia)(xia)獎(jiang)(jiang)勵值(zhi)最大時執行(xing)的(de)游(you)戲(xi)動(dong)作(zuo)(zuo),q(s,f(s))為在游(you)戲(xi)狀態s下(xia)(xia)(xia)執行(xing)游(you)戲(xi)動(dong)作(zuo)(zuo)f(s)對應的(de)獎(jiang)(jiang)勵值(zhi),q(s,a)為在游(you)戲(xi)狀態s下(xia)(xia)(xia)執行(xing)游(you)戲(xi)動(dong)作(zuo)(zuo)a對應的(de)獎(jiang)(jiang)勵值(zhi),s為游(you)戲(xi)狀態集合,a為游(you)戲(xi)動(dong)作(zuo)(zuo)集合。
30、進(jin)一步的,所述自適(shi)應經(jing)驗知識融合正則項(xiang)計算規則具體為:
31、re(θ)=e[max(q(s,a|θ)-q(s,f(s)|θ),0)]
32、式中(zhong),re(θ)為(wei)自適(shi)應經驗知識(shi)融合正則項(xiang),e[]表示求平均值。
33、進一(yi)步的,所(suo)述(shu)自適應狀態動(dong)作約簡損失計算規則具體(ti)為(wei):
34、
35、
36、式中(zhong),為(wei)(wei)(wei)(wei)(wei)自適應狀態(tai)動(dong)作(zuo)約簡損失,s為(wei)(wei)(wei)(wei)(wei)游(you)(you)(you)戲狀態(tai)集合,a為(wei)(wei)(wei)(wei)(wei)游(you)(you)(you)戲動(dong)作(zuo)集合,si,sj為(wei)(wei)(wei)(wei)(wei)s中(zhong)第i,j個游(you)(you)(you)戲狀態(tai),ai,aj為(wei)(wei)(wei)(wei)(wei)a中(zhong)第i,j個游(you)(you)(you)戲動(dong)作(zuo),且(qie)i≠j,g(si,ai)為(wei)(wei)(wei)(wei)(wei)在游(you)(you)(you)戲狀態(tai)si下執(zhi)行(xing)游(you)(you)(you)戲動(dong)作(zuo)ai到對局(ju)結束獲得(de)的(de)累積回(hui)報(bao)(bao),g(sj,aj)為(wei)(wei)(wei)(wei)(wei)在游(you)(you)(you)戲狀態(tai)sj下執(zhi)行(xing)游(you)(you)(you)戲動(dong)作(zuo)aj到對局(ju)結束獲得(de)的(de)累積回(hui)報(bao)(bao),u(φ(si,ai),φ(sj,aj))為(wei)(wei)(wei)(wei)(wei)狀態(tai)動(dong)作(zuo)對(si,aix與(yu)(sj,aj)的(de)相似度,φ()為(wei)(wei)(wei)(wei)(wei)價值神經網絡中(zhong)的(de)表(biao)(biao)示(shi)(shi)層的(de)模型參數,β為(wei)(wei)(wei)(wei)(wei)超參數,δ()表(biao)(biao)示(shi)(shi)求夾角,||||2表(biao)(biao)示(shi)(shi)2-范數。
37、進一步的,所述自適應(ying)策略調(diao)整損失具體為:
38、
39、式中,為(wei)(wei)自適(shi)(shi)應策略調(diao)整損(sun)失,αe和αs分別(bie)為(wei)(wei)對應損(sun)失的權重,re(θ)為(wei)(wei)自適(shi)(shi)應經驗知識融(rong)合正則(ze)項,為(wei)(wei)自適(shi)(shi)應狀態動作約簡(jian)損(sun)失。
40、本發明(ming)與現有技術相比,其有益效果是:本發明(ming)針對卡(ka)(ka)牌類(lei)游(you)戲離線策(ce)略(lve)訓(xun)(xun)練(lian)問題,提出了一(yi)種基于自(zi)(zi)(zi)適(shi)(shi)(shi)(shi)應(ying)策(ce)略(lve)調(diao)整的卡(ka)(ka)牌類(lei)游(you)戲深度學習訓(xun)(xun)練(lian)方法(fa)及系統。本發明(ming)通(tong)過自(zi)(zi)(zi)適(shi)(shi)(shi)(shi)應(ying)經驗知識融合和(he)自(zi)(zi)(zi)適(shi)(shi)(shi)(shi)應(ying)狀(zhuang)態動作約簡(jian),設計了自(zi)(zi)(zi)適(shi)(shi)(shi)(shi)應(ying)損失,結合梯度下(xia)降法(fa)進(jin)行策(ce)略(lve)模型(xing)更新,使(shi)得能夠加(jia)速(su)在大型(xing)卡(ka)(ka)牌類(lei)游(you)戲中的訓(xun)(xun)練(lian),訓(xun)(xun)練(lian)速(su)度快、收斂速(su)度快,可用于卡(ka)(ka)牌類(lei)游(you)戲ai決策(ce)。