本發明(ming)屬于(yu)移動(dong)通訊(xun),具體涉及(ji)一種(zhong)基于(yu)三階段(duan)stackelberg博弈的(de)無線(xian)充電聯邦學習方法(fa)。
背景技術:
1、物聯網設(she)備(bei)(bei)和智能(neng)應用(yong)的(de)(de)(de)大(da)規模(mo)(mo)(mo)部署產生了大(da)量數(shu)據,這顯示出(chu)訓練(lian)有(you)效(xiao)的(de)(de)(de)機(ji)器(qi)學(xue)(xue)習(xi)模(mo)(mo)(mo)型(xing)的(de)(de)(de)巨大(da)潛力。作(zuo)為一種(zhong)強(qiang)大(da)的(de)(de)(de)機(ji)器(qi)學(xue)(xue)習(xi)方法,深度強(qiang)化(hua)學(xue)(xue)習(xi)在(zai)圖(tu)像識別、自然語言處理、智能(neng)推薦(jian)等許多任(ren)務中都取得(de)了令人矚目的(de)(de)(de)成(cheng)果。但由(you)于數(shu)據涉及用(yong)戶隱私(si),中心化(hua)的(de)(de)(de)數(shu)據訓練(lian)模(mo)(mo)(mo)式存在(zai)嚴重的(de)(de)(de)隱私(si)泄露風險。另外,原始數(shu)據傳輸需(xu)要消耗大(da)量的(de)(de)(de)通(tong)信資(zi)源(yuan)。聯邦學(xue)(xue)習(xi)(federated?learning,fl)作(zuo)為一種(zhong)分布式機(ji)器(qi)學(xue)(xue)習(xi)范式是解(jie)決上述問題(ti)的(de)(de)(de)有(you)前途的(de)(de)(de)解(jie)決方案。它允許終(zhong)端設(she)備(bei)(bei)工人(end?equipment?workers,ew)參(can)與學(xue)(xue)習(xi)過(guo)程并訓練(lian)模(mo)(mo)(mo)型(xing),同(tong)時(shi)在(zai)本地維(wei)(wei)護(hu)數(shu)據,這大(da)大(da)降低了隱私(si)泄露的(de)(de)(de)風險。由(you)于僅將(jiang)模(mo)(mo)(mo)型(xing)參(can)數(shu)卸載到云服務器(qi),因此維(wei)(wei)護(hu)了ew的(de)(de)(de)數(shu)據隱私(si)。同(tong)時(shi),模(mo)(mo)(mo)型(xing)參(can)數(shu)的(de)(de)(de)大(da)小通(tong)常比原始數(shu)據小得(de)多,這也(ye)減(jian)少(shao)了數(shu)據傳輸的(de)(de)(de)大(da)小。
2、然(ran)而,訓(xun)練(lian)復雜的(de)任務(wu)(wu)會(hui)(hui)很快耗盡(jin)ew的(de)能量(liang),這給獲得(de)具(ju)有(you)良好(hao)性(xing)能的(de)fl模(mo)(mo)(mo)型帶(dai)來(lai)(lai)了挑戰。得(de)益于射頻(pin)技術的(de)發展(zhan),無線功率傳(chuan)輸(wireless?power?transfer,wpt)可以(yi)(yi)向(xiang)ew傳(chuan)輸能量(liang),以(yi)(yi)解決能量(liang)約束問(wen)題(ti)。具(ju)體來(lai)(lai)說,基站(zhan)(base?station,bs)作為云服務(wu)(wu)器分發fl模(mo)(mo)(mo)型后,ew可以(yi)(yi)使用專用頻(pin)率通過wpt從充電(dian)服務(wu)(wu)提供商(shang)(charging?service?provider,csp)獲取能量(liang)用于訓(xun)練(lian)和傳(chuan)輸模(mo)(mo)(mo)型。然(ran)而,ew在沒有(you)激勵(li)的(de)情況下不愿意使用自(zi)(zi)己的(de)計算(suan)資源為bs訓(xun)練(lian)fl模(mo)(mo)(mo)型,csp在傳(chuan)輸能量(liang)時會(hui)(hui)產生成本,而bs希(xi)望(wang)以(yi)(yi)更(geng)少的(de)報酬獲得(de)更(geng)好(hao)的(de)fl模(mo)(mo)(mo)型。從經濟角度來(lai)(lai)看,考慮到各方(fang)都是自(zi)(zi)私的(de),如果(guo)沒有(you)激勵(li),他們就沒有(you)動力參與fl過程(cheng)。
技術實現思路
1、為了(le)(le)克服(fu)現有(you)技(ji)術的(de)(de)不足(zu),本(ben)發明(ming)提(ti)(ti)供(gong)了(le)(le)一種基(ji)(ji)于三(san)階段stackelberg博弈的(de)(de)無線(xian)充(chong)電(dian)聯(lian)(lian)邦(bang)學(xue)(xue)(xue)習(xi)(xi)方法(fa),該方法(fa)解(jie)決了(le)(le)聯(lian)(lian)邦(bang)學(xue)(xue)(xue)習(xi)(xi)中終(zhong)端(duan)設(she)備(bei)的(de)(de)能(neng)(neng)源限(xian)(xian)制和(he)個(ge)體自私問題,激勵所有(you)角(jiao)色(se)(se)參與(yu)系(xi)統并確保聯(lian)(lian)邦(bang)學(xue)(xue)(xue)習(xi)(xi)任(ren)務(wu)的(de)(de)成(cheng)功完(wan)成(cheng)。本(ben)方法(fa)首先設(she)計(ji)一個(ge)基(ji)(ji)站-終(zhong)端(duan)設(she)備(bei)-無線(xian)充(chong)電(dian)服(fu)務(wu)提(ti)(ti)供(gong)商的(de)(de)框(kuang)架,由基(ji)(ji)站發布(bu)聯(lian)(lian)邦(bang)學(xue)(xue)(xue)習(xi)(xi)任(ren)務(wu),希望以(yi)更(geng)低的(de)(de)成(cheng)本(ben)獲(huo)得更(geng)好的(de)(de)聯(lian)(lian)邦(bang)學(xue)(xue)(xue)習(xi)(xi)模型(xing);終(zhong)端(duan)設(she)備(bei)訓(xun)練局部聯(lian)(lian)邦(bang)學(xue)(xue)(xue)習(xi)(xi)模型(xing),并希望以(yi)更(geng)少的(de)(de)能(neng)(neng)源消耗(hao)獲(huo)得更(geng)多(duo)的(de)(de)報酬;充(chong)電(dian)服(fu)務(wu)提(ti)(ti)供(gong)商在(zai)(zai)終(zhong)端(duan)設(she)備(bei)訓(xun)練和(he)上傳模型(xing)期(qi)間通過無線(xian)充(chong)電(dian)傳輸向(xiang)終(zhong)端(duan)設(she)備(bei)傳輸能(neng)(neng)量(liang),同(tong)時收(shou)取費用(yong);然后(hou),為三(san)個(ge)角(jiao)色(se)(se)分(fen)別設(she)計(ji)效用(yong)公式。為了(le)(le)獲(huo)得所有(you)角(jiao)色(se)(se)的(de)(de)最優策略(lve),利用(yong)逆向(xiang)歸納(na)法(fa)分(fen)析了(le)(le)所提(ti)(ti)出的(de)(de)博弈問題,并證明(ming)了(le)(le)stackelberg均(jun)衡和(he)納(na)什(shen)均(jun)衡的(de)(de)唯(wei)一存在(zai)(zai)性。最后(hou)使用(yong)拉格朗日次梯度方法(fa)獲(huo)得基(ji)(ji)站的(de)(de)近似最優解(jie)。本(ben)發明(ming)提(ti)(ti)出的(de)(de)方法(fa)能(neng)(neng)有(you)效激勵所有(you)角(jiao)色(se)(se)參與(yu)框(kuang)架,從而解(jie)決聯(lian)(lian)邦(bang)學(xue)(xue)(xue)習(xi)(xi)中終(zhong)端(duan)設(she)備(bei)的(de)(de)能(neng)(neng)量(liang)受限(xian)(xian)問題,同(tong)時解(jie)決所有(you)角(jiao)色(se)(se)的(de)(de)個(ge)體理(li)性問題。
2、本(ben)發(fa)明(ming)解決其(qi)技(ji)術問題所采用的技(ji)術方案如下:
3、步驟1:基于bs、ew和csp的參(can)數(shu)構建各自的效用函數(shu),并(bing)定義(yi)三(san)階段stackelberg的博弈問題;
4、步驟(zou)2:使用逆(ni)向歸(gui)納(na)法求(qiu)解(jie)bs、ew和(he)csp的最優解(jie);證明csp和(he)ew之(zhi)(zhi)間(jian)存在(zai)唯一(yi)的stackelberg博(bo)弈均(jun)衡(heng)、ew之(zhi)(zhi)間(jian)唯一(yi)的納(na)什均(jun)衡(heng)以及ew和(he)bs之(zhi)(zhi)間(jian)唯一(yi)的stackelberg博(bo)弈均(jun)衡(heng);
5、步(bu)驟3:使用拉格朗日次(ci)梯度法逼近bs的最優解(jie)。
6、進(jin)一步地,所述bs的(de)(de)參(can)(can)數(shu)(shu)(shu)包括bs的(de)(de)滿意(yi)度(du)參(can)(can)數(shu)(shu)(shu)、bs對聯邦(bang)學習(xi)任務完成延(yan)遲上的(de)(de)權衡參(can)(can)數(shu)(shu)(shu)以及bs支(zhi)付給ew的(de)(de)報酬(chou)參(can)(can)數(shu)(shu)(shu);ew的(de)(de)參(can)(can)數(shu)(shu)(shu)包括ew的(de)(de)聯邦(bang)學習(xi)貢獻度(du)參(can)(can)數(shu)(shu)(shu)、網絡(luo)效應滿意(yi)度(du)參(can)(can)數(shu)(shu)(shu)和(he)購買能量的(de)(de)單位出價(jia)參(can)(can)數(shu)(shu)(shu);csp的(de)(de)參(can)(can)數(shu)(shu)(shu)包括售賣能量參(can)(can)數(shu)(shu)(shu)、能量成本參(can)(can)數(shu)(shu)(shu)和(he)能量轉換系(xi)數(shu)(shu)(shu)參(can)(can)數(shu)(shu)(shu);
7、進(jin)一步地,所述步驟1中,構建的bs的效(xiao)用函(han)數表(biao)示為(wei):
8、
9、其中:右邊第一(yi)(yi)項是(shi)bs對ew局部模型(xing)(xing)的(de)滿(man)意度(du)定(ding)義(yi),η1,η2>0為bs的(de)滿(man)意度(du)參數,取(qu)決(jue)于(yu)bs對聯(lian)邦學(xue)習(xi)全(quan)局模型(xing)(xing)精度(du)和(he)(he)局部模型(xing)(xing)的(de)要(yao)求程度(du);第二(er)項是(shi)bs對全(quan)局聚合延遲上的(de)權衡,取(qu)決(jue)于(yu)局部訓練最慢的(de)ew,λ>0為bs對聯(lian)邦學(xue)習(xi)任務完成延遲上的(de)權衡參數,tn表示ew?n在一(yi)(yi)整輪fl中的(de)總(zong)延遲;第三項是(shi)bs支付給所有(you)ew的(de)聯(lian)邦學(xue)習(xi)任務報酬之和(he)(he),in是(shi)bs支付給ew?n的(de)報酬參數,δn是(shi)ew?n的(de)聯(lian)邦學(xue)習(xi)模型(xing)(xing)的(de)貢(gong)獻(xian)度(du);ew?n表示終端設(she)備n;n表示所有(you)ew的(de)總(zong)數;
10、bs的效用函數需滿足約束條件:bs支(zhi)付給ew的支(zhi)付策(ce)略在(zai)設定范圍內;
11、進一步地,所述步驟(zou)1中,構(gou)建(jian)的(de)ew的(de)效(xiao)用函數表示為:
12、
13、其(qi)中(zhong):右邊第(di)(di)一(yi)項(xiang)是bs支付給ew?n的(de)(de)報酬,in是報酬單價;第(di)(di)二項(xiang)是ew從(cong)網(wang)絡效應獲得(de)的(de)(de)滿意度(du)(du),ζn是ew?n的(de)(de)網(wang)絡滿意度(du)(du)權重值(zhi),φmn是ew?n與(yu)(yu)ew?m之間(jian)的(de)(de)社(she)會關系(xi)值(zhi),它取決于ew?m與(yu)(yu)ew?n的(de)(de)數據相似度(du)(du)以及(ji)歷史上ew?m與(yu)(yu)ew?n的(de)(de)合作(zuo)緊密程(cheng)度(du)(du)關系(xi),這些信息存儲于bs,m≠n,表示ew的(de)(de)集(ji)合;δm表示ew?m的(de)(de)聯邦學習貢(gong)獻度(du)(du);第(di)(di)三項(xiang)是ew?n從(cong)csp處購買的(de)(de)能量(liang)資(zi)源,其(qi)中(zhong)sn是ew?n購買能量(liang)的(de)(de)單位出價;en表示當(dang)前完整一(yi)輪全局(ju)fl中(zhong)ew?n的(de)(de)總能耗;
14、ew的效用函(han)數需滿(man)足約束條(tiao)件:ew支付給csp的支付策(ce)略(lve)在設定范(fan)圍內。
15、進(jin)一步地(di),所述步驟1中,構建的csp的效(xiao)用函數表(biao)示(shi)為:
16、
17、其中:右邊第一(yi)項是(shi)csp從ew收(shou)到(dao)的(de)能量(liang)(liang)支付(fu);第二項是(shi)csp的(de)能量(liang)(liang)資源成本;由于能量(liang)(liang)傳(chuan)輸(shu)的(de)損失,csp將成本能量(liang)(liang)的(de)值(zhi)計算(suan)為en/μn,μn∈[0,1]表示(shi)csp傳(chuan)輸(shu)給ew的(de)能量(liang)(liang)轉換系數;這里,a≥0和(he)b≥0是(shi)能量(liang)(liang)成本參數;
18、csp的效用函(han)數需滿足(zu)約(yue)束條件:csp售賣給ew的能量(liang)策略在(zai)設(she)定范圍(wei)內。
19、進一(yi)步(bu)地,所述三(san)階段stackelberg的博弈問(wen)題表示為:
20、在第(di)一階段,bs作(zuo)為領導者,ew作(zuo)為追隨者;bs通過控制支付給ew的(de)報(bao)酬向量(liang)以(yi)最(zui)(zui)大化自(zi)己的(de)效用公式,在第(di)二(er)階段,ew之(zhi)間(jian)進行博弈,ew?n根(gen)據bs的(de)報(bao)酬單價策(ce)略in和(he)其他ew的(de)聯邦學習貢獻(xian)度(du)決策(ce)決定自(zi)己的(de)sn以(yi)最(zui)(zui)大化自(zi)己的(de)效用公式,定義所(suo)有(you)ew的(de)能量(liang)單價向量(liang)為在第(di)三(san)階段,ew與csp進行博弈,最(zui)(zui)終確定csp對所(suo)有(you)ew無線傳輸的(de)能量(liang)向量(liang)ε,其中(zhong)ε={e1,...,en,...,en}t;那么,三(san)階段stackelberg博弈ω表示為:
21、ω={(bs,ew,csp),(in,sn,en),(ubs,un,ucsp)}。
22、進(jin)一步地,所述步驟(zou)2中逆向歸(gui)納法(fa)求解(jie)(jie)bs、ew和csp的最(zui)(zui)優(you)解(jie)(jie)指首先求解(jie)(jie)csp的最(zui)(zui)優(you)解(jie)(jie),然后(hou)求ew的最(zui)(zui)優(you)解(jie)(jie),最(zui)(zui)后(hou)求解(jie)(jie)bs的最(zui)(zui)優(you)解(jie)(jie)。
23、進一(yi)步(bu)地(di),所述步(bu)驟2中csp和ew之間(jian)存在唯一(yi)的stackelberg博弈(yi)均(jun)衡為:
24、當時,csp和ew之間存在唯一的stackelberg博弈均(jun)衡,其中ε是(shi)csp的策(ce)略解,ε*是(shi)csp的最(zui)優策(ce)略解,和分別是(shi)bs和ew的最(zui)優策(ce)略集。
25、進一(yi)步(bu)地,所述步(bu)驟2中ew之間存在唯一(yi)的納什均衡為:
26、當(dang)ew中存(cun)在(zai)一個(ge)且僅(jin)有(you)一個(ge)納(na)什均衡策(ce)略,即此時,存(cun)在(zai)效用函數其中是其他ew的最優策(ce)略,表示(shi)ew的最優聯邦(bang)學習(xi)貢(gong)獻(xian)度策(ce)略,表示(shi)ew的最優購能單價策(ce)略。
27、進一步地,所述步驟2中(zhong)bs和ew之間(jian)存在唯(wei)一的(de)stackelberg博弈均衡為(wei):
28、當時,bs和ew之間存在唯一的stackelberg博弈均(jun)衡,其中:表示bs的報(bao)酬(chou)單價策略集(ji),表示bs的最優報(bao)酬(chou)單價策略集(ji),表示所有ew的最優策略集(ji),ε*表示csp的最優策略集(ji)。
29、進一步地,所(suo)述步驟3中拉格朗(lang)日次梯度法(fa)為:引入(ru)對(dui)偶(ou)變量使求(qiu)解(jie)原問題(ti)轉化為求(qiu)解(jie)對(dui)偶(ou)問題(ti)。
30、本發明的有(you)益效果如下:
31、(1)本發明解(jie)決(jue)了聯邦學(xue)習中終端設備的(de)能量受(shou)限(xian)問題,使得終端設備可以充分參與聯邦學(xue)習系統,從而加快聯邦學(xue)習的(de)訓練(lian)。
32、(2)由于引入了(le)無(wu)(wu)線充(chong)(chong)電(dian)服務提(ti)供商,使(shi)得基站、終端設(she)備和無(wu)(wu)線充(chong)(chong)電(dian)服務提(ti)供商之間的交(jiao)互(hu)變(bian)得復雜。本發明通(tong)過使(shi)用三階段stackelberg博弈分(fen)析它們的交(jiao)互(hu),充(chong)(chong)分(fen)考(kao)慮了(le)所(suo)有角色的個體理(li)性。使(shi)得所(suo)有角色充(chong)(chong)分(fen)參與(yu)無(wu)(wu)線充(chong)(chong)電(dian)聯邦(bang)學習系統(tong)。