中文字幕无码日韩视频无码三区

一種文本篩選方法、裝置、電子設備及存儲介質與流程

文檔(dang)序號:39427157發布日期:2024-09-20 22:25閱讀:11來源:國知(zhi)局
一種文本篩選方法、裝置、電子設備及存儲介質與流程

本發明涉(she)(she)及機器(qi)學習領域(yu),特(te)別涉(she)(she)及一種文(wen)本篩選方(fang)法、裝置(zhi)、電子設備(bei)及存儲介質。


背景技術:

1、隨著機器學習技(ji)術的(de)(de)(de)(de)(de)(de)不(bu)斷發展,大(da)(da)(da)語(yu)言模(mo)(mo)型(llm,large?language?model)逐漸在(zai)(zai)各(ge)種領域中(zhong)得(de)到(dao)(dao)應用。考(kao)慮(lv)到(dao)(dao)訓(xun)練(lian)(lian)大(da)(da)(da)語(yu)言模(mo)(mo)型的(de)(de)(de)(de)(de)(de)成(cheng)本(ben)(ben),預訓(xun)練(lian)(lian)加微(wei)調(diao)的(de)(de)(de)(de)(de)(de)訓(xun)練(lian)(lian)方法(fa)成(cheng)為了(le)訓(xun)練(lian)(lian)大(da)(da)(da)語(yu)言模(mo)(mo)型的(de)(de)(de)(de)(de)(de)主流手(shou)段。在(zai)(zai)微(wei)調(diao)過(guo)程中(zhong),高(gao)質量(liang)的(de)(de)(de)(de)(de)(de)數(shu)據集(ji)(高(gao)質量(liang)的(de)(de)(de)(de)(de)(de)數(shu)據集(ji)應具備充(chong)分性(xing)、多(duo)樣(yang)性(xing)和平衡(heng)性(xing)等(deng)特點)是激(ji)發大(da)(da)(da)語(yu)言模(mo)(mo)型潛能的(de)(de)(de)(de)(de)(de)必(bi)要條件。然而在(zai)(zai)相關技(ji)術中(zhong),微(wei)調(diao)大(da)(da)(da)語(yu)言模(mo)(mo)型的(de)(de)(de)(de)(de)(de)訓(xun)練(lian)(lian)文本(ben)(ben)通常由人工進行(xing)篩選,這不(bu)僅降(jiang)低了(le)訓(xun)練(lian)(lian)文本(ben)(ben)的(de)(de)(de)(de)(de)(de)篩選效率(lv)并提升了(le)篩選成(cheng)本(ben)(ben),更重要的(de)(de)(de)(de)(de)(de)是容(rong)易(yi)導(dao)致的(de)(de)(de)(de)(de)(de)數(shu)據分布不(bu)均衡(heng)和覆蓋面不(bu)夠廣(guang)的(de)(de)(de)(de)(de)(de)問題,進而影響大(da)(da)(da)語(yu)言模(mo)(mo)型的(de)(de)(de)(de)(de)(de)微(wei)調(diao)效果(guo)。


技術實現思路

1、本(ben)發明的目的是提(ti)一種文本(ben)篩(shai)選(xuan)方(fang)法、裝(zhuang)置、電子(zi)設備及存(cun)儲介質,可(ke)基于機器學習手段設置數據(ju)篩(shai)選(xuan)策(ce)略,以(yi)此避免人工篩(shai)選(xuan)將導致的數據(ju)分布(bu)不(bu)均衡和覆蓋面不(bu)夠廣的問(wen)題。

2、為解決上述技術問題,本(ben)(ben)發明提供一(yi)種文本(ben)(ben)篩選方法(fa),包括(kuo):

3、獲取(qu)待篩選的原始文(wen)本;

4、將所(suo)(suo)述(shu)原始(shi)文本輸入多個指(zhi)(zhi)導模(mo)(mo)型(xing)(xing),得到各所(suo)(suo)述(shu)指(zhi)(zhi)導模(mo)(mo)型(xing)(xing)為所(suo)(suo)述(shu)原始(shi)文本輸出的(de)評價(jia)值;其中,所(suo)(suo)述(shu)指(zhi)(zhi)導模(mo)(mo)型(xing)(xing)屬于機器學習模(mo)(mo)型(xing)(xing),不同的(de)指(zhi)(zhi)導模(mo)(mo)型(xing)(xing)已(yi)嵌入不同預設評價(jia)維度的(de)先(xian)驗知識,所(suo)(suo)述(shu)指(zhi)(zhi)導模(mo)(mo)型(xing)(xing)根據所(suo)(suo)述(shu)先(xian)驗知識確定所(suo)(suo)述(shu)原始(shi)文本對(dui)應(ying)的(de)評價(jia)值;

5、將所(suo)(suo)(suo)述(shu)原始(shi)(shi)文本(ben)輸(shu)入門控(kong)單(dan)元,得到所(suo)(suo)(suo)述(shu)門控(kong)單(dan)元為各所(suo)(suo)(suo)述(shu)指導模(mo)型輸(shu)出的(de)權(quan)重值;其中,所(suo)(suo)(suo)述(shu)門控(kong)單(dan)元屬于機器(qi)學(xue)習(xi)模(mo)型,所(suo)(suo)(suo)述(shu)門控(kong)單(dan)元根據所(suo)(suo)(suo)述(shu)原始(shi)(shi)文本(ben)和先前(qian)篩(shai)選(xuan)出的(de)訓練文本(ben)在模(mo)型訓練任務中的(de)歷(li)史表現確定所(suo)(suo)(suo)述(shu)權(quan)重值;

6、利用(yong)所有(you)所述權(quan)重(zhong)值(zhi)(zhi)對所有(you)所述評價值(zhi)(zhi)進(jin)行(xing)加(jia)權(quan)求和處理,得(de)到各所述原始文本(ben)的(de)篩(shai)選值(zhi)(zhi),并根據所述篩(shai)選值(zhi)(zhi)對所述原始文本(ben)進(jin)行(xing)篩(shai)選,得(de)到用(yong)于(yu)執行(xing)所述模型訓練任務的(de)訓練文本(ben)。

7、可(ke)選地,所(suo)述指(zhi)導(dao)模(mo)型(xing)的(de)(de)與(yu)所(suo)述模(mo)型(xing)訓練(lian)任務(wu)所(suo)訓練(lian)的(de)(de)待(dai)訓練(lian)模(mo)型(xing)具有相(xiang)同的(de)(de)轉換解碼器結構,所(suo)述指(zhi)導(dao)模(mo)型(xing)的(de)(de)模(mo)型(xing)參(can)數(shu)量(liang)(liang)小于所(suo)述待(dai)訓練(lian)模(mo)型(xing)的(de)(de)模(mo)型(xing)參(can)數(shu)量(liang)(liang)。

8、可選(xuan)地,所(suo)述獲取待(dai)篩選(xuan)的原始(shi)文(wen)本,包括:

9、獲(huo)取預(yu)(yu)設提(ti)(ti)示(shi)詞,并將所述預(yu)(yu)設提(ti)(ti)示(shi)詞輸(shu)入已(yi)訓練的(de)文(wen)本生成模型,得到所述預(yu)(yu)設提(ti)(ti)示(shi)詞對應的(de)生成式文(wen)本;

10、將所述(shu)生(sheng)成式文(wen)本設置為所述(shu)原始(shi)文(wen)本。

11、可選地(di),所述指導(dao)模型按照數據流(liu)向依次包括編(bian)碼(ma)層、第一轉換(huan)(huan)解(jie)(jie)碼(ma)器(qi)、全(quan)連接(jie)層和(he)第一歸一化(hua)層,所述第一轉換(huan)(huan)解(jie)(jie)碼(ma)器(qi)包含多個串聯(lian)的轉換(huan)(huan)解(jie)(jie)碼(ma)器(qi)單元(yuan),所述第一轉換(huan)(huan)解(jie)(jie)碼(ma)器(qi)中嵌(qian)入有所述先(xian)驗知識;

12、所述將(jiang)所述原(yuan)始(shi)文本輸(shu)入多個(ge)指導(dao)(dao)模型,得到各所述指導(dao)(dao)模型為所述原(yuan)始(shi)文本輸(shu)出的評價值,包(bao)括:

13、將所述(shu)原(yuan)始文本(ben)(ben)輸入(ru)所述(shu)編(bian)(bian)碼層進(jin)行位置編(bian)(bian)碼,得到文本(ben)(ben)嵌入(ru)向量;

14、將所(suo)述(shu)(shu)文(wen)本(ben)嵌入向量(liang)輸入所(suo)述(shu)(shu)第(di)一(yi)轉換(huan)(huan)解碼(ma)器(qi)(qi),以使(shi)所(suo)述(shu)(shu)第(di)一(yi)轉換(huan)(huan)解碼(ma)器(qi)(qi)根據所(suo)述(shu)(shu)先(xian)驗知識(shi)對(dui)所(suo)述(shu)(shu)文(wen)本(ben)嵌入向量(liang)進行特(te)征(zheng)(zheng)提取(qu)(qu),得到(dao)特(te)征(zheng)(zheng)提取(qu)(qu)向量(liang);

15、將所述特(te)征提取向量輸入(ru)所述全連接層(ceng)進行特(te)征轉換,得到特(te)征轉換向量;

16、將(jiang)所述(shu)特征轉換向量輸入所述(shu)第一歸一化(hua)層進行歸一化(hua)處理,得到所述(shu)評(ping)價值。

17、可選(xuan)地,在(zai)獲(huo)取(qu)待篩選(xuan)的原始(shi)文本之前,還包括:

18、獲取所(suo)述先驗知(zhi)識以(yi)及經(jing)過預(yu)訓練的轉換解(jie)碼器模型;

19、基于低秩(zhi)自適應方(fang)法利用所述先(xian)驗(yan)知識對所述轉換(huan)(huan)解碼(ma)器(qi)(qi)模(mo)(mo)型進(jin)行微調(diao)訓(xun)練,以將所述先(xian)驗(yan)知識嵌入(ru)所述轉換(huan)(huan)解碼(ma)器(qi)(qi)模(mo)(mo)型中的轉換(huan)(huan)解碼(ma)器(qi)(qi);

20、為(wei)完成(cheng)所述(shu)(shu)微調訓(xun)練的轉換解碼器模(mo)型添加所述(shu)(shu)全連接層以(yi)及所述(shu)(shu)第一(yi)歸一(yi)化層,得到所述(shu)(shu)指導模(mo)型。

21、可選地,在得到用于執行所述(shu)模型訓練任(ren)務的訓練文本之(zhi)后,還包括(kuo):

22、利用(yong)所(suo)(suo)述訓(xun)練(lian)(lian)文本執行所(suo)(suo)述模型訓(xun)練(lian)(lian)任(ren)務,并根據(ju)預設性能指(zhi)(zhi)標確(que)定所(suo)(suo)述訓(xun)練(lian)(lian)文本在執行所(suo)(suo)述模型訓(xun)練(lian)(lian)任(ren)務時(shi)對應的性能指(zhi)(zhi)標值;

23、將所(suo)述(shu)性能指標值(zhi)大于預設閾值(zhi)的訓(xun)練(lian)文(wen)(wen)本設置為微調文(wen)(wen)本,并利用所(suo)述(shu)微調文(wen)(wen)本對各所(suo)述(shu)執導模型(xing)中的第(di)一轉換(huan)解碼器(qi)進(jin)行微調訓(xun)練(lian)。

24、可選地(di),在利用(yong)所(suo)述微調文本對各所(suo)述執導模型(xing)中的第一(yi)轉換解碼器進行微調訓練之前(qian),還包括:

25、根據所述(shu)門(men)控單(dan)元針對(dui)所述(shu)微調文(wen)本為各(ge)所述(shu)指導(dao)模型(xing)(xing)生(sheng)成的權重(zhong)(zhong)值(zhi),確定權重(zhong)(zhong)值(zhi)最大的前預設數量的指導(dao)模型(xing)(xing)為待微調指導(dao)模型(xing)(xing);

26、所(suo)述(shu)利用所(suo)述(shu)微調(diao)文本對各所(suo)述(shu)執導模型(xing)中的第(di)一轉換解碼器進行微調(diao)訓練(lian),包括:

27、利(li)用所(suo)(suo)述微調(diao)文(wen)本對所(suo)(suo)述待(dai)微調(diao)指導模型中的第(di)一轉換(huan)解(jie)碼器進行(xing)微調(diao)訓練。

28、可(ke)選(xuan)地,所(suo)述(shu)門控(kong)單元按(an)照數據流向依次包(bao)括輸(shu)入(ru)(ru)層(ceng)、第(di)(di)二(er)(er)轉(zhuan)換解碼(ma)器(qi)、第(di)(di)二(er)(er)歸一(yi)(yi)化層(ceng)和選(xuan)擇層(ceng),所(suo)述(shu)輸(shu)入(ru)(ru)層(ceng)包(bao)含第(di)(di)一(yi)(yi)輸(shu)入(ru)(ru)模(mo)(mo)塊和第(di)(di)二(er)(er)輸(shu)入(ru)(ru)模(mo)(mo)塊,所(suo)述(shu)第(di)(di)一(yi)(yi)輸(shu)入(ru)(ru)模(mo)(mo)塊與各所(suo)述(shu)指(zhi)導模(mo)(mo)型(xing)一(yi)(yi)一(yi)(yi)對(dui)應,所(suo)述(shu)第(di)(di)一(yi)(yi)輸(shu)入(ru)(ru)模(mo)(mo)塊包(bao)含第(di)(di)一(yi)(yi)線(xian)性(xing)層(ceng),所(suo)述(shu)第(di)(di)一(yi)(yi)線(xian)性(xing)層(ceng)的(de)輸(shu)入(ru)(ru)為對(dui)應的(de)指(zhi)導模(mo)(mo)型(xing)中的(de)每(mei)個轉(zhuan)換解碼(ma)器(qi)單元的(de)輸(shu)出特征,所(suo)述(shu)第(di)(di)二(er)(er)輸(shu)入(ru)(ru)模(mo)(mo)塊包(bao)含第(di)(di)二(er)(er)線(xian)性(xing)層(ceng),所(suo)述(shu)第(di)(di)二(er)(er)線(xian)性(xing)層(ceng)的(de)輸(shu)入(ru)(ru)為所(suo)述(shu)原(yuan)始文本;

29、所述(shu)(shu)將所述(shu)(shu)原始文本輸入門(men)控單元,得到所述(shu)(shu)門(men)控單元為(wei)各所述(shu)(shu)指導模型輸出的權重值,包括:

30、將對應的所(suo)述指(zhi)導(dao)模型的各所(suo)述轉換解碼器單元(yuan)的輸出(chu)特征(zheng)輸入(ru)所(suo)述第(di)一(yi)線性層進行加權(quan)平均處理,得(de)到第(di)一(yi)輸入(ru)向(xiang)量;

31、將所(suo)述(shu)原(yuan)始文本輸入所(suo)述(shu)第二(er)線性層(ceng)進行線性層(ceng)處理,得到第二(er)輸入向量(liang);

32、將(jiang)所(suo)述第(di)一輸(shu)入向量(liang)和所(suo)述第(di)二輸(shu)入向量(liang)共(gong)同(tong)輸(shu)入所(suo)述第(di)二轉換解(jie)碼器進(jin)行特征提取,得(de)到特征提取向量(liang);

33、將所述特征提取向(xiang)量(liang)輸(shu)入所述第二(er)歸一(yi)(yi)化(hua)層(ceng)進行歸一(yi)(yi)化(hua)處理,得到輸(shu)出向(xiang)量(liang);其中,所述輸(shu)出向(xiang)量(liang)中的(de)每一(yi)(yi)元素(su)與(yu)每一(yi)(yi)所述指導模(mo)型(xing)對(dui)應,每一(yi)(yi)元素(su)的(de)值為每一(yi)(yi)所述指導模(mo)型(xing)的(de)初(chu)始權重值;

34、將所(suo)述輸出向量輸入所(suo)述選擇層,以(yi)使所(suo)述選擇層將所(suo)述輸出向量中數(shu)值(zhi)最大的前(qian)預(yu)設(she)數(shu)目(mu)的初始(shi)權重(zhong)值(zhi)設(she)置為(wei)所(suo)述權重(zhong)值(zhi),并將剩余的初始(shi)權重(zhong)值(zhi)設(she)置為(wei)零。

35、可選地,在(zai)獲(huo)取待篩選的原始(shi)文(wen)本(ben)之(zhi)前,還(huan)包括:

36、獲取門控(kong)單(dan)元訓練文本;

37、將所(suo)(suo)(suo)(suo)述(shu)門(men)(men)控(kong)(kong)單(dan)元訓(xun)(xun)練(lian)文(wen)(wen)本同時輸入各所(suo)(suo)(suo)(suo)述(shu)指(zhi)導模(mo)型(xing)以及所(suo)(suo)(suo)(suo)述(shu)門(men)(men)控(kong)(kong)單(dan)元,以使(shi)所(suo)(suo)(suo)(suo)述(shu)指(zhi)導模(mo)型(xing)為所(suo)(suo)(suo)(suo)述(shu)門(men)(men)控(kong)(kong)單(dan)元訓(xun)(xun)練(lian)文(wen)(wen)本輸出訓(xun)(xun)練(lian)評價值,并使(shi)所(suo)(suo)(suo)(suo)述(shu)門(men)(men)控(kong)(kong)單(dan)元針對所(suo)(suo)(suo)(suo)述(shu)門(men)(men)控(kong)(kong)單(dan)元訓(xun)(xun)練(lian)文(wen)(wen)本輸出訓(xun)(xun)練(lian)權(quan)重向(xiang)量;其(qi)中,所(suo)(suo)(suo)(suo)述(shu)訓(xun)(xun)練(lian)權(quan)重向(xiang)量包含各所(suo)(suo)(suo)(suo)述(shu)指(zhi)導模(mo)型(xing)的訓(xun)(xun)練(lian)初始權(quan)重值;

38、利(li)用各(ge)(ge)指導模型的訓練(lian)評價值(zhi)及所(suo)述門控單元(yuan)的訓練(lian)權重(zhong)向量采(cai)取最大邊際相關性方法(fa)對(dui)各(ge)(ge)所(suo)述指導模型進行排序(xu),得到排序(xu)結(jie)果;

39、對所述排序結(jie)果進行歸一化處理,得到訓練(lian)目標(biao)權重(zhong)值;

40、利用所(suo)(suo)述訓練初始權(quan)重值和(he)所(suo)(suo)述訓練目標權(quan)重值確定(ding)損失值,并(bing)根據所(suo)(suo)述損失值對(dui)所(suo)(suo)述門控單元進行參數更(geng)新。

41、可選地,所述(shu)利(li)用(yong)各(ge)指導(dao)(dao)模型的訓(xun)練評價值及所述(shu)門控單元的訓(xun)練權重向量采取最大邊(bian)際相關(guan)性方法對(dui)各(ge)所述(shu)指導(dao)(dao)模型進行排(pai)序(xu),得到排(pai)序(xu)結果,包括:

42、通過如(ru)下公式利用各(ge)指導(dao)模型(xing)的(de)訓練評價值及所述門控單元的(de)訓練權重向量采取(qu)最大邊際相關性(xing)方法對各(ge)所述指導(dao)模型(xing)進行排(pai)序,得到排(pai)序結果(guo):

43、

44、其中,mmr表(biao)(biao)示(shi)(shi)基(ji)于最大邊際相關性(xing)確定的(de)(de)排序(xu)結果(guo),r表(biao)(biao)示(shi)(shi)待(dai)排序(xu)的(de)(de)指導(dao)模型的(de)(de)集合(he),s表(biao)(biao)示(shi)(shi)已排序(xu)的(de)(de)指導(dao)模型的(de)(de)集合(he),λ表(biao)(biao)示(shi)(shi)超參數(shu),di表(biao)(biao)示(shi)(shi)第(di)i個指導(dao)模型的(de)(de)訓練評價值,dj表(biao)(biao)示(shi)(shi)集合(he)s中第(di)j個執導(dao)模型的(de)(de)訓練評價值,qk表(biao)(biao)示(shi)(shi)第(di)k條門(men)控(kong)單元訓練文本經過門(men)控(kong)單元得到的(de)(de)訓練權(quan)重(zhong)向量(liang),mean()表(biao)(biao)示(shi)(shi)均值計算函(han)數(shu),sim1()和sim2()均表(biao)(biao)示(shi)(shi)相似度計算函(han)數(shu)。

45、可選地,所(suo)述(shu)利(li)用所(suo)述(shu)訓(xun)練初始權重值(zhi)(zhi)和所(suo)述(shu)訓(xun)練目標(biao)權重值(zhi)(zhi)確定(ding)損(sun)失值(zhi)(zhi),包括:

46、通過如下公式利用所(suo)述訓練初始權重(zhong)值(zhi)和所(suo)述訓練目(mu)標權重(zhong)值(zhi)確(que)定損失值(zhi):

47、

48、其(qi)中,mse表(biao)示損失值(zhi),n表(biao)示指導模型的數量(liang),yi表(biao)示所述(shu)訓練目標權重(zhong)值(zhi),表(biao)示所述(shu)訓練初始權重(zhong)值(zhi)。

49、可選地,在(zai)得(de)到用(yong)于執行所(suo)述模型訓練(lian)任(ren)務的訓練(lian)文本之后,還包括:

50、在得到m批(pi)訓(xun)(xun)(xun)練(lian)(lian)文本時,利用(yong)所述(shu)訓(xun)(xun)(xun)練(lian)(lian)文本執行(xing)所述(shu)模(mo)型(xing)訓(xun)(xun)(xun)練(lian)(lian)任務,根據預設性(xing)(xing)(xing)能(neng)指(zhi)標(biao)確定所述(shu)訓(xun)(xun)(xun)練(lian)(lian)文本在執行(xing)所述(shu)模(mo)型(xing)訓(xun)(xun)(xun)練(lian)(lian)任務時對(dui)應(ying)的(de)性(xing)(xing)(xing)能(neng)指(zhi)標(biao)值,并(bing)根據所述(shu)性(xing)(xing)(xing)能(neng)指(zhi)標(biao)值對(dui)所述(shu)訓(xun)(xun)(xun)練(lian)(lian)文本進行(xing)排序(xu),得到訓(xun)(xun)(xun)練(lian)(lian)文本排序(xu)結果(guo);其中,每批(pi)訓(xun)(xun)(xun)練(lian)(lian)文本包含b條訓(xun)(xun)(xun)練(lian)(lian)文本,m>0,b>0;

51、根據所述(shu)指導(dao)模(mo)型為所述(shu)訓(xun)練文本確定的評價值(zhi)以及(ji)所述(shu)訓(xun)練文本在所述(shu)訓(xun)練文本排序(xu)結果中的排序(xu)位置,通過(guo)如下公式確定各所述(shu)指導(dao)模(mo)型的表(biao)現值(zhi);

52、

53、其中(zhong),scorei表(biao)(biao)示(shi)(shi)(shi)(shi)第i個指導(dao)模型的表(biao)(biao)現值(zhi)(zhi),m表(biao)(biao)示(shi)(shi)(shi)(shi)表(biao)(biao)示(shi)(shi)(shi)(shi)第m批數據,b表(biao)(biao)示(shi)(shi)(shi)(shi)每批數據包含的訓(xun)練(lian)(lian)文(wen)(wen)本(ben)的數量,rankj表(biao)(biao)示(shi)(shi)(shi)(shi)第j條(tiao)訓(xun)練(lian)(lian)文(wen)(wen)本(ben)在所(suo)述訓(xun)練(lian)(lian)文(wen)(wen)本(ben)排序(xu)結果中(zhong)的排序(xu)位置(zhi),wij表(biao)(biao)示(shi)(shi)(shi)(shi)第i個指導(dao)模型為第j條(tiao)訓(xun)練(lian)(lian)文(wen)(wen)本(ben)確定的評價值(zhi)(zhi),i(x)表(biao)(biao)示(shi)(shi)(shi)(shi)指示(shi)(shi)(shi)(shi)函數,若x大(da)于零(ling)則i(x)等(deng)于1,若x不(bu)大(da)于零(ling)則i(x)等(deng)于0;

54、對各所述指導(dao)模型(xing)的表現(xian)值(zhi)進行歸(gui)一化(hua)處理(li),得(de)到目標權重值(zhi);

55、利用所(suo)(suo)(suo)述初始(shi)權重(zhong)值(zhi)和(he)所(suo)(suo)(suo)述目標權重(zhong)值(zhi)確(que)定損失值(zhi),并根據所(suo)(suo)(suo)述損失值(zhi)對(dui)所(suo)(suo)(suo)述門(men)控單元進行參數更新。

56、可選(xuan)地,所述訓練(lian)(lian)文(wen)本為代碼(ma)(ma)文(wen)本,所述模型訓練(lian)(lian)任務為代碼(ma)(ma)任務,所述預設性(xing)能(neng)指(zhi)標為所述代碼(ma)(ma)文(wen)本的代碼(ma)(ma)通過率。

57、本發明還提供一種文本篩(shai)選裝置,包括(kuo):

58、獲取模塊,用于獲取待篩選(xuan)的原(yuan)始文(wen)本;

59、指(zhi)導模(mo)(mo)(mo)(mo)型(xing)模(mo)(mo)(mo)(mo)塊,用于將所(suo)(suo)述(shu)(shu)(shu)(shu)原(yuan)始文本輸(shu)入多個指(zhi)導模(mo)(mo)(mo)(mo)型(xing),得(de)到各所(suo)(suo)述(shu)(shu)(shu)(shu)指(zhi)導模(mo)(mo)(mo)(mo)型(xing)為所(suo)(suo)述(shu)(shu)(shu)(shu)原(yuan)始文本輸(shu)出的評價(jia)值;其中,所(suo)(suo)述(shu)(shu)(shu)(shu)指(zhi)導模(mo)(mo)(mo)(mo)型(xing)屬于機器學習模(mo)(mo)(mo)(mo)型(xing),不同(tong)的指(zhi)導模(mo)(mo)(mo)(mo)型(xing)已嵌入不同(tong)預設評價(jia)維度的先驗知識(shi),所(suo)(suo)述(shu)(shu)(shu)(shu)指(zhi)導模(mo)(mo)(mo)(mo)型(xing)根據所(suo)(suo)述(shu)(shu)(shu)(shu)先驗知識(shi)確定(ding)所(suo)(suo)述(shu)(shu)(shu)(shu)原(yuan)始文本對應(ying)的評價(jia)值;

60、門(men)控(kong)(kong)單(dan)(dan)元(yuan)模塊,用于將所(suo)(suo)(suo)述(shu)(shu)原始(shi)文本輸(shu)入門(men)控(kong)(kong)單(dan)(dan)元(yuan),得到(dao)所(suo)(suo)(suo)述(shu)(shu)門(men)控(kong)(kong)單(dan)(dan)元(yuan)為各所(suo)(suo)(suo)述(shu)(shu)指(zhi)導模型(xing)輸(shu)出的權(quan)重(zhong)值;其中(zhong),所(suo)(suo)(suo)述(shu)(shu)門(men)控(kong)(kong)單(dan)(dan)元(yuan)屬于機器學習(xi)模型(xing),所(suo)(suo)(suo)述(shu)(shu)門(men)控(kong)(kong)單(dan)(dan)元(yuan)根據所(suo)(suo)(suo)述(shu)(shu)原始(shi)文本和先前篩選出的訓練文本在(zai)模型(xing)訓練任務中(zhong)的歷(li)史表(biao)現確定所(suo)(suo)(suo)述(shu)(shu)權(quan)重(zhong)值;

61、篩選(xuan)模(mo)塊(kuai),用(yong)(yong)(yong)于利用(yong)(yong)(yong)所(suo)(suo)有(you)所(suo)(suo)述權(quan)重值(zhi)(zhi)對(dui)所(suo)(suo)有(you)所(suo)(suo)述評價值(zhi)(zhi)進行(xing)加權(quan)求和處理,得(de)到各所(suo)(suo)述原(yuan)始文本的篩選(xuan)值(zhi)(zhi),并根據所(suo)(suo)述篩選(xuan)值(zhi)(zhi)對(dui)所(suo)(suo)述原(yuan)始文本進行(xing)篩選(xuan),得(de)到用(yong)(yong)(yong)于執行(xing)所(suo)(suo)述模(mo)型訓(xun)練(lian)(lian)任務的訓(xun)練(lian)(lian)文本。

62、本發明還提供一種電(dian)子設備(bei),包括:

63、存(cun)儲(chu)器,用(yong)于存(cun)儲(chu)計算機程序;

64、處理(li)器(qi),用于執行所述計算機程序(xu)時實現如上所述的文本篩選方法。

65、本發(fa)明還提(ti)供一(yi)種計(ji)算(suan)(suan)機可(ke)讀(du)存儲介質,所述(shu)計(ji)算(suan)(suan)機可(ke)讀(du)存儲介質中存儲有計(ji)算(suan)(suan)機可(ke)執(zhi)行指令,所述(shu)計(ji)算(suan)(suan)機可(ke)執(zhi)行指令被處理器(qi)加載并(bing)執(zhi)行時,實現(xian)如上所述(shu)的文(wen)本篩(shai)選方法。

66、本(ben)(ben)(ben)(ben)(ben)發明提供一種文(wen)(wen)(wen)本(ben)(ben)(ben)(ben)(ben)篩(shai)(shai)(shai)選(xuan)方法(fa),包括:獲取(qu)待篩(shai)(shai)(shai)選(xuan)的(de)(de)(de)原(yuan)(yuan)始(shi)(shi)文(wen)(wen)(wen)本(ben)(ben)(ben)(ben)(ben);將所(suo)(suo)(suo)(suo)(suo)述(shu)(shu)(shu)(shu)(shu)原(yuan)(yuan)始(shi)(shi)文(wen)(wen)(wen)本(ben)(ben)(ben)(ben)(ben)輸(shu)(shu)入(ru)多個(ge)指導(dao)(dao)(dao)模(mo)(mo)型(xing)(xing)(xing)(xing)(xing)(xing),得到各所(suo)(suo)(suo)(suo)(suo)述(shu)(shu)(shu)(shu)(shu)指導(dao)(dao)(dao)模(mo)(mo)型(xing)(xing)(xing)(xing)(xing)(xing)為所(suo)(suo)(suo)(suo)(suo)述(shu)(shu)(shu)(shu)(shu)原(yuan)(yuan)始(shi)(shi)文(wen)(wen)(wen)本(ben)(ben)(ben)(ben)(ben)輸(shu)(shu)出的(de)(de)(de)評(ping)(ping)價(jia)(jia)(jia)值(zhi)(zhi);其中,所(suo)(suo)(suo)(suo)(suo)述(shu)(shu)(shu)(shu)(shu)指導(dao)(dao)(dao)模(mo)(mo)型(xing)(xing)(xing)(xing)(xing)(xing)屬于機器(qi)學習模(mo)(mo)型(xing)(xing)(xing)(xing)(xing)(xing),不同的(de)(de)(de)指導(dao)(dao)(dao)模(mo)(mo)型(xing)(xing)(xing)(xing)(xing)(xing)已嵌(qian)入(ru)不同預設評(ping)(ping)價(jia)(jia)(jia)維(wei)度的(de)(de)(de)先驗知識,所(suo)(suo)(suo)(suo)(suo)述(shu)(shu)(shu)(shu)(shu)指導(dao)(dao)(dao)模(mo)(mo)型(xing)(xing)(xing)(xing)(xing)(xing)根據所(suo)(suo)(suo)(suo)(suo)述(shu)(shu)(shu)(shu)(shu)先驗知識確定所(suo)(suo)(suo)(suo)(suo)述(shu)(shu)(shu)(shu)(shu)原(yuan)(yuan)始(shi)(shi)文(wen)(wen)(wen)本(ben)(ben)(ben)(ben)(ben)對(dui)應(ying)的(de)(de)(de)評(ping)(ping)價(jia)(jia)(jia)值(zhi)(zhi);將所(suo)(suo)(suo)(suo)(suo)述(shu)(shu)(shu)(shu)(shu)原(yuan)(yuan)始(shi)(shi)文(wen)(wen)(wen)本(ben)(ben)(ben)(ben)(ben)輸(shu)(shu)入(ru)門(men)控(kong)單(dan)(dan)元,得到所(suo)(suo)(suo)(suo)(suo)述(shu)(shu)(shu)(shu)(shu)門(men)控(kong)單(dan)(dan)元為各所(suo)(suo)(suo)(suo)(suo)述(shu)(shu)(shu)(shu)(shu)指導(dao)(dao)(dao)模(mo)(mo)型(xing)(xing)(xing)(xing)(xing)(xing)輸(shu)(shu)出的(de)(de)(de)權(quan)重值(zhi)(zhi);其中,所(suo)(suo)(suo)(suo)(suo)述(shu)(shu)(shu)(shu)(shu)門(men)控(kong)單(dan)(dan)元屬于機器(qi)學習模(mo)(mo)型(xing)(xing)(xing)(xing)(xing)(xing),所(suo)(suo)(suo)(suo)(suo)述(shu)(shu)(shu)(shu)(shu)門(men)控(kong)單(dan)(dan)元根據所(suo)(suo)(suo)(suo)(suo)述(shu)(shu)(shu)(shu)(shu)原(yuan)(yuan)始(shi)(shi)文(wen)(wen)(wen)本(ben)(ben)(ben)(ben)(ben)和(he)先前(qian)篩(shai)(shai)(shai)選(xuan)出的(de)(de)(de)訓(xun)(xun)練文(wen)(wen)(wen)本(ben)(ben)(ben)(ben)(ben)在(zai)模(mo)(mo)型(xing)(xing)(xing)(xing)(xing)(xing)訓(xun)(xun)練任(ren)務(wu)中的(de)(de)(de)歷史表現確定所(suo)(suo)(suo)(suo)(suo)述(shu)(shu)(shu)(shu)(shu)權(quan)重值(zhi)(zhi);利用(yong)(yong)所(suo)(suo)(suo)(suo)(suo)有(you)所(suo)(suo)(suo)(suo)(suo)述(shu)(shu)(shu)(shu)(shu)權(quan)重值(zhi)(zhi)對(dui)所(suo)(suo)(suo)(suo)(suo)有(you)所(suo)(suo)(suo)(suo)(suo)述(shu)(shu)(shu)(shu)(shu)評(ping)(ping)價(jia)(jia)(jia)值(zhi)(zhi)進行(xing)加權(quan)求和(he)處理,得到各所(suo)(suo)(suo)(suo)(suo)述(shu)(shu)(shu)(shu)(shu)原(yuan)(yuan)始(shi)(shi)文(wen)(wen)(wen)本(ben)(ben)(ben)(ben)(ben)的(de)(de)(de)篩(shai)(shai)(shai)選(xuan)值(zhi)(zhi),并根據所(suo)(suo)(suo)(suo)(suo)述(shu)(shu)(shu)(shu)(shu)篩(shai)(shai)(shai)選(xuan)值(zhi)(zhi)對(dui)所(suo)(suo)(suo)(suo)(suo)述(shu)(shu)(shu)(shu)(shu)原(yuan)(yuan)始(shi)(shi)文(wen)(wen)(wen)本(ben)(ben)(ben)(ben)(ben)進行(xing)篩(shai)(shai)(shai)選(xuan),得到用(yong)(yong)于執行(xing)所(suo)(suo)(suo)(suo)(suo)述(shu)(shu)(shu)(shu)(shu)模(mo)(mo)型(xing)(xing)(xing)(xing)(xing)(xing)訓(xun)(xun)練任(ren)務(wu)的(de)(de)(de)訓(xun)(xun)練文(wen)(wen)(wen)本(ben)(ben)(ben)(ben)(ben)。

67、可(ke)見(jian),本(ben)(ben)(ben)(ben)(ben)(ben)發(fa)明特別設(she)(she)置(zhi)(zhi)有(you)多(duo)個(ge)(ge)指(zhi)(zhi)導(dao)(dao)模(mo)型(xing)和一個(ge)(ge)門控單(dan)(dan)(dan)元(yuan),其(qi)中每個(ge)(ge)指(zhi)(zhi)導(dao)(dao)模(mo)型(xing)中均(jun)嵌入(ru)有(you)對(dui)(dui)應預(yu)設(she)(she)評(ping)價(jia)維度的(de)(de)(de)先驗知識,進(jin)而(er)(er)指(zhi)(zhi)導(dao)(dao)模(mo)型(xing)可(ke)以根據(ju)(ju)這些先驗知識為文(wen)(wen)本(ben)(ben)(ben)(ben)(ben)(ben)生成對(dui)(dui)應的(de)(de)(de)評(ping)價(jia)值(zhi);而(er)(er)門控單(dan)(dan)(dan)元(yuan)則(ze)可(ke)基于當前輸(shu)入(ru)文(wen)(wen)本(ben)(ben)(ben)(ben)(ben)(ben)與先前已篩(shai)(shai)選(xuan)(xuan)(xuan)出(chu)的(de)(de)(de)訓練(lian)(lian)(lian)(lian)文(wen)(wen)本(ben)(ben)(ben)(ben)(ben)(ben)在下游模(mo)型(xing)訓練(lian)(lian)(lian)(lian)任(ren)務中的(de)(de)(de)歷史表現確定各(ge)(ge)個(ge)(ge)指(zhi)(zhi)導(dao)(dao)模(mo)型(xing)對(dui)(dui)應的(de)(de)(de)權(quan)重(zhong)值(zhi)。進(jin)而(er)(er),在得(de)(de)到(dao)待篩(shai)(shai)選(xuan)(xuan)(xuan)的(de)(de)(de)原(yuan)始文(wen)(wen)本(ben)(ben)(ben)(ben)(ben)(ben)后,本(ben)(ben)(ben)(ben)(ben)(ben)發(fa)明首先可(ke)將其(qi)輸(shu)入(ru)多(duo)個(ge)(ge)指(zhi)(zhi)導(dao)(dao)模(mo)型(xing),得(de)(de)到(dao)各(ge)(ge)指(zhi)(zhi)導(dao)(dao)模(mo)型(xing)為原(yuan)始文(wen)(wen)本(ben)(ben)(ben)(ben)(ben)(ben)輸(shu)出(chu)的(de)(de)(de)評(ping)價(jia)值(zhi),隨(sui)后還可(ke)將其(qi)輸(shu)入(ru)門控單(dan)(dan)(dan)元(yuan),得(de)(de)到(dao)門控單(dan)(dan)(dan)元(yuan)為各(ge)(ge)指(zhi)(zhi)導(dao)(dao)模(mo)型(xing)輸(shu)出(chu)的(de)(de)(de)權(quan)重(zhong)值(zhi),進(jin)而(er)(er)可(ke)利(li)用所有(you)權(quan)重(zhong)值(zhi)對(dui)(dui)所有(you)評(ping)價(jia)值(zhi)進(jin)行(xing)加權(quan)求和處(chu)理,得(de)(de)到(dao)各(ge)(ge)原(yuan)始文(wen)(wen)本(ben)(ben)(ben)(ben)(ben)(ben)的(de)(de)(de)篩(shai)(shai)選(xuan)(xuan)(xuan)值(zhi),并根據(ju)(ju)篩(shai)(shai)選(xuan)(xuan)(xuan)值(zhi)對(dui)(dui)原(yuan)始文(wen)(wen)本(ben)(ben)(ben)(ben)(ben)(ben)進(jin)行(xing)篩(shai)(shai)選(xuan)(xuan)(xuan),得(de)(de)到(dao)用于執行(xing)模(mo)型(xing)訓練(lian)(lian)(lian)(lian)任(ren)務的(de)(de)(de)訓練(lian)(lian)(lian)(lian)文(wen)(wen)本(ben)(ben)(ben)(ben)(ben)(ben)。進(jin)而(er)(er),本(ben)(ben)(ben)(ben)(ben)(ben)發(fa)明不僅(jin)可(ke)采取機(ji)(ji)器學習的(de)(de)(de)方式進(jin)行(xing)訓練(lian)(lian)(lian)(lian)文(wen)(wen)本(ben)(ben)(ben)(ben)(ben)(ben)篩(shai)(shai)選(xuan)(xuan)(xuan),以避(bi)免(mian)人(ren)工篩(shai)(shai)選(xuan)(xuan)(xuan)存在的(de)(de)(de)篩(shai)(shai)選(xuan)(xuan)(xuan)效(xiao)率低、篩(shai)(shai)選(xuan)(xuan)(xuan)成本(ben)(ben)(ben)(ben)(ben)(ben)高的(de)(de)(de)問(wen)題(ti),更(geng)重(zhong)要的(de)(de)(de)是可(ke)通過向(xiang)(xiang)指(zhi)(zhi)導(dao)(dao)模(mo)型(xing)中嵌入(ru)先驗指(zhi)(zhi)示、向(xiang)(xiang)門控單(dan)(dan)(dan)元(yuan)中嵌入(ru)已篩(shai)(shai)選(xuan)(xuan)(xuan)訓練(lian)(lian)(lian)(lian)文(wen)(wen)本(ben)(ben)(ben)(ben)(ben)(ben)在下游模(mo)型(xing)訓練(lian)(lian)(lian)(lian)任(ren)務中的(de)(de)(de)歷史表現來確定文(wen)(wen)本(ben)(ben)(ben)(ben)(ben)(ben)篩(shai)(shai)選(xuan)(xuan)(xuan)策略,從而(er)(er)可(ke)提升(sheng)文(wen)(wen)本(ben)(ben)(ben)(ben)(ben)(ben)篩(shai)(shai)選(xuan)(xuan)(xuan)策略的(de)(de)(de)穩定性(xing)、數(shu)據(ju)(ju)均(jun)衡(heng)性(xing)及(ji)數(shu)據(ju)(ju)廣(guang)泛性(xing),從而(er)(er)避(bi)免(mian)人(ren)工確定篩(shai)(shai)選(xuan)(xuan)(xuan)策略容易導(dao)(dao)致的(de)(de)(de)數(shu)據(ju)(ju)分布(bu)不均(jun)衡(heng)和覆(fu)蓋面不夠(gou)廣(guang)的(de)(de)(de)問(wen)題(ti)。本(ben)(ben)(ben)(ben)(ben)(ben)發(fa)明還提供一種(zhong)文(wen)(wen)本(ben)(ben)(ben)(ben)(ben)(ben)篩(shai)(shai)選(xuan)(xuan)(xuan)裝(zhuang)置(zhi)(zhi)、電子設(she)(she)備及(ji)計算(suan)機(ji)(ji)可(ke)讀存儲介質,具有(you)上(shang)述(shu)有(you)益效(xiao)果。

當前第1頁1 2 
網友(you)詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1