本申請實(shi)施例涉及但不限于金融科技,尤其涉及一(yi)種語音(yin)增強方(fang)法、裝置(zhi)、電子設備及計算機可讀存儲介(jie)質(zhi)。
背景技術:
1、隨(sui)著社會(hui)經(jing)濟的(de)(de)不斷發展,科技的(de)(de)不斷進步,在(zai)金(jin)(jin)融(rong)行(xing)業中(zhong),已經(jing)越來越多地(di)應(ying)用(yong)智(zhi)能(neng)客服(fu)業務;在(zai)業務應(ying)用(yong)過(guo)程中(zhong),由于客戶(hu)說(shuo)話(hua)的(de)(de)過(guo)程中(zhong)會(hui)受到(dao)外部(bu)噪音(yin)(yin)的(de)(de)影(ying)響,進而(er)影(ying)響語(yu)音(yin)(yin)識(shi)(shi)別(bie)(bie)系統的(de)(de)識(shi)(shi)別(bie)(bie)準(zhun)確性;通過(guo)將語(yu)音(yin)(yin)增(zeng)強(qiang)模(mo)塊(kuai)應(ying)用(yong)在(zai)語(yu)音(yin)(yin)識(shi)(shi)別(bie)(bie)前端(duan),能(neng)夠有(you)效(xiao)(xiao)地(di)降(jiang)低噪聲誤識(shi)(shi)別(bie)(bie),提高客戶(hu)的(de)(de)有(you)效(xiao)(xiao)語(yu)音(yin)(yin)識(shi)(shi)別(bie)(bie)率(lv)(lv),進而(er)可以很好地(di)提升金(jin)(jin)融(rong)行(xing)業的(de)(de)智(zhi)能(neng)客服(fu)業務成(cheng)功率(lv)(lv);然而(er),在(zai)實際應(ying)用(yong)中(zhong),基于神經(jing)網絡的(de)(de)端(duan)到(dao)端(duan)語(yu)音(yin)(yin)增(zeng)強(qiang)模(mo)型不能(neng)夠充分利用(yong)現有(you)的(de)(de)信息(xi),使得(de)語(yu)音(yin)(yin)增(zeng)強(qiang)的(de)(de)性能(neng)受到(dao)限制。
技術實現思路
1、以下是對本申(shen)請(qing)詳細(xi)描述(shu)的主題的概(gai)述(shu)。本概(gai)述(shu)并非(fei)是為了(le)限制權利要求的保護范圍。
2、為了解決上述背景技術中提到的問題(ti),本申請(qing)實施例提供了一種語(yu)音增(zeng)強方法、裝置(zhi)、電子(zi)設備及計(ji)算機(ji)可(ke)讀(du)存儲介質,使(shi)得語(yu)音識別(bie)分(fen)類能夠(gou)更加(jia)準確,使(shi)得金融業務咨詢能夠(gou)更加(jia)簡便可(ke)靠快(kuai)捷,給用戶帶來良好(hao)的使(shi)用體驗。
3、第一方面,本申請實(shi)施(shi)例(li)提供了(le)一種語音增(zeng)強(qiang)方法(fa)(fa),應(ying)用于預訓練(lian)完成后的(de)語音增(zeng)強(qiang)模(mo)型(xing),所述(shu)語音增(zeng)強(qiang)模(mo)型(xing)包(bao)括(kuo)編碼器(qi)(qi)模(mo)塊(kuai)、瓶頸網絡(luo)層(ceng)模(mo)塊(kuai)和解碼器(qi)(qi)模(mo)塊(kuai),所述(shu)方法(fa)(fa)包(bao)括(kuo):
4、獲取待增(zeng)強語音信號;
5、對所述(shu)待增(zeng)強(qiang)語音信號進行(xing)預處(chu)理得到預處(chu)理語音信號;
6、基于所述編碼器模塊對所述預處理語(yu)音信號進行特(te)征提取得到帶噪語(yu)音特(te)征;
7、基(ji)于所述瓶頸網(wang)絡層模塊(kuai)對所述帶噪語音特(te)(te)征進行(xing)降維(wei)處理得到上下文特(te)(te)征向量;
8、基于所述解碼器模塊對所述上(shang)下文特征向(xiang)量進行轉換處理(li)得到增(zeng)強語音信息。
9、根據本申請的一(yi)些實施例,所(suo)述語音(yin)增強模型的訓練(lian)過程包括如下(xia):
10、獲取(qu)樣(yang)本(ben)語音(yin)信(xin)號(hao),其中(zhong),所述樣(yang)本(ben)語音(yin)信(xin)號(hao)包括干凈語音(yin)樣(yang)本(ben)信(xin)號(hao)、帶噪(zao)語音(yin)樣(yang)本(ben)信(xin)號(hao)和噪(zao)聲樣(yang)本(ben)數據(ju);
11、基于所述(shu)編碼(ma)器模(mo)塊對所述(shu)帶(dai)噪語音(yin)樣本(ben)信號進(jin)行特征(zheng)提(ti)取得到帶(dai)噪語音(yin)樣本(ben)特征(zheng);
12、基于所述瓶(ping)頸網(wang)絡層(ceng)模塊(kuai)對(dui)所述帶噪語音樣本特征進行降維(wei)處理得到上下文樣本特征向量;
13、基于(yu)所(suo)(suo)述(shu)解碼器模塊對所(suo)(suo)述(shu)上下(xia)文樣本特征(zheng)向量進行(xing)轉換(huan)處理(li)得到增強語音樣本信(xin)息;
14、基于所述(shu)干凈(jing)語(yu)音樣(yang)本信號(hao)、所述(shu)帶噪(zao)語(yu)音樣(yang)本信號(hao)、所述(shu)噪(zao)聲(sheng)樣(yang)本數據和(he)所述(shu)增強(qiang)語(yu)音樣(yang)本信息確定語(yu)音增強(qiang)損失;
15、根(gen)據所(suo)述(shu)語音增(zeng)強損失對(dui)所(suo)述(shu)編碼器模塊(kuai)、所(suo)述(shu)瓶頸(jing)網絡層模塊(kuai)和所(suo)述(shu)解碼器模塊(kuai)進行訓練調整處理。
16、根據(ju)本(ben)申請的一些實施例(li),所(suo)(suo)述(shu)語(yu)(yu)音(yin)(yin)(yin)增(zeng)強(qiang)(qiang)損失(shi)包括時頻域損失(shi)和對比(bi)學習損失(shi),所(suo)(suo)述(shu)基于所(suo)(suo)述(shu)干凈(jing)語(yu)(yu)音(yin)(yin)(yin)樣(yang)本(ben)信號、所(suo)(suo)述(shu)帶噪語(yu)(yu)音(yin)(yin)(yin)樣(yang)本(ben)信號、所(suo)(suo)述(shu)噪聲樣(yang)本(ben)數據(ju)和所(suo)(suo)述(shu)增(zeng)強(qiang)(qiang)語(yu)(yu)音(yin)(yin)(yin)樣(yang)本(ben)信息確定語(yu)(yu)音(yin)(yin)(yin)增(zeng)強(qiang)(qiang)損失(shi),包括:
17、根據所(suo)述干凈語音樣本信(xin)號和(he)所(suo)述增(zeng)強語音樣本信(xin)息確定所(suo)述時頻域(yu)損(sun)失;
18、根據所(suo)述帶噪語音樣本信(xin)號和所(suo)述噪聲樣本數(shu)據確定負樣本數(shu)據;
19、根(gen)據(ju)所述負(fu)樣本數據(ju)和所述干凈語(yu)音樣本信(xin)號確定(ding)所述對比(bi)學(xue)習損失。
20、根據本申請的一些(xie)實(shi)施例,所述(shu)對所述(shu)待增強語音(yin)信(xin)號進(jin)行預處理得(de)到預處理語音(yin)信(xin)號,包括:
21、對(dui)所述待增強語音信號進(jin)行預加重處理得到(dao)預加重語音信號;
22、對所述預(yu)加重語(yu)音信號(hao)(hao)進(jin)行加窗處(chu)理得到所述預(yu)處(chu)理語(yu)音信號(hao)(hao)。
23、根(gen)據本申(shen)請的一些實施例,所(suo)述(shu)編碼器模塊包括(kuo)多個(ge)(ge)編碼層(ceng)(ceng),每個(ge)(ge)所(suo)述(shu)編碼層(ceng)(ceng)包括(kuo)一維卷積層(ceng)(ceng)、歸(gui)一化層(ceng)(ceng)和激活函數(shu)層(ceng)(ceng),所(suo)述(shu)基于所(suo)述(shu)編碼器模塊對所(suo)述(shu)預處理(li)語音信號進(jin)行特征提取得到帶(dai)噪語音特征,包括(kuo):
24、根據所(suo)(suo)述一(yi)維卷(juan)積(ji)層(ceng)對所(suo)(suo)述預(yu)處(chu)理(li)語(yu)音(yin)信(xin)號進行(xing)語(yu)音(yin)特(te)(te)征(zheng)提(ti)取得(de)到(dao)預(yu)處(chu)理(li)語(yu)音(yin)特(te)(te)征(zheng);
25、根據所述(shu)歸一(yi)(yi)化層對所述(shu)預處理(li)語音特征進(jin)行特征統一(yi)(yi)處理(li)得到歸一(yi)(yi)化語音特征;
26、根據所(suo)述(shu)激活(huo)函(han)數層對所(suo)述(shu)歸(gui)一化語(yu)音特(te)征(zheng)進行(xing)非(fei)線性映射處理得到所(suo)述(shu)帶噪語(yu)音特(te)征(zheng)。
27、根據本(ben)申(shen)請的一些(xie)實施例,所(suo)述瓶頸(jing)網絡層模塊(kuai)包括若干個編碼器(qi)層,每個所(suo)述編碼器(qi)層包括自(zi)注意力層和前饋神經網絡層,所(suo)述基于所(suo)述瓶頸(jing)網絡層模塊(kuai)對(dui)所(suo)述帶噪語音特征(zheng)進行降維處(chu)理得(de)到上下文特征(zheng)向量,包括:
28、根據所述自注意力層對所述帶噪語音(yin)特(te)征進行加權處(chu)理得(de)到加權語音(yin)特(te)征;
29、根據(ju)所述(shu)前饋神經網絡層對(dui)所述(shu)加權語音特征進行映射變換處理得到所述(shu)上下文特征向量。
30、根據(ju)本申(shen)請的一些(xie)實施例,所(suo)(suo)述基于(yu)所(suo)(suo)述解碼器模塊對所(suo)(suo)述上下文特征向量(liang)進行轉換處理(li)得到(dao)增強語音信息后,所(suo)(suo)述方(fang)法還(huan)包括:
31、對所述增強語(yu)音信(xin)息(xi)進行語(yu)義(yi)識別處理得到(dao)語(yu)義(yi)信(xin)息(xi);
32、根據(ju)所述語(yu)義信息和預(yu)設的問題數(shu)據(ju)庫確定語(yu)音反饋結果(guo)。
33、第二方面,本申(shen)請實施例還提供了一種語音(yin)增(zeng)強(qiang)裝(zhuang)(zhuang)置,所述語音(yin)增(zeng)強(qiang)裝(zhuang)(zhuang)置包括預(yu)訓練完成(cheng)后的語音(yin)增(zeng)強(qiang)模(mo)型,所述語音(yin)增(zeng)強(qiang)模(mo)型包括編碼(ma)器(qi)模(mo)塊(kuai)(kuai)、瓶頸網絡層(ceng)模(mo)塊(kuai)(kuai)和解碼(ma)器(qi)模(mo)塊(kuai)(kuai),所述語音(yin)增(zeng)強(qiang)裝(zhuang)(zhuang)置還包括:
34、第(di)一處(chu)理模塊,用于(yu)獲取待(dai)增強語音信號;
35、第二處(chu)理(li)模塊(kuai),用于對所述(shu)待增強(qiang)語音(yin)(yin)信號(hao)進行預(yu)處(chu)理(li)得到(dao)預(yu)處(chu)理(li)語音(yin)(yin)信號(hao);
36、第三(san)處(chu)(chu)理模(mo)塊(kuai),用于基于所述編碼(ma)器模(mo)塊(kuai)對所述預(yu)處(chu)(chu)理語音(yin)信號進行(xing)特(te)征提取得(de)到帶噪(zao)語音(yin)特(te)征;
37、第四處(chu)理模塊,用于(yu)基于(yu)所述瓶頸網絡層模塊對(dui)所述帶噪語音(yin)特征進(jin)行降維處(chu)理得到上下(xia)文特征向量;
38、第五(wu)處理(li)模塊,用于基(ji)于所述解碼器模塊對所述上下文(wen)特征向量進行轉(zhuan)換處理(li)得到增強語音信(xin)息。
39、第三方面(mian),本申(shen)請實施例還提供了(le)一種電(dian)子設備,包括:存儲(chu)器(qi)(qi)(qi)、處理(li)器(qi)(qi)(qi)及存儲(chu)在存儲(chu)器(qi)(qi)(qi)上并可在處理(li)器(qi)(qi)(qi)上運行的(de)計(ji)算(suan)機程序(xu),所述處理(li)器(qi)(qi)(qi)執行所述計(ji)算(suan)機程序(xu)時實現(xian)如上第一方面(mian)所述的(de)語音增強方法。
40、第四(si)方面(mian),本申請實施例還(huan)提供了一種計(ji)算(suan)機(ji)可讀存儲介質,存儲有(you)計(ji)算(suan)機(ji)可執(zhi)行(xing)(xing)指令,所述計(ji)算(suan)機(ji)可執(zhi)行(xing)(xing)指令用(yong)于執(zhi)行(xing)(xing)如上第一方面(mian)所述的語音增強方法。
41、根據本申(shen)請提供的實(shi)施例的語(yu)(yu)音(yin)(yin)(yin)(yin)增(zeng)(zeng)(zeng)強方(fang)法,至少具有(you)如下有(you)益效果:在進(jin)行語(yu)(yu)音(yin)(yin)(yin)(yin)增(zeng)(zeng)(zeng)強處理的過程(cheng)中(zhong),首先獲取待增(zeng)(zeng)(zeng)強語(yu)(yu)音(yin)(yin)(yin)(yin)信(xin)(xin)號(hao);接著對(dui)待增(zeng)(zeng)(zeng)強語(yu)(yu)音(yin)(yin)(yin)(yin)信(xin)(xin)號(hao)進(jin)行預(yu)處理得(de)到(dao)預(yu)處理語(yu)(yu)音(yin)(yin)(yin)(yin)信(xin)(xin)號(hao);接著基(ji)于(yu)編碼器(qi)模(mo)塊對(dui)預(yu)處理語(yu)(yu)音(yin)(yin)(yin)(yin)信(xin)(xin)號(hao)進(jin)行特征提取得(de)到(dao)帶噪(zao)語(yu)(yu)音(yin)(yin)(yin)(yin)特征;接著基(ji)于(yu)瓶(ping)頸(jing)網絡層模(mo)塊對(dui)帶噪(zao)語(yu)(yu)音(yin)(yin)(yin)(yin)特征進(jin)行降(jiang)維處理得(de)到(dao)上下文(wen)特征向量;基(ji)于(yu)解碼器(qi)模(mo)塊對(dui)所述上下文(wen)特征向量進(jin)行轉換(huan)處理得(de)到(dao)增(zeng)(zeng)(zeng)強語(yu)(yu)音(yin)(yin)(yin)(yin)信(xin)(xin)息。通過上述技術方(fang)案,在語(yu)(yu)音(yin)(yin)(yin)(yin)識別(bie)的過程(cheng)中(zhong)充分(fen)利用現有(you)信(xin)(xin)息,使(shi)得(de)語(yu)(yu)音(yin)(yin)(yin)(yin)識別(bie)分(fen)類能(neng)(neng)夠(gou)更加準確(que),使(shi)得(de)金(jin)融業務咨詢能(neng)(neng)夠(gou)更加簡便可靠快捷,給用戶帶來良好的使(shi)用體驗(yan)。
1.一種語(yu)音增強(qiang)(qiang)方(fang)法(fa),其特征(zheng)在于,應用于預訓練完(wan)成后的語(yu)音增強(qiang)(qiang)模(mo)(mo)型(xing),所(suo)述語(yu)音增強(qiang)(qiang)模(mo)(mo)型(xing)包括(kuo)編碼(ma)器模(mo)(mo)塊、瓶頸(jing)網絡(luo)層模(mo)(mo)塊和(he)解碼(ma)器模(mo)(mo)塊,所(suo)述方(fang)法(fa)包括(kuo):
2.根據權利要(yao)求1所述的(de)語(yu)音增強(qiang)方法,其特征在于,所述語(yu)音增強(qiang)模(mo)型的(de)訓練過程包括如下:
3.根(gen)據(ju)權利要求2所(suo)(suo)(suo)(suo)述(shu)的語音增強方法,其特征在于(yu),所(suo)(suo)(suo)(suo)述(shu)語音增強損(sun)失(shi)包括時頻域損(sun)失(shi)和對比學習損(sun)失(shi),所(suo)(suo)(suo)(suo)述(shu)基于(yu)所(suo)(suo)(suo)(suo)述(shu)干凈語音樣(yang)本(ben)信(xin)號、所(suo)(suo)(suo)(suo)述(shu)帶噪(zao)語音樣(yang)本(ben)信(xin)號、所(suo)(suo)(suo)(suo)述(shu)噪(zao)聲樣(yang)本(ben)數(shu)據(ju)和所(suo)(suo)(suo)(suo)述(shu)增強語音樣(yang)本(ben)信(xin)息(xi)確定語音增強損(sun)失(shi),包括:
4.根據權利要求(qiu)1所述(shu)的語(yu)音(yin)增強方法,其特征在于,所述(shu)對所述(shu)待增強語(yu)音(yin)信號(hao)進(jin)行預處(chu)理得到預處(chu)理語(yu)音(yin)信號(hao),包括(kuo):
5.根據權(quan)利要求(qiu)1所(suo)述(shu)的語音增強方(fang)法,其(qi)特征在于,所(suo)述(shu)編(bian)碼(ma)器模塊(kuai)包括多個編(bian)碼(ma)層,每個所(suo)述(shu)編(bian)碼(ma)層包括一維卷積層、歸一化(hua)層和激活函數層,所(suo)述(shu)基于所(suo)述(shu)編(bian)碼(ma)器模塊(kuai)對所(suo)述(shu)預處(chu)理語音信號進行特征提取得到帶噪(zao)語音特征,包括:
6.根(gen)據權利要求1所述(shu)的語音(yin)增強方法,其特征(zheng)在于(yu),所述(shu)瓶(ping)(ping)頸網(wang)絡層(ceng)(ceng)模塊(kuai)包(bao)括若(ruo)干(gan)個編碼器層(ceng)(ceng),每(mei)個所述(shu)編碼器層(ceng)(ceng)包(bao)括自注意力層(ceng)(ceng)和前(qian)饋神經(jing)網(wang)絡層(ceng)(ceng),所述(shu)基于(yu)所述(shu)瓶(ping)(ping)頸網(wang)絡層(ceng)(ceng)模塊(kuai)對所述(shu)帶噪(zao)語音(yin)特征(zheng)進行降(jiang)維處理(li)得(de)到(dao)上(shang)下文特征(zheng)向量(liang),包(bao)括:
7.根(gen)據(ju)權利要求1所(suo)述的語(yu)音增強(qiang)方法(fa)(fa),其特(te)征在于(yu),所(suo)述基于(yu)所(suo)述解碼器模塊對所(suo)述上下文特(te)征向量進行轉換處理得到增強(qiang)語(yu)音信息后,所(suo)述方法(fa)(fa)還包括:
8.一(yi)種語(yu)音增(zeng)強裝(zhuang)置(zhi),其特征在(zai)于,所述語(yu)音增(zeng)強裝(zhuang)置(zhi)包括預訓練(lian)完成后的(de)語(yu)音增(zeng)強模(mo)(mo)型(xing),所述語(yu)音增(zeng)強模(mo)(mo)型(xing)包括編碼器模(mo)(mo)塊(kuai)(kuai)、瓶頸網(wang)絡層(ceng)模(mo)(mo)塊(kuai)(kuai)和(he)解(jie)碼器模(mo)(mo)塊(kuai)(kuai),所述語(yu)音增(zeng)強裝(zhuang)置(zhi)還包括:
9.一種電子設備,包括(kuo):存儲(chu)器(qi)、處理(li)器(qi)及存儲(chu)在(zai)存儲(chu)器(qi)上并可在(zai)處理(li)器(qi)上運行的(de)計(ji)算(suan)機(ji)程序(xu),其特征在(zai)于,所述(shu)(shu)處理(li)器(qi)執行所述(shu)(shu)計(ji)算(suan)機(ji)程序(xu)時實現如權(quan)利要(yao)求1至(zhi)7中任意一項所述(shu)(shu)的(de)語音增強(qiang)方法。
10.一種計算機可(ke)讀存(cun)儲介質,存(cun)儲有計算機可(ke)執(zhi)行指令,其特征在于,所述(shu)計算機可(ke)執(zhi)行指令用于執(zhi)行權利要求(qiu)1至7中任意(yi)一項所述(shu)的語(yu)音增強(qiang)方法。