中文字幕无码日韩视频无码三区

語音增強方法、裝置、電子設備及計算機可讀存儲介質與流程

文檔序號:39596680發布(bu)日(ri)期(qi):2024-10-11 13:03閱讀(du):3來源:國知(zhi)局
語音增強方法、裝置、電子設備及計算機可讀存儲介質與流程

本申請實(shi)施例涉及但不限于金融科技,尤其涉及一(yi)種語音(yin)增強方(fang)法、裝置(zhi)、電子設備及計算機可讀存儲介(jie)質(zhi)。


背景技術:

1、隨(sui)著社會(hui)經(jing)濟的(de)(de)不斷發展,科技的(de)(de)不斷進步,在(zai)金(jin)(jin)融(rong)行(xing)業中(zhong),已經(jing)越來越多地(di)應(ying)用(yong)智(zhi)能(neng)客服(fu)業務;在(zai)業務應(ying)用(yong)過(guo)程中(zhong),由于客戶(hu)說(shuo)話(hua)的(de)(de)過(guo)程中(zhong)會(hui)受到(dao)外部(bu)噪音(yin)(yin)的(de)(de)影(ying)響,進而(er)影(ying)響語(yu)音(yin)(yin)識(shi)(shi)別(bie)(bie)系統的(de)(de)識(shi)(shi)別(bie)(bie)準(zhun)確性;通過(guo)將語(yu)音(yin)(yin)增(zeng)強(qiang)模(mo)塊(kuai)應(ying)用(yong)在(zai)語(yu)音(yin)(yin)識(shi)(shi)別(bie)(bie)前端(duan),能(neng)夠有(you)效(xiao)(xiao)地(di)降(jiang)低噪聲誤識(shi)(shi)別(bie)(bie),提高客戶(hu)的(de)(de)有(you)效(xiao)(xiao)語(yu)音(yin)(yin)識(shi)(shi)別(bie)(bie)率(lv)(lv),進而(er)可以很好地(di)提升金(jin)(jin)融(rong)行(xing)業的(de)(de)智(zhi)能(neng)客服(fu)業務成(cheng)功率(lv)(lv);然而(er),在(zai)實際應(ying)用(yong)中(zhong),基于神經(jing)網絡的(de)(de)端(duan)到(dao)端(duan)語(yu)音(yin)(yin)增(zeng)強(qiang)模(mo)型不能(neng)夠充分利用(yong)現有(you)的(de)(de)信息(xi),使得(de)語(yu)音(yin)(yin)增(zeng)強(qiang)的(de)(de)性能(neng)受到(dao)限制。


技術實現思路

1、以下是對本申(shen)請(qing)詳細(xi)描述(shu)的主題的概(gai)述(shu)。本概(gai)述(shu)并非(fei)是為了(le)限制權利要求的保護范圍。

2、為了解決上述背景技術中提到的問題(ti),本申請(qing)實施例提供了一種語(yu)音增(zeng)強方法、裝置(zhi)、電子(zi)設備及計(ji)算機(ji)可(ke)讀(du)存儲介質,使(shi)得語(yu)音識別(bie)分(fen)類能夠(gou)更加(jia)準確,使(shi)得金融業務咨詢能夠(gou)更加(jia)簡便可(ke)靠快(kuai)捷,給用戶帶來良好(hao)的使(shi)用體驗。

3、第一方面,本申請實(shi)施(shi)例(li)提供了(le)一種語音增(zeng)強(qiang)方法(fa)(fa),應(ying)用于預訓練(lian)完成后的(de)語音增(zeng)強(qiang)模(mo)型(xing),所述(shu)語音增(zeng)強(qiang)模(mo)型(xing)包(bao)括(kuo)編碼器(qi)(qi)模(mo)塊(kuai)、瓶頸網絡(luo)層(ceng)模(mo)塊(kuai)和解碼器(qi)(qi)模(mo)塊(kuai),所述(shu)方法(fa)(fa)包(bao)括(kuo):

4、獲取待增(zeng)強語音信號;

5、對所述(shu)待增(zeng)強(qiang)語音信號進行(xing)預處(chu)理得到預處(chu)理語音信號;

6、基于所述編碼器模塊對所述預處理語(yu)音信號進行特(te)征提取得到帶噪語(yu)音特(te)征;

7、基(ji)于所述瓶頸網(wang)絡層模塊(kuai)對所述帶噪語音特(te)(te)征進行(xing)降維(wei)處理得到上下文特(te)(te)征向量;

8、基于所述解碼器模塊對所述上(shang)下文特征向(xiang)量進行轉換處理(li)得到增(zeng)強語音信息。

9、根據本申請的一(yi)些實施例,所(suo)述語音(yin)增強模型的訓練(lian)過程包括如下(xia):

10、獲取(qu)樣(yang)本(ben)語音(yin)信(xin)號(hao),其中(zhong),所述樣(yang)本(ben)語音(yin)信(xin)號(hao)包括干凈語音(yin)樣(yang)本(ben)信(xin)號(hao)、帶噪(zao)語音(yin)樣(yang)本(ben)信(xin)號(hao)和噪(zao)聲樣(yang)本(ben)數據(ju);

11、基于所述(shu)編碼(ma)器模(mo)塊對所述(shu)帶(dai)噪語音(yin)樣本(ben)信號進(jin)行特征(zheng)提(ti)取得到帶(dai)噪語音(yin)樣本(ben)特征(zheng);

12、基于所述瓶(ping)頸網(wang)絡層(ceng)模塊(kuai)對(dui)所述帶噪語音樣本特征進行降維(wei)處理得到上下文樣本特征向量;

13、基于(yu)所(suo)(suo)述(shu)解碼器模塊對所(suo)(suo)述(shu)上下(xia)文樣本特征(zheng)向量進行(xing)轉換(huan)處理(li)得到增強語音樣本信(xin)息;

14、基于所述(shu)干凈(jing)語(yu)音樣(yang)本信號(hao)、所述(shu)帶噪(zao)語(yu)音樣(yang)本信號(hao)、所述(shu)噪(zao)聲(sheng)樣(yang)本數據和(he)所述(shu)增強(qiang)語(yu)音樣(yang)本信息確定語(yu)音增強(qiang)損失;

15、根(gen)據所(suo)述(shu)語音增(zeng)強損失對(dui)所(suo)述(shu)編碼器模塊(kuai)、所(suo)述(shu)瓶頸(jing)網絡層模塊(kuai)和所(suo)述(shu)解碼器模塊(kuai)進行訓練調整處理。

16、根據(ju)本(ben)申請的一些實施例(li),所(suo)(suo)述(shu)語(yu)(yu)音(yin)(yin)(yin)增(zeng)強(qiang)(qiang)損失(shi)包括時頻域損失(shi)和對比(bi)學習損失(shi),所(suo)(suo)述(shu)基于所(suo)(suo)述(shu)干凈(jing)語(yu)(yu)音(yin)(yin)(yin)樣(yang)本(ben)信號、所(suo)(suo)述(shu)帶噪語(yu)(yu)音(yin)(yin)(yin)樣(yang)本(ben)信號、所(suo)(suo)述(shu)噪聲樣(yang)本(ben)數據(ju)和所(suo)(suo)述(shu)增(zeng)強(qiang)(qiang)語(yu)(yu)音(yin)(yin)(yin)樣(yang)本(ben)信息確定語(yu)(yu)音(yin)(yin)(yin)增(zeng)強(qiang)(qiang)損失(shi),包括:

17、根據所(suo)述干凈語音樣本信(xin)號和(he)所(suo)述增(zeng)強語音樣本信(xin)息確定所(suo)述時頻域(yu)損(sun)失;

18、根據所(suo)述帶噪語音樣本信(xin)號和所(suo)述噪聲樣本數(shu)據確定負樣本數(shu)據;

19、根(gen)據(ju)所述負(fu)樣本數據(ju)和所述干凈語(yu)音樣本信(xin)號確定(ding)所述對比(bi)學(xue)習損失。

20、根據本申請的一些(xie)實(shi)施例,所述(shu)對所述(shu)待增強語音(yin)信(xin)號進(jin)行預處理得(de)到預處理語音(yin)信(xin)號,包括:

21、對(dui)所述待增強語音信號進(jin)行預加重處理得到(dao)預加重語音信號;

22、對所述預(yu)加重語(yu)音信號(hao)(hao)進(jin)行加窗處(chu)理得到所述預(yu)處(chu)理語(yu)音信號(hao)(hao)。

23、根(gen)據本申(shen)請的一些實施例,所(suo)述(shu)編碼器模塊包括(kuo)多個(ge)(ge)編碼層(ceng)(ceng),每個(ge)(ge)所(suo)述(shu)編碼層(ceng)(ceng)包括(kuo)一維卷積層(ceng)(ceng)、歸(gui)一化層(ceng)(ceng)和激活函數(shu)層(ceng)(ceng),所(suo)述(shu)基于所(suo)述(shu)編碼器模塊對所(suo)述(shu)預處理(li)語音信號進(jin)行特征提取得到帶(dai)噪語音特征,包括(kuo):

24、根據所(suo)(suo)述一(yi)維卷(juan)積(ji)層(ceng)對所(suo)(suo)述預(yu)處(chu)理(li)語(yu)音(yin)信(xin)號進行(xing)語(yu)音(yin)特(te)(te)征(zheng)提(ti)取得(de)到(dao)預(yu)處(chu)理(li)語(yu)音(yin)特(te)(te)征(zheng);

25、根據所述(shu)歸一(yi)(yi)化層對所述(shu)預處理(li)語音特征進(jin)行特征統一(yi)(yi)處理(li)得到歸一(yi)(yi)化語音特征;

26、根據所(suo)述(shu)激活(huo)函(han)數層對所(suo)述(shu)歸(gui)一化語(yu)音特(te)征(zheng)進行(xing)非(fei)線性映射處理得到所(suo)述(shu)帶噪語(yu)音特(te)征(zheng)。

27、根據本(ben)申(shen)請的一些(xie)實施例,所(suo)述瓶頸(jing)網絡層模塊(kuai)包括若干個編碼器(qi)層,每個所(suo)述編碼器(qi)層包括自(zi)注意力層和前饋神經網絡層,所(suo)述基于所(suo)述瓶頸(jing)網絡層模塊(kuai)對(dui)所(suo)述帶噪語音特征(zheng)進行降維處(chu)理得(de)到上下文特征(zheng)向量,包括:

28、根據所述自注意力層對所述帶噪語音(yin)特(te)征進行加權處(chu)理得(de)到加權語音(yin)特(te)征;

29、根據(ju)所述(shu)前饋神經網絡層對(dui)所述(shu)加權語音特征進行映射變換處理得到所述(shu)上下文特征向量。

30、根據(ju)本申(shen)請的一些(xie)實施例,所(suo)(suo)述基于(yu)所(suo)(suo)述解碼器模塊對所(suo)(suo)述上下文特征向量(liang)進行轉換處理(li)得到(dao)增強語音信息后,所(suo)(suo)述方(fang)法還(huan)包括:

31、對所述增強語(yu)音信(xin)息(xi)進行語(yu)義(yi)識別處理得到(dao)語(yu)義(yi)信(xin)息(xi);

32、根據(ju)所述語(yu)義信息和預(yu)設的問題數(shu)據(ju)庫確定語(yu)音反饋結果(guo)。

33、第二方面,本申(shen)請實施例還提供了一種語音(yin)增(zeng)強(qiang)裝(zhuang)(zhuang)置,所述語音(yin)增(zeng)強(qiang)裝(zhuang)(zhuang)置包括預(yu)訓練完成(cheng)后的語音(yin)增(zeng)強(qiang)模(mo)型,所述語音(yin)增(zeng)強(qiang)模(mo)型包括編碼(ma)器(qi)模(mo)塊(kuai)(kuai)、瓶頸網絡層(ceng)模(mo)塊(kuai)(kuai)和解碼(ma)器(qi)模(mo)塊(kuai)(kuai),所述語音(yin)增(zeng)強(qiang)裝(zhuang)(zhuang)置還包括:

34、第(di)一處(chu)理模塊,用于(yu)獲取待(dai)增強語音信號;

35、第二處(chu)理(li)模塊(kuai),用于對所述(shu)待增強(qiang)語音(yin)(yin)信號(hao)進行預(yu)處(chu)理(li)得到(dao)預(yu)處(chu)理(li)語音(yin)(yin)信號(hao);

36、第三(san)處(chu)(chu)理模(mo)塊(kuai),用于基于所述編碼(ma)器模(mo)塊(kuai)對所述預(yu)處(chu)(chu)理語音(yin)信號進行(xing)特(te)征提取得(de)到帶噪(zao)語音(yin)特(te)征;

37、第四處(chu)理模塊,用于(yu)基于(yu)所述瓶頸網絡層模塊對(dui)所述帶噪語音(yin)特征進(jin)行降維處(chu)理得到上下(xia)文特征向量;

38、第五(wu)處理(li)模塊,用于基(ji)于所述解碼器模塊對所述上下文(wen)特征向量進行轉(zhuan)換處理(li)得到增強語音信(xin)息。

39、第三方面(mian),本申(shen)請實施例還提供了(le)一種電(dian)子設備,包括:存儲(chu)器(qi)(qi)(qi)、處理(li)器(qi)(qi)(qi)及存儲(chu)在存儲(chu)器(qi)(qi)(qi)上并可在處理(li)器(qi)(qi)(qi)上運行的(de)計(ji)算(suan)機程序(xu),所述處理(li)器(qi)(qi)(qi)執行所述計(ji)算(suan)機程序(xu)時實現(xian)如上第一方面(mian)所述的(de)語音增強方法。

40、第四(si)方面(mian),本申請實施例還(huan)提供了一種計(ji)算(suan)機(ji)可讀存儲介質,存儲有(you)計(ji)算(suan)機(ji)可執(zhi)行(xing)(xing)指令,所述計(ji)算(suan)機(ji)可執(zhi)行(xing)(xing)指令用(yong)于執(zhi)行(xing)(xing)如上第一方面(mian)所述的語音增強方法。

41、根據本申(shen)請提供的實(shi)施例的語(yu)(yu)音(yin)(yin)(yin)(yin)增(zeng)(zeng)(zeng)強方(fang)法,至少具有(you)如下有(you)益效果:在進(jin)行語(yu)(yu)音(yin)(yin)(yin)(yin)增(zeng)(zeng)(zeng)強處理的過程(cheng)中(zhong),首先獲取待增(zeng)(zeng)(zeng)強語(yu)(yu)音(yin)(yin)(yin)(yin)信(xin)(xin)號(hao);接著對(dui)待增(zeng)(zeng)(zeng)強語(yu)(yu)音(yin)(yin)(yin)(yin)信(xin)(xin)號(hao)進(jin)行預(yu)處理得(de)到(dao)預(yu)處理語(yu)(yu)音(yin)(yin)(yin)(yin)信(xin)(xin)號(hao);接著基(ji)于(yu)編碼器(qi)模(mo)塊對(dui)預(yu)處理語(yu)(yu)音(yin)(yin)(yin)(yin)信(xin)(xin)號(hao)進(jin)行特征提取得(de)到(dao)帶噪(zao)語(yu)(yu)音(yin)(yin)(yin)(yin)特征;接著基(ji)于(yu)瓶(ping)頸(jing)網絡層模(mo)塊對(dui)帶噪(zao)語(yu)(yu)音(yin)(yin)(yin)(yin)特征進(jin)行降(jiang)維處理得(de)到(dao)上下文(wen)特征向量;基(ji)于(yu)解碼器(qi)模(mo)塊對(dui)所述上下文(wen)特征向量進(jin)行轉換(huan)處理得(de)到(dao)增(zeng)(zeng)(zeng)強語(yu)(yu)音(yin)(yin)(yin)(yin)信(xin)(xin)息。通過上述技術方(fang)案,在語(yu)(yu)音(yin)(yin)(yin)(yin)識別(bie)的過程(cheng)中(zhong)充分(fen)利用現有(you)信(xin)(xin)息,使(shi)得(de)語(yu)(yu)音(yin)(yin)(yin)(yin)識別(bie)分(fen)類能(neng)(neng)夠(gou)更加準確(que),使(shi)得(de)金(jin)融業務咨詢能(neng)(neng)夠(gou)更加簡便可靠快捷,給用戶帶來良好的使(shi)用體驗(yan)。



技術特征:

1.一種語(yu)音增強(qiang)(qiang)方(fang)法(fa),其特征(zheng)在于,應用于預訓練完(wan)成后的語(yu)音增強(qiang)(qiang)模(mo)(mo)型(xing),所(suo)述語(yu)音增強(qiang)(qiang)模(mo)(mo)型(xing)包括(kuo)編碼(ma)器模(mo)(mo)塊、瓶頸(jing)網絡(luo)層模(mo)(mo)塊和(he)解碼(ma)器模(mo)(mo)塊,所(suo)述方(fang)法(fa)包括(kuo):

2.根據權利要(yao)求1所述的(de)語(yu)音增強(qiang)方法,其特征在于,所述語(yu)音增強(qiang)模(mo)型的(de)訓練過程包括如下:

3.根(gen)據(ju)權利要求2所(suo)(suo)(suo)(suo)述(shu)的語音增強方法,其特征在于(yu),所(suo)(suo)(suo)(suo)述(shu)語音增強損(sun)失(shi)包括時頻域損(sun)失(shi)和對比學習損(sun)失(shi),所(suo)(suo)(suo)(suo)述(shu)基于(yu)所(suo)(suo)(suo)(suo)述(shu)干凈語音樣(yang)本(ben)信(xin)號、所(suo)(suo)(suo)(suo)述(shu)帶噪(zao)語音樣(yang)本(ben)信(xin)號、所(suo)(suo)(suo)(suo)述(shu)噪(zao)聲樣(yang)本(ben)數(shu)據(ju)和所(suo)(suo)(suo)(suo)述(shu)增強語音樣(yang)本(ben)信(xin)息(xi)確定語音增強損(sun)失(shi),包括:

4.根據權利要求(qiu)1所述(shu)的語(yu)音(yin)增強方法,其特征在于,所述(shu)對所述(shu)待增強語(yu)音(yin)信號(hao)進(jin)行預處(chu)理得到預處(chu)理語(yu)音(yin)信號(hao),包括(kuo):

5.根據權(quan)利要求(qiu)1所(suo)述(shu)的語音增強方(fang)法,其(qi)特征在于,所(suo)述(shu)編(bian)碼(ma)器模塊(kuai)包括多個編(bian)碼(ma)層,每個所(suo)述(shu)編(bian)碼(ma)層包括一維卷積層、歸一化(hua)層和激活函數層,所(suo)述(shu)基于所(suo)述(shu)編(bian)碼(ma)器模塊(kuai)對所(suo)述(shu)預處(chu)理語音信號進行特征提取得到帶噪(zao)語音特征,包括:

6.根(gen)據權利要求1所述(shu)的語音(yin)增強方法,其特征(zheng)在于(yu),所述(shu)瓶(ping)(ping)頸網(wang)絡層(ceng)(ceng)模塊(kuai)包(bao)括若(ruo)干(gan)個編碼器層(ceng)(ceng),每(mei)個所述(shu)編碼器層(ceng)(ceng)包(bao)括自注意力層(ceng)(ceng)和前(qian)饋神經(jing)網(wang)絡層(ceng)(ceng),所述(shu)基于(yu)所述(shu)瓶(ping)(ping)頸網(wang)絡層(ceng)(ceng)模塊(kuai)對所述(shu)帶噪(zao)語音(yin)特征(zheng)進行降(jiang)維處理(li)得(de)到(dao)上(shang)下文特征(zheng)向量(liang),包(bao)括:

7.根(gen)據(ju)權利要求1所(suo)述的語(yu)音增強(qiang)方法(fa)(fa),其特(te)征在于(yu),所(suo)述基于(yu)所(suo)述解碼器模塊對所(suo)述上下文特(te)征向量進行轉換處理得到增強(qiang)語(yu)音信息后,所(suo)述方法(fa)(fa)還包括:

8.一(yi)種語(yu)音增(zeng)強裝(zhuang)置(zhi),其特征在(zai)于,所述語(yu)音增(zeng)強裝(zhuang)置(zhi)包括預訓練(lian)完成后的(de)語(yu)音增(zeng)強模(mo)(mo)型(xing),所述語(yu)音增(zeng)強模(mo)(mo)型(xing)包括編碼器模(mo)(mo)塊(kuai)(kuai)、瓶頸網(wang)絡層(ceng)模(mo)(mo)塊(kuai)(kuai)和(he)解(jie)碼器模(mo)(mo)塊(kuai)(kuai),所述語(yu)音增(zeng)強裝(zhuang)置(zhi)還包括:

9.一種電子設備,包括(kuo):存儲(chu)器(qi)、處理(li)器(qi)及存儲(chu)在(zai)存儲(chu)器(qi)上并可在(zai)處理(li)器(qi)上運行的(de)計(ji)算(suan)機(ji)程序(xu),其特征在(zai)于,所述(shu)(shu)處理(li)器(qi)執行所述(shu)(shu)計(ji)算(suan)機(ji)程序(xu)時實現如權(quan)利要(yao)求1至(zhi)7中任意一項所述(shu)(shu)的(de)語音增強(qiang)方法。

10.一種計算機可(ke)讀存(cun)儲介質,存(cun)儲有計算機可(ke)執(zhi)行指令,其特征在于,所述(shu)計算機可(ke)執(zhi)行指令用于執(zhi)行權利要求(qiu)1至7中任意(yi)一項所述(shu)的語(yu)音增強(qiang)方法。


技術總結
本申請涉及金融科技技術領域,提供了一種語音增強方法、裝置、電子設備及計算機可讀存儲介質,方法包括:獲取待增強語音信號;對待增強語音信號進行預處理得到預處理語音信號;基于編碼器模塊對預處理語音信號進行特征提取得到帶噪語音特征;基于瓶頸網絡層模塊對帶噪語音特征進行降維處理得到上下文特征向量;基于解碼器模塊對上下文特征向量進行轉換處理得到增強語音信息。通過上述技術方案,使得語音識別分類能夠更加準確,使得金融業務咨詢能夠更加簡便可靠快捷,給用戶帶來良好的使用體驗。

技術研發人員:趙肖英,張之勇,王健宗,程寧
受保護的技術使用者:平安科技(深圳)有限公司
技術研發日:
技術公布日:2024/10/10
網友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1